5 informations sur le Big Data (Hadoop) en tant que service

Auteur: Roger Morrison
Date De Création: 18 Septembre 2021
Date De Mise À Jour: 11 Peut 2024
Anonim
Hadoop&cie - 01 - Introduction à Hadoop
Vidéo: Hadoop&cie - 01 - Introduction à Hadoop

Contenu


Source: Info40555 / Dreamstime.com

À emporter:

Hadoop est un excellent moyen de tirer le meilleur parti des données volumineuses, mais de nombreux autres outils peuvent fonctionner avec Hadoop pour fournir des résultats encore plus utiles.

Dans le monde technologique en constante évolution, le logiciel en tant que service (SaaS) est devenu un modèle commun. Le service est offert aux abonnés selon leurs besoins. Le Big Data suit également le même modèle de service. Dans cet article, nous discuterons du modèle de service suivi dans le domaine de la technologie Big Data.

Voici quelques modèles de service bien connus pour le Big Data en tant que service (BDaaS):

Rackspace

Les clusters Rackspace Hadoop peuvent exécuter Hadoop sur des serveurs dédiés gérés par Rackspace, un cloud public ou un cloud privé.


Un modèle de big data dans le cloud est fourni par Rackspace pour Apache Spark et Hadoop. Il offre une plate-forme «nu-metal» entièrement gérée pour le traitement en mémoire.


Rackspace élimine les problèmes de gestion et de maintenance manuelle du Big Data. Il est livré avec les fonctionnalités suivantes:

  • Réduit la charge de fonctionnement en fournissant une assistance 24 × 7 × 365
  • Fournit un accès complet aux outils Hortonworks Data Platforms (HDP), notamment Pig, Hive, HBase, Sqoop, Flume et HCatalog.
  • Conception de réseau flexible avec mise en réseau traditionnelle jusqu'à 10 Go
En optant pour le cloud privé, vous obtenez la puissance et l'efficacité des clouds publics, ainsi qu'une sécurité et un contrôle renforcés. L’inconvénient majeur de l’utilisation du cloud privé est qu’il est difficile à gérer et nécessite des experts pour la mise à niveau, les correctifs et la surveillance. Rackspace fournit un excellent support dans ces domaines, vous n'avez donc pas à vous soucier de la gestion du cloud.



Joyent

Basé sur Apache Hadoop, Joyent est un environnement d’hébergement en nuage destiné aux projets Big Data. Cette solution est construite à l'aide de la plate-forme de données Hortonworks. Il s’agit d’une infrastructure hautement performante, native pour le conteneur, adaptée aux applications mobiles actuelles et au Web en temps réel. Il permet de faire fonctionner Hadoop au niveau entreprise sur le cloud Joyent hautes performances.


Il présente également les avantages suivants:

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

  • Réduire les deux tiers des coûts d'infrastructure grâce aux solutions fournies par Joyent avec le même temps de réponse
  • Temps de réponse d'E / S de disque 3 × plus rapide par les clusters Hadoop sur Joyent Cloud
  • Accélère les temps de réponse des traitements distribués et parallèles
  • Améliore la mise à l'échelle des clusters Hadoop en exécutant des applications d'analyse de données intensives
  • Des résultats plus rapides avec un meilleur temps de réponse
Généralement, les applications Big Data sont considérées comme coûteuses et difficiles à utiliser. Joyent essaie de changer cela en proposant des solutions moins chères et plus rapides. Joyent fournit une infrastructure cloud publique et hybride pour des applications Web et mobiles en temps réel. Parmi ses clients figurent des personnalités telles que LinkedIn et Voxer.


Qubole

Pour les projets Big Data, Qubole fournit un cluster Hadoop avec des connecteurs de données intégrés et un éditeur graphique. Cela permet d'utiliser diverses bases de données telles que MySQL, MongoDB et Oracle, et définit le cluster Hadoop sur le pilote automatique. Il fournit un éditeur de requête pour Hive, Pig et MapReduce.


Qubole fournit tout comme service, y compris:

  • Éditeur de requêtes pour Hive, Pig et MapReduce
  • Évaluateur d'expression
  • Tableau de bord d'utilisation
  • Extract Transform Load (ETL) et générateurs de pipeline de données
Ses caractéristiques comprennent:

  • Fonctionne plus vite que Amazon EMR
  • Interface utilisateur conviviale avec connecteurs intégrés et infrastructure cloud élastique transparente
  • L'optimisation de l'allocation et de la gestion des ressources est effectuée par le moteur QDS Hadoop à l'aide de démons, fournissant ainsi un moteur Hadoop avancé pour de meilleures performances.
  • Pour des requêtes plus rapides, les E / S sont optimisées pour le stockage S3. S3 est sécurisé et fiable. Qubole Data Service offre une exécution 5 × plus rapide par rapport aux données de S3.
  • Pas besoin de payer pour les fonctionnalités et applications inutilisées
  • Intégration dans le cloud - Qubole Data Service ne nécessite aucune modification de votre infrastructure actuelle, ce qui signifie qu’il dispose de la flexibilité nécessaire pour fonctionner avec n’importe quelle plate-forme. Les connecteurs QDS prennent en charge l'importation et l'exportation de bases de données en nuage MongoDB, Oracle, PostgresSQL et de ressources telles que Google Analytics.
  • Gestion du cycle de vie des clusters avec Qubole Data Service pour provisionner les clusters en quelques minutes, l'adapter à la demande et l'exécuter dans un environnement pour une gestion aisée des évaluations Big Data

Élastique MapReduce

Amazon Elastic MapReduce (EMR) fournit un cadre Hadoop géré pour simplifier le traitement des données volumineuses. C’est facile et économique de distribuer et de traiter de grandes quantités de données.


D'autres infrastructures distribuées telles que Spark et Presto peuvent également s'exécuter dans Amazon EMR pour interagir avec des données dans Amazon S3 et DynamoDB. EMR gère ces cas d'utilisation avec fiabilité:

  • Indexation Web
  • Apprentissage machine
  • Simulation scientifique
  • Entreposage de données
  • Analyse du journal
  • Bioinformatique
Parmi ses clients figurent Yelp, Nokia, Getty Images, Reddit et autres. Certaines de ses caractéristiques sont:

  • Flexible à utiliser avec un accès root dans chaque instance, prend en charge plusieurs distributions et applications Hadoop. Il est facile de personnaliser chaque cluster et d’installer d’autres applications.
  • Il est facile d’installer le cluster Amazon EMR.
  • Assez fiable pour passer moins de temps à surveiller votre cluster; relance les tâches ayant échoué et remplace automatiquement les instances peu performantes.
  • Sécurisé, car il configure automatiquement les paramètres de pare-feu Amazon EC2 pour contrôler l'accès réseau aux instances
  • Traitez les données à n'importe quelle échelle avec Amazon EMR. Le nombre d'instances peut être facilement augmenté et diminué.
  • Tarification à faible coût sans coûts cachés; payez à l'heure pour chaque instance utilisée. Par exemple, lancez un cluster Hadoop à 10 nœuds pour seulement 0,15 USD par heure.
Il est utilisé pour analyser les données de flux de clics afin de comprendre les préférences de l'utilisateur. Les annonceurs peuvent analyser les flux de clics et les journaux d’impressions publicitaires.


Il peut également être utilisé pour traiter efficacement de grandes quantités de données génomiques et de grands ensembles de données. Les chercheurs peuvent accéder gratuitement aux données génomiques hébergées sur AWS.

Amazon EMR peut être utilisé pour le traitement des journaux et les aide à transformer des pétaoctets de données non structurées et semi-structurées en informations utiles.

Mortier

Le mortier est une plate-forme pour la science des données à grande échelle et construit sur le cloud Amazon Web Services. Il est construit sur Elastic MapReduce (EMR) pour lancer les clusters Hadoop. Mortar a été créé par K. Young, Jeremy Kam et Doug Daniels en 2011 dans le but d'éliminer les tâches fastidieuses et difficiles. Cela a été fait pour que les scientifiques puissent consacrer leur temps à d’autres travaux critiques.


Il fonctionne sur Java, Jython, Hadoop, etc. pour minimiser le temps investi par les utilisateurs et leur permettre de se concentrer sur la science des données.

Il présente les caractéristiques suivantes:

  • Il libère votre équipe de l'installation et de la maintenance fastidieuses et fastidieuses.
  • Gain de temps en intégrant rapidement les solutions dans les opérations.
  • Alerte automatique les utilisateurs de tout problème technique ou applicatif afin de s’assurer qu’ils obtiennent des informations précises et en temps réel.
Applications de la plateforme de mortier:

  • Mortar est la plate-forme la plus rapide pour déployer un moteur de recommandation puissant et évolutif.
  • Le mortier est entièrement automatisé, car il exécute le moteur de recommandation de bout en bout avec une seule commande.
  • Il utilise le contrôle de version standard de l'industrie, ce qui facilite l'adaptation et la personnalisation.
  • Pour l'analyse, connectez facilement plusieurs sources de données à des entrepôts de données.
  • Cela permet de gagner du temps de travail pour votre équipe en gérant l'infrastructure, le déploiement et d'autres opérations.
  • Prédire l'analyse en utilisant les données que vous avez déjà. Le mortier prend en charge des approches telles que la régression linéaire et la classification pour l'analyse.
  • Prise en charge des technologies d’apprentissage automatique de pointe, telles que R, Pig et Python, permettant une parallélisation sans effort pour des travaux complexes.
  • Le temps de disponibilité de 99,9% et l'alerte stratégique garantissent la confiance des utilisateurs et la fourniture du pipeline d'analyse à plusieurs reprises.
  • Des algorithmes prédictifs sont utilisés pour développer l’entreprise, comme la prévision de la demande et l’identification de clients de grande valeur.
  • Il est facile d’analyser de grands volumes de données, qu’il s’agisse de la tokénisation, du stemming, du LDA ou des n-grammes.

Sommaire

Il existe de nombreuses applications Big Data disponibles aujourd'hui et, à l'avenir, des solutions plus rapides et moins chères seront sans aucun doute disponibles pour les utilisateurs. De plus, les fournisseurs de services proposeront de meilleures solutions, rendant l'installation et la maintenance moins coûteuses.