Les 10 termes les plus importants d'Hadoop que vous devez connaître et comprendre

Contenu

Mais d'abord, regardons le fonctionnement de Hadoop
Hadoop Common
Système de fichiers distribués Hadoop (HDFS)
MapReduce
HBase
Ruche
Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire
Apache Pig
Apache Spark
Apache Cassandra
Encore un autre négociateur de ressources (YARN)
Impala

Source: Trueffelpix / Dreamstime.com

À emporter:

Pour bien comprendre le Big Data, vous devez comprendre un peu Hadoop et le langage qui l’entoure.

Les mégadonnées, nom accrocheur de gros volumes de données structurées, non structurées ou semi-structurées, sont notoirement difficiles à capturer, stocker, gérer, partager, analyser et visualiser, au moins à l'aide de bases de données et d'applications logicielles traditionnelles. C'est pourquoi les technologies Big Data ont le potentiel de gérer et de traiter efficacement de gros volumes de données. Et son Apache Hadoop qui fournit la structure et les technologies associées pour traiter des ensembles de données volumineux sur des grappes d’ordinateurs de manière distribuée. Donc, pour bien comprendre le Big Data, vous devez comprendre un peu Hadoop. Jetez un coup d’œil ici aux termes les plus utilisés en ce qui concerne Hadoop - et à leur signification.

Mais d'abord, regardons le fonctionnement de Hadoop

Avant d'entrer dans l'écosystème Hadoop, vous devez comprendre clairement deux choses fondamentales. Le premier est la façon dont un fichier est stocké dans Hadoop; la seconde est la façon dont les données stockées sont traitées. Toutes les technologies liées à Hadoop fonctionnent principalement dans ces deux domaines et le rendent plus convivial. (Obtenez les bases du fonctionnement de Hadoop dans Comment Hadoop vous aide-t-il à résoudre le problème des données volumineuses?)

Maintenant, passons aux conditions.

Hadoop Common

Le framework Hadoop comporte différents modules pour différentes fonctionnalités et ces modules peuvent interagir les uns avec les autres pour diverses raisons. Hadoop Common peut être défini comme une bibliothèque d’utilitaires communs prenant en charge ces modules dans l’écosystème Hadoop. Ces utilitaires sont essentiellement des fichiers JAR archivés. Ces utilitaires sont principalement utilisés par les programmeurs et les développeurs pendant le développement.

Système de fichiers distribués Hadoop (HDFS)

Le système de fichiers distribués Hadoop (HDFS) est un sous-projet de Apache Hadoop sous Apache Software Foundation. C’est l’épine dorsale du stockage dans le framework Hadoop. Il s’agit d’un système de fichiers distribué, évolutif et tolérant aux pannes, qui s’applique à plusieurs matériels de base appelés cluster Hadoop. L'objectif de HDFS est de stocker de manière fiable un volume de données considérable avec un accès à haut débit aux données d'application. Le HDFS suit une architecture maître / esclave, où le maître est appelé NameNode et les esclaves sont appelés DataNodes.

MapReduce

Hadoop MapReduce est également un sous-projet de Apache Software Foundation. MapReduce est en réalité un framework logiciel écrit en Java. Son objectif principal est de traiter de grands ensembles de données sur un environnement distribué (comprenant du matériel standard) de manière totalement parallèle. La structure gère toutes les activités telles que la planification, la surveillance, l’exécution et la ré-exécution des tâches (en cas d’échec des tâches).

HBase

Apache HBase est connue sous le nom de base de données Hadoop. Il s'agit d'un magasin de données volumineuses colonnaire, distribué et évolutif. Il s'agit également d'un type de base de données NoSQL qui n'est pas un système de gestion de base de données relationnelle. Les applications HBase sont également écrites en Java, construites sur Hadoop et s'exécutant sur HDFS. HBase est utilisé lorsque vous avez besoin d'un accès en lecture / écriture en temps réel et aléatoire aux mégadonnées. HBase est modélisé à partir des concepts BigTable de Googles.

Ruche

Apache Hive est un logiciel de stockage de données open source. Hive a été initialement développé par Apache Software Foundation et est devenu open source. Il facilite la gestion et l'interrogation de grands ensembles de données sur un stockage distribué compatible Hadoop. Hive effectue toutes ses activités en utilisant un langage de type SQL appelé HiveQL. (En savoir plus dans Une brève introduction à Apache Hive and Pig.)

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Apache Pig

Yahoo a initialement lancé Pig pour développer et exécuter des tâches MapReduce sur un grand volume de données distribuées. Maintenant, il est devenu un projet open source sous Apache Software Foundation. Apache Pig peut être défini comme une plate-forme d'analyse efficace de très grands ensembles de données. La couche d'infrastructure Pigs génère des séquences de tâches MapReduce pour effectuer le traitement réel. La couche de langage Pigs est connue sous le nom de Pig Latin et fournit des fonctionnalités similaires à SQL pour effectuer des requêtes sur des ensembles de données distribués.

Apache Spark

Spark a été développé à l'origine par l'AMPLab de l'UC Berkeley. Il est devenu un projet de niveau supérieur Apache en février 2014. Apache Spark peut être défini comme une infrastructure de clustering à source ouverte, à usage général, qui accélère considérablement l'analyse des données. Il est construit sur le système de fichiers distribué Hadoop, mais il n'est pas lié au framework MapReduce. Les performances de Sparks sont beaucoup plus rapides que celles de MapReduce. Il fournit des API de haut niveau en Scala, Python et Java.

Apache Cassandra

Apache Cassandra est une autre base de données NoSQL open source. Cassandra est largement utilisée pour gérer de grands volumes de données étendues structurées, semi-structurées et non structurées sur plusieurs centres de données et systèmes de stockage en nuage. Cassandra est conçue sur une architecture "masterless", ce qui signifie qu'elle ne supporte pas le modèle maître / esclave. Dans cette architecture, tous les nœuds sont identiques et les données sont distribuées automatiquement et de manière égale sur tous les nœuds. Les fonctionnalités les plus importantes de Cassandras sont la disponibilité continue, l'évolutivité linéaire, la réplication intégrée / personnalisable, l'absence de point de défaillance unique et la simplicité opérationnelle.

Encore un autre négociateur de ressources (YARN)

Un autre négociateur de ressources (YARN) est également appelé MapReduce 2.0, mais il relève en réalité de Hadoop 2.0. YARN peut être défini comme un cadre de planification des travaux et de gestion des ressources. L'idée de base de YARN est de remplacer les fonctionnalités de JobTracker par deux démons distincts responsables de la gestion des ressources et de la planification / surveillance. Dans ce nouveau cadre, il y aura un gestionnaire de ressources global (RM) et un maître spécifique à l'application appelé ApplicationMaster (AM). Les outils globaux ResourceManager (RM) et NodeManager (esclave par nœud) constituent le cadre de calcul des données. Les applications MapReduce v1 existantes peuvent également être exécutées sur YARN, mais ces applications doivent être recompilées avec les fichiers JAR Hadoop2.x.

Impala

Impala peut être défini comme un moteur de requête SQL avec une puissance de traitement parallèle massive (MPP). Il fonctionne nativement sur le framework Apache Hadoop. L'Impala fait partie de l'écosystème Hadoop. Il partage les mêmes systèmes de fichiers flexibles (HDFS), métadonnées, gestion des ressources et infrastructures de sécurité que ceux utilisés par d'autres composants de l'écosystème Hadoop. Le point le plus important est de noter qu'Impala est beaucoup plus rapide en traitement de requête que Hive. Mais il faut aussi garder à l'esprit qu'Impala est conçu pour les requêtes / analyses sur un petit ensemble de données et est principalement conçu comme un outil d'analyse qui fonctionne avec des données traitées et structurées.

Hadoop est un sujet important en informatique, mais certains sont sceptiques quant à sa viabilité à long terme. En savoir plus sur Qu'est-ce que Hadoop? Une théorie cynique.