Quels sont les avantages du framework Hadoop 2.0 (YARN)?

Auteur: Roger Morrison
Date De Création: 18 Septembre 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Vidéo: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Contenu


Source: Jim Hughes / Dreamstime.com

À emporter:

YARN représente une amélioration significative par rapport au framework Hadoop 1.0. Nous examinons ici certains des avantages qu’il possède par rapport à son prédécesseur.

Depuis que le concept de Big Data a été introduit, il a connu plusieurs phases d'évolution. Hadoop a été introduit en 2005 avec certaines fonctionnalités initiales, telles que le moteur de traitement MapReduce qui permettait des charges de travail de traitement de données à grande échelle réparties en clusters. Hadoop a connu de nombreux changements et a développé des cadres et des méthodes avancés.

YARN est un composant essentiel de Hadoop 2.0. Il gère essentiellement les ressources dans un environnement en cluster. Le courtier YARN interagit avec les ressources de calcul (de la part des applications) et attribue des ressources à chaque application en fonction de différents critères de filtrage.


Dans cet article, nous examinerons les principaux avantages de YARN par rapport à Hadoop 1.0.

Qu'est-ce que le framework YARN?

Yet UNEun autre Resource Negotiator est un composant essentiel de Hadoop 2.0, qui gère les ressources dans un environnement en cluster. Hadoop YARN Framework est une version avancée de Hadoop 1.0 qui offre de meilleures performances, ce qui est bénéfique pour l’écosystème Hadoop et l’ensemble des technologies qui lui sont associées. Maintenant que nous connaissons un peu mieux YARN, examinons de plus près Hadoop 1.0 et YARN.

Limitations du framework Hadoop 1.0

Afin de comprendre les avantages du framework YARN, il est très important de comprendre comment Hadoop 1.0 fonctionne et quelles sont les limites de ce framework.

C'est là qu'intervient le rôle de JobTracker. Il gère à la fois les ressources du cluster et détermine l'exécution du travail MapReduce. En un mot, JobTracker planifie et réserve les logements de tâches, configure et surveille chaque tâche en cours d'exécution. Si une tâche échoue, il réaffecte un nouvel emplacement pour que la tâche puisse redémarrer. Une fois la tâche terminée, JobTracker libère l'emplacement pour d'autres tâches et nettoie les ressources temporaires.


Principaux inconvénients de l'approche ci-dessus:

  • Disponibilité - JobTracker est le seul point de disponibilité dans Hadoop 1.0. Cela signifie que si JobTracker échoue, toutes les tâches redémarrent par défaut.
  • Evolutivité limitée - JobTracker effectuant plusieurs tâches et s'exécutant sur un seul ordinateur, les autres ordinateurs disponibles ne sont pas utilisés. d'où une évolutivité limitée.
  • Utilisation des ressources - Dans l’approche ci-dessus, les logements de carte et les logements de réduction sont prédéfinis. Il se peut que l'un des emplacements soit plein mais que les autres emplacements de la machine soient vides. Étant donné que les emplacements vides sont réservés, ils resteront inactifs au lieu de compromettre les emplacements entiers. Cela pourrait entraîner un problème d'utilisation des ressources.
  • Exécution d'applications autres que MapReduce - JobTracker est une application conçue pour le framework MapReduce. Le problème se pose lorsqu'une application non-MapReduce tente de s'exécuter dans ce cadre. L'application doit être conforme à la programmation du cadre MapReduce pour pouvoir s'exécuter correctement. Certains des problèmes communs rencontrés à cause de cela incluent des problèmes avec:
    • Requête ad hoc
    • Analyse en temps réel
    • approche de passage
  • Échec en cascade: l'un des principaux problèmes de ce cadre survient lorsque le nombre de nœuds est supérieur à 4 000. Dans un tel scénario, une défaillance en cascade se produit, entraînant une détérioration de la totalité du cluster.

Ce sont quelques-unes des principales limitations rencontrées lors de l'utilisation de ce cadre. Il existe également d'autres limitations mineures, qui ne sont pas mentionnées. Le framework YARN a été introduit pour surmonter ces limitations.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

YARN Framework et ses avantages

Le framework YARN, introduit dans Hadoop 2.0, est destiné à partager les responsabilités de MapReduce et à prendre en charge la tâche de gestion de cluster. Cela permet à MapReduce d'exécuter uniquement le traitement des données et, par conséquent, de rationaliser le processus.

YARN introduit le concept de gestion centralisée des ressources. Cela permet à plusieurs applications de s'exécuter sur Hadoop, en partageant une gestion de ressources commune.

Certains des composants majeurs du framework YARN sont:

  • ResourceManager - Le composant ResourceManager est le négociateur d'un cluster pour toutes les ressources présentes dans ce cluster. En outre, ce composant est classé dans un gestionnaire d’application chargé de gérer les travaux des utilisateurs. À partir de Hadoop 2.0, tout travail MapReduce sera considéré comme une application.
  • ApplicationMaster - Ce composant est l'emplacement dans lequel un travail ou une application existe. Il gère également tous les travaux MapReduce et est terminé une fois le traitement du travail terminé.
  • NodeManager - Le composant du gestionnaire de noeud sert de serveur pour l'historique des travaux. Il est responsable de la sécurisation des informations sur les travaux terminés. Il assure également le suivi des travaux des utilisateurs ainsi que de leur flux de travail pour un nœud particulier.

Gardant à l'esprit que la structure YARN comporte différents composants pour gérer les différentes tâches, voyons comment elle permet de contrer les limitations de Hadoop 1.0.

  • Meilleure utilisation des ressources - Le framework YARN ne dispose d’aucun emplacement fixe pour les tâches. Il fournit un gestionnaire de ressources central qui vous permet de partager plusieurs applications via une ressource commune.
  • Exécution d'applications autres que MapReduce - Dans YARN, les fonctionnalités de planification et de gestion des ressources sont séparées du composant de traitement de données. Cela permet à Hadoop d'exécuter différents types d'applications non conformes à la programmation du framework Hadoop. Les clusters Hadoop sont maintenant capables d'exécuter des requêtes interactives indépendantes et d'effectuer une meilleure analyse en temps réel.
  • Compatibilité ascendante - YARN est un framework rétrocompatible, ce qui signifie que tout travail existant de MapReduce peut être exécuté dans Hadoop 2.0.
  • JobTracker n'existe plus - Les deux rôles principaux de JobTracker étaient la gestion des ressources et la planification des tâches. Avec l'introduction du cadre YARN, ceux-ci sont désormais séparés en deux composants distincts, à savoir:
    • NodeManager
    • Gestionnaire de ressources

Conclusion

L'introduction de la structure YARN a facilité la création d'applications pour les développeurs Hadoop. Désormais, il n'est plus nécessaire que les applications soient implémentées avec des outils tiers. YARN est un énorme changement qui permettra aux utilisateurs d’envisager Hadoop 2.0 pour créer des applications et manipuler les données plus efficacement. Avec le temps, d'autres développements permettront d'améliorer la convivialité d'Hadoop. Pour l’instant, le framework YARN jouera un rôle crucial dans la résolution des problèmes existants et la création d’un environnement sans souci, plus polyvalent que la version précédente du modèle MapReduce.