MapReduce

Auteur: Louise Ward
Date De Création: 9 Février 2021
Date De Mise À Jour: 28 Juin 2024
Anonim
What is MapReduce?
Vidéo: What is MapReduce?

Contenu

Définition - Que signifie MapReduce?

MapReduce est un modèle de programmation introduit par Google pour le traitement et la génération de grands ensembles de données sur des grappes d'ordinateurs.


Google a tout d'abord formulé le cadre dans le but de servir l'indexation des pages Web de Google, et le nouveau cadre a remplacé les algorithmes d'indexation antérieurs. Les développeurs débutants trouvent le framework MapReduce avantageux, car les routines de bibliothèque peuvent être utilisées pour créer des programmes parallèles sans se soucier des processus de communication infra-cluster, de surveillance des tâches ou de gestion des pannes.

MapReduce s'exécute sur un grand groupe de machines standard et est hautement évolutif. Il a plusieurs formes d'implémentation fournies par plusieurs langages de programmation, tels que Java, C # et C ++.

Introduction à Microsoft Azure et au nuage Microsoft | Tout au long de ce guide, vous apprendrez ce qu'est le cloud computing et comment Microsoft Azure peut vous aider à migrer et à exploiter votre entreprise à partir du cloud.

Techopedia explique MapReduce

Le cadre MapReduce comprend deux parties:


  1. Une fonction appelée "Carte", qui permet à différents points du cluster distribué de distribuer leur travail
  2. Une fonction appelée "Réduire" conçue pour réduire la forme finale des résultats des clusters en un seul résultat

Le principal avantage du cadre MapReduce est sa tolérance aux pannes, dans laquelle des rapports périodiques de chaque nœud du cluster sont attendus à la fin des travaux.

Une tâche est transférée d'un nœud à un autre. Si le nœud maître remarque qu'un nœud est resté silencieux pendant un intervalle plus long que prévu, le nœud principal exécute le processus de réaffectation à la tâche gelée / retardée.

Le cadre MapReduce s’inspire des fonctions "Carte" et "Réduction" utilisées dans la programmation fonctionnelle. Le traitement informatique a lieu sur des données stockées dans un système de fichiers ou dans une base de données, qui prend un ensemble de valeurs de clé d'entrée et génère un ensemble de valeurs de clé de sortie.


Chaque jour, de nombreux programmes MapReduce et des tâches MapReduce sont exécutés sur des clusters Googles. Les programmes sont automatiquement mis en parallèle et exécutés sur un grand groupe de machines standard. Le système d'exécution gère le partitionnement des données d'entrée, la planification de l'exécution des programmes sur un ensemble de machines, la gestion des défaillances de la machine et la gestion de la communication intermachine requise. Les programmeurs n'ayant aucune expérience des systèmes parallèles et distribués peuvent facilement utiliser les ressources d'un grand système distribué.

MapReduce est utilisé dans grep distribué, tri distribué, inversion de graphe de lien Web, statistiques de journal d'accès Web, regroupement de documents, apprentissage automatique et traduction automatique statistique.