Apache Pig

Auteur: Robert Simon
Date De Création: 16 Juin 2021
Date De Mise À Jour: 13 Peut 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Vidéo: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Contenu

Définition - Que signifie Apache Pig?

Apache Pig est une plate-forme utilisée pour analyser de grands ensembles de données. Il consiste en un langage de haut niveau permettant d'exprimer des programmes d'analyse de données, ainsi que l'infrastructure permettant d'évaluer ces programmes. L'une des caractéristiques les plus importantes de Pig est que sa structure réagit à une parallélisation importante.


Pig fonctionne sur la plate-forme Hadoop, écrit et lit les données depuis le système de fichiers distribués Hadoop (HDFS) et effectue le traitement au moyen d'un ou plusieurs travaux MapReduce. Apache Pig est disponible en open source.

Apache Pig est également appelé langage de programmation Pig ou Hadoop Pig.

Introduction à Microsoft Azure et au nuage Microsoft | Tout au long de ce guide, vous apprendrez ce qu'est le cloud computing et comment Microsoft Azure peut vous aider à migrer et à exploiter votre entreprise à partir du cloud.

Techopedia explique Apache Pig

Apache Pig comprend deux parties: la langue latine du porc et son moteur. La langue latine Pig est un langage de script qui permet aux utilisateurs d’illustrer la manière dont les flux de données provenant d’une ou de plusieurs entrées doivent être lus et traités, ainsi que l’emplacement dans lequel ils doivent être stockés.


Certaines des propriétés clés de Pig Latin sont les suivantes:

  • Facile à programmer: les tâches complexes consistant en diverses transformations de données interconnectées sont clairement codées sous forme de séquences de flux de données. Cela les rend simples à écrire, à comprendre et à maintenir.
  • Possibilités d'optimisation: la manière dont les tâches sont codées permet au système d'optimiser l'exécution automatique. Cela permet à l'utilisateur de prêter attention à la sémantique plutôt qu'à l'efficacité.
  • Extensibilité: les utilisateurs sont autorisés à créer leurs propres fonctions pour effectuer des traitements spécifiques. Le moteur Pig est responsable de l'exécution du flux de données écrit en Pig Latin. Tout comme un système de gestion de base de données relationnelle (SGBDR) standard, Apache Pig comprend un analyseur syntaxique, un optimiseur et un vérificateur de type, ainsi que des opérateurs effectuant le traitement des données. Pig n'inclut pas les transactions, un catalogue de données ou la possibilité de gérer directement le stockage de données ou d'utiliser le cadre d'exécution.