Hadoop Analytics: la combinaison de données nécessite une approche agnostique à la source

Auteur: Laura McKinney
Date De Création: 1 Avril 2021
Date De Mise À Jour: 16 Peut 2024
Anonim
Hadoop Analytics: la combinaison de données nécessite une approche agnostique à la source - La Technologie
Hadoop Analytics: la combinaison de données nécessite une approche agnostique à la source - La Technologie


Source: Agsandrew / Dreamstime.com

À emporter:

Les méthodes indépendantes de la source sont idéales pour traiter les données pour l'analyse Hadoop.

Combiner des sources de données dans Hadoop est une entreprise complexe. Certaines des raisons pour cela incluent:

  • Les scripts personnalisés, spécifiques à la source, qui combinent des sources de données sont problématiques.
  • L'utilisation des outils d'intégration ou de science des données introduit trop d'incertitude.
  • L'ajout de données provenant de sources externes est presque impossible.

Aujourd’hui, je vais vous expliquer comment l’analyse Hadoop est améliorée grâce à des technologies indépendantes de la source, qui permettent de combiner facilement des sources de données internes et externes. En plus de décrire le fonctionnement des méthodes agnostiques à la source, je vais également expliquer pourquoi les analyses Hadoop ont besoin de capacités intégrées de transfert de connaissances et d'intelligence, d'une compréhension des relations et des caractéristiques des données, ainsi que d'une architecture évolutive et hautes performances.



  • Méthodes agnostiques à la source inclure un modèle de résolution d'entité flexible qui permet d'ajouter de nouvelles sources de données à l'aide de processus de science des données statistiquement valides et répétables. Ces processus s'appuient sur des algorithmes pour rassembler des connaissances à partir des données, les évaluer et les analyser pour déterminer la meilleure approche d'intégration.
    Quelle que soit la fragmentation ou l’incomplétude des enregistrements source originaux, les technologies d’analyse Hadoop doivent être indépendantes de la source et pouvoir unifier les données sans modifier ni manipuler les données source. Ces technologies devraient également créer des index d'entités basés sur le contenu des données et des attributs sur les individus et sur leur existence dans le monde. Pour ce faire, ils doivent comprendre le contenu, la configuration, la structure et le lien des composants.
  • Expertise intégrée en science des données et en intégration de données permet de nettoyer, normaliser et corréler les données avec un degré élevé d’exactitude et de précision. Les outils de visualisation et les rapports aident les analystes à évaluer et à tirer des données et à optimiser le système en fonction des connaissances acquises à différentes étapes du processus.
  • Comprendre les relations entre les entités se traduit par des processus de résolution d’entités plus précis. Étant donné que les entités du monde réel ne sont pas simplement la somme de leurs attributs, mais également de leurs connexions, la connaissance des relations doit être utilisée pour détecter le moment où les enregistrements sont identiques. Ceci est particulièrement important pour la gestion des dossiers critiques et des données volumineuses.
  • Caractérisation des données améliore l'analyse, la résolution et la mise en relation des données en identifiant et en fournissant des informations de sécurité dans les sources de données. Cela peut aider à valider le contenu, la densité et la distribution des données dans des colonnes d'informations structurées. La caractérisation des données peut également être utilisée pour identifier et extraire des données importantes relatives à l'entité (nom, adresse, date de naissance, etc.) à partir de sources non structurées et semi-structurées afin de les corréler avec des sources structurées.
  • Architecture parallèle évolutive effectue des analyses rapidement, même en prenant en charge des centaines de sources de données structurées, semi-structurées et non structurées, ainsi que des dizaines de milliards d'enregistrements.

Hadoop change la façon dont le monde effectue les analyses. Lorsque de nouvelles analyses indépendantes de la source sont ajoutées aux écosystèmes Hadoop, les entreprises peuvent relier de nombreuses sources de données internes et externes et obtenir des informations qui n’étaient pas possibles auparavant.


Cet article a été initialement publié sur Novetta.com. Cela a été fait ici avec permission. Novetta conserve tous les droits d'auteur.