Hadoop opérationnel dans l'architecture de données de nouvelle génération

Contenu

Qu'est-ce que l'architecture de données de nouvelle génération?
Les attentes de Hadoop à la con de l'architecture de nouvelle génération
Quelles valeurs Hadoop peut-il ajouter à l'architecture de données de nouvelle génération?
Amélioration des performances en tant qu'architecture de données d'entreprise
Différence entre Hadoop et d'autres technologies
Conclusion

Source: Romeo1232 / Dreamstime.com

À emporter:

Hadoop sera un acteur clé de l'architecture de données de nouvelle génération en raison de sa capacité à gérer de grandes quantités de données.

L’utilité de Hadoop commence à aller au-delà du traitement et de l’analyse de données volumineuses à mesure que le secteur en demande de plus en plus. Hadoop répond constamment aux diverses exigences liées à l'architecture de données d'entreprise tout en conservant ses points forts d'origine. La liste de ce que Hadoop peut faire et fait actuellement est assez longue. Hadoop est maintenant en mesure de traiter d'énormes volumes de charges de travail transactionnelles, tâche qui était auparavant attendue des technologies traditionnelles. À l'avenir, Hadoop offre de nombreuses possibilités à l'avenir. Par exemple, les systèmes de transaction basés sur SQL peuvent utiliser un moteur SQL Hadoop et Hadoop ajoutera également de nombreuses fonctionnalités de SGBDR. Vous pouvez dire que Hadoop est en train de devenir un hybride de capacités de traitement de données et d'analyse avec des capacités d'architecture d'entreprise.

Qu'est-ce que l'architecture de données de nouvelle génération?

En termes simples, l'architecture de données de nouvelle génération est une forme évoluée d'architecture de données. Tout, y compris les modèles de données, les politiques de données, les règles et les normes régissant la manière dont les données sont collectées, stockées, classées, analysées ou traitées, intégrées, utilisées et distribuées, a évolué sous une architecture de données de nouvelle génération.

La principale différence entre une architecture de données antérieure et une architecture de données de nouvelle génération réside dans la capacité de cette dernière à collecter, stocker et traiter d’énormes volumes de données, également appelées big data, en temps réel. L'architecture effectue toutes ces tâches complexes sans compromettre les normes de confidentialité, de sécurité et de gouvernance des données.

L'architecture de données de nouvelle génération est confrontée à de nombreux défis. Il n’est pas facile de gérer le volume, la vitesse et la variété des données volumineuses. Ajoutez à cela les impératifs d'optimisation de la charge de travail du système, d'amélioration des performances, de la rapidité et de la précision, et de la réduction des coûts. Il va sans dire que l’architecture de données précédente n’avait pas à gérer de telles demandes.

Les DSI et les architectes de l’information souhaitent donc trouver une solution qui les aide à atteindre leurs objectifs. Hadoop opérationnel est au cœur de ce problème depuis un certain temps. Les sections suivantes examineront comment Hadoop opérationnel peut résoudre les problèmes.

Les attentes de Hadoop à la con de l'architecture de nouvelle génération

Les entreprises sont de plus en plus sollicitées pour obtenir de meilleurs résultats et les effets se répercutent sur les attentes vis-à-vis des technologies. Hadoop ne devrait donc plus traiter uniquement des données. Les CIO et les CTO veulent plus d’Hadoop. Vous trouverez ci-dessous une liste des attentes de Hadoop. En fait, Hadoop a déjà répondu à quelques-unes de ces attentes.

Hadoop devrait fonctionner avec des systèmes transactionnels basés sur SQL et dotés de fonctionnalités de création, de lecture, de mise à jour et de suppression. Les systèmes de transaction utiliseront le moteur SQL. Les systèmes seront également pleinement conformes à la norme POSIX (Portable Operating System Interface) et pourront traiter des volumes de transactions élevés.

Hadoop devrait prendre en charge des fonctionnalités telles que la sauvegarde, la tolérance aux pannes, la récupération et la récupération après sinistre. Pour que Hadoop devienne un système doté de capacités de SGBDR, il doit être compatible avec les outils informatiques existants.

Hadoop travaille déjà à la satisfaction des attentes, comme en témoignent certains développements. Hadoop peut fournir une analyse en temps réel et des réponses rapides en fonction du support de gestion des ressources fourni par YARN. YARN est un système d'exploitation distribué à grande échelle pour les applications Big Data, en plus d'être un gestionnaire de ressources. D'autres développements tels que celui d'Apache Storm, des architectures distribuées en mémoire telles qu'Apache Spark, Apache Hive, Drill et MapR-FS (un remplacement HDFS haute performance) sont connus pour fonctionner afin d'offrir diverses capacités de base de données complètes, telles que la sauvegarde, la récupération après sinistre, la tolérance aux pannes, etc. (pour plus d'informations sur YARN, voir Quels sont les avantages du framework Hadoop 2.0 (YARN)?)

Quelles valeurs Hadoop peut-il ajouter à l'architecture de données de nouvelle génération?

Les valeurs opérationnelles que Hadoop peut ajouter à l’architecture de données de nouvelle génération peuvent être envisagées sous deux angles: l’une, si elle répond aux attentes décrites ci-dessus, et l’autre, si elle apporte quelque chose de plus. Vous trouverez ci-dessous les valeurs essentielles que Hadoop opérationnel peut apporter.

Hadoop est désormais en mesure de fournir davantage de possibilités d’évolutivité et de facilité de gestion des données sur sa plate-forme via HDFS. Et le système d’exploitation des données a été activé via les applications YARN de Hadoop. Cette stratégie représente un changement d'architecture de données à un niveau fondamental. Désormais, Hadoop peut stocker divers types de données, telles que des bases de données transactionnelles, des bases de données graphiques et des bases de documents, et ces données sont accessibles via les applications YARN. Il n'est pas nécessaire de dupliquer ou de déplacer les données vers d'autres emplacements.

Amélioration des performances en tant qu'architecture de données d'entreprise

Hadoop opérationnel est en passe de devenir le système central de l'architecture de données d'entreprise. Au fur et à mesure que Hadoop se familiarise davantage avec l'architecture de données d'entreprise, les silos de données vont être éliminés à mesure que les lignes entre eux sont supprimées. Il y aura une amélioration rapide dans presque tous les aspects. Des améliorations vont être apportées sous la forme de formats de fichiers plus efficaces, de meilleures performances du moteur SQL, de systèmes de fichiers améliorés et d'une robustesse qui répondra aux besoins des applications d'entreprise.

Différence entre Hadoop et d'autres technologies

Dans le passé, la principale différence entre Hadoop et les technologies de données d'entreprise tenait aux capacités de traitement, de création de rapports et d'analyse de données volumineuses de Hadoop. À présent que Hadoop opérationnel devient de plus en plus une partie intégrante de l'architecture de données d'entreprise, la différence entre les entités devient de plus en plus floue. Ainsi, Hadoop opérationnel est en train de devenir une alternative supérieure à l’architecture de données d’entreprise existante.

Conclusion

Compte tenu des attentes et des progrès, Hadoop sera au centre des préoccupations de l'industrie pendant un certain temps. Mais il est logique de ne pas trop se concentrer sur Hadoop et d’ignorer les autres technologies. En effet, d'autres technologies vont progresser sur les mêmes paramètres et pourraient même dépasser Hadoop. Il n’est jamais bon d’avoir un monopole sur le marché. Il est bon que les fabricants d’autres technologies que Hadoop soient motivés à proposer de meilleurs produits et même des plug-ins qui aident Hadoop à améliorer ses performances.