Kudu: Un changeur de jeu dans l'écosystème Hadoop?

Contenu

Qu'est-ce que le Kudu?
Quel est le statut actuel de Kudus?
Comment Kudu peut-il compléter HDFS / HBase?
Caractéristiques du Kudu Framework
Comment le Kudu peut-il changer l'écosystème Hadoop?
Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire
Conclusion

Source: Agsandrew / Dreamstime.com

À emporter:

Kudu est un projet open source qui permet de gérer le stockage plus efficacement.

Kudu est un nouveau projet open source qui fournit un stockage pouvant être mis à jour. C'est un complément à HDFS / HBase, qui fournit un stockage séquentiel et en lecture seule. Kudu est plus adapté aux analyses rapides sur des données rapides, ce qui est actuellement la demande des entreprises. Le Kudu n’est donc pas simplement un autre projet d’écosystème Hadoop, mais a le potentiel de changer le marché. (Pour plus d'informations sur Hadoop, voir Les 10 termes les plus importants à connaître et à comprendre d'Hadoop.)

Qu'est-ce que le Kudu?

Kudu est un type particulier de système de stockage qui stocke des données structurées sous forme de tables. Chaque table a un nombre de colonnes prédéfini. Chacun d'entre eux a une clé primaire qui est en réalité un groupe d'une ou plusieurs colonnes de cette table. Cette clé primaire est conçue pour ajouter une restriction et sécuriser les colonnes, et fonctionne également comme un index, ce qui facilite la mise à jour et la suppression. Ces tableaux sont une série de sous-ensembles de données appelés tablettes.

Quel est le statut actuel de Kudus?

Kudu est vraiment bien développé et est déjà associé à beaucoup de fonctionnalités. Cependant, il faudra encore un peu de polissage, ce qui peut être fait plus facilement si les utilisateurs suggèrent et apportent des modifications.

Kudu est complètement open source et possède la licence logicielle Apache 2.0. Il est également destiné à être soumis à Apache afin qu'il puisse être développé en tant que projet Apache Incubator. Cela permettra à son développement de progresser encore plus rapidement et d'accroître son audience. Après un certain temps, le développement du Kudu se fera de manière publique et transparente. De nombreuses sociétés comme AtScale, Xiaomi, Intel et Splice Machine se sont associées pour contribuer au développement du Kudu. Kudu a également une grande communauté, où un grand nombre de publics fournissent déjà leurs suggestions et leurs contributions. Ce sont donc les gens qui font avancer le développement de Kudu.

Comment Kudu peut-il compléter HDFS / HBase?

Kudu n’est pas destiné à remplacer HDFS / HBase. Il est en fait conçu pour prendre en charge à la fois HBase et HFDS et fonctionne à leurs côtés pour améliorer leurs fonctionnalités. En effet, HBase et HDFS possèdent toujours de nombreuses fonctionnalités qui les rendent plus puissants que le Kudu sur certaines machines. Dans l'ensemble, ces machines tireront davantage parti de ces systèmes.

Caractéristiques du Kudu Framework

Les principales caractéristiques du framework Kudu sont les suivantes:

Analyses extrêmement rapides des colonnes de la table - Les meilleurs formats de données tels que Parquet et ORCFile nécessitent les meilleures procédures de numérisation, qui sont traitées à la perfection par Kudu. De tels formats nécessitent des analyses rapides qui ne peuvent se produire que lorsque les données en colonnes sont correctement codées.
Fiabilité des performances - Le framework Kudu augmente la fiabilité globale de Hadoop en éliminant de nombreuses échappatoires et lacunes dans Hadoop.
Intégration facile avec Hadoop - Kudu peut être facilement intégré à Hadoop et à ses différents composants pour plus d'efficacité.
Complètement open source - Kudu est un système open source sous licence Apache 2.0. Il possède une vaste communauté de développeurs de différentes sociétés et origines, qui le mettent à jour régulièrement et suggèrent des modifications.

Comment le Kudu peut-il changer l'écosystème Hadoop?

Le Kudu a été conçu pour s’intégrer à l’écosystème de Hadoop et en améliorer les fonctionnalités. Il peut également s’intégrer à certains composants clés de Hadoop tels que MapReduce, HBase et HDFS. Les tâches MapReduce peuvent fournir des données ou extraire des données des tables Kudu. Ces fonctionnalités peuvent également être utilisées dans Spark. Une couche spéciale rend certains composants Spark tels que Spark SQL et DataFrame accessibles à Kudu. Bien que le Kudu n’ait pas été suffisamment développé pour remplacer ces fonctionnalités, on estime qu’au bout de quelques années, il sera suffisamment développé pour le faire. Jusque-là, l’intégration entre Hadoop et Kudu est vraiment très utile et peut combler les principales lacunes de l’écosystème de Hadoop. (Pour en savoir plus sur Apache Spark, voir Comment Apache Spark contribue au développement rapide d'applications.)

Kudu peut être mis en œuvre dans une variété de lieux. Quelques exemples de tels endroits sont donnés ci-dessous:

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Diffusion des entrées en temps quasi réel - Dans les endroits où les entrées doivent être reçues dès que possible, le Kudu peut faire un travail remarquable. Un exemple de ce type de lieu est celui des entreprises, où de grandes quantités de données dynamiques affluent de différentes sources et doivent être mises à disposition rapidement en temps réel.
Applications de séries temporelles avec des modèles d'accès variés - Kudu est idéal pour les applications basées sur des séries temporelles, car il est plus simple de configurer des tableaux et de les numériser à l'aide de celui-ci. Un exemple de cette utilisation est celui des grands magasins, où les anciennes données doivent être retrouvées rapidement et traitées afin de prédire la popularité future des produits.
Systèmes hérités - De nombreuses entreprises qui obtiennent des données de différentes sources et les stockent sur différents postes de travail se sentiront à l'aise avec le Kudu. Le Kudu est extrêmement rapide et peut s’intégrer efficacement à Impala pour traiter les données sur toutes les machines.
Modélisation prédictive - Les scientifiques qui cherchent une bonne plate-forme pour la modélisation peuvent utiliser le Kudu. Le Kudu peut apprendre de chaque ensemble de données qui y sont introduites. Le scientifique peut exécuter et réexécuter le modèle à plusieurs reprises pour voir ce qui se passe.

Conclusion

Même si le Kudu en est encore au stade du développement, il a suffisamment de potentiel pour constituer un bon complément pour les composants Hadoop standard tels que HDFS et HBase. Il a suffisamment de potentiel pour changer complètement l'écosystème Hadoop en comblant toutes les lacunes et en ajoutant quelques fonctionnalités supplémentaires. Il est également très rapide et puissant et peut vous aider à analyser et à stocker rapidement de grands tableaux de données. Toutefois, il reste encore du travail à faire pour l’utiliser plus efficacement.