Le Big Data Challenge d’aujourd’hui découle de la variété, pas du volume ni de la vélocité

Contenu

Trois Vs de Big Data
Résoudre le problème de la variété de données
Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

À emporter:

Trop de départements informatiques jettent tout ce qu’ils ont sur les problèmes de volume et de rapidité des données, oubliant de s’attaquer au problème fondamental de la variété des données.

Selon Doug Laney, vice-président de la recherche chez Gartner, le défi de la gestion et de l'exploitation du Big Data repose sur trois éléments. Laney a constaté pour la première fois, il y a plus de dix ans, que le big data posait un tel problème pour l'entreprise, car il introduisait un volume, une vitesse et une variété difficiles à gérer. Le problème, c’est que trop de départements informatiques jettent tout ce qu’ils ont sur les problèmes de volume et de vitesse des données, oubliant de s’attaquer au problème fondamental de la variété des données.

En 2001, Laney écrivait que "les grandes entreprises utiliseront de plus en plus un entrepôt de données centralisé pour définir un vocabulaire commercial commun améliorant la collaboration interne et externe". La question de ce vocabulaire - et de la variabilité qui empêche les entreprises de le créer - reste l’aspect le moins adressé de l’énigme des mégadonnées. (Découvrez ce que les autres experts ont à dire. Consultez les experts en données volumineuses à suivre.)

Trois Vs de Big Data

De nombreuses entreprises ont trouvé des méthodes pour exploiter un volume et une vitesse de données accrus. , par exemple, peut analyser d’énormes volumes de données. Bien sûr, ces données sont souvent présentées à maintes reprises avec les mêmes paramètres. Cela a conduit à des innovations technologiques telles que les bases de données de colonnes, qui sont maintenant largement utilisées par d'autres sociétés confrontées à des stocks tout aussi importants d'éléments de données similaires.

Pour ce qui est de la vitesse d'apprivoisement, des fournisseurs tels que Splunk aident les entreprises à analyser les données créées rapidement au moyen de fichiers journaux qui capturent plusieurs milliers d'événements par seconde. Cette analyse des événements volumineux vise les cas d'utilisation de la surveillance de la sécurité et des performances. Comme pour le défi du volume de données, le défi de la vitesse a été largement traité par des techniques d'indexation sophistiquées et des analyses de données distribuées qui permettent à la capacité de traitement de s'adapter à une vitesse accrue des données.

Cependant, en ce qui concerne la variété, trop d'entreprises rencontrent encore un gros problème dans leur approche de l'analyse de données volumineuses. Ce problème est motivé par trois facteurs: premièrement, en raison de la croissance, des acquisitions et des innovations technologiques qui ajoutent de nouveaux systèmes à l'environnement, les entreprises sont confinées dans un environnement très hétérogène et cette hétérogénéité ne fait qu'augmenter avec le temps. Les entreprises doivent suivre une pléthore de types de systèmes et gérer des dizaines de milliers de types de données, ainsi que les mêmes données représentées sous différentes nomenclatures et formats.

Deuxièmement, ces systèmes et types de données contiennent souvent des informations pertinentes et des informations pouvant être filtrées en toute sécurité, car elles ne sont pas pertinentes pour le problème à traiter. Il est nécessaire d’identifier de manière fiable les informations ayant un impact.

La troisième dimension du défi des variétés est la variabilité constante ou le changement de l'environnement. Les systèmes sont mis à niveau, de nouveaux systèmes sont introduits, de nouveaux types de données sont ajoutés et une nouvelle nomenclature est introduite. Cela pèse davantage sur notre capacité à maîtriser le défi de la variété des données. Cela ajoute une couche supplémentaire au défi de la variété. (Pour plus d'informations, consultez Big Data: comment il est capturé, traité et utilisé pour prendre des décisions commerciales.)

Résoudre le problème de la variété de données

Pour résoudre le problème de la variété des données, les entreprises doivent commencer par le domaine informatique, car il représente souvent à la fois les pires contrevenants et les pires victimes du problème des variétés. La première étape consiste à commencer par une définition complète ou une taxonomie de tous les éléments ou actifs informatiques. Cela fournit une base de référence ou une base permettant de se référer à n'importe quoi dans ou sur l'informatique et permet aux entreprises de gérer l'hétérogénéité croissante par rapport à une taxonomie ou une terminologie connue.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

L'étape suivante consiste à identifier les nombreuses façons dont un même objet est représenté dans différents systèmes d'enregistrement. Cela permet aux professionnels de l'informatique de parcourir leur environnement hétérogène et de filtrer et de compresser les données en des morceaux pertinents et gérables.

Enfin, les responsables informatiques doivent adopter un processus d'examen constant de l'environnement afin de détecter des modifications telles que l'introduction de nouveaux types d'éléments ou la nouvelle nomenclature pour faire référence au même élément.

Grâce à ces étapes, les organisations informatiques peuvent gérer le problème de la variété et obtenir des informations approfondies qui ont toujours échappé aux équipes informatiques. En outre, la gestion du problème de la variété améliore considérablement leur retour sur investissement dans des outils et techniques qui traitent des problèmes de volume et de vélocité plus traditionnels du Big Data.