Big Datas a un problème, mais ce n'est pas la technologie

Contenu

Qu'est-ce que le Big Data?
Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire
Variété
Une grande définition pour un grand défi

À emporter:

Le terme Big Data est utilisé par les spécialistes du marketing et les professionnels de l'informatique, souvent de manière aléatoire et incorrecte. Dans cet article, couvrez bien ce que sont les mégadonnées, et ce qui n’est que du marketing.

Le Big Data est confronté à un gros problème ces jours-ci et, chose intéressante, il n’a rien à voir avec la technologie. Non, c'est un problème de relations publiques, dans lequel les mégadonnées ressemblent un peu aux tristement célèbres bouffées de télémesure de Tom Cruise sur Oprah: tout le monde en parlait, mais la plupart des gens ne savaient pas ce que cela voulait dire (et le reste s'en moquait bien) . Pour les célébrités, un battage publicitaire obscur peut être un jackpot bienvenu. Toutefois, s’agissant des affaires et de la technologie, les mots à la mode tels que le big data ne permettent pas toujours de faire la différence entre le CTO qui souhaite mettre en œuvre le big data et le PDG qui veut savoir. Pourquoi.

Une définition complète du big data peut encore faire l’objet d’un débat, mais personne ne le dit, c’est que le big data grossit de jour en jour, avec des données d’entreprise explosant année après année et des interactions sur les réseaux sociaux atteignant des centaines de millions par jour. Et à mesure que les affaires de toutes sortes deviennent de plus en plus numériques, la quantité de données disponible est appelée à devenir encore plus grande. C’est pourquoi il est si important de comprendre comment les mégadonnées peuvent aider. Examinons donc comment définir le big data - et pourquoi préciser cette définition devient de plus en plus précieux pour les entreprises de toutes tailles. (Suivez la conversation en ligne sur le Big Data en consultant les experts en Big Data à suivre.)

Qu'est-ce que le Big Data?

Certains appellent n'importe quelle situation avec des "lots" de données Big Data. Ceci est une erreur. Un grand volume d’informations fait partie de la définition, mais il est incomplet. Les gens traitent de gros volumes de données depuis des décennies. Cela signifie-t-il que votre base de données de 10 Go datant des années 90 était big data parce qu'elle semblait beaucoup à l'époque?

Je pense que nous connaissons tous la réponse à cette question. Alors, qu'est-ce qui trace la ligne entre beaucoup de données et le Big Data? Doug Laney a expliqué ce concept à la fin de l’année 2000. Oui, désolé, le Big Data n’est pas nouveau! Il a évoqué les "3 V" du big data: volume, vitesse et variété. Ces V caractérisent les différents aspects du Big Data et représentent également ses principaux défis. En d’autres termes, c’est un problème avec lequel quiconque tente de mettre en œuvre le Big Data doit faire face. Ce cadre aide également à expliquer les types de logiciels et de technologies nécessaires pour relever ces défis. Regardons chacun à son tour. (Obtenez de plus amples informations sur le défi des 3 V dans le Big Data de Todays: Variety, Not Volume ou Velocity.)

Pensez à certaines des entreprises considérées comme des précurseurs du Big Data, telles que Google et. Il est clair que ces entreprises ont beaucoup de volume en termes de données numériques, mais la vitesse à laquelle ces données sont formées est également incroyablement rapide et, dans de nombreux cas, elle s’accélère. En août 2012, a révélé que son système traitait 2,5 milliards de contenus - et plus de 500 téraoctets de données - chaque jour.

Velocity définit la rapidité avec laquelle les données peuvent être capturées et traitées, car plus les résultats sont rapides, plus les entreprises peuvent y répondre rapidement. Dans certains cas, même une minute serait totalement inacceptable - la vitesse de rotation est mesurée en secondes (ou en fractions de seconde). On trouve un bon exemple de ce besoin de rapidité dans le commerce électronique. Pensez à la façon dont Amazon.com peut prendre un achat chez un client et, au moment où l'écran de confirmation s'affiche, donnez-leur une recommandation personnalisée pour les nouveaux produits à acheter. Ce type de traitement instantané est maintenant la norme acceptée. La vélocité est donc un défi pour le Big Data, car si les données ne peuvent pas être traitées assez rapidement, elles risquent de ne pas être utiles. (Pour en savoir plus sur le Big Data: comment il est capturé, regroupé et utilisé pour prendre des décisions commerciales.)

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Variété

Si seulement les données se présentaient toujours comme étant uniformes, ordonnées et prêtes à être traitées dans une base de données relationnelle. Cependant, plus une organisation recueille de données, plus elle est susceptible de prendre différentes formes, telles que des images ou des données de capteurs. Sur le Web, différents navigateurs, logiciels et paramètres utilisateur peuvent également conduire à la collecte de données incohérentes. Bien sûr, vous pouvez nettoyer les choses et garder ce qui est utile, mais le Big Data vise généralement à garder tout, ce qui fait de la diversité des données un défi de taille en termes de configuration d’une architecture big data. En conséquence, cela implique le développement de bases de données plus agiles et moins structurées pour extraire et stocker des données diverses. Pour ceux qui cherchent à mettre en place une infrastructure de données volumineuses, cela signifie réellement qu’il faut se pencher sur des technologies nouvelles et intimidantes et s’efforcer de rendre utile des données aussi diverses.

Une grande définition pour un grand défi

En résumé, considérez les mégadonnées comme des données non structurées et donc difficiles à traiter à l'aide d'architectures de base de données traditionnelles. Cela ressemble un peu à boire avec un tuyau d’incendie, c’est pourquoi le modèle 3 V fait un travail remarquable en le décrivant et en le définissant.

Pour être clair, certains chicanent avec cela et disent que le Big Data est encore mal défini. En réalité, cela ressemble plus au big data, en tant que concept, il est trop gros et trop complexe pour être encapsulé par un seul terme. Ed Dumbill, président du programme de la conférence O’Reilly Strata, décrit les mégadonnées comme "des données dépassant la capacité de traitement des systèmes de bases de données". Cette définition simple et concise dit tout - du moins en théorie. En pratique, les défis à relever dans le Big Data sont beaucoup plus compliqués.

Comme le disait Marc Andreesen dans un article d'août 2011 pour le Wall Street Journal, "toute la technologie nécessaire pour transformer les industries à l'aide de logiciels fonctionne enfin et peut être largement diffusée à l'échelle mondiale". Cela a créé un nouveau besoin en matière d’approche statistique, de pensée systémique et d’apprentissage automatique associé au Big Data. Donc, quelle que soit la définition, il est clair que le Big Data est l’une des opportunités les plus importantes en informatique.