Comment vos données sont-elles structurées? Examen des données structurées, non structurées et semi-structurées

Auteur: Roger Morrison
Date De Création: 25 Septembre 2021
Date De Mise À Jour: 21 Juin 2024
Anonim
Comment vos données sont-elles structurées? Examen des données structurées, non structurées et semi-structurées - La Technologie
Comment vos données sont-elles structurées? Examen des données structurées, non structurées et semi-structurées - La Technologie

Contenu



Source: monsitj / iStockphoto

À emporter:

En savoir plus sur les données structurées, non structurées et semi-structurées.

Historiquement, les analystes de données étaient capables de décrypter et d'extraire des informations d'un seul type de données: les données structurées. Ce type de données était facilement consultable en raison de ses caractéristiques claires, mais ne représentait qu'un pourcentage mineur du total des données disponibles.

Les données non structurées incluent la vidéo, l'audio et les données provenant des médias sociaux et des appareils mobiles. C’est de loin la plus grande réserve d’informations brutes disponibles, mais personne n’a été en mesure d’exploiter cette ressource de manière fiable.

Les choses ont toutefois changé depuis que la disponibilité accrue de stockage et les capacités de traitement supérieures ont donné naissance à une analyse de données non structurée - une nouvelle forme de technologie, donc immature. Une meilleure intelligence d’affaires tire pleinement parti de cette opportunité et des investissements importants sont en cours pour regrouper des analyses de données structurées et non structurées afin d’accéder à cette mine d’informations apparemment sans fin.


Regardons ces deux formats de données pour comprendre leurs différences et ce que l'avenir réserve à tous les analystes de données.

Qu'est-ce qu'une donnée structurée?

Les données structurées sont des informations hautement organisées, générées par un humain ou une machine, qui peuvent être facilement stockées dans des structures de bases de données en ligne appelées bases de données relationnelles (RDB). C'est tout ce qui existe dans un format qui peut être facilement capturé, stocké et organisé dans une structure RDB pour être analysé ultérieurement. (Pour en savoir plus sur les bases de données, consultez notre Introduction aux bases de données.)

Les exemples incluent les codes postaux, les numéros de téléphone et les données démographiques des utilisateurs telles que l'âge ou le sexe. Les données trouvées dans ces bases de données peuvent être interrogées à l'aide de fonctions SQL (Structured Query Language) ou VLOOKUP dans des feuilles de calcul Excel. Des algorithmes peuvent également être utilisés pour rechercher rapidement des données trouvées dans les différents champs en utilisant leurs index, ou leurs données numériques et alphabétiques. Cependant, toutes les données sont strictement définies en termes de type et de nom de champ et la capacité de les stocker, de les interroger et de les analyser est donc limitée dans une certaine mesure.


Les applications typiques qui utilisent des données structurées incluent les logiciels de gestion hospitalière, les applications de gestion de la relation client (CRM) et les systèmes de réservation des compagnies aériennes. En raison de leur organisation soignée et de leur accessibilité facile, les données structurées sont utiles et efficaces pour traiter de gros volumes d’informations. Lors du forage pour le pétrole noir caché dans la quantité infinie de données produites chaque jour par l’humanité, la recherche de données structurées n’est rien d’autre que de rayer la surface.

Qu'est-ce qu'une donnée non structurée?

La grande majorité des données trouvées dans une organisation ne sont pas structurées, et certaines estiment qu'elles représentent jusqu'à 80% du total des données actuellement disponibles. Par définition, les données non structurées sont tout ce qui n'a pas de structure interne identifiable. Cependant, certains types de données entrant dans cette catégorie Avoir structure interne vague, mais qui ne correspond pas à une base de données ou à un tableur.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire


Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

La plupart des données professionnelles sont non structurées, allant des interactions avec le service clientèle, des fichiers, des journaux Web, des vidéos et autres contenus multimédias, de l'automatisation des ventes, des messages sur les médias sociaux. Inutile d'expliquer à quel point ces données pourraient être utiles si elles pouvaient être extraites, organisées et analysées.

La plupart des données non structurées sont générées par des humains et sont donc conçues pour être comprises par d’autres humains. Cela signifie que l'intelligence informatique plus simple ne comprend pas ce type d'informations, car elles sont trop éloignées de la linéarité du langage machine et des bases de données structurées.

Se situer entre: données semi-structurées

Les données semi-structurées constituent un troisième type de données qui représente une partie beaucoup plus petite de la tarte (5 à 10%). Littéralement coincées entre les deux mondes, les données semi-structurées contiennent des balises et des marques sémantiques internes qui identifient des éléments distincts, mais ne disposent pas de la structure nécessaire pour tenir dans une base de données relationnelle.

Par exemple, s peut sembler être des données structurées puisqu’elles peuvent être classées par date, taille de fichier ou heure. Cependant, ils ne le sont pas, car les informations les plus précieuses sont celles qu’ils contiennent, plutôt que leurs étiquettes relativement simples. s ne peuvent pas être vraiment classés par contenu et par sujet, car les êtres humains ne parlent pas de manière aussi stricte pour permettre à une machine de les comprendre sans équivoque. D'autres exemples de données semi-structurées incluent les bases de données NoSQL, le JSON standard ouvert et le langage de balisage XML.

Les données semi-structurées sont généralement interrogées et cataloguées aux fins d'analyse à l'aide de l'analyse de métadonnées. Par exemple, une numérisation aux rayons X consiste en un grand nombre de pixels qui forment l’image - qui sont des données intrinsèquement non structurées auxquelles il est impossible d’accéder. Toutefois, le fichier d'analyse inclura toujours une partie de métadonnées fournissant des informations à ce sujet, telles que des annotations et un ID utilisateur.

Les données non structurées peuvent-elles être transformées en données structurées?

Le défi fondamental auquel chaque analyste de données doit faire face est d’organiser les informations disponibles de manière ordonnée et ordonnée de manière à ce qu’elles puissent être consultées et comprises. Les outils d'exploration de données ne sont généralement pas équipés pour analyser des informations qui, par définition, sont trop proches du langage humain, ce qui signifie que seul un autre être humain peut les collecter et les catégoriser.

Cependant, le volume considérable de données non structurées rend toute tentative de stockage ou d’organisation extrêmement laborieuse et coûteuse. Le groupe d’informations provenant d’un moteur de recherche Web, par exemple, est si vaste que la plupart des éléments nécessitent un investissement considérable en termes de travail et de ressources, pour en extraire les plus élémentaires. Même les techniques d'extraction de données les plus efficaces manquent encore une quantité importante d'informations trouvées sur le Web et, pire encore, dans le Web profond.

Mais les techniques existent. Et ils sont développés à une vitesse incroyable. Par exemple, les métadonnées pourraient être utilisées pour connecter des données structurées et non structurées. Les informations recueillies peuvent être filtrées et indexées à la fois par les utilisateurs et par des algorithmes afin d'analyser simplement les données pertinentes. Parmi les autres solutions, citons la «lutte contre les données», processus au cours duquel des données complexes sont progressivement organisées par des utilisateurs non techniques. (Pour en savoir plus sur les utilisateurs ordinaires manipulant des données, voir Comment les données volumineuses peuvent-elles être utiles dans l'analyse en libre-service?)

À un moment donné, nous pourrons transformer efficacement ces quantités d’informations massivement non organisées en un format plus organisé et restructuré. Peut-être pas aujourd'hui, peut-être pas demain, mais nous pourrons bientôt piller le plus grand coffre-fort que l'humanité ait jamais vu: le Big Data.