Catalogues de données et maturation du marché de l'apprentissage automatique

Auteur: Roger Morrison
Date De Création: 28 Septembre 2021
Date De Mise À Jour: 21 Juin 2024
Anonim
Catalogues de données et maturation du marché de l'apprentissage automatique - La Technologie
Catalogues de données et maturation du marché de l'apprentissage automatique - La Technologie

Contenu


Source: Nmedia / Dreamstime.com

À emporter:

Le marché de la MLDC est en croissance et les entreprises qui cherchent à exploiter efficacement le Big Data avec l’apprentissage automatique doivent connaître les plus grands noms du secteur et connaître leur classement individuel.

C'est l'âge du big data. Nous sommes inondés d'informations et les entreprises ont du mal à gérer et à en extraire la valeur.

Aujourd'hui, le flux de données volumineuses implique non seulement le volume, la variété et la vitesse, mais aussi la complexité. Comme indiqué par SAS dans Big Data History et Current Considerations, il s’agit d’un facteur des flux "provenant de sources multiples, ce qui rend difficile la liaison, la correspondance, le nettoyage et la transformation des données d’un système à l’autre". (Voulez-vous en savoir plus sur le Big Data? Découvrez Big Data Datas Big Future.)


Trouver des informations précieuses n’est pas simplement une question de rassembler autant de données que possible, mais de trouver les bonnes données. Il est impossible de tout gérer avec des processus manuels. C'est pourquoi de plus en plus d'entreprises "se tournent vers les catalogues de données pour démocratiser l'accès aux données, permettre à la connaissance des données tribales de gérer les informations, d'appliquer les stratégies de données et d'activer rapidement toutes les données à valeur ajoutée".

C'est à cet endroit que les catalogues de données (parfois appelés aussi catalogues d'informations) entrent dans l'image. Comme défini ici, ils permettent aux "utilisateurs d'explorer leurs sources de données requises et de les comprendre, tout en aidant les organisations à tirer davantage parti de leurs investissements actuels". L’une des façons de le faire est de permettre un accès beaucoup plus grand aux données entre les différents types d’utilisateurs qui peuvent les utiliser ou y contribuer.


L'impératif d'infonomie

Constatant la forte augmentation de la demande de catalogues de données à la fin de 2017, Gartner les a surnommés "le nouveau noir". Ils étaient de plus en plus reconnus comme une solution rapide et économique "pour inventorier et classer les actifs de données de plus en plus distribués et désorganisés et pour cartographier leurs chaînes d'approvisionnement en informations". La nécessité de cela est apparue du fait de la montée des "infonomies", qui appellent à appliquer la même méticulosité au suivi des informations qu'à la gestion des autres actifs de l'entreprise. (Pour plus d'informations sur les chaînes d'approvisionnement, voir Comment l'apprentissage automatique peut améliorer l'efficacité de la chaîne d'approvisionnement.)

Les participants partent à la découverte des catalogues de données Forrester Wave ™: Machine Learning, T2 2018. Plus de la moitié des participants à l'enquête interrogés dans ce rapport ont déclaré qu'ils envisageaient de renforcer la mise en œuvre de leur catalogue de données. Ils étaient probablement principalement motivés par le fait que chacun d'eux avait au moins sept lacs de données dans son organisation. Comme l'explique Gartner à propos des catalogues de données, ceux-ci sont particulièrement utiles pour extraire "le contenu, la signification et la valeur des données" qui sont généralement laissés sous une forme non classifiée dans un lac de données.

Forrester indique que plus d'un tiers des décideurs en matière de données et d'analyse traitaient avec 1 000 To ou plus de données en 2017, un chiffre rapporté par seulement 10 à 14% l'année précédente. La gestion des données à cette échelle est un défi croissant, ou plus particulièrement, deux défis:

«1) la fusion des processus métier existants avec les données source pour les analyser et mettre en œuvre des informations et 2) la recherche, la collecte, la gestion et la gestion des données à mesure de leur croissance."

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Ce que les catalogues de données peuvent faire pour les entreprises

Gartner identifie des manières spécifiques par lesquelles les catalogues de données peuvent améliorer le flux d'informations et la productivité d'une organisation:

  • Rassembler et communiquer l'inventaire d'actifs d'informations mis à jour qui est disponible pour l'organisation.

  • Créer le glossaire commun de termes métier qui définit l'interprétation sémantique et la signification des données de l'organisation, fournissant ainsi les moyens de médiation et de résolution des incohérences de définitions.

  • Activation d'un environnement de collaboration dynamique et agile permettant aux collègues professionnels et informatiques de commenter, de documenter et de partager des données.

  • Fournir une transparence sur l'utilisation des données avec une analyse de lignage et d'impact.

  • Surveillance, audit et traçage des données à l'appui des processus de gouvernance de l'information.

  • Capturer des métadonnées pour améliorer l'analyse interne de l'utilisation et de la réutilisation des données, l'optimisation des requêtes et la certification des données.

  • Conualiser les informations au sein de leur utilisation professionnelle en capturant, en communiquant et en analysant les données existantes, leur provenance, leurs inconvénients, leur raison d'être, la manière dont elles circulent entre les processus et les systèmes, qui en est responsable, ce que cela signifie et quelle valeur il a.

Selon le rapport Gartner, il est important que les données soient correctement identifiées et accessibles aux personnes clés de l'entreprise, non seulement pour trouver le moyen de "monétiser les actifs de données pour obtenir des résultats commerciaux numériques", mais pour se conformer aux réglementations, qu'elles soient industrielles ou non. spécifiques telles que la loi sur la transférabilité et la responsabilité en matière d’assurance maladie (HIPAA) ou de nature plus générale comme le règlement général sur la protection des données (GDPR).

Ajout dans l'apprentissage automatique

Mais rien n’est sans ses inconvénients. Pour les catalogues de données, le problème a été le processus lent et fastidieux lié à leur construction manuelle avec toutes les métadonnées à mettre en place. C'est ici qu'intervient le composant d'apprentissage automatique.

Les catalogues de données évalués par Forrester sont appelés MLDC, car ils exploitent la puissance de l’apprentissage automatique, l’un des composants de l’IA. Comme l'explique un blog de Podium Data, cela permet de "créer un référentiel persistant de métadonnées, puis d'appliquer ML / AI pour extraire et exposer des informations potentiellement utiles sur les actifs de données sous-jacents".

Comment choisir

Pour aider les entreprises à choisir les entreprises à choisir, Forrester a appliqué 29 points d’évaluation aux 12 plus grands PDMA. Les principaux acteurs du marché étaient: IBM, Relito, Unifi Software, Alation et Collibra. Les principaux atouts sont Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics et Cloudera. Hortonworks est seul dans le rang de "candidat".

Cependant, il ne faut pas se fier au classement général. Le rapport détaille les forces et les faiblesses particulières de chacun. Par conséquent, si un élément particulier, tel que la recherche et le développement, revêt une importance capitale pour une organisation, elle peut considérer Hortonworks comme l'égal d'IBM et de Colilbra, car ces trois se partagent la note maximale de cinq pour cette qualité, qui était: deux points de mieux que Alation et Coloudera et quatre points de mieux que Cambridge Semantics.

En conséquence, le rapport Forrester conseille à ceux qui utilisent son rapport à titre indicatif de ne pas présumer que la société classée au premier rang est le meilleur choix pour tous. Ils devraient porter une attention particulière à la ventilation de l'évaluation pour trouver ce qui répond à leurs besoins particuliers.