Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Contenu

Q:
UNE:

Q:

Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données?

UNE:

Les processus de science des données dans le contexte de l'apprentissage automatique et de l'IA peuvent être divisés en quatre phases distinctes:

acquisition et exploration de données,
construction de modèle,
modèle de déploiement et
évaluation et raffinement en ligne.

D'après mon expérience, les phases les plus problématiques sont l'acquisition et le déploiement de modèles de données dans tout processus de science des données basé sur l'apprentissage automatique. Voici deux manières de les optimiser:

1. Établissez un magasin de données hautement accessible.

Dans la plupart des organisations, les données ne sont pas stockées dans un emplacement central. Prenons simplement des informations relatives aux clients. Vous avez des informations de contact client, une assistance client, des commentaires client et un historique de navigation client si votre entreprise est une application Web. Toutes ces données sont naturellement dispersées, car elles servent des objectifs différents. Ils peuvent résider dans différentes bases de données et certains peuvent être entièrement structurés, d'autres non structurés et peuvent même être stockés sous forme de fichiers simples.

Malheureusement, la dispersion de ces ensembles de données limite fortement le travail de science des données car la base de tous les problèmes de PNL, d’apprentissage automatique et d’IA est Les données. Il est donc primordial de disposer de toutes ces données au même endroit - le magasin de données - pour accélérer le développement et le déploiement de modèles. Étant donné qu’il s’agit d’un élément essentiel de tous les processus de science des données, les entreprises doivent faire appel à des ingénieurs de données qualifiés pour les aider à créer leurs magasins de données. Cela peut facilement commencer par de simples vidages de données dans un seul emplacement et évoluer lentement vers un référentiel de données bien pensé, entièrement documenté et interrogeable avec des outils utilitaires permettant d'exporter des sous-ensembles de données dans différents formats à différentes fins.

2. Exposez vos modèles en tant que service pour une intégration transparente.

En plus de permettre l’accès aux données, il est également important de pouvoir intégrer les modèles développés par les spécialistes des données dans le produit. Il peut s'avérer extrêmement difficile d'intégrer des modèles développés en Python à une application Web exécutée sur Ruby. En outre, les modèles peuvent comporter de nombreuses dépendances de données que votre produit ne pourra peut-être pas fournir.

Une solution consiste à mettre en place une infrastructure solide autour de votre modèle et à n'exposer que le nombre de fonctionnalités nécessaires à votre produit pour pouvoir utiliser le modèle en tant que «service Web». Par exemple, si votre application a besoin d'une classification des sentiments lors des révisions de produits. Tout ce qu’il devrait faire, c’est d’invoquer le service Web, en fournissant les informations pertinentes et le service rendrait la classification de sentiment appropriée que le produit peut directement utiliser. De cette façon, l’intégration se présente simplement sous la forme d’un appel API. En découplant le modèle et le produit qui l’utilise, il est très facile pour les nouveaux produits que vous proposez d’utiliser également ces modèles avec peu de tracas.

Désormais, la configuration de l'infrastructure autour de votre modèle est une toute autre histoire et nécessite un investissement initial important de la part de vos équipes d'ingénierie. Une fois l’infrastructure en place, il ne reste plus qu’à construire des modèles qui s’intègrent dans l’infrastructure.