Comment Analytics peut-il améliorer les affaires? - Transcription TechWise Episode 2 - La Technologie

Source: Flickr / James Royal-Lawson

À emporter:

Eric Kavanagh, animateur, discute de l'utilisation de l'analyse en entreprise avec des scientifiques spécialisés dans les données et des chefs de file du secteur.

Note aux rédacteurs: Ceci est une transcription de l’un de nos webémissions passées. Le prochain épisode approche rapidement, cliquez ici pour vous inscrire.

Eric Kavanagh: Mesdames et messieurs, bonjour et bienvenue de nouveau dans l'épisode 2 de TechWise. Oui, en effet, il est temps d’avoir des sages! Aujourd'hui, un groupe de personnes très intelligentes sont en ligne pour nous aider dans cette entreprise. Je m'appelle Eric Kavanagh, bien sûr. Je serai votre hôte, votre modérateur, pour cette session éclair. Nous avons beaucoup de contenu ici, les gens. Nous avons quelques grands noms dans le secteur, qui ont été des analystes dans notre espace et quatre des fournisseurs les plus intéressants.Donc, nous allons avoir beaucoup de bonnes actions sur l'appel aujourd'hui. Et bien sûr, vous dans le public jouez un rôle important en posant des questions.

Donc, encore une fois, le salon s'appelle TechWise et le sujet d'aujourd'hui est "Comment Analytics peut-il améliorer les affaires?" De toute évidence, c’est un sujet d’actualité où l’on essaiera de comprendre les différents types d’analyses que vous pouvez faire et comment cela peut améliorer vos opérations, car c’est tout ce dont il est question en fin de journée.

Donc, vous pouvez me voir là-haut au sommet, c’est vraiment à vous. Dr Kirk Borne, un bon ami de l'Université George Mason. Il est un scientifique de données avec une énorme quantité d’expérience, une très grande expertise dans cet espace, l’exploration de données, le big data et tout ce genre de choses amusantes. Et, bien sûr, nous avons notre propre Dr Robin Bloor, analyste en chef du groupe Bloor. Qui a suivi une formation d'actuaire il y a plusieurs années. Et il a été très concentré sur tout cet espace de données volumineuses et d’analyse au cours des cinq dernières années. Cela fait presque cinq ans que nous avons lancé le Groupe Bloor en tant que tel. Donc, le temps passe vite quand on s’amuse.

Nous allons également entendre Will Gorman, architecte en chef de Pentaho; Steve Wilkes, CCO de WebAction; Frank Sanders, directeur technique chez MarkLogic; et Hannah Smalltree, directrice de Treasure Data. Donc, comme je l’ai dit, cela fait beaucoup de contenu.

Alors, comment l'analyse peut-elle aider votre entreprise? Bien, comment peut-il aider votre entreprise, très franchement? Les analyses peuvent être utilisées de différentes manières pour améliorer votre organisation.

Donc, rationalisez les opérations. C’est une question dont vous n’entendez pas autant parler que de choses comme le marketing, la génération de revenus ou même l’identification d’opportunités. Cependant, la rationalisation de vos opérations est une chose vraiment très puissante que vous pouvez faire pour votre organisation car vous pouvez identifier des endroits où vous pouvez externaliser quelque chose ou ajouter des données à un processus particulier, par exemple. Et cela peut simplifier les choses en évitant de demander à quelqu'un de prendre le téléphone pour l'appeler ou de le faire. Il y a tellement de façons différentes de rationaliser vos opérations. Et tout cela aide vraiment à réduire vos coûts, non? C’est la clé, cela réduit les coûts. Mais cela vous permet également de mieux servir vos clients.

Et si vous pensez à quel point les gens sont devenus impatients, et je le constate tous les jours en ce qui concerne la façon dont les gens interagissent en ligne, même avec nos émissions, les fournisseurs de services que nous utilisons. La patience des gens, la capacité d'attention, est de plus en plus courte de jour en jour. Et cela signifie que vous devez, en tant qu’organisation, réagir dans des délais de plus en plus rapides pour pouvoir satisfaire vos clients.

Ainsi, par exemple, si une personne est sur votre site de diffusion Web ou navigue pour essayer de trouver quelque chose, si elle est frustrée et quitte, vous avez peut-être perdu un client. Et selon le prix que vous facturez pour votre produit ou service, et c’est peut-être un gros problème. Le point essentiel est donc que la rationalisation des opérations est, à mon sens, l’un des espaces les plus prisés pour l’application de l’analyse. Et vous le faites en regardant les chiffres, en analysant les données, en déterminant, par exemple, "Hé, pourquoi perdons-nous tant de personnes sur cette page de notre site Web?" "Pourquoi recevons-nous certains de ces appels téléphoniques en ce moment?"

Et plus vous pourrez réagir en temps réel à ce genre de choses, plus vous aurez de chances de maîtriser la situation et d’agir avant qu’il ne soit trop tard. Parce qu’il ya une période de temps où une personne s’énerve à propos de quelque chose, elle est insatisfaite ou essaie de trouver quelque chose mais elle est frustrée; vous avez là une occasion de les contacter, de les saisir, d’interagir avec ce client. Et si vous le faites correctement avec les bonnes données ou la bonne image du client - comprendre qui est ce client, quelle est sa rentabilité, quelles sont ses préférences - si vous pouvez vraiment comprendre ce que vous faites, vous allez le faire. un excellent travail pour garder vos clients et obtenir de nouveaux clients. Et c’est tout ce dont il s’agit.

C’est pourquoi, je vais céder la parole à Kirk Borne, l’un de nos spécialistes des données qui participe à l’appel d’aujourd’hui. Et ils sont assez rares ces jours-ci, les gars. Nous en avons au moins deux à l’appel, c’est donc un gros problème. Sur ce, Kirk, je vais vous laisser parler de l’analyse et de la manière dont elle aide les entreprises. Fonce.

Dr Kirk Borne: Merci beaucoup, Eric. Peux-tu m'entendre?

Eric: C’est bien, vas-y.

Dr Kirk: D'accord, bien. Je veux juste partager si je parle pendant cinq minutes et que les gens me font signe de la main. Donc, vos remarques liminaires, Eric, que vous avez vraiment liées au sujet dont je vais parler brièvement dans les prochaines minutes, à savoir l’utilisation du Big Data et de l’analyse des données pour les décisions à prendre, là-bas. Le commentaire que vous avez fait sur la rationalisation opérationnelle relève, selon moi, de ce concept d'analyse opérationnelle dans lequel vous pouvez voir à peu près toutes les applications du monde, qu'il s'agisse d'une application scientifique, d'une entreprise, d'une cyber-sécurité et de l'application de la loi. gouvernement, santé. N'importe quel nombre d'endroits où nous disposons d'un flux de données et prenons une réponse ou une décision en réaction à des événements, à des alertes et à des comportements observés dans ce flux de données.

C’est pourquoi l’une des choses dont je voudrais parler aujourd’hui est la suivante: comment extrayez-vous les connaissances et les idées du Big Data afin d’atteindre le point où nous pouvons réellement prendre la décision de prendre des mesures? Et fréquemment, nous en parlons dans un problème d’automatisation. Et aujourd'hui, je souhaite associer l'automatisation à l'analyste humain. Je veux dire par là, alors que l'analyste métier joue ici un rôle important en termes de paris, de qualification, de validation d'actions spécifiques ou de règles d'apprentissage automatique extraites des données. Mais si nous arrivons à un point où nous sommes à peu près convaincus que les règles métier que nous avons extraites et que les mécanismes pour nous alerter sont valides, nous pourrons pratiquement passer à un processus automatisé. Nous faisons en fait cette rationalisation opérationnelle dont parlait Eric.

J'ai donc un petit jeu de mots mais j'espère que si cela vous convient, j'ai parlé du défi D2D. Et D2D, non seulement les données des décisions, mais nous examinons cette question au bas de la diapositive. Nous espérons que vous pourrez le voir, faire des découvertes et augmenter les revenus de nos pipelines d’analyse.

Donc, dans cette affaire, j'ai en fait ce rôle de marketing pour moi ici maintenant que je travaille avec et c'est; La première chose à faire est de caractériser vos données, d’extraire les fonctionnalités, d’extraire les caractéristiques de vos clients ou de l’entité que vous suivez dans votre espace. Peut-être que c'est un patient dans un environnement d'analyse de la santé. C’est peut-être un utilisateur Web si vous envisagez une sorte de problème de cybersécurité. Mais caractérisez et extrayez les caractéristiques, puis extrayez quelques conneries sur cet individu, sur cette entité. Et ensuite, vous rassemblez les morceaux que vous venez de créer et vous les mettez dans une sorte de collection à partir de laquelle vous pouvez ensuite appliquer des algorithmes d'apprentissage automatique.

La raison pour laquelle je le dis de cette façon est que, disons, vous avez une caméra de surveillance dans un aéroport. La vidéo elle-même est un énorme volume et elle est également très peu structurée. Mais vous pouvez extraire de la vidéosurveillance, de la biométrie faciale et identifier les individus dans les caméras de surveillance. Ainsi, par exemple, dans un aéroport, vous pouvez identifier des personnes spécifiques, vous pouvez les suivre à travers l'aéroport en identifiant de manière croisée la même personne dans plusieurs caméras de surveillance. De manière à ce que les fonctionnalités biométriques extraites que vous exploitez et que vous suivez réellement ne constituent pas la vidéo détaillée elle-même. Mais une fois que vous avez ces extractions, vous pouvez appliquer des règles d'apprentissage automatique et des analyses pour décider si vous devez agir dans un cas particulier ou si quelque chose s'est mal passé ou si vous avez la possibilité de faire une offre. Si, par exemple, vous avez un magasin à l'aéroport et que vous voyez ce client arriver et que vous savez par d'autres informations sur ce client, il s'est peut-être intéressé à acheter des articles dans la boutique hors taxes ou quelque chose comme ça, faites cette offre.

Alors, quel genre de choses voudrais-je dire par caractérisation et potentialisation? Par caractérisation, je veux dire, encore une fois, extraire les caractéristiques et les caractéristiques des données. Et cela peut être généré par la machine, ses algorithmes peuvent alors extraire, par exemple, des signatures biométriques à partir de vidéos ou d’analyses de sentiments. Vous pouvez extraire le sentiment des clients par le biais de revues en ligne ou de médias sociaux. Certaines de ces choses peuvent être générées par l’homme, de sorte que l’être humain, l’analyste métier, puisse extraire des fonctionnalités supplémentaires que je vais montrer dans la diapositive suivante.

Certains d'entre eux peuvent être crowdsourced. Et grâce à la recherche participative, il y a beaucoup de façons différentes de penser à cela. Mais très simplement, par exemple, vos utilisateurs accèdent à votre site Web et insèrent des mots de recherche, des mots-clés. Ils se retrouvent ensuite sur une page donnée et y passent du temps. Qu’ils comprennent, au moins, qu’ils consultent, consultent ou cliquent sur des éléments de cette page. Ce qui vous dit, c'est que le mot-clé entré au tout début est le descripteur de cette page, car il a renvoyé le client sur la page qu'il anticipait. Et pour que vous puissiez ajouter cette information supplémentaire, les clients qui utilisent ce mot clé ont effectivement identifié cette page Web dans notre architecture d'informations comme étant l'emplacement où le contenu correspond à ce mot clé.

Le crowdsourcing est donc un autre aspect que les gens oublient parfois, comme le suivi de la chapelure de vos clients, pour ainsi dire; comment se déplacent-ils dans leur espace, qu’il s’agisse d’un bien en ligne ou d’un bien immobilier. Et ensuite, utilisez ce type de chemin que le client prend comme information supplémentaire sur les choses que nous examinons.

Donc, je veux dire que les choses générées par l'homme, ou générées par la machine, finissaient par avoir une sorte de con annotation ou de marquage de granules ou d'entités de données spécifiques. Que ces entités soient des patients en milieu hospitalier, des clients ou autre. Et donc, il existe différents types de marquage et d'annotations. Une partie de cela concerne les données elles-mêmes. C’est l’une des choses, quel type d’information, quel type d’information, quelles sont les caractéristiques, les formes, peut-être les motifs et les motifs, les anomalies, les comportements sans anomalie. Ensuite, extrayez une sémantique, c’est-à-dire en quoi cela se rapporte-t-il à d’autres choses que je connais, ou que ce client est un client de l’électronique. Ce client est un client de vêtements. Ou ce client aime acheter de la musique.

Donc, en identifiant certaines sémantiques à ce sujet, ces clients qui aiment la musique ont tendance à aimer le divertissement. Peut-être pourrions-nous leur offrir une autre propriété de divertissement. Donc, comprendre la sémantique et aussi une certaine provenance, qui dit en gros: d’où vient-il, qui a fourni cette affirmation, à quelle heure, à quelle date, dans quelles circonstances?

Donc, une fois que vous avez toutes ces annotations et caractérisations, ajoutez-y ensuite l'étape suivante, qui consiste à déterminer qui, quoi, quand, où et pourquoi. Qui est l'utilisateur? Quelle était la chaîne sur laquelle ils sont entrés? Quelle était la source de l'information? Quel type de réutilisation avons-nous vu dans cette information ou ce produit de données? Et quelle est, en quelque sorte, une valeur dans le processus métier? Et ensuite, collectez ces éléments et gérez-les, et aidez réellement à créer une base de données, si vous voulez y penser de cette façon. Rendez-les consultables, réutilisables, par d’autres analystes métier ou par un processus automatisé qui, lors de la prochaine utilisation de ces ensembles de fonctionnalités, permettra au système de prendre cette mesure automatique. Nous obtenons donc ce type d’efficacité analytique opérationnelle, mais plus nous collectons des informations utiles et complètes, puis nous les conservons pour ces cas d’utilisation.

Nous nous mettons au travail. Nous faisons l'analyse des données. Nous recherchons des modèles intéressants, des surprises, des valeurs aberrantes, des anomalies. Nous recherchons les nouvelles classes et segments de la population. Nous recherchons des associations, des corrélations et des liens entre les différentes entités. Et ensuite, nous utilisons tout cela pour piloter notre processus de découverte, de décision et d’argent.

Nous avons donc la dernière diapositive de données que je résume. En résumé, nous tenons à garder l’analyste métier au courant. Encore une fois, vous n’extrayez pas cet humain et c’est important de le garder.

Ces fonctionnalités sont donc toutes fournies par des machines, par des analystes humains ou même par le crowdsourcing. Nous appliquons cette combinaison pour améliorer nos formations pour nos modèles et aboutissons à des modèles prédictifs plus précis, moins de faux positifs et négatifs, un comportement plus efficace, des interventions plus efficaces auprès de nos clients ou de quiconque.

Ainsi, en fin de compte, nous combinons réellement l'apprentissage machine et les mégadonnées avec ce pouvoir de la cognition humaine, qui est à l'origine de ce type d'annotation de marquage. Et cela peut mener à la visualisation et au type d'analyse visuelle. outils ou environnements de données immersifs ou crowdsourcing. Et, au bout du compte, cela génère réellement notre découverte, nos idées et notre D2D. Et ce sont mes commentaires, alors merci d'avoir écouté.

Eric: Hé ça sonne bien et laisse-moi aller de l'avant et remettre les clés au Dr Robin Bloor pour lui donner son point de vue également. Oui, j'aime entendre vos commentaires sur ce concept de rationalisation des opérations et sur l’analyse opérationnelle. Je pense que c'est un grand domaine qui doit être exploré de manière assez approfondie. Et je suppose que, très vite avant Robin, je vous ramènerai, Kirk. Cela nécessite une collaboration assez importante entre les différents acteurs de l'entreprise, n'est-ce pas? Vous devez parler aux gens des opérations; vous devez avoir vos techniciens. Parfois, vous obtenez votre personnel de marketing ou votre personnel d'interface Web. Ce sont généralement des groupes différents. Avez-vous des bonnes pratiques ou des suggestions sur la manière de faire en sorte que tout le monde se mette au jeu?

Dr Kirk: Eh bien, je pense que cela vient avec la culture d'entreprise de la collaboration. En fait, je parle des trois C de la culture analytique. L'un est la créativité; un autre est la curiosité et le troisième est la collaboration. Vous voulez donc des personnes créatives et sérieuses, mais vous devez également les faire collaborer. Et cela commence vraiment par le haut, ce genre de construction de cette culture avec des personnes qui devraient partager ouvertement et travailler ensemble vers les objectifs communs de l'entreprise.

Eric: Tout a du sens. Et il faut vraiment avoir un bon leadership au sommet pour que cela se produise. Alors allons-y et donnons-le à M. Bloor. Robin, la parole est à vous.

Dr Robin Bloor: D'accord. Merci pour cette intro, Eric. D'accord, la façon dont cela se passe, ça se voit, parce que nous avons deux analystes; Je peux voir la présentation de l’analyste que les autres gars ne font pas. Je savais ce que Kirk allait dire et je prends un angle complètement différent pour éviter les chevauchements.

Donc, ce dont je parle ou ai l’intention de parler ici est le rôle de l’analyste de données par rapport au rôle de l’analyste commercial. Et la façon dont je le caractérise, eh bien, pince-sans-rire dans une certaine mesure, est un peu triste de Jekyll et Hyde. La différence étant que les scientifiques de données, du moins en théorie, savent ce qu’ils font. Bien que les analystes commerciaux ne le soient pas, je suis d'accord avec la façon dont fonctionnent les mathématiques, de quoi on peut avoir confiance et de ce qui ne peut pas être fait.

Voyons maintenant la raison pour laquelle nous le faisons, la raison pour laquelle l’analyse de données est soudainement devenue un gros problème en plus du fait que nous pouvons analyser de très grandes quantités de données et extraire des données de l’organisation externe; c'est payant La façon dont je vois la situation - et je pense que cela ne fait que commencer, mais je pense vraiment que c’est un cas - l’analyse de données, c’est vraiment de la R & D des entreprises. D'une manière ou d'une autre, l'analyse des données a trait à un processus commercial, qu'il s'agisse d'une interaction avec un client, de la manière dont votre activité de vente au détail, de la manière dont vous déployez vos magasins. Le problème n’importe pas vraiment. Vous examinez un processus métier donné et vous essayez de l’améliorer.

Le résultat de la recherche et du développement réussis est un processus de changement. Et vous pouvez penser à la fabrication, si vous voulez, comme un exemple habituel. Parce que dans le secteur manufacturier, les gens rassemblent des informations sur tout pour essayer d'améliorer le processus de fabrication. Mais je pense que ce qui s’est passé ou ce qui se passe avec le Big Data, c’est que tout cela est maintenant appliqué à toutes les entreprises de toutes sortes et de toutes les manières que tout le monde puisse imaginer. Donc, à peu près tout processus métier doit être examiné si vous pouvez collecter des données à ce sujet.

Donc c’est une chose. Si vous voulez, cela concerne la question de l’analyse des données. Que peut faire l'analyse de données pour l'entreprise? Eh bien, cela peut complètement changer l’entreprise.

Ce diagramme particulier que je ne vais pas décrire en détail, mais c’est un diagramme que nous avons conçu comme l’aboutissement du projet de recherche que nous avons mené au cours des six premiers mois de cette année. C'est une manière de représenter une architecture big data. Et un certain nombre de choses qui méritent d'être soulignées avant de passer à la diapositive suivante. Il y a deux flux de données ici. L'un est un flux de données en temps réel, qui se situe en haut du diagramme. L'autre est un flux de données plus lent qui se trouve au bas du diagramme.

Regardez au bas du diagramme. Hadoop est un réservoir de données. Nous avons différentes bases de données. Nous disposons de nombreuses données et de nombreuses activités, principalement analytiques.

Ce que je veux dire ici et ce que je veux vraiment dire, c’est que la technologie est difficile. Ce n’est pas simple. Ce n'est pas facile. Ce n’est pas quelque chose que tout débutant dans le jeu peut réellement assembler. C'est assez complexe. Et si vous voulez inciter une entreprise à effectuer des analyses fiables à travers tous ces processus, il ne s’agira pas d’une chose qui se produira de manière particulièrement rapide. Il faudra beaucoup de technologie pour s’ajouter.

D'accord. La question de savoir ce qu'est un informaticien, je pourrais prétendre être un informaticien, car j'avais déjà suivi une formation en statistique avant même d'avoir suivi une formation en informatique. Et j'ai travaillé dans le domaine de l'actuariat pendant un certain temps, alors je connais la manière dont une entreprise organise, l'analyse statistique, afin de pouvoir fonctionner de manière autonome. Ce n'est pas une chose banale. Et il y a énormément de bonnes pratiques impliquées à la fois du côté humain et du côté de la technologie.

Alors, en posant la question "qu’est un scientifique," j’ai posé la question de Frankenstein simplement parce que c’est une combinaison de choses qui doivent être unies. Il y a une gestion de projet impliquée. Il y a une compréhension profonde dans les statistiques. Il existe une expertise métier dans le domaine, qui pose nécessairement plus de problèmes d'analyste métier que de spécialiste des données. L’expérience ou la nécessité de comprendre l’architecture des données et de pouvoir construire un architecte de données et l’ingénierie logicielle impliquée. En d’autres termes, c’est probablement une équipe. Ce n’est probablement pas un individu. Et cela signifie que c’est probablement un département qui doit être organisé et que son organisation doit être suffisamment réfléchie.

Jeter dans le mélange le fait de l'apprentissage automatique. L’apprentissage automatique n’est pas une nouveauté, en ce sens que la plupart des techniques statistiques utilisées dans cet apprentissage sont connues depuis des décennies. Il y a quelques nouveautés, les réseaux de neurones sont relativement nouveaux, je pense qu’ils n’ont que 20 ans, alors certains sont relativement nouveaux. Mais le problème avec l’apprentissage automatique, c’est que nous n’avions pas réellement la puissance informatique pour le faire. Et ce qui s’est passé, mis à part toute autre chose, c’est que l’alimentation de l’ordinateur est maintenant en place. Et cela signifie beaucoup de ce que, disons, les scientifiques de données ont déjà fait en termes de situations de modélisation, d’échantillonnage de données, puis de leur organisation afin de produire une analyse plus approfondie des données. En fait, nous pouvons simplement utiliser l’alimentation électrique dans certains cas. Choisissez simplement des algorithmes d’apprentissage automatique, jetez-le sur les données et voyez ce qui en sort. Et c'est quelque chose qu'un analyste commercial peut faire, n'est-ce pas? Mais l’analyste métier doit comprendre ce qu’il fait. Je veux dire, je pense que c’est là le problème, plus que toute autre chose.

Eh bien, ceci est juste pour en savoir plus sur les affaires de ses données que par tout autre moyen. Einstein n’a pas dit ça, j’ai dit ça. Je viens de mettre sa photo en place pour la crédibilité. Mais la situation commence réellement à se développer et la technologie, si elle est utilisée correctement, et les mathématiques, si elles sont utilisées correctement, seront en mesure de gérer une entreprise en tant que personne. Nous avons regardé cela avec IBM. Tout d’abord, il pourrait battre les meilleurs joueurs aux échecs, puis les meilleurs joueurs de Jeopardy; mais à terme, nous pourrons battre les meilleurs joueurs à la tête d’une entreprise. Les statistiques finiront par triompher. Et il est difficile de voir comment cela ne se produira pas, cela n’est pas encore arrivé.

Donc, ce que je dis, et c’est en quelque sorte complet de ma présentation, ce sont ces deux problèmes de l’entreprise. La première est la suivante: pouvez-vous utiliser la technologie correctement? Pouvez-vous mettre la technologie au service de l’équipe qui sera en mesure de la présider et d’obtenir des avantages pour l’entreprise? Et ensuite, pouvez-vous obtenir le droit des gens? Et les deux sont des problèmes. Et ce sont des problèmes qui ne sont pas, à ce jour, ils sont résolus.

Ok Eric, je vais te le transmettre. Ou je devrais peut-être le transmettre à Will.

Eric: En fait, oui. Merci, Will Gorman. Ouais, voilà, Will. Alors voyons. Laissez-moi vous donner la clé du WebEx. Alors qu'est-ce que tu as? Pentaho, évidemment, vous êtes présents depuis un certain temps et vous êtes un peu à l’origine de la BI open source. Mais vous en avez beaucoup plus que d’habitude, voyons ce que vous avez obtenu de nos jours pour l’analyse.

Will Gorman: Absolument. Salut tout le monde! Je m'appelle Will Gorman. Je suis l’architecte en chef de Pentaho. Pour ceux d’entre vous qui n’ont pas entendu parler de nous, je viens de mentionner que Pentaho est une grande entreprise d’intégration et d’analyse de données. Nous sommes dans le métier depuis dix ans. Nos produits ont évolué parallèlement à la communauté du Big Data. Ils ont commencé par être une plate-forme open source d'intégration et d'analyse de données, innovant avec des technologies telles que Hadoop et NoSQL avant même que des entités commerciales ne se forment autour de ces technologies. Et nous avons maintenant plus de 1500 clients commerciaux et de nombreux autres rendez-vous de production grâce à notre innovation autour de l'open source.

Notre architecture est hautement intégrable et extensible. Elle a été conçue pour être flexible, car la technologie Big Data évolue très rapidement. Pentaho propose trois principaux domaines de produits qui travaillent ensemble pour résoudre les cas d'utilisation de l'analyse de données volumineuses.

Le premier produit dans l'étendue de notre architecture est Pentaho Data Integration, destiné aux technologues et ingénieurs en données. Ce produit offre une expérience visuelle par glisser-déposer permettant de définir des pipelines de données et des processus permettant d'orchestrer des données dans des environnements Big Data et des environnements traditionnels. Ce produit est une plate-forme d’intégration de données légère, métadatabase, construite sur Java et pouvant être déployée en tant que processus dans MapReduce ou YARN ou Storm et de nombreuses autres plates-formes de traitement par lots et en temps réel.

Notre deuxième domaine de produits concerne l’analyse visuelle. Grâce à cette technologie, les entreprises et les équipementiers peuvent offrir aux analystes et aux utilisateurs professionnels une riche expérience de visualisation et d’analyse par glisser-déposer via des navigateurs et des tablettes modernes, permettant ainsi la création ad hoc de rapports et de tableaux de bord. Ainsi que la présentation de tableaux de bord et de rapports au pixel près.

Notre troisième domaine de produits est axé sur l'analyse prédictive ciblant les informaticiens, les algorithmes d'apprentissage automatique. Comme mentionné précédemment, les réseaux de neurones et autres peuvent être intégrés à un environnement de transformation de données, permettant ainsi aux scientifiques de passer de la modélisation à l'environnement de production, en donnant accès à des prévisions et pouvant avoir une incidence très immédiate sur les processus métier.

Tous ces produits sont étroitement intégrés dans une seule expérience agile et donnent à nos entreprises clientes la flexibilité dont elles ont besoin pour résoudre leurs problèmes d’entreprise. Nous observons un paysage en rapide évolution de mégadonnées dans les technologies traditionnelles. Tout ce que nous avons entendu de la part d’entreprises du secteur des gros volumes de données que l’EDW touche à sa fin. En fait, ce que nous voyons chez nos entreprises clientes, c’est qu’elles ont besoin d’introduire le big data dans les processus commerciaux et informatiques existants, sans les remplacer.

Ce diagramme simple montre le point que nous voyons souvent dans l'architecture, qui est un type d'architecture de déploiement EDW avec intégration de données et cas d'utilisation de la BI. Désormais, ce diagramme est similaire à la diapositive de Robin sur l’architecture Big Data, il intègre des données en temps réel et historiques. À mesure que de nouvelles sources de données et de nouveaux besoins en temps réel apparaissent, nous considérons le big data comme un élément supplémentaire de l’architecture informatique globale. Ces nouvelles sources de données incluent les données générées par la machine, les données non structurées, le volume et la vitesse standard et la diversité des exigences évoquées dans le Big Data; ils ne rentrent pas dans les processus EDW traditionnels. Pentaho travaille en étroite collaboration avec Hadoop et NoSQL pour simplifier l'ingestion, le traitement des données et la visualisation de ces données, ainsi que pour fusionner ces données avec des sources traditionnelles afin de donner aux clients une vue complète de leur environnement de données. Nous le faisons de manière réglementée afin que le service informatique puisse offrir une solution d'analyse complète à leur secteur d'activité.

En terminant, j'aimerais souligner notre philosophie en matière d'analyse et d'intégration Big Data; nous pensons que ces technologies fonctionnent mieux ensemble avec une seule architecture unifiée, ce qui permet un certain nombre de cas d'utilisation qui seraient autrement impossibles. Les environnements de données de nos clients ne se limitent pas aux big data, Hadoop et NoSQL. Toutes les données sont un jeu juste. Et les sources de données volumineuses doivent être disponibles et travailler ensemble pour avoir une incidence sur la valeur commerciale.

Enfin, nous pensons que pour résoudre ces problèmes métier de manière très efficace dans les entreprises par le biais des données, les services informatiques et les secteurs d’activité doivent travailler ensemble sur une approche gouvernée et combinée de l’analyse des données volumineuses. Merci beaucoup de nous avoir laissé le temps de parler, Eric.

Eric: Tu parles. Non, c’est bien. Je veux revenir à cet aspect de votre architecture, comme nous en arrivons aux questions-réponses. Voyons maintenant le reste de la présentation et merci beaucoup pour cela. Vous avez certainement évolué rapidement ces deux dernières années, je dois le dire avec certitude.

Alors Steve, laisse-moi aller de l'avant et te le remettre. Et cliquez simplement sur la flèche vers le bas et allez-y. Alors Steve, je te donne les clés. Steve Wilkes, il suffit de cliquer sur la flèche la plus éloignée sur votre clavier.

Steve Wilkes: Nous y voilà.

Eric: Voilà.

Steve: C’est une excellente introduction que vous m’avez donnée.

Eric: Ouais.

Steve: Je suis donc Steve Wilkes. Je suis le CCO de WebAction. Nous ne sommes présents que depuis quelques années et nous progressons aussi très rapidement depuis. WebAction est une plateforme d'analyse de données volumineuses en temps réel. Eric a mentionné plus tôt l'importance du temps réel et du temps réel de vos applications. Notre plateforme est conçue pour créer des applications en temps réel. Et pour permettre à la prochaine génération d’applications basées sur les données de pouvoir être générées de manière incrémentielle et aux utilisateurs de créer des tableaux de bord à partir des données générées à partir de ces applications, mais en se concentrant sur le temps réel.

Notre plate-forme est en fait une plate-forme complète de bout en bout, allant de l'acquisition de données au traitement de données, en passant par la visualisation de données. Et permet à différents types de personnes au sein de notre entreprise de travailler ensemble pour créer de véritables applications en temps réel, en leur donnant un aperçu des événements qui se produisent dans leur entreprise.

Et ceci est un peu différent de ce que la plupart des gens ont vu dans le Big Data, de sorte que l'approche traditionnelle - et bien, traditionnelle des deux dernières années - avec l'approche du Big Data a été de capturer le tout à partir de différentes sources et puis empilez-le dans un grand réservoir ou un lac ou ce que vous voulez appeler. Et puis traitez-le lorsque vous devez exécuter une requête à ce sujet; exécuter une analyse historique à grande échelle ou même simplement une requête ad hoc de grandes quantités de données. Maintenant, cela fonctionne pour certains cas d'utilisation. Mais si vous voulez être proactif dans votre entreprise, si vous voulez vraiment être informé de ce qui se passe plutôt que de savoir quand quelque chose ne va pas, vers la fin de la journée ou la fin de la semaine, vous devez vraiment agir. en temps réel.

Et cela change un peu les choses. Cela déplace le traitement au milieu. Vous exploitez donc efficacement les flux de données volumineux générés en permanence au sein de l'entreprise et vous les traitez au fur et à mesure. Et comme vous le traitez au fur et à mesure, vous n’avez pas besoin de tout stocker. Vous pouvez simplement stocker les informations importantes ou les éléments dont vous avez besoin pour vous souvenir de ce qui s'est réellement passé. Par conséquent, si vous suivez la position GPS des véhicules circulant sur la route, vous ne vous souciez pas vraiment de savoir où ils se trouvent toutes les secondes, vous n’avez pas besoin de les stocker à chaque seconde. Vous avez juste besoin de vous soucier, ont-ils quitté cet endroit? Sont-ils arrivés à cet endroit? Ont-ils conduit ou non l'autoroute?

Il est donc très important de prendre en compte le fait que plus les données sont générées, plus les trois valeurs. Velocity détermine essentiellement la quantité de données générée chaque jour. Plus il y a de données générées, plus vous devez stocker. Et plus vous devez stocker, plus le traitement est long. Mais si vous pouvez le traiter au fur et à mesure, vous en retirez un avantage considérable et vous pouvez réagir à cela. On peut vous dire que des choses se passent plutôt que de devoir les rechercher plus tard.

Notre plate-forme est donc conçue pour être hautement évolutive. Il comporte trois pièces principales: la pièce d’acquisition, la pièce de traitement, puis les pièces de visualisation de livraison de la plate-forme. Du côté des acquisitions, nous ne cherchons pas uniquement des données de journal générées par une machine, telles que des journaux Web ou des applications, qui contiennent tous les autres journaux générés. Nous pouvons également entrer et modifier la saisie de données à partir de bases de données. Pour que cela nous permette essentiellement, nous avons vu le côté ETL présenté par Will et l’ETL traditionnel, vous devez exécuter des requêtes sur les bases de données. On peut nous dire quand les choses se passent dans la base de données. Nous le changeons et nous le capturons et recevons ces événements. Et puis, il y a évidemment les flux sociaux et les données de périphérique en direct qui vous sont acheminés via des sockets TCP ou ACDP.

Il existe une multitude de façons différentes d’obtenir des données. Et en parlant de volume et de vélocité, nous voyons des volumes représentant des milliards d’événements par jour, n’est-ce pas? Donc, il y a de grandes quantités de données qui arrivent et qui doivent être traitées.

Cela est traité par un cluster de nos serveurs. Les serveurs ont tous la même architecture et sont tous capables de faire la même chose. Mais vous pouvez les configurer pour, en quelque sorte, faire différentes choses. Et au sein des serveurs, nous avons une couche de traitement de requêtes à haute vitesse qui vous permet d’effectuer des analyses en temps réel sur les données, de les enrichir, de faire la corrélation d’événements, de suivre les événements se produisant dans des fenêtres temporelles, de faire des prévisions. des analyses basées sur les modèles observés dans les données. Et ces données peuvent ensuite être stockées dans divers endroits: le SGBDR traditionnel, l’entrepôt de données d’entreprise, Hadoop, l’infrastructure Big Data.

Et les mêmes données en direct peuvent également être utilisées pour alimenter des applications basées sur des données en temps réel. Ces applications peuvent avoir une vue en temps réel de ce qui se passe et les gens peuvent également être alertés lorsque des événements importants se produisent. Donc, plutôt que d’être obligé d’aller à la fin de la journée et de découvrir que quelque chose de grave s’est réellement passé plus tôt dans la journée, vous pouvez en être averti dès que nous le repérons et la page suivante apparaît immédiatement. passe.

Cela change donc complètement le paradigme de devoir analyser les données après coup et de se faire dire quand des choses intéressantes se produisent. Et notre plate-forme peut ensuite être utilisée pour créer des applications basées sur les données. Et c’est vraiment là que nous nous concentrons, nous construisons ces applications. Pour les clients, avec les clients, avec une variété de partenaires différents pour montrer la valeur réelle de l'analyse de données en temps réel. Ainsi, les personnes ou les entreprises qui réalisent des applications de site, par exemple, peuvent suivre l'utilisation du client dans le temps et s'assurer de la qualité du service, détecter les fraudes ou le blanchiment d'argent en temps réel, identifier plusieurs connexions Les tentatives de piratage et ce type d’événements de sécurité, pour gérer des choses telles que les décodeurs ou d’autres périphériques, les guichets automatiques pour les surveiller en temps réel afin de détecter les défaillances, des défaillances survenues, susceptibles de se produire, se produiront à l’avenir, sur la base d’une analyse prédictive. Et cela nous ramène au point de rationalisation des opérations évoqué plus tôt par Eric, pour pouvoir repérer tout ce qui va se passer et organiser votre entreprise pour y remédier plutôt que de devoir faire appel à quelqu'un pour qu'il fasse quelque chose après coup, c'est-à-dire beaucoup plus cher.

L’analyse de la consommation est un autre élément permettant de savoir quand un client fait quelque chose alors qu’il est toujours dans votre magasin. Les données envoyées à la direction permettent de surveiller en temps réel l'utilisation des ressources et de modifier leur fonctionnement et de savoir quand les choses vont échouer beaucoup plus rapidement.

En bref, c’est ce qui caractérise nos produits et je suis sûr que nous reviendrons sur certaines de ces questions lors de la session de questions-réponses. Je vous remercie.

Eric: Oui, en effet. Bon travail. D'accord, bien. Et maintenant, la prochaine étape de notre tour éclair: Frank Sanders appelle de MarkLogic. Je connais ces gars depuis plusieurs années, une technologie de base de données très, très intéressante. Alors Frank, je vous le confie. Il suffit de cliquer n'importe où dans cela. Utilisez la flèche vers le bas de votre clavier et vous êtes prêt pour les courses. Voilà.

Frank Sanders: Merci beaucoup, Eric. Comme Eric l’a mentionné, je travaille pour une société appelée MarkLogic. Et MarkLogic fournit une base de données d'entreprise NoSQL. Et peut-être que la capacité la plus importante que nous apportons à la table à cet égard est la capacité de rassembler toutes ces sources d'informations disparates afin d'analyser, de rechercher et d'utiliser ces informations dans un système similaire à celui que vous utilisez. habitué avec les systèmes relationnels traditionnels, non?

Et certaines des fonctionnalités clés que nous apportons à la table à cet égard sont toutes les fonctionnalités d'entreprise que vous attendez d'un système de gestion de base de données traditionnel, votre sécurité, votre haute disponibilité, votre DR, votre sauvegarde, votre ressource. transactions. Ainsi que la conception qui vous permet d'évoluer sur le cloud ou dans le matériel standard afin que vous puissiez gérer le volume et la rapidité des informations que vous allez devoir gérer afin de construire et d'analyser ce type d'information.

Et peut-être que la capacité la plus importante est le fait que nous sommes agnostiques. Cela signifie pratiquement que vous n’avez pas à décider à quoi ressembleront vos données lorsque vous commencez à créer vos applications ou à rassembler ces informations. Mais avec le temps, vous pouvez incorporer de nouvelles sources de données, extraire des informations supplémentaires, puis utiliser un effet de levier, interroger et analyser ces informations, comme vous le feriez pour tout ce qui existait depuis le début de la conception. D'accord?

Alors, comment faisons-nous cela? Comment pouvons-nous vous permettre de charger différentes sortes d’informations, qu’il s’agisse de triplets RDF, de données géospatiales, de données temporelles, de données structurées et de valeurs ou de fichiers binaires? Et la réponse est que nous avons construit notre serveur à partir de la base pour incorporer une technologie de recherche qui vous permet de stocker des informations et que ces informations se décrivent elles-mêmes et vous permet de rechercher, de récupérer et de rechercher ces informations, quelle que soit leur source ou leur format. .

Et ce que cela signifie concrètement - et pourquoi cela est important lorsque vous faites une analyse - est-ce que l’analyse et l’information sont les plus importantes quand elles sont correctement conualisées et ciblées, non? La recherche est donc un élément clé très important de tout type d’analyse, l’analyse de la recherche étant l’essentiel. Vous ne pouvez pas vraiment avoir l'un sans l'autre et réussir à atteindre ce que vous vous êtes fixé. Droite?

Et je vais parler brièvement de trois cas et demi d’utilisations de clients en production utilisant MarkLogic pour ce type d’analyse. D'accord. Le premier client est donc le comté de Fairfax. Et le comté de Fairfax a en fait construit deux applications distinctes. L'un est basé sur les permis et la gestion de la propriété. Et l’autre, qui est probablement un peu plus intéressant, est l’application des événements de la police du comté de Fairfax. L'application d'événements de police rassemble des informations telles que des rapports de police, des plaintes et des rapports de citoyens, des tweets, d'autres informations telles que des délinquants sexuels et toute autre information à laquelle ils ont accès d'autres agences et sources. Ensuite, ils leur permettent de visualiser cela et de le présenter aux citoyens afin qu'ils puissent effectuer des recherches et examiner diverses activités criminelles, activités de police, tout au long d'un index géospatial unifié, n'est-ce pas? Vous pouvez donc poser des questions telles que "Quel est le taux de criminalité dans un rayon de cinq milles" ou "Quels crimes ont été commis dans un rayon de cinq milles de ma position?" D'accord.

Nous avons un autre utilisateur, un autre client, l’OCDE. L’importance de l’OCDE dans cette conversation tient au fait qu’en plus de tout ce que nous avons permis au comté de Fairfax de rassembler des informations, n’est-ce pas? toutes les informations que vous obtiendriez des différents pays membres de l’OCDE dont ils rendent compte du point de vue économique. En fait, nous avons lancé un exercice de ciblage dans ce domaine, non Ainsi, vous pouvez voir sur la gauche que nous considérons le Danemark plus précisément et que vous pouvez voir un pétale de fleur au-dessus de celui-ci qui le note sur différents axes. Droite? Et c’est très bien. Mais ce que l’OCDE a fait, c’est qu’ils sont allés encore plus loin.

En plus de ces superbes visualisations et de la synthèse de toutes ces informations, elles vous permettent en réalité de créer votre propre meilleur indice de vie, à droite, que vous pouvez voir à droite. Vous avez donc un ensemble de curseurs qui vous permettent de définir l’importance du logement pour vous, votre revenu, votre emploi, votre communauté, votre éducation, votre environnement, votre engagement civique, votre santé, votre satisfaction de vivre, votre sécurité et votre travail. /équilibre de vie. Et dynamiquement, en fonction de la manière dont vous saisissez et pondérez ces informations, MarkLogic utilise sa capacité d'indexation en temps réel et sa fonction de requête pour modifier le classement de chacun de ces pays afin de vous donner une idée de la qualité de votre pays ou vos cartes de mode de vie à travers un pays donné. D'accord?

Et le dernier exemple que je vais partager est MarkMail. Et ce que MarkMail essaie vraiment de démontrer, c’est que nous pouvons fournir ces fonctionnalités et que vous pouvez effectuer ce type d’analyse non seulement sur des informations structurées ou des informations arrivant sous forme numérique, mais également sur des informations moins structurées et non structurées, non? Des choses comme s. Et ce que nous avons vu ici, c’est que nous extrayons des informations telles que la géolocalisation, la société, des piles et des concepts tels que Hadoop, qui sont mentionnés dans le con d'un, puis que nous les visualisons sur la carte et que nous cherchons qui sont ces personnes et quoi. liste à travers cela, un envoyé et une date. Il s’agit de choses qui ne sont généralement pas structurées, qui peuvent être vaguement structurées, mais qui sont toujours capables de tirer une analyse structurée de cette information sans avoir à s’efforcer de la structurer ou de la traiter de manière approfondie. un temps. Et c'est tout.

Eric: Hé, d'accord, d'accord. Et nous en avons un de plus. Nous avons Hannah Smalltree de Treasure Data, une entreprise très intéressante. Et cela fait beaucoup de très bon contenu, les gars. Merci beaucoup à vous tous pour avoir apporté de si bonnes diapositives et de si bons détails. Alors Hannah, je viens de vous donner les clés, cliquez n'importe où et utilisez la flèche vers le bas de votre clavier. Tu l'as eu. Emportez-le.

Hannah Smalltree: Merci beaucoup, Eric. C'est Hannah Smalltree de Treasure Data. Je suis réalisateur chez Treasure Data, mais j’ai un passé de journaliste technique, ce qui signifie que j’apprécie deux choses. Tout d'abord, il peut être long de passer en revue de nombreuses descriptions différentes de la technologie, et tout cela peut sembler aller de pair, donc je veux vraiment me concentrer sur notre facteur de différenciation. Et les applications du monde réel sont vraiment importantes, alors j'apprécie que tous mes pairs se soient montrés très enthousiastes à cet égard.

Treasure Data est un nouveau type de service Big Data. Nous sommes entièrement livrés sur le cloud dans un logiciel en tant que modèle de service ou de service géré. Pour reprendre les propos de M. Bloor, cette technologie peut être très dure et prendre beaucoup de temps à mettre en route. Avec Treasure Data, vous pouvez obtenir très rapidement toutes ces fonctionnalités que vous pourriez obtenir dans un environnement Hadoop ou un environnement complexe sur site dans le cloud, ce qui est vraiment utile pour ces nouvelles initiatives Big Data.

Nous parlons maintenant de notre service en quelques phases différentes. Nous proposons des fonctionnalités de collecte tout à fait uniques pour la collecte de données en continu, notamment les données d'événement, d'autres types de données en temps réel. Nous parlerons un peu plus de ces types de données. C'est un facteur de différenciation important pour notre service. Lorsque vous entrez dans le Big Data ou si vous y êtes déjà, vous savez que la collecte de ces données n’est pas anodine. Quand vous pensez à une voiture avec 100 capteurs toutes les minutes, même ces 100 capteurs toutes les 10 minutes, cela s’ajoute très rapidement au fur et à mesure que vous commencez à multiplier le nombre de produits que vous avez sur le marché avec des capteurs et que cela devient rapidement très rapide. difficile à gérer. Nous parlons donc à des clients qui ont des millions, nous avons des clients qui ont des milliards de lignes de données par jour. Et ils le font comme une alternative pour essayer de gérer cela eux-mêmes dans une infrastructure compliquée d'Amazon ou même d'essayer de l'introduire dans leur propre environnement.

Nous avons notre propre environnement de stockage en nuage. Nous y arrivons. Nous surveillons cela. Nous avons une équipe de personnes qui fait tout ce réglage pour vous. Et donc les données entrent dans, elles vont dans notre environnement de stockage géré.

Nous avons ensuite intégré des moteurs de requête afin que votre analyste puisse exécuter des requêtes et effectuer une première découverte et une exploration des données. Nous avons actuellement deux moteurs de requête différents. Vous pouvez utiliser la syntaxe SQL, que vos analystes connaissent et qu’ils adorent probablement, pour effectuer certaines découvertes de base, effectuer des analyses plus complexes qui sont des fonctions définies par l’utilisateur ou même pour effectuer des opérations aussi simples que d’agréger ces données et de les réduire. vous pouvez l'introduire dans votre environnement d'entrepôt de données existant.

Vous pouvez également connecter vos outils de BI existants, votre Tableau, est un de nos grands partenaires. Cependant, la plupart des outils de BI, de visualisation ou d’analyse peuvent se connecter via nos pilotes JDBC et ODBC standard. Donc, il vous donne cet ensemble complet de capacités Big Data. Vous êtes autorisé à exporter gratuitement les résultats de vos requêtes ou vos ensembles de données, afin de pouvoir facilement intégrer ces données. Traitez cela comme une raffinerie de données. J'aime penser à cela plus comme une raffinerie que comme un lac parce que vous pouvez réellement faire des choses avec cela. Vous pouvez parcourir, trouver les informations précieuses, puis les intégrer dans vos processus d'entreprise.

Dans la diapositive suivante, nous parlons des trois V du Big Data - certaines personnes disent quatre ou cinq. Nos clients ont tendance à se débattre avec le volume et la rapidité des données qui leur parviennent. Et pour être plus précis sur les types de données - Clickstream, journaux d’accès Web, les données mobiles sont un vaste domaine pour nous, journaux d’applications mobiles, journaux d’applications d’applications Web personnalisées ou d’autres applications, journaux d’événements. Et de plus en plus, de nombreux clients traitent des données de capteurs, qu’il s’agisse d’appareils portables, de produits, de véhicules automobiles ou d’autres types de données de machine. Ainsi, lorsque je parle de Big Data, c’est le type de Big Data dont je parle.

Maintenant, quelques cas d'utilisation en perspective pour vous - nous travaillons avec un détaillant, un grand détaillant. Ils sont très connus en Asie. Ils sont en expansion ici aux États-Unis. Vous allez commencer à voir des magasins; ils s’appellent souvent Asian IKEA, donc leur design est simple. Ils ont une application de fidélité et un site web. Et en fait, en utilisant Treasure Data, ils ont pu déployer cette application de fidélité très rapidement. Nos clients sont opérationnels en quelques jours ou en quelques semaines à cause de notre logiciel et de notre architecture de service et parce que tous nos collaborateurs travaillent dur dans les coulisses pour vous offrir toutes ces capacités en tant que service.

Ils utilisent donc notre service d'analyse des applications mobiles pour analyser le comportement des utilisateurs, ce qu'ils cliquent dans leur application de fidélisation mobile. Ils examinent les clics du site Web et les combinent avec nos données de commerce électronique et de points de vente pour concevoir des promotions plus efficaces. En fait, ils voulaient amener les gens dans les magasins parce qu’ils trouvaient que quand ils vont dans les magasins, ils dépensent plus d’argent et je suis comme ça; pour ramasser des objets, vous dépensez plus d’argent.

Un autre cas d’utilisation que nous voyons dans les jeux vidéo numériques, une agilité incroyable. Ils veulent voir exactement ce qui se passe dans leur jeu et apporter des modifications à ce jeu même quelques heures après sa sortie. Donc, pour eux, cette vue en temps réel est extrêmement importante. Nous venons de publier un jeu mais nous avons remarqué dès la première heure que tout le monde se rendait au niveau 2; comment allons-nous changer cela? Ils pourraient changer cela dans la même journée. Donc, le temps réel est très important. Ils nous ingèrent des milliards de journaux d’événements par jour. Mais il pourrait s’agir de n’importe quel type d’application mobile offrant une vue en temps réel de la façon dont quelqu'un utilise cela.

Enfin, le comportement de nos produits et l’analyse des capteurs constituent un domaine important. Donc, avec les données de capteurs qui se trouvent dans les voitures, dans d’autres types de machines, les services publics, c’est un autre domaine pour nous, dans les appareils portables. Nos équipes de recherche et développement souhaitent connaître rapidement l’impact d’un changement de produit ou les personnes intéressées par le comportement de leurs interactions avec le produit. Et nous avons beaucoup plus de cas d’utilisation que, bien entendu, nous sommes heureux de partager avec vous.

Et pour finir, montrez simplement comment cela peut s’intégrer à votre environnement, nous offrons à nouveau la possibilité de collecter ces données. Nous avons une technologie de collecte unique. Encore une fois, si le problème de la collecte en temps réel vous préoccupe ou si vous prévoyez le faire, consultez le service Treasure Data. Nous avons vraiment développé des fonctionnalités de collecte de données en continu. Vous pouvez également charger vos données en bloc, les stocker, les analyser à l'aide de nos moteurs de requête intégrés, puis, comme je l'ai mentionné précédemment, les exporter directement vers votre entrepôt de données. Je pense que Will a mentionné la nécessité d'introduire le Big Data dans vos processus existants. Par conséquent, ne créez pas de nouveau silo, mais réduisez la taille de ces données, puis transférez-les dans votre entrepôt de données et connectez-vous à votre BI, à vos outils d'analyse et de visualisation avancés.

Mais peut-être que les points clés que je veux vous laisser sont que nous sommes un service géré, c’est le logiciel en tant que service; c’est très rentable. Un service d’abonnement mensuel débutant à quelques milliers de dollars par mois, nous allons vous permettre de démarrer en quelques jours ou quelques semaines. Comparez donc cela au coût de mois et de mois de construction de votre propre infrastructure et de l’embauche de ces personnes, de la trouver et de consacrer tout ce temps à l’infrastructure. Si vous faites des essais ou si vous avez besoin de quelque chose hier, vous pouvez être opérationnel très rapidement avec Treasure Data.

Et je vous indique simplement notre site Web et notre service de démarrage. Si vous êtes un amateur de jeux, consultez notre service de démarrage. Vous pouvez vous connecter sans carte de crédit, il vous suffit de nommer et de jouer avec nos exemples de données, de charger vos propres données et de vraiment avoir une idée de ce dont nous parlons. Alors merci beaucoup. Consultez également notre site Web. Nous avons été nommés Gartner Cool Vendor in Big Data cette année, très fiers de cela. Vous pouvez également obtenir gratuitement une copie de ce rapport sur notre site Web, ainsi que dans de nombreux autres livres blancs sur les analystes. Alors merci beaucoup.

Eric: D'accord, merci beaucoup. Nous avons un peu de temps pour les questions ici, les gars. Nous allons aussi aller un peu trop longtemps, car nous avons encore beaucoup de personnes en jeu ici. Et je sais que j’ai moi-même quelques questions, alors laissez-moi reprendre mon contrôle et je vais ensuite poser quelques questions. Robin et Kirk, n'hésitez pas à plonger comme bon vous semble.

Alors laissez-moi aller de l'avant et passer directement à l'une de ces premières diapositives que j'ai extraites de Pentaho. Alors, ici, j'aime cette architecture évolutive de données volumineuses, pouvez-vous dire en quelque sorte que c'est comme si ce genre de choses s'emboîtait dans une entreprise? Parce que de toute évidence, vous allez dans une organisation assez grande, même une entreprise de taille moyenne, et vous allez avoir des personnes qui ont déjà une partie de ce genre de choses; comment composez-vous tout cela ensemble? Comme à quoi ressemble l'application qui vous aide à assembler tout cela, et à quoi ressemble l'interface?

Will: Excellente question. Les interfaces sont différentes selon les personnes impliquées. Mais, à titre d'exemple, nous aimons raconter l'histoire - l'un des panélistes a mentionné le cas d'utilisation de la raffinerie de données - et nous le voyons souvent chez les clients.

L'un de nos exemples de clients dont nous parlons est Paytronix, où ils disposent de cet environnement de magasin de données EDW traditionnel. Ils introduisent également Hadoop, Cloudera en particulier, et avec diverses expériences d'utilisateurs. Donc, d’abord, il ya une expérience en ingénierie, alors comment raccorder toutes ces choses ensemble? Comment créez-vous le lien entre l'environnement Hadoop et EDW?

Et puis vous avez l'expérience utilisateur professionnel dont nous avons parlé, un certain nombre d'outils de BI, non? Pentaho dispose d'un outil de BI OEM plus intégrable, mais il existe d'excellents outils tels que Tableau et Excel, par exemple, dans lesquels les utilisateurs souhaitent explorer les données. Mais généralement, nous voulons nous assurer que les données sont gérées, non? L’une des questions abordées au cours des discussions a trait à l’expérience de la version unique, à la gestion de cette situation. Sans la technologie telle que l’intégration de données Pentaho, les données ne seront pas fusionnées, mais dans les environnements informatiques. Ainsi, il protège et régit réellement les données et permet une expérience unique pour l’analyste et les utilisateurs de l’entreprise.

Eric: D'accord, bien. C’est une bonne réponse à une question difficile, très franchement. Et permettez-moi de poser la question à chacun des présentateurs, puis à Robin et à Kirk, si vous souhaitez également intervenir. J'aimerais donc pousser cette diapositive pour WebAction qui, à mon avis, est vraiment une entreprise très intéressante. En fait, je connais aussi Sami Akbay, l'un des cofondateurs. Je me souviens de lui avoir parlé il y a quelques années et avoir dit: "Hé mec, que faites-vous? Que faites-vous en train de faire? Je sais que vous devez travailler sur quelque chose." Et bien sûr, il l'était. Il travaillait sur WebAction, sous les couvertures ici.

Une question est venue pour vous, Steve, alors je vais vous en parler, du nettoyage des données, non? Pouvez-vous parler de ces composants de cette capacité en temps réel? Comment gérez-vous des problèmes tels que le nettoyage des données ou la qualité des données ou comment cela fonctionne-t-il?

Steve: Donc, cela dépend vraiment de la source de vos flux. En règle générale, si vous récupérez vos flux dans une base de données au fur et à mesure que vous modifiez la capture de données, cela dépend de la manière dont les données ont été entrées. Le nettoyage des données devient vraiment un problème lorsque vous obtenez vos données à partir de plusieurs sources, que des personnes les saisissent manuellement ou que vous devez essayer d’obtenir des résultats arbitraires. Et cela pourrait certainement faire partie du processus, bien que ce type ne se prête tout simplement pas à un traitement réel, en quelque sorte, à grande vitesse et en temps réel. Le nettoyage des données est généralement un processus coûteux.

Il se peut donc que cela se fasse après coup sur le site du magasin. Mais la plate-forme est également très performante en corrélation, donc en corrélation et enrichissement des données. Vous pouvez, en temps réel, corréler les données entrantes et vérifier si elles correspondent à un certain modèle ou aux données extraites d'une base de données, de Hadoop ou d'un autre magasin. Vous pouvez donc le corréler avec les données historiques.

Vous pouvez également effectuer une analyse de ces données et voir si elles correspondent à certains modèles requis. Et c’est quelque chose que vous pouvez également faire en temps réel. Mais le type traditionnel de nettoyage des données, où vous corrigez les noms de sociétés ou les adresses, etc., devrait probablement être fait à la source ou après, ce qui coûte très cher et vous priez qu'ils ne les feront pas en temps réel.

Eric: Ouais. Et vous essayez vraiment de vous attaquer à la nature des choses en temps réel, mais également de faire venir les gens à temps. Et nous avons parlé, à droite, comme je l’ai mentionné en haut de l’heure, de toute cette fenêtre d’opportunité et que vous ciblez vraiment des applications spécifiques à des entreprises où vous pouvez rassembler des données qui ne suivent pas l’itinéraire habituel, optez pour cet itinéraire alternatif. dans une telle latence que vous pouvez garder des clients. Par exemple, vous pouvez rassurer les gens et c’est intéressant, quand j’ai longuement parlé à Sami de ce que vous faites, il a fait valoir un très bon point. Il a dit, si vous regardez beaucoup de nouvelles applications basées sur le Web; regardons des choses comme Bitly ou certaines de ces autres applications; Elles sont très différentes des anciennes applications que nous avons examinées, comme Microsoft Word, par exemple.

J'utilise souvent Microsoft comme une sorte de fouet et plus particulièrement Word pour parler de l'évolution des logiciels. Parce que Microsoft Word a commencé comme, bien sûr, un programme de traitement de texte. Je suis l’une de ces personnes qui se souvient de Word Perfect. J'aimais pouvoir faire les clés de révélation ou le code de révélation, en gros, c'est là que vous pouviez voir le code réel. Vous pouvez nettoyer quelque chose si votre liste à puces était fausse, vous pouvez la nettoyer. Eh bien, Word ne vous laisse pas faire cela. Et je peux vous dire que Word incorpore une montagne de code dans chaque page que vous faites. Si quelqu'un ne me croit pas, accédez à Microsoft Word, tapez "Hello World", puis "Exporter sous" ou "Enregistrer sous" .html. Ensuite, ouvrez ce document dans un éditeur et ce sera environ quatre pages de codes pour deux mots.

Alors, vous avez pensé que c’était très intéressant et qu’il était temps que nous en parlions. Et c’est sur cela que vous vous concentrez, c’est d’identifier ce que vous pourriez appeler des opportunités inter-plateformes, inter-entreprises ou inter-domaines pour rassembler des données en un temps si rapide que vous pourrez changer le jeu, non?

Steve: Oui, absolument. Et l’une des clés pour lesquelles vous avez, de toute façon, échappé, c’est que vous voulez vraiment savoir ce qui se passe avant que vos clients le fassent ou avant qu’ils ne deviennent réellement un problème. Par exemple, les décodeurs. Les boîtes de câbles, ils émettent la télémétrie tout le temps, charges et charges de télémétrie. Et pas seulement la santé de la boîte, mais c’est ce que vous regardez et ce genre de choses, non? En règle générale, vous attendez que la boîte échoue, puis vous appelez votre câblodistributeur et ils vous diront: "Eh bien, nous vous contacterons quelque temps entre 6 h et 23 h, pendant tout le mois de novembre." Ce n’est pas une très bonne expérience client.

Mais s’ils pouvaient analyser cette télémesure en temps réel, ils pourraient commencer à faire des choses comme celle-ci. Nous savons que ces boîtes risquent d’échouer dans les modèles historiques basés sur la semaine prochaine. Par conséquent, nous demanderons à notre réparateur de câbles de venir chez cette personne avant qu’il ne tombe en panne. Et nous le ferons d’une manière qui nous convient plutôt que de l’avoir de Santa Cruz à Sunnyvale. Nous allons tout planifier dans l’ordre, dans le modèle de vendeur voyageur, etc., afin d’optimiser notre activité. Et le client est content parce qu’il n’a pas de boîtier de câble défectueux. Et le câblodistributeur est content parce qu’il vient de rationaliser les choses et qu’il n’a pas de contacts avec les gens partout. C’est juste un exemple très rapide.Mais il existe de très nombreux exemples dans lesquels être au courant des événements tels qu'ils se produisent, avant même qu'ils ne se produisent, peut permettre aux entreprises d'économiser une fortune et d'améliorer réellement la relation avec leurs clients.

Eric: Oui, d'accord. Aucun doute là dessus. Continuons et passons à droite sur MarkLogic. Comme je l’ai dit plus tôt, je connais ces gars-là depuis assez longtemps et je vais donc vous en parler, Frank. Vous étiez bien en avance sur l’ensemble du mouvement des Big Data en termes de construction de votre application, c’est vraiment une base de données. Mais construisez-le et vous avez parlé de l'importance de la recherche.

Ainsi, beaucoup de personnes qui ont suivi le forum savent que de nombreux outils NoSQL exploitent actuellement les capacités de recherche, que ce soit par le biais de tiers ou en essayant de faire le leur. Mais avoir cette recherche déjà enchâssée dans cette affaire, cuite pour ainsi dire, est vraiment un gros problème. Parce que si vous y réfléchissez, si vous n’avez pas de code SQL, comment allez-vous chercher les données? Comment tirez-vous de cette ressource de données? Et la solution consiste généralement à utiliser la recherche pour obtenir les données que vous recherchez, non?

Je pense donc que c’est l’un des facteurs de différenciation clés pour vous, à part le fait de pouvoir extraire des données de toutes ces sources différentes et les stocker, ce qui facilite vraiment ce type d’environnement hybride. Je pense que la capacité de recherche est un gros problème pour vous, non?

Frank: Oui, absolument. En fait, c’est le seul moyen de résoudre le problème de manière cohérente lorsque vous ne savez pas à quoi ressembleront toutes les données, pas vrai? Si vous ne pouvez pas imaginer toutes les possibilités, le seul moyen de vous assurer que vous pouvez localiser toutes les informations souhaitées, de les localiser de manière cohérente et quelle que soit la façon dont vous modifiez votre modèle de données et vos ensembles de données est Assurez-vous de donner aux utilisateurs des outils génériques leur permettant d'interroger ces données. Et le moyen le plus simple et le plus intuitif de le faire consiste à utiliser un paradigme de recherche, n'est-ce pas? Et à travers la même approche dans la recherche prend où nous avons créé un index inversé. Vous avez des entrées dans lesquelles vous pouvez réellement consulter ces informations, puis trouver des enregistrements, des documents et des lignes contenant les informations que vous recherchez, pour les renvoyer au client et lui permettre de les traiter comme bon lui semble.

Eric: Oui, nous en avons beaucoup parlé, mais tu me donnes une très bonne occasion de creuser un peu - tout le côté recherche et découverte de cette équation. Mais d’abord, c’est très amusant. Pour ceux qui aiment ça, c'est la partie amusante, non? Mais je dois dire que le revers de la médaille ou le revers de la médaille est qu’il s’agit vraiment d’un processus itératif. Et vous devez être capable - ici, je vais utiliser une partie du langage marketing - d’avoir cette conversation avec les données, non? En d'autres termes, vous devez être capable de tester l'hypothèse, de la manipuler et de voir comment elle fonctionne. Peut-être que ce n’est pas là, tester quelque chose d’autre et changer constamment de choses, et itérer, rechercher, rechercher et penser à des choses. Et c’est un processus. Et si vous rencontrez de gros problèmes, comme de longues latences, une interface utilisateur difficile ou que vous devez aller demander au service informatique; cela tue toute l'expérience analytique, non?

Il est donc important de disposer de ce type de flexibilité et de pouvoir utiliser les recherches. Et j'aime bien la façon dont vous l'avez décrit ici, car si nous cherchons à rechercher différents concepts, clés ou clés, si vous voulez, des valeurs clés et leurs dimensions sont différentes. Vous voulez pouvoir mélanger et assortir ces éléments afin de permettre à votre analyste de trouver des éléments utiles, n'est-ce pas?

Frank: Oui, absolument. Je veux dire, la hiérarchie est aussi une chose importante, non? Ainsi, lorsque vous incluez quelque chose comme un titre, un droit, ou un terme ou une valeur spécifique, vous pouvez réellement indiquer le bon. Donc, si vous recherchez le titre d’un article, vous n’obtenez pas le titre d’un livre, non? Ou vous ne recevez pas de titres d'articles de blog. La capacité de faire la distinction entre ceux-ci et à travers la hiérarchie des informations est également importante.

Vous avez souligné plus tôt le développement, absolument, non? La possibilité pour nos clients d’obtenir de nouvelles sources de données en quelques heures, de commencer à travailler avec elles, de déterminer si elles sont utiles ou non, puis de continuer à les intégrer ou de les laisser de côté est extrêmement utile. Lorsque vous le comparez à une approche de développement d’applications plus traditionnelle, vous devez déterminer quelles données vous souhaitez ingérer, les extraire, déterminer comment vous allez les intégrer dans votre modèle de données existant. modélisez-le, changez ce modèle de données pour l’intégrer, puis commencez réellement le développement, non? Nous nous en prenons plutôt à la tête et disons simplement de nous l’apporter, de vous permettre de commencer à faire le développement avec cela, puis de décider plus tard si vous voulez ou non le conserver ou presque immédiatement si cela a une valeur ou non.

Eric: Oui, c’est un très bon point. C'est un bon point. Alors laissez-moi aller de l'avant et apporter notre quatrième présentateur ici, Treasure Data. Je adore ces gars. Je ne savais pas grand chose à leur sujet, alors je me suis un peu donné des coups. Et puis Hannah est venue nous voir et nous a dit ce qu’ils faisaient. Et Hannah a mentionné, elle était une personne des médias et elle est passée du côté obscur.

Hannah: Je l'ai fait, j'ai fait défection.

Eric: C’est bien, car vous savez ce que nous aimons dans le monde des médias. C’est donc toujours agréable quand un média se tourne vers le vendeur parce que vous comprenez, ce n’est pas si facile à articuler et il peut être difficile de déterminer à partir d’un site Web ce que fait exactement ce produit par rapport à ce qu’il fait. Et ce dont vous parlez est vraiment très intéressant. Vous êtes maintenant un service géré par le cloud. Ainsi, toutes les données que quelqu'un souhaite utiliser sont téléchargées sur votre nuage, est-ce exact? Et ensuite, vous utiliserez ETL ou CDC, des données supplémentaires jusqu'au cloud, est-ce ainsi que cela fonctionne?

Hannah: Et bien oui. Alors laissez-moi faire une distinction importante. La plupart des données, les mégadonnées, que nos clients nous fournissent sont déjà en dehors du pare-feu - les données mobiles, les données de capteurs contenues dans les produits. Nous sommes donc souvent utilisés comme zone de transit intermédiaire. Les données ne proviennent donc souvent pas de l’entreprise de quelqu'un, mais proviennent plutôt d’un site Web, d’une application mobile, d’un produit contenant de nombreux capteurs - dans notre environnement cloud.

Désormais, si vous souhaitez enrichir ces données massives dans notre environnement, vous pouvez certainement télécharger en masse des données d’application ou des données client pour les enrichir et effectuer davantage d’analyses directement dans le cloud. Cependant, notre valeur réside en grande partie dans la collecte des données qui se trouvent déjà hors du pare-feu, en les regroupant au même endroit. Ainsi, même si vous avez l’intention de mettre cela en place derrière votre pare-feu et de développer davantage vos analyses avancées ou de les intégrer à votre environnement de BI ou d’analyse existant, c’est un très bon point de départ. Parce que vous ne voulez pas importer un milliard de lignes par jour dans votre entrepôt de données, cela n’est pas rentable. C’est même difficile si vous prévoyez de le stocker quelque part, puis de le télécharger par lots.

Nous sommes donc souvent le premier point de collecte de données qui se trouve déjà hors du pare-feu.

Eric: Oui, c’est aussi un très bon point. Parce que de nombreuses entreprises vont s'inquiéter de prendre leurs données clients exclusives, de les mettre en place dans le cloud et de gérer l'ensemble du processus.

Hannah: Ouais.

Eric: Et ce dont vous parlez, c’est vraiment de donner aux gens une ressource leur permettant de faire face à ces chiffres très lourds, comme vous le suggérez, de données tierces comme les données mobiles et les données sociales et tout ce genre de choses amusantes. C’est assez intéressant.

Hannah: Oui, absolument. Et ils sont probablement nerveux à propos des produits car les données sont déjà à l’extérieur. Et donc oui, avant de l'introduire, et j'aime beaucoup ce terme de raffinerie, comme je l'ai mentionné, par rapport au lac. Alors pouvez-vous faire une raffinerie de base? Extrayez les bonnes données puis placez-les derrière le pare-feu dans vos autres systèmes et processus pour une analyse plus approfondie. C’est donc vraiment tout ce que les scientifiques peuvent faire, une exploration de données en temps réel de ces nouvelles données volumineuses qui arrivent.

Eric: Oui, c’est vrai. Eh bien, permettez-moi de faire venir nos analystes et nous reviendrons en arrière dans l’ordre inverse. Je commencerai par vous, Robin, pour ce qui est de Treasure Data, puis nous irons à Kirk pour d’autres. Revenons ensuite à Robin et à Kirk, juste pour obtenir une évaluation plus approfondie de la situation.

Et vous connaissez la raffinerie de données, Robin, dont Hannah parle ici. J'aime ce concept. Quelques personnes seulement en ont parlé ainsi, mais je pense que vous en avez certainement déjà parlé. Et cela indique vraiment ce qui se passe réellement dans vos données. Parce que, bien sûr, une raffinerie distille essentiellement les matières premières, si l’on pense aux raffineries de pétrole. En fait, j’ai étudié cela pendant un moment et c’est assez fondamental, mais l’ingénierie qui y est intégrée doit être exacte, sinon vous n’obtenez pas ce que vous voulez. Je pense donc que c’est une excellente analogie. Que pensez-vous de tout ce concept du service Treasure Data Cloud qui vous aide à répondre à certains de ces besoins analytiques très spécifiques sans avoir à importer des documents en interne?

Robin: Eh bien, je veux dire, cela dépend évidemment des circonstances. Mais tout le monde qui a déjà fait le processus va déjà vous mettre en avance sur le jeu si vous n’en avez pas un vous-même. Ceci est la première livraison pour quelque chose comme ça. Si quelqu'un assemble quelque chose, il l'a fait, c'est prouvé sur le marché et, par conséquent, il y a une sorte de valeur en effet, eh bien, le travail est déjà fait. Et il ya aussi le fait très général que le raffinage des données sera un problème beaucoup plus important qu’il ne l’a jamais été. Je veux dire, on n’en parle pas, à mon avis de toute façon, on n’en parle pas autant qu’il le devrait. Mis à part le fait que la taille des données a augmenté et que le nombre de sources et la variété de ces sources ont considérablement augmenté. Et la fiabilité des données quant à savoir si elles sont propres, elles doivent désambiguïser les données, toutes sortes de problèmes qui se posent uniquement en termes de gouvernance des données.

Ainsi, avant de pouvoir réellement effectuer une analyse fiable, sachez que si vos données sont corrompues, vos résultats seront faussés d’une manière ou d’une autre. C'est donc quelque chose qui doit être abordé, qui doit être connu. Et le triangulateur de fournir, autant que je puisse voir, un service très viable pour aider à cela.

Eric: Oui, en effet. Eh bien, laissez-moi aller de l'avant et ramener Kirk dans l'équation ici très rapidement. Je voulais jeter un coup d'œil à l'une de ces autres diapositives et juste pour avoir votre impression des choses, Kirk. Alors, revenons peut-être à cette diapositive MarkLogic. Au fait, Kirk a fourni le lien, si vous ne le voyez pas, à certaines de ses diapositives de découverte de classe, car c’est un concept très intéressant. Et je pense que c'est en train de me tracer au fond de mon esprit, Kirk, comme j'en parlais il y a un instant. Toute la question posée par l’un des participants sur la manière de trouver de nouveaux cours. J'adore ce sujet, car il évoque le côté difficile de la catégorisation, car j'ai toujours eu du mal à la catégoriser. Je suis comme, "Oh, mon dieu, je peux entrer dans cinq catégories, où puis-je le mettre?" Donc, je ne veux simplement rien catégoriser, non?

Et c’est la raison pour laquelle j’aime la recherche, car vous n’avez pas à la classer, vous n’avez pas à la mettre dans le dossier. Recherchez-le et vous le trouverez si vous savez effectuer une recherche. Mais si vous êtes en train d’essayer de segmenter, car c’est en gros ce qu’est la catégorisation, c’est la segmentation; trouver de nouvelles classes, c’est plutôt intéressant. Pouvez-vous parler du pouvoir de la recherche, de la sémantique et des hiérarchies, par exemple, comme Frank parlait de MarkLogic et du rôle que joue la recherche de nouvelles classes, que pensez-vous de cela?

Kirk: Tout d’abord, je dirais que vous lisez dans mes pensées. Parce que c'était ce que je pensais à une question avant même que vous ne parliez, c'est tout ce texte sémantique présenté par MarkLogic. Et si vous revenez à ma diapositive, vous n’êtes pas obligé de le faire, mais revenez à la diapositive cinq de ce que j’ai présenté cet après-midi; J'ai parlé de cette sémantique selon laquelle les données doivent être capturées.

Donc, toute cette idée de recherche, voilà. Je crois fermement en cela et j'ai toujours cru qu'avec les mégadonnées, prenons l’analogie avec Internet, je veux dire, juste le Web, je veux dire avoir la connaissance du monde, des informations et des données sur un navigateur Web, c’est une chose. Mais pour qu’il soit consultable et récupérable efficacement comme l’a fourni l’une des grandes entreprises de moteurs de recherche, c’est là que réside le véritable pouvoir de la découverte. En associant les termes de recherche, en quelque sorte les domaines d’intérêt de l’utilisateur au granule de données particulier, à la page Web concernée, si vous souhaitez penser à l’exemple Web ou au document concerné si vous parlez de bibliothèque de documents. Ou un type de segment de client particulier si c'est votre espace.

Et la sémantique vous donne ce type de couches de connaissances en plus d'une recherche de mots. Si vous recherchez un type particulier de choses, sachez qu’un membre d’une classe de telles choses peut avoir un certain rapport avec d’autres choses. Incluez même ce type d’informations sur les relations et les informations sur la hiérarchie des classes pour trouver des éléments similaires à ceux que vous recherchez. Ou parfois même le contraire de ce que vous recherchez, parce que cela vous donne en quelque sorte un noyau de compréhension supplémentaire. Eh bien, probablement quelque chose qui est le contraire de cela.

Eric: Ouais.

Kirk: Alors comprenez bien cela. Je peux voir quelque chose qui est le contraire de cela. La couche sémantique est donc un composant précieux qui fait souvent défaut et il est intéressant que cela apparaisse ici dans ce contexte. Parce que j’ai enseigné un cours de troisième cycle en bases de données, en fouille de données, en apprenant à partir de données, en science des données, comme vous voulez, pendant plus de 10 ans; et l'une de mes unités dans ce cours d'un semestre porte sur la sémantique et l'ontologie. Et souvent mes étudiants me regardaient comme: qu'est-ce que cela a à voir avec ce dont nous parlons? Et bien sûr, à la fin, je pense que nous comprenons que l’insertion de ces données dans une sorte de cadre de connaissances. Ainsi, par exemple, je cherche des informations sur le comportement d’un client particulier, sachant que ce comportement se produit, c’est ce que les gens achètent lors d’un événement sportif. Quel type de produits puis-je proposer à mes clients lorsque je remarque sur leurs réseaux sociaux qu'ils annoncent se rendre à un événement sportif comme le football, le baseball, le hockey, la Coupe du monde, peu importe.

Ok, événement sportif. Alors ils disent qu'ils vont, disons, un match de baseball. D'accord, je comprends que le baseball est un événement sportif. Je comprends que c’est généralement une activité sociale et que vous partez avec des gens Je comprends que c’est généralement dans un espace extérieur. Je veux dire, comprendre toutes ces caractéristiques habituelles, cela permet en quelque sorte une segmentation plus puissante du client impliqué et votre sorte de personnalisation de l'expérience que vous leur donnez, par exemple, lorsqu'ils interagissent avec votre espace via une application mobile pendant qu'ils sont assis dans un stade.

Ainsi, tout ce genre de choses apporte encore plus de puissance et de potentiel de découverte aux données dans cette idée d'indexation d'indexation des granules de données par leur lieu sémantique et l'espace de connaissances est vraiment important. Et j'ai été vraiment impressionné par ce qui est sorti aujourd'hui. Je pense que parler est une chose fondamentale.

Eric: Oui, c'est sûr. C’est très important dans le processus de découverte, c’est très important dans le processus de classification. Et si vous y réfléchissez, Java fonctionne en classes. C’est un peu orienté objet, je suppose, plus ou moins, on pourrait dire forme de programmation et Java fonctionne en classes. Donc, si vous concevez un logiciel, le concept de recherche de nouvelles classes est en réalité très important en termes de fonctionnalités que vous essayez de fournir. Parce que, en particulier dans ce nouveau monde sauvage et bigarré de big data où Java utilise tant de ces différentes applications, vous savez qu'il existe 87 000 façons ou plus de faire quoi que ce soit avec un ordinateur, pour obtenir n'importe quel type de fichier. de fonctionnalité faite.

Une de mes blagues quand les gens disent: "Oh, vous pouvez construire un entrepôt de données en utilisant NoSQL." Je me suis dit: "Eh bien, vous pouvez, oui, c'est vrai. Vous pouvez également créer un entrepôt de données à l'aide de Microsoft Word." Ce n’est pas la meilleure idée, cela ne fonctionnera pas très bien, mais vous pouvez le faire. La clé est donc de trouver le meilleur moyen de faire quelque chose.

Aller de l'avant.

Kirk: Permettez-moi de répondre à cela. C’est intéressant que vous ayez cité l’exemple de la classe Java, qui ne m’est pas venu à l’esprit avant de le dire. L'un des aspects de Java et des classes et de ce type d'orientation d'objet est qu'il existe des méthodes qui se lient à des classes spécifiques. Et c’est vraiment ce que j’essayais de faire dans ma présentation et qu’une fois que vous avez compris certains de ces granules de données - ces nuggets de connaissances, ces balises, ces annotations et ces étiquettes sémantiques - vous pouvez alors lier une méthode à celle-ci. Ils ont essentiellement cette réaction ou cette réponse et ont demandé à votre système de fournir ce type de réponse automatisée et proactive à ce problème la prochaine fois que nous le verrons dans le flux de données.

Ce concept d'actions et de méthodes de liaison à une classe spécifique est donc l'un des atouts de l'analyse automatisée en temps réel. Et je pense que vous vous en prenez à quelque chose.

Eric: Bien, bien, bien. C'est du bon matos. Alors voyons, Will, je veux te la rendre et te poser une question du public. Nous en avons quelques-uns ici aussi. Et les gars, nous allons longtemps parce que nous voulons intégrer certains de ces grands concepts dans ces bonnes questions.

Alors, permettez-moi de vous poser une question de l’un des auditeurs qui a déclaré: «Je ne vois pas vraiment en quoi l’intelligence d’affaires permet de distinguer les causes et les effets». En d’autres termes, alors que les systèmes prennent des décisions en fonction d’informations observables, comment développent-ils de nouveaux modèles pour en apprendre davantage sur le monde? C’est un point intéressant; j’entends donc ici une corrélation de cause à effet, l’analyse de la cause première, et c’est un peu ce type de haut de gamme dans l’analyse dont vous parlez, par opposition à la BI traditionnelle, qui juste un genre de reportage et un peu de compréhension de ce qui s'est passé. Et bien sûr, votre seule direction, en regardant votre diapositive ici, va vers cette capacité prédictive pour prendre ces décisions ou au moins faire ces recommandations, n'est-ce pas? L’idée est donc que vous essayez de gérer l’ensemble des activités et que vous comprenez que la clé, la vraie magie, se trouve dans la composante objectif analytique à droite.

Will: Absolument.Je pense que cette question est quelque peu tournée vers l'avenir, en ce sens que, comme je l'ai déjà mentionné, la science des données a été conçue de manière à refléter les exigences du scientifique des données. c’est un rôle assez difficile à relever pour quelqu'un. Il doit posséder cette riche connaissance de la statistique et de la science. Vous devez avoir la connaissance du domaine pour appliquer vos connaissances mathématiques aux domaines. Nous constatons donc aujourd’hui qu’il n’ya pas ces outils prédictifs prêts à l’emploi qu’un utilisateur professionnel, par exemple, pourrait utiliser dans Excel et prévoir automatiquement leur avenir, n’est-ce pas?

Cela nécessite des connaissances avancées en technologie à ce stade. Aujourd'hui, il se peut que certains de ces systèmes, ces systèmes évolutifs, deviennent sensibles et commencent à faire des trucs sauvages. Mais je dirais qu'à ce stade, il vous faut toujours un expert en données pour continuer à construire des modèles, pas ces modèles. Ces modèles prédictifs autour de l'exploration de données, entre autres, sont hautement optimisés et construits par le scientifique des données. Ils ne sont pas générés par eux-mêmes, si vous voyez ce que je veux dire.

Eric: Oui, exactement. C’est tout à fait vrai. Et l’une de mes lignes est "Les machines ne mentent pas, du moins pas encore."

Will: Pas encore, exactement.

Eric: J'ai lu un article - je dois écrire quelque chose à ce sujet - sur une expérience réalisée dans une université où ils disaient que ces programmes informatiques avaient appris à mentir, mais je devais vous le dire, je n'y crois pas vraiment. . Nous allons faire des recherches à ce sujet, les gens.

Et pour le dernier commentaire, Robin, je vous ramènerai pour jeter un coup d’œil sur cette plate-forme WebAction, car elle est très intéressante. C’est ce que j’aime dans tout un espace, c’est que vous obtenez des points de vue et des angles différents pris par les différents fournisseurs pour répondre à des besoins très spécifiques. Et j'adore ce format pour notre émission parce que nous avons quatre fournisseurs vraiment intéressants qui, franchement, ne marchent pas vraiment du tout sur les pieds. Parce que nous sommes tous en train de créer différents éléments du même besoin global, à savoir utiliser l’analyse, pour mener à bien des tâches.

Mais je veux juste connaître votre point de vue sur cette plate-forme spécifique et son architecture. Comment ils vont faire les choses. Je trouve cela très convaincant. Qu'est-ce que tu penses?

Robin: Eh bien, je veux dire, les résultats de la transmission de données en continu sont extrêmement rapides et, en tant que recherche, vous devez créer une architecture pour cela. Je veux dire, vous ne vous en tirerez pas, amateur, car nous en avons. J'entends dire que c'est extrêmement intéressant et que je pense que c'est l'une des choses dont nous avons été témoins par le passé. Je veux dire, je pense que vous et moi, notre mâchoire a diminué de plus en plus au cours des deux dernières années, à mesure que nous voyions émerger de plus en plus de choses extraordinairement rapides, extraordinairement intelligentes et à peu près sans précédent.

C'est évidemment WebAction, ce n'est pas son premier rodéo, pour ainsi dire. En fait, les noms ont été pris dans une certaine mesure. Donc je ne vois pas, mais supposons que nous devrions être surpris que l’architecture soit assez commutée, mais c’est sûrement.

Eric: Eh bien, je vais vous dire quoi. Nous avons parcouru 82 minutes ici. Je veux dire, merci à tous ces gens qui ont écouté tout ce temps. Si vous avez des questions qui n’ont pas reçu de réponse, ne soyez pas timide, mais avec les vôtres. Nous devrions avoir un de moi traîner quelque part. Et un très grand merci à nos deux présentateurs, au Dr Kirk Borne et au Dr Robin Bloor.

Kirk, j'aimerais explorer plus avant certaines de ces choses sémantiques avec vous, peut-être dans une future diffusion Web. Parce que je pense que nous sommes au début d’une étape très nouvelle et intéressante. Ce que nous allons être en mesure d’exploiter beaucoup des idées des gens et de les concrétiser beaucoup plus facilement parce que, devinez quoi, le logiciel devient de moins en moins cher, devrais-je dire. Cela devient de plus en plus utilisable et nous obtenons simplement toutes ces données de toutes ces sources différentes. Et je pense que ce sera un voyage très intéressant et fascinant au cours des prochaines années, car nous allons vraiment explorer ce que ce matériel peut faire et comment il peut améliorer nos activités.

Merci également à Techopedia et, bien entendu, à nos sponsors - Pentaho, WebAction, MarkLogic et Treasure Data. Et les gens, wow, sur ce, nous allons conclure, mais merci beaucoup pour votre temps et votre attention. Nous vous verrons dans environ un mois et demi pour le prochain spectacle. Et bien sûr, la salle de briefing continue. la radio continue de fonctionner; Toutes nos autres séries de webémissions ne cessent de basculer. Merci beaucoup. Nous vous attraperons la prochaine fois. Bye Bye.