Exploiter les atouts: tirer le meilleur parti de l'analyse en continu: Webin Transcript

À emporter: L’animatrice Rebecca Jozwiak discute de l’analyse en continu avec des experts de l’industrie.

Vous n'êtes actuellement pas connecté. Veuillez vous connecter ou vous inscrire pour voir la vidéo.

Rebecca Jozwiak: Mesdames et Messieurs, bonjour et bienvenue à Hot Technologies 2016! Le titre d’aujourd’hui est «Maîtriser le flambeau: Tirer profit de l’analyse en continu pour les entreprises», voici Rebecca Jozwiak. Je suis le commandant en second de l’animateur Webcast lorsque notre cher Eric Kavanagh ne peut être ici. C’est donc un plaisir de vous voir si nombreux aujourd’hui.

Cet épisode est un peu différent de nos autres. Nous avons en quelque sorte parlé de ce qui est chaud et bien sûr, cette année est chaude. Les dernières années ont été chaudes. Il y a toujours de nouvelles choses à venir. Aujourd'hui, nous parlons d'analyse en continu. L'analyse en continu est un peu nouvelle en soi. Bien sûr, la transmission en continu, les données de centre, les données RFID, ne sont pas nécessairement nouvelles. Cependant, dans le contexte des architectures de données, nous sommes tellement concentrés sur les données au repos depuis des décennies. Bases de données, systèmes de fichiers, référentiels de données - tous principalement destinés au traitement par lots. Mais maintenant, avec le changement visant à créer de la valeur à partir des données en continu, des émotions de données, certains appellent cela des flux vivants, ils nécessitent vraiment une architecture basée sur les flux, et non les architectures de données inactives auxquelles nous avons été habitués. traitement ingestion rapide, traitement en temps réel ou quasi temps réel. Il doit pouvoir prendre en charge non seulement l'Internet des objets, mais également l'Internet des objets.

Bien sûr, idéalement, il serait bien d’avoir deux architectures vivant côte à côte, une main se lavant l’autre, pour ainsi dire. Alors que les données vieilles de plusieurs jours, les données de plusieurs semaines, les données de plusieurs années ont bien sûr toujours de la valeur, l’analyse historique, l’analyse des tendances, ce sont les données réelles qui alimentent l’intelligence en direct de nos jours et c’est pourquoi l’analyse en continu est devenue si importante.

Je parle plus de ça aujourd'hui. Notre expert en données, Dez Blanchfield, vient d’Australie. C’est tôt le matin pour lui en ce moment. Nous avons notre analyste en chef, le Dr Robin Bloor. Anand Venugopal, responsable produit chez StreamAnalytix chez Impetus Technologies, nous rejoint. Ils sont vraiment concentrés sur l’analyse en continu de cet espace.

Sur ce, je vais aller de l’avant et le transmettre à Dez.

Dez Blanchfield: Je vous remercie. Je dois prendre le contrôle de l'écran ici et apparaître en avant.

Rebecca Jozwiak: Voici.

Dez Blanchfield: Pendant que nous prenons les diapositives, laissez-moi simplement aborder le sujet principal.

Je vais le garder assez haut et le garder à environ 10 minutes. C'est un très gros sujet. J'ai participé à un événement au cours duquel nous avons passé deux ou trois jours à explorer en détail ce que sont les traitements de flux, les cadres actuels que nous développons et ce que devrait faire l'analyse dans ces flux à volume élevé.

Nous allons simplement clarifier ce que nous entendons par analyse en continu, puis nous nous interrogerons sur la possibilité de générer de la valeur métier, car c’est vraiment ce que les entreprises recherchent. Ils souhaitent que les gens leur expliquent très rapidement et succinctement, où puis-je tirer profit en appliquant une forme d'analyse à nos données de flux?

Qu'est-ce que l'analyse en continu?

L'analyse en continu fournit aux entreprises un moyen d'extraire de la valeur sous forme diversifiée de données volumineuses et à grande vélocité. La différence significative ici est que nous développons depuis longtemps des analyses et des vues, ainsi que des vues de données que nous avons traitées au repos depuis des décennies depuis l’invention de l’ordinateur central. Le changement radical de paradigme que nous avons observé au cours des trois à cinq dernières années à ce que nous appelons «l'échelle Web» exploite les flux de données qui nous parviennent en temps réel ou presque, et pas seulement le traitement et la recherche de corrélation d'événements. déclencheurs d’événements, mais en effectuant des analyses très détaillées et approfondies sur ces flux. C’est un changement important par rapport à ce que nous faisions auparavant: collecter des données, les placer dans une sorte de référentiel, traditionnellement des bases de données volumineuses, de grands frameworks de données volumineuses telles que la plate-forme Hadoop et effectuer un traitement en mode batch sur cette base et obtenir des données. une sorte de perspicacité.

Nous sommes très doués pour le faire très rapidement et pour essayer beaucoup de fer lourd, mais nous sommes toujours en train de capturer des données, de les stocker puis de les examiner et d’obtenir des informations ou des analyses à ce sujet. Le passage à la réalisation de ces analyses au fur et à mesure que les données transitent est un domaine de croissance tout à fait nouveau et excitant pour les types de problèmes liés au big data. Cela nécessite une approche complètement différente pour capturer, stocker, traiter et exécuter des analyses.

L’un des facteurs clés du changement et de l’objectif consistant à effectuer des analyses dans le flux est qu’il est possible d’obtenir une valeur ajoutée considérable en obtenant ces informations plus rapidement et plus facilement à mesure que les données vous parviennent, à mesure que les informations sont mises à la disposition de l’entreprise. L’idée de traiter en fin de journée n’est plus pertinente dans certaines industries. Nous voulons pouvoir effectuer des analyses à la volée. À la fin de la journée, nous savons déjà ce qui s'est passé, plutôt que d'arriver à la fin de la journée et d'effectuer un travail par lots de 24 heures afin d'obtenir ces informations.

L’analyse en continu consiste à puiser directement dans ce flux, tandis que les flux de données sont généralement constitués de plusieurs flux de très grandes quantités de données et que les données nous parviennent très rapidement et qu’elles obtiennent des informations ou des analyses sur ces flux au fur et à mesure qu’ils nous parviennent. permettre cela revient au repos et en effectuant des analyses.

Comme je le disais, nous avons passé des dizaines d’années à effectuer ce que j’appelle l’analyse par lots. J'ai mis une photo vraiment cool ici. Il s'agit d'une photo d'un homme debout devant un ordinateur simulé créé par RAND Corporation il y a un siècle et qui ressemble à un ordinateur dans une maison. Ce qui est intéressant, c’est que même alors, ils avaient ce concept de tous ces petits cadrans et ces cadrans représentaient des informations provenant de la maison et traitées en temps réel et vous indiquant ce qui se passait. Un exemple simple est un ensemble de pression barométrique et de température permettant de voir ce qui se passe en temps réel. Mais j’imagine que, même à l’époque, lorsque RAND Corporation avait construit cette petite maquette, elle pensait déjà au traitement des données et à l’analyse analytique des données au format de flux. Je ne sais pas trop pourquoi ils ont installé un volant sur l'ordinateur, mais c'est plutôt cool.

Depuis l’invention de ce dernier, nous avions la possibilité de capturer des données et d’y effectuer des analyses par lots. Comme je l'ai dit avec le grand changement maintenant et nous avons vu cela de la part d'acteurs d'envergure sur le Web que nous connaissons tous, ce sont toutes des marques grand public comme, et LinkedIn, que le comportement interactif que nous avons avec ces plateformes sociales nécessite capturez, stockez puis traitez en mode de traitement par lots, mais capturez et pilotez des analyses à la volée à partir des flux de données entrants. Lorsque je tweet quelque chose, non seulement ils doivent capturer, stocker et faire quelque chose plus tard, mais ils doivent également pouvoir le mettre immédiatement sur mon flux et le partager avec les autres personnes qui me suivent. C'est un modèle de traitement par lots.

Pourquoi devrions-nous aller dans cette voie? Pourquoi les entreprises investiraient-elles du temps, des efforts et de l’argent dans la réflexion sur le défi que représente l’analyse de flux? Les entreprises désirent énormément gagner en performances par rapport à leurs concurrents dans les secteurs qu’elles occupent et ce gain en performances peut être rapidement mis en oeuvre au moyen d’une simple analyse de flux et en commençant par un simple suivi des données en temps réel que nous avons déjà. familier avec. J'ai une petite capture d'écran de Google Analytics. C’est probablement l’une des premières fois où nous avons réellement recours à l’analyse pratique de grande consommation. Ainsi, alors que les gens visitaient votre site Web et que vous obteniez le nombre de résultats positifs, avec un petit morceau de JavaScript inséré au bas de votre page Web en HTML intégré dans votre site Web, ces petits codes étaient créés en temps réel vers Google et étaient effectuer des analyses sur les flux de données provenant de chaque page de votre site Web, de chaque objet de votre site Web en temps réel et de vous les renvoyer dans cette petite page Web vraiment mignonne dans un tableau de bord composé de graphes en temps réel, de petits histogrammes et de lignes graphique vous montrant le nombre X de personnes qui ont historiquement consulté votre page, mais voici combien il y en a pour le moment.

Comme vous pouvez le voir sur cette capture d'écran, il est écrit 25 maintenant. Au moment de la capture d’écran, 25 personnes se trouvaient sur cette page. C’est la première fois que nous jouons avec un outil d’analyse grand public. Je pense que beaucoup de gens l'ont vraiment compris. Ils ont juste compris le pouvoir de savoir ce qui se passait et comment ils peuvent y répondre. Quand on songe à l’importance de l’avionique et du nombre d’aéronefs en vol, il y a environ 18 700 vols intérieurs par jour rien qu’aux États-Unis. J'ai lu un article il y a quelque temps - il y a six ou sept ans - selon lequel la quantité de données produite par ces avions était d'environ 200 à 300 mégaoctets dans l'ancien modèle technique. Dans les conceptions d’avions d’aujourd’hui, ces appareils produisent environ 500 gigaoctets de données, soit environ un demi-téraoctet de données par vol.

Si vous faites le calcul très rapidement, que 18 700 vols domestiques toutes les 24 heures dans l’espace aérien des États-Unis, si tous les avions modernes produisent environ un demi-téraoctet, c’est 43 à 44 pétaoctets de données ça se passe pendant que les avions sont dans les airs. Cela se produit quand ils atterrissent et qu'ils effectuent des vidages de données. C’est à ce moment-là qu’ils se rendent dans l’atelier et que les équipes d’ingénierie disposent d’un vidage complet des données pour examiner ce qui se passe dans les roulements, les roues et à l’intérieur des moteurs. Certaines de ces données doivent être traitées en temps réel pour qu’ils puissent décider s’il ya un problème réel lorsque l’avion est dans les airs ou au sol. Vous ne pouvez pas faire cela en mode batch. Dans d’autres secteurs que nous voyons dans les domaines de la finance, de la santé, de la fabrication et de l’ingénierie, ils étudient également la façon dont ils peuvent obtenir ce nouvel aperçu de ce qui se passe en temps réel, par opposition à ce qui est simplement stocké dans les bases de données. terme.

Il existe également le concept de traiter des données comme ce que j’appelle un bien périssable ou un produit périssable, c’est-à-dire que beaucoup de données perdent de la valeur avec le temps. C’est de plus en plus le cas avec les applications de mobilité et les outils de médias sociaux, car ce que les gens disent et ce qu’ils ont tendance à faire, c’est ce à quoi vous voulez répondre. Lorsque vous pensez à d'autres aspects de notre vie avec la logistique et l'expédition de nourriture, nous comprenons le concept de denrée périssable dans ce sens. Mais pensez aux données qui transitent par votre organisation et à sa valeur. Si quelqu'un fait des affaires avec vous en ce moment et que vous pouvez interagir avec eux en temps réel, vous ne voulez pas attendre une heure pour que les données puissent être capturées et placées dans un système comme Hadoop, puis appuyez sur ce bouton. ne serez pas en mesure de le faire maintenant et vous voulez pouvoir le faire immédiatement à la demande du client. On voit souvent apparaître un terme dans lequel les gens parlent de ce flux de données en temps réel qui peut vous personnaliser, et cette personnalisation est adaptée au système que vous utilisez en fonction de votre expérience personnelle. Ainsi, lorsque vous utilisez un outil tel que l'outil de recherche Google, par exemple, si je fais une requête et que vous faites la même requête, invariablement, nous n'obtenons pas exactement les mêmes données. Nous obtenons essentiellement ce que je qualifie d’expérience de célébrité. Je suis traité avec un unique. Je reçois ma propre version de ce qui se passe dans ces systèmes en fonction des profils et des données qu’ils ont collectés sur moi et j’ai été en mesure d’effectuer des analyses en temps réel dans le flux.

Cette idée que les données sont un produit périssable est une réalité pour l’instant et que la valeur des données diminuant avec le temps est un problème auquel nous devons faire face aujourd’hui. Ce n’est pas un truc d’hier. J'aime cette photo d'un ours qui attrape un saumon sortant de la rivière parce qu'il représente vraiment ce que je vois en streaming. C’est cet énorme flot de données qui nous arrive, un tube de feu si vous voulez, et l’ours est assis au milieu de la crique. Il va effectuer des analyses en temps réel sur ce qui se passe autour de lui, de manière à pouvoir développer sa capacité à capturer ce poisson dans les airs. Ce n’est pas comme plonger dans le flux et en prendre un. Cette chose saute dans les airs et elle doit être au bon endroit au bon moment pour attraper ce poisson. Sinon, il ne prend pas son petit-déjeuner ni son déjeuner.

Une organisation veut faire la même chose avec ses données. Ils veulent extraire de la valeur de ce qui est maintenant d’énormes volumes de données en mouvement. Ils veulent effectuer des analyses sur ces données et sur les données à grande vitesse. Ce n’est pas seulement la quantité de données qui nous parvient, mais bien la vitesse à laquelle elle découle de cette situation. En matière de sécurité, par exemple, tous vos routeurs, commutateurs, serveurs, pare-feu et tous les événements provenant de ces appareils et de dizaines de milliers, voire de centaines de milliers d’appareils, dans certains cas des données périssables. Lorsque nous pensons à cela dans l’Internet des objets et l’Internet industriel, nous parlons en fin de compte de millions, voire de milliards de capteurs, et à mesure que les données analysent, nous envisageons maintenant de traiter des événements complexes. à des ordres de grandeur et de rapidité que nous n'avions jamais vus auparavant et que nous devons traiter aujourd'hui. Nous devons construire des outils et des systèmes autour de cela. C’est un véritable défi pour les entreprises car, d’une part, nous avons les très grandes marques qui font du bricolage, faites-le cuire vous-même, quand elles ont la capacité de le faire, leurs compétences et leur ingénierie. Mais pour l’organisation moyenne, ce n’est pas le cas. Ils n’ont pas les compétences requises. Ils n’ont ni la capacité, ni le temps, ni même l’argent pour investir. Ils visent tous ce concept de prise de décision en temps quasi réel.

Les cas d’utilisation que j’ai rencontrés, et qui concernent tous les secteurs de tous les secteurs imaginables, attirent l’attention des gens et leur demandent comment nous appliquons certaines analyses à nos données de flux. Nous parlons de services en ligne à l'échelle Web. Il existe les plates-formes traditionnelles de médias sociaux et le commerce en ligne et la vente au détail en ligne - des applications par exemple. Ils essaient tous de nous donner cette expérience de célébrité en temps réel. Mais lorsque nous parlons davantage de services technologiques, de services téléphoniques, de voix et de vidéo, je vois des gens se promener sur FaceTime au téléphone. C'est juste en train d'exploser. Cela me dépasse de penser que les gens tiennent le téléphone devant eux et discutent avec le flux vidéo d'un ami au lieu de le lui tenir à l'oreille. Mais ils savent qu'ils peuvent le faire et ils se sont adaptés et ils ont aimé cette expérience. Le développement de ces applications et les plates-formes qui les fournissent doivent effectuer des analyses en temps réel sur ce trafic et sur les profils du trafic afin de pouvoir effectuer des tâches simples, telles que le routage parfait de cette vidéo, de sorte que la qualité de la voix dans La vidéo que vous obtenez est suffisante pour obtenir une bonne expérience. Vous ne pouvez pas traiter ce type de données par lots. Cela ne ferait pas du flux vidéo en temps réel un service fonctionnel.

Il existe un problème de gouvernance dans les transactions financières. Il n’est pas acceptable d’aller au bout de la journée et de découvrir que vous avez enfreint la loi en matière de transfert de données privées autour du lieu. En Australie, nous sommes confrontés à un défi très intéressant: déplacer des données liées à la vie privée à l'étranger est une tâche impossible. Vous ne pouvez pas prendre mon PID, mes données d’identification personnelle privées, à l’étranger. Il existe des lois en Australie pour empêcher cela. Les fournisseurs de services financiers en particulier, les agences et les services gouvernementaux, doivent analyser en temps réel leurs flux de données et leurs instructions afin de s’assurer que ce qu’ils me fournissent ne quitte pas les côtes. Tout doit rester sur place. Ils doivent le faire en temps réel. Ils ne peuvent pas enfreindre la loi et demander pardon plus tard. Détection de fraude - c’est un cas assez évident dont nous entendons parler avec les transactions par carte de crédit. Mais comme les types de transactions que nous effectuons dans les services financiers évoluent très, très rapidement, PayPal commence à détecter des fraudes en temps réel, lorsque l'argent ne passe pas d'une chose à l'autre, mais une transaction financière entre systèmes. Sur les plateformes d'enchères Ebay, la détection des fraudes doit se faire en temps réel dans un bureau de streaming.

Nous avons maintenant tendance à extraire et à transformer l’activité de charge dans les flux, nous ne voulons donc pas capturer quoi que ce soit qui passe dans le flux. Nous ne pouvons pas vraiment faire ça. Les gens ont appris que les données aiment être détruites très rapidement si nous saisissons tout. Le truc consiste maintenant à effectuer des analyses sur ces flux, à effectuer une ETL et à capturer simplement ce dont vous avez besoin, éventuellement des métadonnées, puis à créer une analyse prédictive permettant de prédire ce qui va se passer un peu plus loin dans la trajectoire. Nous venons de voir dans le flux basé sur les analyses que nous avons effectuées à ce sujet.

Les fournisseurs d’énergie et de services publics ressentent ce désir massif des consommateurs d’obtenir une tarification à la demande. Je pourrais décider de vouloir acheter de l’énergie verte à un moment de la journée parce que je suis seul à la maison et que je n’utilise pas beaucoup d’appareils. Mais si je dîne, je pourrais vouloir avoir tous mes appareils, je ne veux pas acheter de l’énergie bon marché et attendre qu’elle soit livrée, mais je suis prêt à payer plus pour l’obtenir. Cette tarification de la demande, en particulier dans les services publics et l’énergie, a déjà eu lieu. Uber, par exemple, est un exemple classique de choses que vous pouvez faire tous les jours et qui repose sur la tarification à la demande. Il existe des exemples classiques d’Australiens obtenant des tarifs de 10 000 dollars en raison de la demande massive à la veille du nouvel an. Je suis sûr qu’ils ont réglé ce problème, mais que l’analyse de flux effectuée en temps réel dans la voiture vous indique combien je devrais payer.

L'Internet des objets et les flux de capteurs - nous venons tout juste de gratter la surface à ce sujet et nous venons d'entendre la conversation de base à ce sujet, mais nous verrons un changement intéressant dans la manière dont la technologie prend en charge cette problématique, car lorsque vous parlez, des milliers, voire des dizaines de milliers, mais des centaines de milliers et potentiellement des milliards d’appareils diffusés en continu, presque aucune des technologies actuelles n’est conçue pour faire face à cette situation.

Nous verrons des sujets d'actualité comme la sécurité et les cyber-risques. Ce sont des défis très réels pour nous. Il existe un outil vraiment génial appelé North sur le Web où vous pouvez vous asseoir et regarder dans une page Web diverses cyberattaques se déroulant en temps réel. Quand vous le regardez, vous pensez «oh, c'est une jolie petite page Web mignonne», mais au bout de cinq minutes environ, vous vous rendez compte du volume de données que le système effectue en effectuant des analyses sur tous les différents flux de tous les différents appareils dans le monde. qui sont nourris en eux. Il commence à perdre conscience de la façon dont ils réalisent cela au bord de cet enregistrement et vous fournit ce petit écran simple qui vous indique à quoi ou à quelque chose d'autre l'attaquer en temps réel et quels types d'attaques. Mais c’est un moyen vraiment très simple d’obtenir un bon aperçu de ce que l’analyse de flux peut faire pour vous en temps réel en regardant cette page et en ayant une idée du volume et du défi que représente l’utilisation des flux, le traitement des requêtes d’analyse sur eux et représentant cela en temps réel.

Je pense que la conversation que j'ai pour le reste de la session va aborder tout ce genre de choses avec un point de vue intéressant, de mon point de vue, et c'est le défi du bricolage, cuire soi-même, convient à certains des Licornes classiques qui peuvent se permettre de construire ce genre de choses. Ils ont les milliards de dollars nécessaires pour constituer ces équipes d’ingénierie et leurs centres de données. Mais pour 99,9% des entreprises qui souhaitent générer de la valeur dans leur activité d'analyse de flux, elles ont besoin d'un service prêt à l'emploi. Ils doivent acheter un produit prêt à l'emploi et ont généralement besoin de services de conseil et de services professionnels pour l'aider à le mettre en œuvre. Ils récupèrent cette valeur dans l'entreprise et le revendent à l'entreprise en tant que solution de travail.

Sur ce, je vais vous rendre la parole, Rebecca, car je crois que c’est ce que nous sommes sur le point de couvrir en détail maintenant.

Rebecca Jozwiak: Excellent. Merci beaucoup, Dez. C’est une excellente présentation.

Maintenant, je vais passer le ballon à Robin. Emportez-le.

Robin Bloor: D'accord. Étant donné que Dez est passé au crible du traitement des flux, il n’a pas semblé logique pour moi de le couvrir à nouveau. Je vais donc simplement adopter une vision complètement stratégique.Regarder presque très haut sur ce qui se passe et le positionner parce que je pense que cela pourrait aider les gens, en particulier ceux qui ne sont pas campés dans des flux de traitement en profondeur auparavant.

Le traitement des flux existe depuis longtemps. Nous l'appelions PEC. Il y avait des systèmes en temps réel avant cela. Les systèmes de contrôle de processus originaux consistaient en réalité à traiter des flux d’informations - bien entendu, rien n’allait aussi loin qu’il est aujourd’hui. Ce graphique que vous voyez sur la diapositive ici; en fait, il souligne beaucoup de choses, mais il souligne au-delà de toute autre chose, le fait qu’il existe toute une gamme de latences qui apparaissent dans différentes couleurs. Ce qui s’est réellement passé depuis l’invention de l’informatique ou de l’informatique commerciale, arrivée vers 1960, c’est que tout est devenu de plus en plus rapide. Auparavant, nous pouvions dépendre de la façon dont cela se produisait, si vous aimez les vagues, car c’est ce à quoi il ressemble. Cela dépend de cela. Parce que tout était régi par la loi de Moores et que celle-ci nous donnerait un facteur dix fois plus rapide sur une période d’environ six ans. Puis, une fois que nous sommes arrivés à environ 2013, tout a éclaté et nous avons soudainement commencé à accélérer à un rythme que nous n’avons jamais atteint, ce qui est étrangement sans précédent. Nous avions un facteur d'environ dix en termes d'augmentation de la vitesse et donc une réduction de la latence environ tous les six ans. En six ans environ depuis 2010, nous avons obtenu un multiple d'au moins mille. Trois ordres de grandeur plutôt qu'un.

C’est ce qui se passe et c’est pourquoi l’industrie semble, d’une manière ou d’une autre, évoluer à une vitesse fantastique - parce que c’est le cas. En passant simplement à la signification de ce graphique particulier, les temps de réponse sont en fait à l’échelle algorithmique sur l’axe vertical. Le temps réel est la vitesse de l'ordinateur, plus rapide que l'homme. Les temps interactifs sont en orange. C’est lorsque vous interagissez avec l’ordinateur où vous souhaitez réellement disposer d’un temps de latence d’un dixième à une seconde environ. Ci-dessus, il y a transaction lorsque nous pensons réellement à ce que vous faites dans l'ordinateur, mais si cela se produit dans environ quinze secondes, cela devient intolérable. En fait, les gens n’attendront tout simplement pas l’ordinateur. Tout a été fait en batch. Beaucoup de choses qui ont été faites en batch sont maintenant en train de tomber dans l’espace transactionnel, dans l’espace interactif ou même dans l’espace temps réel. Tandis que précédemment, nous pouvions faire une partie de cela avec une très petite quantité de données, nous pouvons maintenant le faire avec de très grandes quantités de données dans un environnement extrêmement réduit.

Donc, en gros, tout cela dit que c’est vraiment la transaction et les temps de réponse humains interactifs. Une grande partie de ce qui se fait actuellement avec les flux consiste à informer les êtres humains sur certaines choses. Une partie de cela va plus vite que ça et ça renseigne bien, donc c’est du temps réel. Ensuite, nous prenons une licence qui nous permet de tomber comme une pierre, ce qui rend l’analyse instantanée réalisable et accessoirement très abordable. Ce n’est pas seulement la vitesse qui a baissé et le sommet s’est aussi effondré. Probablement l’impact le plus important parmi toutes ces applications, vous pouvez effectuer toutes ces analyses prédictives. Je vais vous dire pourquoi dans une minute.

Ceci est juste la quincaillerie. Vous avez un logiciel parallèle. Nous en parlons en 2004. Architecture évolutive, puces multicœurs, augmentation de la mémoire, processeur configurable. Les disques SSD vont maintenant beaucoup plus vite que les disques en rotation. Vous pouvez dire adieu au disque en rotation. Les disques SSD sont également dans plusieurs cœurs, donc de plus en plus rapides. Bientôt, nous aurons le memristor de HP. Nous avons le 3D XPoint d’Intel et Micron. La promesse de ceux-ci est que cela accélérera le processus de toute façon. Lorsque vous pensez réellement à deux nouvelles technologies de mémoire, qui rendront l’ensemble du petit composant fondamental, le circuit imprimé individuel beaucoup plus rapide, nous n’en avons même pas vu la fin.

La technologie Streams, qui est vraiment la prochaine, est là pour rester. Il va falloir une nouvelle architecture. Je veux dire que Dez a en quelque sorte mentionné cela dans sa présentation. Pendant des décennies, nous avons considéré l'architecture comme une combinaison de tas de données et de canaux de données. Nous avions tendance à traiter les tas et à canaliser les données entre les tas. Nous nous dirigeons maintenant fondamentalement vers ce que nous appelons l’architecture de données Lambda, qui combine le traitement des flux de données à des tas de données. Lorsque vous traitez réellement un flux d’événements entrant dans des données historiques sous forme de flux de données ou de tas de données, c’est ce que je veux dire par architecture Lambda. C'est à ses balbutiements. Ce n’est qu’une partie de la photo. Si vous envisagez quelque chose d'aussi complexe que l'Internet of Everything que Dez a également mentionné, vous constaterez en réalité qu'il existe toutes sortes de problèmes liés à l'emplacement des données - des décisions quant à ce que vous devez traiter dans le flux.

Ce que je dis vraiment, c’est que lors du traitement par lots, nous traitions en fait des flux. Nous ne pouvons tout simplement pas le faire un à la fois. Nous attendons juste qu'il y ait un gros tas de choses et ensuite nous traitons tout en même temps. Nous nous dirigeons vers une situation où nous pouvons réellement traiter des éléments dans le flux. Si nous pouvons traiter des éléments dans le flux, les tas de données que nous détenons seront les données statiques que nous devons référencer afin de traiter les données dans le flux.

Cela nous amène à cette chose particulière. J'ai déjà mentionné cela dans une présentation avec l'analogie biologique. La façon dont je voudrais que vous pensiez est que nous sommes des êtres humains. Nous avons trois réseaux distincts pour le traitement prédictif en temps réel. Ils s'appellent le somatique, autonome et entérique. L'entérique est votre estomac. Le système nerveux autonome s'occupe des combats et des vols. En fait, il gère les réactions rapides à l'environnement. Le somatique qui s'occupe du mouvement du corps. Ce sont des systèmes en temps réel. La chose intéressante à ce sujet - ou je pense que c'est un peu intéressant - est que beaucoup sont plus prédictifs que vous ne pouvez l'imaginer. C’est comme si vous regardiez un écran à environ 18 pouces de votre visage. Tout ce que vous pouvez voir clairement, tout ce que votre corps est capable de voir clairement, est en réalité un rectangle 8 × 10. En dehors de cela, tout ce qui est en dehors de celui-ci est flou en ce qui concerne votre corps, mais votre esprit comble en fait les lacunes et ne le rend pas flou. Vous ne voyez pas de flou du tout. Vous le voyez clairement. Votre esprit est en train de faire une méthode prédictive du flux de données afin de voir cette clarté. C’est un peu curieux, mais vous pouvez en fait regarder la façon dont le système nerveux fonctionne et la façon dont nous parvenons à nous déplacer et à nous comporter raisonnablement - au moins certains d’entre nous - raisonnablement sains et ne pas heurter les choses tout le temps.

Tout se fait par une série d’échelles d’analyse neurale à l’intérieur. Ce qui va arriver, c'est que les organisations vont avoir le même genre de chose et vont construire le même genre de chose et que ce sera le traitement des flux, y compris les flux internes de l'organisation - ce qui se passe au sein de ce qui se passe en dehors de cela, les réponses instantanées qu’il faut réellement apporter, bien sûr, aident l’être humain à prendre des décisions, à les mettre en oeuvre. C’est là que nous allons, autant que je sache.

Cela a notamment pour conséquence que le niveau de l'application de streaming fonctionne bien. Il y en aura beaucoup plus que ce que nous voyons maintenant. À l’heure actuelle, nous sommes en train de choisir le moyen le plus facile de faire les choses évidentes.

De toute façon, c’est la conclusion à tirer ici. L'analyse en continu est une niche, mais elle est en train de devenir un courant dominant et sera bientôt adoptée de manière générale.

Sur ce, je reviens à Rebecca.

Rebecca Jozwiak: Merci beaucoup, Robin. Bonne présentation comme d'habitude.

Anand, tu es la prochaine. La parole est à vous.

Anand Venugopal: Fantastique. Je vous remercie.

Je m'appelle Anand Venugopal et je suis le responsable produit de StreamAnalytix. C’est un produit proposé par Impetus Technologies, de Los Gatos, en Californie.

En réalité, Impetus est un fournisseur de solutions de données volumineuses pour les grandes entreprises. Nous avons donc réalisé un certain nombre d'implémentations d'analyse en continu en tant que société de services et nous avons tiré de nombreuses leçons. Nous avons également évolué pour devenir une société de produits et une société axée sur les solutions au cours des deux dernières années et l'analyse de flux analyse en profondeur la transformation de Impetus en une société largement axée sur les produits. Grâce à notre exposition aux entreprises, Impetus a souscrit des actifs essentiels et très essentiels, dont StreamAnalytix.

Cela fait 20 ans que nous travaillons dans ce secteur et la grande diversité de produits et de services offerts nous confère un avantage considérable. Et StreamAnalytix est né de toutes les leçons tirées de nos cinq ou six premières implémentations de la diffusion en continu.

Je vais aborder quelques points, mais les analystes, Dez et Robin, ont fait un travail fantastique pour couvrir l’espace dans son ensemble. Je vais donc sauter une grande partie du contenu qui se chevauche. Je vais probablement aller vite. Nous voyons en plus de véritables cas d'écoute utilisant beaucoup d'accélération par lots, où il existe des processus de traitement par lots extrêmement importants dans les entreprises. Comme vous pouvez le constater, tout ce cycle de détection et d’analyse d’un événement peut prendre des semaines dans les grandes entreprises, qui tentent toutes de le réduire à quelques minutes, voire parfois quelques secondes et quelques millisecondes. Tous les processus de traitement par lots sont donc candidats à l’acquisition d’entreprise. C’est très bien que la valeur des données diminue considérablement avec l’âge, de sorte que plus la valeur initiale est importante dans les secondes qui viennent de s’écouler. Idéalement, si vous pouviez prédire ce qui allait se passer, c'est la valeur la plus élevée. Cela dépend de la précision, cependant. La prochaine valeur la plus élevée est celle qui se trouve juste au moment où cela se produit, vous pouvez l’analyser et y répondre. Bien entendu, la valeur réduit considérablement, par la suite, la principale BI par laquelle nous nous trouvons.

C'est intéressant. Vous pourriez vous attendre à une réponse scientifique spectaculaire à la raison pour laquelle l'analyse en continu Nous constatons souvent que c’est parce que c’est maintenant possible et que tout le monde sait que le traitement par lots est ancien, que le traitement par lots est ennuyeux et que le traitement par lots n’est pas cool. Tout le monde a reçu suffisamment d’information sur le fait que la diffusion en continu est possible et que tout le monde a maintenant Hadoop. Les distributions Hadoop intègrent désormais une technologie de streaming, qu’il s’agisse du streaming Storm ou Spark et bien sûr des files d’attente, comme Kafka, etc.

Les entreprises que nous voyons s'y lancent et commencent à expérimenter avec ces cas et nous voyons deux grandes catégories. L'une a quelque chose à voir avec l'analyse client, l'expérience client et la seconde intelligence opérationnelle. Je vais entrer dans certains détails à ce sujet un peu plus tard. L’ensemble du service client et de l’expérience client, et nous l’avons fait de différentes manières à Impetus StreamAnalytix, consiste vraiment à capturer réellement l’engagement multicanal du consommateur en temps réel et à lui faire vivre des expériences extrêmement sensibles. qui ne sont pas communs aujourd'hui. Si vous naviguez sur le Web, sur le site Web de Bank of America, et que vous recherchiez certains produits, il vous suffit d'appeler le centre d'appels. Est-ce qu’ils diraient: «Hé Joe, je sais que tu étais à la recherche de certains produits bancaires, voudrais-tu que je te mette au courant? Dans de nombreux cas, cela fait une différence énorme, en particulier si le client commence à rechercher des moyens de résilier son contrat avec vous en consultant des clauses de résiliation anticipée ou des conditions de résiliation anticipée sur votre site Web, puis en appelant votre correspondant. confrontez-les directement, mais faites simplement une offre indirecte sur une sorte de première promotion, car le système sait que cette personne envisage une résiliation anticipée et que vous faites cette offre à ce moment-là, vous pouvez très bien protéger ce client qui bouge et protéger cet actif. .

Ce serait un exemple, plus de nombreux services à la clientèle sont de très bons exemples. Nous mettons en œuvre aujourd'hui réduit les coûts dans le centre d'appels et offre une expérience client fantastique et dramatique. Dez a très bien résumé certains cas d'utilisation. Vous pouvez regarder ce tableau pendant quelques minutes. Je l'ai classé comme verticales, horizontales et zones de liste déroulante, IoT, application mobile et centre d'appels. Ils sont tous verticaux et horizontaux. Cela dépend de la façon dont vous le regardez. En fin de compte, nous constatons de nombreuses utilisations horizontales qui sont assez courantes dans tous les secteurs et il existe des cas d’utilisation spécifiques, notamment les services financiers, les soins de santé, les télécommunications, la fabrication, etc. Si vous vous posez la question ou si vous vous le dites «Oh, je ne sais pas quels cas d’utilisation existent. Je ne sais pas si l’analyse en continu a une valeur ajoutée pour l’entreprise ou pour notre entreprise », réfléchissez bien, réfléchissez-y à deux fois. Parlez à davantage de personnes car certains cas d'utilisation de votre entreprise sont pertinents aujourd'hui. Je vais entrer dans la valeur commerciale sur comment exactement la valeur commerciale est dérivée.

Au bas de la pyramide, vous trouverez la maintenance prédictive, la sécurité, la protection contre le roulement, etc. Ces types de cas d'utilisation constituent une protection des revenus et des actifs. Si Target protégeait leur brèche de sécurité survenue pendant des heures et des semaines, le DSI aurait pu sauvegarder son travail. Cela permettrait d'économiser des dizaines, voire des centaines de millions de dollars, etc. L'analyse en temps réel des flux en continu aide réellement à protéger ces actifs et à protéger les pertes. C’est là une valeur ajoutée directe pour les entreprises.

La catégorie suivante devient de plus en plus rentable, réduisant vos coûts et générant davantage de revenus provenant des opérations actuelles. C’est l’efficacité de l’entreprise actuelle. Ce sont toutes les catégories de cas d'utilisation que nous appelons l'intelligence opérationnelle en temps réel, dans lesquelles vous obtenez des informations détaillées sur le comportement du réseau, les opérations de vos clients, le processus de votre entreprise, et vous pouvez modifier tout cela en temps réel car vous recevez des retours, vous recevez des alertes. Vous obtenez des écarts, des écarts en temps réel et vous pouvez rapidement agir et séparer le processus qui sort du lot.

Vous pourriez aussi potentiellement économiser beaucoup d'argent en mises à niveau coûteuses en capital et autres choses que vous jugez nécessaires, ce qui peut ne pas être le cas si vous optimisez le service réseau. Nous avons entendu parler d'un cas dans lequel une grande société de télécommunications a différé une mise à niveau de 40 millions de dollars de son infrastructure réseau car elle avait constaté qu'elle disposait de suffisamment de capacité pour gérer son trafic actuel, notamment en optimisant et en optimisant l'acheminement intelligent de son trafic. Tout cela n’est possible qu’avec une analyse en temps réel et un mécanisme d’action qui agissent en temps réel sur ces informations.

Le niveau suivant de valeur ajoutée est la vente incitative, la vente croisée, qui offre des opportunités de générer davantage de revenus et de bénéfices grâce aux offres actuelles. C’est un exemple classique que beaucoup d’entre nous connaissent et qui ont vécu une expérience dans laquelle vous pensez dans votre vie où vous êtes prêt à acheter un produit qui ne vous est pas proposé. Dans de très nombreux cas, cela se produit réellement. Vous avez dans la tête des choses que vous aimez acheter que vous savez vouloir, que vous avez une liste de choses à faire ou quelque chose que votre femme vous a dit ou que vous n'avez pas d'épouse mais que vous vouliez vraiment acheter et que vous fassiez des achats sur un site Web ou que vous interagissiez dans un magasin de vente au détail, la devanture de la boutique n’a tout simplement pas l’inconvénient, elle n’a pas l’intelligence nécessaire pour calculer ce dont vous pourriez avoir besoin. Par conséquent, ils ne mettent pas leur entreprise en sécurité. Si les analyses en continu pouvaient être utilisées pour produire des prévisions précises et vraiment possibles, sur ce qui conviendrait le mieux à cet inconvénient, ce client présentement à cet endroit, il y a beaucoup de ventes supplémentaires et croisées, et cela vient encore de analyse en continu - être capable de prendre une décision favorable à propos de ce que ce client est susceptible d'acheter ou de réagir à ce moment de vérité lorsque l'occasion se présente. C’est pourquoi j’adore cette photo que Dez a montrée à l’ours sur le point de manger ce poisson. C’est à peu près tout.

Nous pensons également qu’il existe une grande catégorie de changements spectaculaires dans une entreprise: offrir des produits et des services entièrement nouveaux simplement basés sur l’observation du comportement des clients, le tout basé sur l’observation du comportement d’une autre entreprise. Si, par exemple, une compagnie de télécommunication ou une entreprise de câblodistribution observent réellement les habitudes d'utilisation des clients dans quel segment du marché elle regarde, quel programme et à quelle heure, etc., ils finissent par créer des produits et des services presque demandés pour en quelque sorte. Donc, tout le concept de comportement multi-écrans en ce moment où nous prenons presque pour acquis que nous pouvons voir du contenu télévisé ou câblé sur nos applications mobiles. Certains de ces exemples proviennent de ces nouveaux produits et services qui nous sont offerts.

«Quelles sont les considérations d’architecture de l’analyse en continu?», C’est ce que nous essayons de faire. Il s’agit de l’architecture Lambda dans laquelle vous mélangez les données historiques et les informations en temps réel tout en les visualisant. C’est ce que Sigma permet. Nous avons tous aujourd'hui l'architecture par lots et l'image de l'entreprise. Nous intégrons une sorte de pile de BI et de pile d’utilisation, avec l’architecture Lambda ajoutée. En tant que couche de vitesse ou besoin et Lambda, il s’agit de fusionner ces deux idées et de voir cela d’une manière combinée, d’une manière riche qui combine les deux idées.

Il existe un autre paradigme appelé l’architecture Kappa qui est proposée, où on suppose que la couche de vitesse est le seul mécanisme d’entrée qui va persister à long terme. Tout va passer par cette couche de vitesse. Il n'y aura même pas de mécanisme ETL hors ligne. Tous les ETL vont arriver. Nettoyage, nettoyage des données, qualité ETL - tout cela se produira sur le réseau, car toutes les données sont nées en temps réel. À un moment donné, c'était le temps réel. Nous avons tellement pris l’habitude d’appliquer cela sur les lacs, les rivières et les océans, puis de procéder à une analyse statique, ce qui nous a fait oublier que les données étaient nées à un moment donné en temps réel.En réalité, toutes les données sont nées comme un événement en temps réel qui s'est produit dans le temps. La plupart des données actuelles sur le lac viennent d'être enregistrées dans la base de données pour une analyse ultérieure. Nous avons maintenant l'avantage dans l'architecture Lambda et Kappa de le voir, l’analyser, le pré-traiter et y réagir dès qu’il arrive. C’est ce que permettent ces technologies. Lorsque vous considérez cela comme une vue d’ensemble, cela ressemble à quelque chose comme ceci: Hadoop se trouve à l’intérieur, il y a des MPP et des entrepôts de données que vous avez déjà.

Nous avons mis cela en place car il est important de ne pas parler uniquement des nouvelles technologies dans une île. Ils doivent s'intégrer. Ils doivent avoir un sens dans les problèmes actuels des entreprises et, en tant que fournisseurs de solutions au service des entreprises, nous sommes très sensibles à cela. Nous aidons les entreprises à intégrer le tout. Il existe des sources de données sur le côté gauche alimentant à la fois les couches Hadoop et Data Warehouse ainsi que la couche en temps réel sur le dessus. Chacune de ces entités est un ordinateur standard, comme vous pouvez le voir, et la couche de consommation de données est à droite. côté. Des efforts constants sont déployés pour déplacer la majorité des solutions de conformité, de gouvernance, de sécurité, de gestion du cycle de vie, etc., disponibles aujourd'hui, qui ont toutes été intégrées à cette nouvelle technologie.

L'analyse analytique en continu est l'une des choses que nous essayons de faire. Si vous regardez le paysage actuel, il y a beaucoup de choses qui se passent dans le paysage de la technologie en continu et, du point de vue des entreprises, il y a tellement de choses à comprendre. Il y a tellement de choses à suivre. Il existe des mécanismes de collecte de données sur le côté gauche - NiFi, Logstash, Flume, Sqoop. De toute évidence, j’ai mis en place une clause de non-responsabilité qui dit que ce n’est pas exhaustif. Entrer dans les files d'attente, puis dans les moteurs de streaming open-source - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron n'est probablement pas encore open source. Je ne sais pas si c'est, de. Ces moteurs de diffusion mènent ensuite à ou prennent en charge un composant d’application analytique d’installation tel que le traitement des événements complexes, l’apprentissage automatique, l’analyse prédictive, le module d’alerte, la diffusion en continu ETL, les filtres d’opérations statistiques d’enrichissement. Ce sont tous ce que nous appelons maintenant des opérateurs. L’ensemble de ces opérateurs, une fois enchaînés, pourrait aussi potentiellement devenir une application de streaming qui s’exécutera sur un moteur de streaming.

En tant que partie de cette chaîne de composants, vous devez également stocker et indexer les données dans votre base de données préférée, votre index favori. Vous devrez peut-être également distribuer le cache, ce qui mènera à la couche de visualisation des données, à droite, dans la partie supérieure des produits commerciaux ou à source ouverte, mais vous aurez besoin d'un produit pour visualiser ces données en temps réel. En outre, vous devez parfois comprendre d'autres applications. Nous avons tous vu que les valeurs dérivées uniquement par l'action que vous entreprenez sur la perspicacité, cette action va être un déclencheur d'une pile analytique dans une autre pile d'applications qui peut être changé soit quelque chose du côté IVR ou déclenche un centre d'appels. appel sortant ou quelque chose comme ça. Nous avons besoin d'intégrer ces systèmes et de mettre en place un mécanisme permettant à votre cluster de diffusion en continu de déclencher d'autres applications de données en aval.

C’est la pile générale qui va de gauche à droite. Ensuite, vous avez les couches de service, la surveillance intermédiaire, la couche de service général de sécurité, etc. Venant à quels produits les clients voient dans les entreprises des distributions Hadoop qui sont toutes diffusées en continu comme je le disais et il existe des solutions commerciales ou uniques. solutions -vendor qui sont évidemment chez nos concurrents. Il y en a beaucoup d'autres dans le paysage que nous n'avons peut-être pas mentionnés ici.

L’utilisateur d’entreprise est en train de voir en gros ce que vous voyez. Un paysage technologique complexe et en évolution rapide pour le traitement des flux, comme vous pouvez le constater. Nous avons dû simplifier le choix et leur expérience utilisateur. Ce que nous pensons que les entreprises ont vraiment besoin, c’est l’abstraction fonctionnelle de tout cela dans un guichet unique, une interface facile à utiliser qui rassemble toutes ces technologies qui le rendent vraiment simple à utiliser et n’expose pas toutes les pièces en mouvement. et les problèmes de dégradation, de performance et de maintenance du cycle de vie de l'entreprise.

L'abstraction des fonctionnalités en est un. La deuxième partie est l'abstraction du moteur de streaming. Les moteurs de diffusion en continu et les domaines Open Source sont à venir tous les trois, quatre ou six mois. C'était une tempête pendant longtemps. Samza est arrivé et maintenant c’est Spark Streaming. Flink relève la tête et commence à attirer l'attention. Même la feuille de route de Spark Streaming permet d’utiliser potentiellement un moteur différent pour le traitement des événements purs, car ils réalisent également que Spark a été conçu pour le traitement par lots et qu’ils progressent dans leur vision de l’architecture et leur feuille de route pour potentiellement avoir un autre moteur de traitement de flux en plus du motif de microbatch actuel dans Spark Streaming.

C'est une réalité à laquelle vous devez faire face, il y aura beaucoup d'évolution. Vous devez vraiment vous protéger de ce flux technologique. Parce que par défaut, vous devrez en choisir un, puis vivre avec, ce qui n’est pas optimal. Si vous envisagez le problème sous un autre angle, vous vous battez entre: «D'accord, je dois acheter une plate-forme propriétaire où il n'y a pas de blocage, ni de levier de l'open source, cela pourrait coûter très cher et être limité. la flexibilité par rapport à toutes ces piles open source où vous devez le faire vous-même. »Encore une fois, comme je l’ai dit, il faut beaucoup de coûts et de délais pour arriver au marché. Ce que nous disons, c'est que StreamAnalytix est un exemple d'une excellente plate-forme qui réunit la classe entreprise, un fournisseur unique fiable et un service professionnel, tout ce dont vous avez vraiment besoin en tant qu'entreprise et de la puissance de la flexibilité de l'écosystème open source. où une seule plate-forme les rassemble - Ingest, CEP, analyse, visualisation et tout le reste.

Il fait également une chose très, très unique, qui rassemble de nombreux moteurs technologiques sous une expérience utilisateur unique. Nous pensons vraiment que l’avenir dépend de la possibilité d’utiliser plusieurs moteurs de diffusion en continu, car différents cas d’utilisation exigent différentes architectures de diffusion en continu. Comme l'a dit Robin, il existe toute une gamme de latences. Si vous parlez réellement d'un niveau de latence en millisecondes, de dizaines voire de centaines de millisecondes, vous avez vraiment besoin de Storm à ce stade, jusqu'à ce qu'il y ait un autre produit tout aussi évolué pour une clémence moins grande ou plus clémente et des latences de peut-être en quelques secondes, trois secondes ou plus. quatre à cinq secondes, vous pouvez utiliser Spark Streaming. Potentiellement, d'autres moteurs pourraient faire les deux. En bout de ligne, dans une grande entreprise, il y aura des cas d'utilisation de toutes sortes. Vous voulez vraiment que l'accès et la généralité aient plusieurs moteurs avec une expérience utilisateur unique et c'est ce que nous essayons de construire dans StreamAnalytix.

Juste un aperçu de l'architecture. Nous allons retravailler un peu cela, mais essentiellement, plusieurs sources de données arrivent sur le côté gauche - Kafka, RabbitMQ, Kinesis, ActiveMQ, toutes ces sources de données et files d'attente arrivant à la plate-forme de traitement de flux où vous pouvez vous connecter. assembler une application, où vous pouvez faire glisser des opérateurs tels que les ETL, tout ce dont nous avons parlé. En dessous, il y a plusieurs moteurs. À l’heure actuelle, Storm et Spark Streaming sont la seule et la première plate-forme de diffusion en continu pour entreprises du secteur à prendre en charge plusieurs moteurs. C’est une flexibilité tout à fait unique, que nous offrons en plus de toute la flexibilité des tableaux de bord en temps réel. Moteur CET intégré. Nous avons l'intégration transparente avec les index Hadoop et NoSQL, les index Solr et Apache. Quoi qu'il en soit, vous pouvez atterrir sur votre base de données préférée, créer des applications très rapidement, commercialiser très rapidement et rester à l'épreuve du temps. C’est notre devise dans StreamAnalytix.

Sur ce, je pense que je vais terminer mes remarques. N'hésitez pas à venir nous voir pour plus de questions. Je voudrais laisser la parole aux questions et réponses et aux discussions en groupe.

Rebecca, à toi.

Rebecca Jozwiak: Génial, d'accord. Merci beaucoup. Dez et Robin, avez-vous des questions avant de laisser le public répondre aux questions?

Robin Bloor: J'ai une question. Je remets mes écouteurs pour que vous puissiez m'entendre. L’une des choses les plus intéressantes, si vous pouviez bien me dire ceci, est que beaucoup de ce que j’ai vu dans l’espace open source ressemble à ce que je dirais immature. Dans un sens, oui, vous pouvez faire différentes choses. Mais il semble que nous examinions un logiciel dans sa première ou sa deuxième version, et je me demandais simplement, avec votre expérience en tant qu’organisation, à quel point considérez-vous l’immaturité de l’environnement Hadoop comme problématique ou est-ce quelque chose qui ne le fait pas? t créer trop de problèmes?

Anand Venugopal: C'est une réalité, Robin. Vous avez absolument raison. L'immaturité ne concerne pas uniquement la stabilité fonctionnelle, mais peut-être aussi certains cas. Mais l'immaturité est davantage en préparation d'utilisation. Les produits Open Source dès leur sortie et même s’ils sont proposés par la distribution Hadoop, il s’agit d’une multitude de produits capables, de composants parfaitement coordonnés. Ils ne fonctionnent pas ensemble de manière transparente et ne sont pas conçus pour une expérience utilisateur fluide et transparente, qui s'apparente désormais à Bank of America, Verizon ou AT & T, pour déployer une application d'analyse en continu en quelques semaines. Ils ne sont pas conçus pour cela à coup sûr. C’est la raison pour laquelle nous intervenons. Nous le réunissons et le rendons vraiment facile à comprendre, à déployer, etc.

Je pense que la maturité fonctionnelle de celui-ci est là dans une large mesure. De nombreuses grandes entreprises utilisent par exemple Storm aujourd'hui. De nombreuses grandes entreprises jouent avec Spark Streaming aujourd'hui. Chacun de ces moteurs a ses limites en ce qu’il peut faire, c’est pourquoi il est important de savoir ce que vous pouvez et ce que vous ne pouvez pas faire avec chaque moteur. Inutile de vous casser la tête contre le mur et de dire: «Regarde! J'ai choisi Spark Streaming et cela ne fonctionne pas pour moi dans ce secteur. »Cela ne fonctionnera pas. Il y aura des cas d'utilisation où Spark Streaming sera la meilleure option et il y aura des cas où Spark Streaming pourrait ne pas fonctionner du tout pour vous. C’est pourquoi vous avez vraiment besoin de multiples options.

Robin Bloor: Eh bien, vous avez besoin d’équipes d’experts pour la plupart de ces tâches. Je veux dire, je ne sais même pas par où commencer. Une co-action sensible des personnes qualifiées. Je suis intéressé par la manière dont vous vous impliquez et par la façon dont cela se passe. Est-ce parce qu'une entreprise en particulier est en quête d'une application spécifique ou est-ce que vous voyez une sorte de ce que j'appellerais une adoption stratégique dans laquelle elle souhaite que toute une plateforme fasse beaucoup de choses.

Anand Venugopal: Nous voyons des exemples des deux, Robin. Certaines des dix marques les plus connues, tout le monde le sait, agissent de manière très stratégique. Ils savent qu'ils vont avoir une variété de cas d'utilisation. Ils évaluent donc les plates-formes qui répondront à ce besoin. Il s'agit d'une variété de cas d'utilisation pouvant être déployés dans une entreprise à plusieurs locataires. Il existe également des cas d'expérience à usage unique. Il existe un cas d'utilisation particulier de type surveillance d'activité dans une société de prêt hypothécaire sur lequel nous travaillons et que vous n'imagineriez pas comme premier cas d'utilisation, mais il s'agit de la solution commerciale ou du cas d'utilisation qu'ils ont proposé, puis nous avons connecté les points au streaming. . Nous avons dit: «Vous savez quoi? C’est un excellent cas pour l’analyse en continu et c’est ainsi que nous pouvons l’appliquer. »C’est ainsi que tout a commencé. Ensuite, dans ce processus, ils sont éduqués et se disent: «Oh wow, si nous pouvons le faire et s’il s’agit d’une plate-forme générique, nous pouvons alors séparer l’application, la superposer en une plate-forme et créer de nombreuses applications différentes sur cette plate-forme. Plate-forme."

Robin Bloor: Dez, tu as des questions?

Anand Venugopal: Dez est probablement muet.

Dez Blanchfield: Toutes mes excuses, muet. Je viens d'avoir une bonne conversation moi-même. En suivant juste l’observation originale de Robin, vous avez tout à fait raison. Je pense que le défi à présent est que les entreprises ont un écosystème et un environnement culturel et comportemental où les logiciels libres et à code source ouvert sont connues, et elles sont capables d'utiliser des outils tels que Firefox comme navigateur. durée de vie jusqu'à ce qu'il devienne stable et sécurisé. Mais certaines de ces très grandes plates-formes qu'ils utilisent sont des plates-formes propriétaires de niveau entreprise. Par conséquent, l'adoption de ce que je considère comme des plates-formes open source n'est pas toujours facile à faire passer culturellement ou émotionnellement. Je n’ai vu cela que lors de l’adoption de petits programmes qui étaient des projets locaux et qui consistaient simplement à jouer avec le big data et l’analyse comme concept fondamental. Je pense que l’un des principaux défis, et je suis sûr que vous les avez vus au sein de toutes les organisations, est leur désir d’obtenir le résultat tout en ayant le même pied coincé dans l’ancienne boîte de conserve où ils pourraient tout simplement acheter ceci. “Insérer une grande marque” Oracle, IBM et Microsoft. Ces nouvelles marques connues viennent avec les plates-formes Hadoop et bien plus encore. De plus en plus de marques passionnantes voient le jour grâce à une technologie de pointe comme le flux.

Quelles sortes de conversations avez-vous eu ou avez-vous traversées? Je sais que nous avons beaucoup de monde ce matin et je suis convaincu que tout le monde se préoccupe de savoir comment passer à travers toute cette couche difficile, du conseil d'administration à la direction, oh c'est trop ouvert et à la pointe de la technologie. "Comment se passent les conversations que vous avez avec vos clients et comment vous en sortez-vous au point de dissiper ces craintes et d’envisager d’adopter le modèle de StreamAnalytix?

Anand Venugopal: Nous trouvons en fait assez facile de vendre notre proposition de valeur car les clients optent naturellement pour l’open source comme option privilégiée. Ils ne sont pas simplement prêts à abandonner et à dire: «D'accord, je vais maintenant passer à l'open source.» En fait, ils passent par une évaluation très engagée d'un produit majeur, disons qu'il s'agit d'un IBM ou d'un produit typique, car ils ont: ces relations avec les fournisseurs. Ils ne nous traiteraient pas, ni le moteur à code source ouvert, contre ce produit. Ils passeront par six à huit à douze semaines d’évaluation. Ils vont se convaincre qu'il y a un niveau de performance et de stabilité que je veux, puis ils se décident en disant: «Waouh, vous savez quoi, je peux vraiment faire ça."

Aujourd'hui, par exemple, nous avons un grand opérateur de télécommunication de premier niveau qui effectue des analyses de flux en production sur une grande partie de la pile. Il est en train de l'évaluer par rapport à un autre très grand fournisseur bien connu. la performance, la stabilité et toutes ces choses. Ils ne le prennent pas pour acquis. Les évaluations ont révélé que l'open source est compétent grâce à leurs évaluations et ils se rendent compte que, dans le pire des cas, «Je ne peux peut-être pas utiliser ces deux cas d'utilisation, mais la plupart des cas d'utilisation de l'accélération de mon activité sont aujourd'hui parfaitement possibles avec l'open source. pile. ”Et nous en permettons l’utilisation. Donc, c’est là que se trouve le grand endroit idéal. Ils voulaient l'open source. Ils cherchent vraiment à se sortir de la situation de blocage des fournisseurs à laquelle ils sont habitués depuis de très nombreuses années. Puis nous arrivons et disons: "Vous savez quoi, nous allons rendre l’open source beaucoup plus facile et convivial à utiliser pour vous."

Dez Blanchfield: Je pense que l’autre défi que rencontrent les entreprises est le fait qu’elles embauchent le fournisseur traditionnel, c’est souvent une génération qui est à l’avant-garde des éléments excitants dont nous parlons ici, ce que je ne veux pas dire de négatif. La réalité, c’est qu’ils ont une génération et un chemin à parcourir pour publier ce qu’ils considèrent comme des plateformes stables, le développement à l’école, les cycles d’intégration UATN, les tests et la documentation, ainsi que le marketing et les ventes. Alors que dans le genre que vous faites, je pense que la chose à laquelle je suis intéressé à penser est que regarder certaines de vos dernières sorties hier soir en faisant une sorte de travail de recherche, vous avez maintenant ce mélange où vous avez le compétences du point de vue des consultants et de la mise en œuvre, mais vous disposez également d’une pile que vous pouvez intégrer. Je pense que c’est là que les titulaires vont se débattre pendant un certain temps. Nous en avons vu beaucoup comme moi sur le marché. Ils se trouvent souvent dans ce que j’appelle des nœuds de rattrapage, ce que vous nous dites quand vous êtes en train de faire ces conversations et que vous les mettez en œuvre.

Pouvez-vous nous donner quelques exemples de certaines verticales de la frontière que vous avez vues adopter? Par exemple, il existe des environnements très spécialisés tels que la science des fusées, l'installation de satellites dans l'espace et la collecte de données sur Mars. Il n'y a qu'une poignée de personnes qui le font sur la planète. Mais il y a de grands secteurs comme la santé, par exemple, dans l'aéronautique, les transports maritimes et la logistique, la fabrication et l'ingénierie. Voici quelques exemples de secteurs industriels plus vastes et plus vastes que vous avez vus jusqu'à présent et que vous avez vraiment remarqués. adoption en?

Anand Venugopal: Telco est un grand exemple.

Je vais juste réparer rapidement mes diapositives ici. Pouvez-vous voir la diapositive ici, étude de cas 4?

C’est le cas d’une grande compagnie de télécommunications qui ingère des données de décodeur et fait plusieurs choses avec. Ils regardent ce que les clients font vraiment en temps réel. Ils cherchent où les erreurs se produisent en temps réel dans les décodeurs. Ils essaient d'informer le centre d'appels si, si ce client appelle maintenant, les informations de liaison de code du décodeur de ce client, les informations du ticket de maintenance sont rapidement mises en corrélation, que le décodeur de ce client ait un problème ou pas avant même le client parle un mot. Tous les câblodistributeurs, tous les grands opérateurs télécoms essaient de le faire. Ils ingèrent les données du décodeur, effectuent des analyses en temps réel, analysent des campagnes afin de pouvoir placer leurs annonces. Il y a un cas d'utilisation énorme.

Comme je l’ai dit, cette société de crédit hypothécaire est à nouveau un modèle générique dans lequel de grands systèmes sont impliqués dans le traitement des données. Les données qui transitent du système A au système B au système C sont des entreprises réglementées dont tout doit être cohérent.Souvent, les systèmes se désynchronisent, un système dit: «Je traite cent prêts pour une valeur totale de 10 millions de dollars». Le système dit: «Non, je traite 110 prêts d'une autre numéro différent. »Ils doivent résoudre ce problème très rapidement, car ils traitent les mêmes données et interprètent différentes interprétations.

Qu'il s'agisse d'une carte de crédit, du traitement d'un prêt, d'un processus commercial ou d'un processus commercial relatif aux prêts hypothécaires ou autre chose, nous les aidons à établir des corrélations et des rapprochements en temps réel pour garantir la synchronisation de ces processus. C’est un autre cas d’utilisation intéressant. Un important contractant du gouvernement américain étudie le trafic DNS pour détecter les anomalies. Ils ont créé un modèle de formation hors ligne et ils notent le score en fonction du trafic en temps réel. Certains de ces cas d'utilisation intéressants. Une grande compagnie aérienne examine les files d’attente relatives à la sécurité et essaie de vous donner cette information: «C’est votre porte d’avion pour votre vol. La file d'attente de la TSA aujourd'hui est d'environ 45 minutes contre deux heures par rapport à autre chose. »Vous obtenez cette mise à jour immédiatement. Ils y travaillent encore. Cas d'utilisation intéressant de l'IoT, mais excellent exemple d'analyse en continu orientée vers l'expérience client.

Rebecca Jozwiak: C'est Rebecca. En ce qui concerne les cas d'utilisation, un membre de l'auditoire a posé une bonne question: «S'agit-il d'études de cas, ces initiatives sont-elles motivées par le côté analytique des systèmes d'information de la maison? l'entreprise qui a des questions ou des besoins spécifiques en tête? "

Anand Venugopal: Je pense que nous voyons environ 60%, entre 50% et 55%, des initiatives technologiques enthousiastes et très proactives qui savent, qui sont assez avisées et comprennent certaines exigences commerciales et qui ont probablement identifié un sponsor, mais Les équipes technologiques se préparent-elles à l’afflux d’affaires d’affaires commerciales et savent-elles qu’elles peuvent le faire, puis s’engagent dans la vente et le vendent de manière agressive? Dans 30 à 40% des cas, nous constatons que les entreprises ont déjà un cas d'utilisation particulier qui demande une fonctionnalité d'analyse en continu.

Rebecca Jozwiak: Ça a du sens. J'ai une autre question un peu plus technique d'un membre de l'auditoire. Il se demande si ces systèmes prennent en charge les flux de données structurés et non structurés, tels que les sédiments de flux ou de messages, en temps réel, ou doivent-ils être initialement filtrés?

Anand Venugopal: Les produits et technologies dont nous parlons prennent en charge de manière très imminente des données structurées et non structurées. Ils peuvent être configurés. Toutes les données ont une sorte de structure, qu’il s’agisse d’un XML ou d’un format quelconque. Il y a une structure en termes de flux d'horodatage. Il existe peut-être un autre blob qui doit être analysé afin que vous puissiez injecter des analyses dans le flux pour analyser les structures de données. Si elle est structurée, nous disons simplement au système: «D'accord, s'il existe des valeurs séparées par des virgules et que la première est une chaîne, la seconde est une date.» Nous pouvons donc injecter cette intelligence d'analyse dans les couches supérieures et traiter facilement les données structurées et non structurées.

Rebecca Jozwiak: J'ai une autre question du public. Je sais que nous avons dépassé un peu l'heure. Ce participant souhaite savoir, il semble que les applications de streaming en temps réel puissent être à la fois une nécessité et une opportunité pour réintégrer dans des systèmes transactionnels, des systèmes de prévention de la fraude, par exemple. Dans ce cas, les systèmes de transaction doivent-ils être modifiés pour s’y adapter?

Anand Venugopal: C’est une fusion, non? C’est une fusion de systèmes de transaction. Ils deviennent parfois la source de données où nous analysons les transactions en temps réel et dans de nombreux cas où il existe un flux d’applications et où j’essaie de montrer un site de recherche de données statiques, puis dans notre cas où une sorte de streaming vous recherchez une base de données statique telle qu’une HBase ou un SGBDR pour enrichir les données en continu et les données statiques afin de prendre une décision ou de donner un aperçu analytique.

Nous constatons également une autre tendance majeure du secteur - la convergence d’OLAP et d’OLTP - et c’est la raison pour laquelle vous avez des bases de données telles que Kudu et des bases de données en mémoire prenant en charge à la fois les transactions et le traitement analytique. La couche de traitement de flux serait entièrement en mémoire et nous examinerons ou interfacerons certaines de ces bases de données transactionnelles.

Rebecca Jozwiak: La charge de travail mixte a été l’un des derniers obstacles à surmonter, je pense. Dez, Robin, vous avez encore des questions?

Dez Blanchfield: Je vais poser une dernière question et terminer sur une question si cela ne vous dérange pas. Le premier défi auquel les organisations avec lesquelles je fais face depuis une dizaine d’années mène à ce défi passionnant de l’analyse de flux, c’est la première chose qu’elles ont tendance à remettre sur la table lorsque nous avons entamé la discussion autour de ce défi: nous obtenons l'ensemble des compétences? Comment recycler l'ensemble des compétences et comment obtenir cette capacité en interne? Avoir une impulsion qui nous arrive et qui nous tient par la main tout au long du voyage, puis le met en œuvre comme une excellente première étape, et cela a beaucoup de sens de le faire.

Mais pour les moyennes et grandes entreprises, quels types de choses voyez-vous actuellement pour vous préparer à cela, pour développer cette capacité en interne, pour obtenir quelque chose d'un vocabulaire de base autour de ce sujet et que peuvent-elles faire avec le organisation autour de la transition vers ce type de cadre et de réoutiller le personnel technique en place du chef de la direction informatique pour qu’il puisse le gérer lui-même une fois que vous l'avez créé et mis en œuvre? Très brièvement, quel genre de défis et comment les résolvent-ils, les clients avec lesquels vous faites affaire, les types de défis qu’ils ont rencontrés et comment ils parviennent à résoudre cette reconversion et à récupérer leur expérience et leurs connaissances pour se préparer à cela et être capable de faire le tour des opérations?

Anand Venugopal: Souvent, le petit groupe de personnes cherchant à acheter une plate-forme d’analyse en continu est raisonnablement malin en ce sens qu’il est au courant de Hadoop, qu’il a déjà acquis ses compétences en matière de Hadoop MapReduce et parce qu’il travaille en étroite collaboration avec le fournisseur de distribution Hadoop, ils sont soit familiers. Tout devient Kafka, par exemple. Ils font quelque chose avec cela et le streaming Storm ou Spark est dans leur domaine open-source. Certainement, les gens le connaissent ou développent des compétences autour de cela. Mais cela commence avec un petit groupe de personnes suffisamment qualifiées et intelligentes. Ils assistent à des conférences. Ils apprennent et posent des questions intelligentes aux vendeurs et, dans certains cas, ils apprennent avec les vendeurs. Alors que les vendeurs arrivent et se présentent lors de la première réunion, ils ne savent peut-être pas quoi que ce soit, mais ils lisent ensemble et commencent à jouer avec.

Ce petit groupe de personnes constitue le noyau, puis il commence à croître et tout le monde se rend compte maintenant que le premier scénario d’utilisation est opérationnel. Une vague s’est amorcée et nous avons assisté au sommet Spark de la semaine dernière où une grande entreprise comme Capital One était en pleine activité. Ils optaient pour Spark. Ils en parlaient. Ils sensibilisent beaucoup de monde à Spark parce qu’ils y contribuent aussi souvent en tant qu’utilisateur. Nous voyons la même chose avec beaucoup, beaucoup de grandes entreprises. Cela commence par quelques personnes très intelligentes, puis par une vague d’éducation générale et les gens savent qu’une fois un vice-président ou un directeur principal en alignement, ils veulent parier sur cette affaire et le mot circule. ils commencent tous à acquérir ces compétences.

Dez Blanchfield: Je suis sûr que vous avez également passé un temps fantastique à former ces champions.

Anand Venugopal: Oui. Nous travaillons beaucoup avec les champions initiaux et nous organisons des cours. Beaucoup, beaucoup, pour nos grands clients, nous sommes revenus en arrière et avons reçu des vagues de formations pour amener beaucoup d'utilisateurs dans la phase d'utilisation traditionnelle, en particulier sur le site Hadoop MapReduce. Nous avons constaté que dans une grande société émettrice de cartes de crédit qui est notre client, nous avons organisé au moins cinq à huit programmes de formation différents. Nous avons également des éditions communautaires gratuites de tous ces produits, y compris les nôtres, des bacs à sable que les gens peuvent télécharger, s’habituer et s’éduquer de la sorte.

Dez Blanchfield: C’est tout ce que j’ai pour vous ce matin. Merci beaucoup. Je trouve extrêmement intéressant de voir les types de modèles et les cas d’utilisation que vous avez pour nous aujourd’hui. Je vous remercie.

Anand Venugopal: Génial. Merci beaucoup les gens.

Rebecca Jozwiak: Merci à tous pour votre participation à cette diffusion Web Hot Technologies. Les nouvelles de Dez Blanchfield, Robin Bloor et d’Impetus Technologies d’Anand Venugopal ont été fascinantes. Merci aux présentateurs. Merci aux conférenciers et merci au public. Nous avons un autre Hot Technologies le mois prochain, alors cherchez-le. Vous pouvez toujours trouver notre contenu archivé sur Insideanalysis.com. Nous mettons également beaucoup de contenu sur SlideShare et des extraits intéressants sur YouTube.

C’est tout. Merci encore et bonne journée. Bye Bye.