Le lien entre héritage et innovation: un tournant pour les données

Contenu

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire
Aux affaires
Comment Kafka changera la gestion des données

À emporter:

Kafka fera pour les systèmes d’information ce que LinkedIn fait pour les hommes et femmes d’affaires: maintenez-les connectés sur de nombreuses plages.

En croyant passionnément en quelque chose qui n'existe pas encore, nous le créons. L'inexistant est tout ce que nous n'avons pas suffisamment désiré.

~ Franz Kafka

La nécessité reste la mère de l'invention. Comme un consultant astucieux m'a dit un jour: "Si quelque chose doit se produire dans une organisation, cela se produit." Son argument était double: 1) certaines personnes trouveront toujours un moyen de faire avancer les choses; et 2) les cadres supérieurs, voire les cadres moyens, peuvent ne pas savoir exactement comment les choses se passent dans leur propre établissement.

Si nous étendons cette métaphore à tout l'univers de la gestion de données, nous pouvons constater une transformation en cours actuellement. La pression brute des mégadonnées, combinée à l’axe de transmission en continu des données, crée une telle pression que les systèmes existants s'effilochent, voire s’effondrent. Néanmoins, d'innombrables professionnels se consacrent à leur travail en ce moment, qui ignorent en grande partie cette réalité.

Les entreprises axées sur les données ont une place au premier rang et sont à bien des égards à l'origine de ce changement. Réfléchissez à la façon dont des puissances telles que Yahoo !, et LinkedIn ont transformé l'industrie du logiciel d'entreprise avec leurs dons prodigieux vers des logiciels libres: Hadoop, Cassandra et maintenant Kafka, qui ont toutes été dirigées par la Fondation Apache, elle-même un acteur central de cette métamorphose. .

Quel est le résultat de tout ce changement? Nous avons assisté aujourd'hui à la reclassification catégorique et à la restructuration de la gestion des données elle-même. Cela ne veut pas dire que les systèmes existants seront désormais arrachés et remplacés. Tous les vétérans du secteur vous diront que la dissolution totale des systèmes existants se produit presque aussi souvent que les Cubs de Chicago remportent les World Series. C'est un événement rare, pour le moins qu'on puisse dire.

Ce qui se passe réellement, c'est qu'une super-structure est en train d'être construite autour des systèmes du vieux monde. Examinons l’analogie des autoroutes inter-États, qui surplombent souvent les villes qu’elles desservent, conçues pour accueillir des personnes et des marchandises dans ces agglomérations, et pour permettre à toutes les personnes s’y trouvant de sortir. Elles ne remplacent pas tant les routes existantes que leur sont associées des alternatives à grande vitesse.

C'est exactement ce que fait Apache Kafka: il fournit des itinéraires à grande vitesse pour le transfert de données entre et parmi les systèmes d'information. Pour suivre l’analogie autoroute, de nombreuses entreprises utilisent encore des files d’attente linéaires ou l’ancien standard ETL (extract-transform-load); mais ces voies ont de faibles limites de vitesse et il y a beaucoup de nids de poule; de plus, les coûts de maintenance sont souvent exorbitants; la signalisation est médiocre.

Kafka offre une méthode alternative pour la fourniture de données, une méthode résolument en temps réel, évolutive et durable. Cela signifie que Kafka n'est pas seulement un véhicule de transfert de données, mais également un réplicateur de données. et dans une certaine mesure, une technologie de base de données distribuée. Nous devons faire attention de ne pas trop pousser l'analogie, car il existe des caractéristiques des bases de données conformes à ACID que Kafka ne fait pas encore du sport. Pourtant, le changement est réel.

C'est une excellente nouvelle pour le paysage de l'information, car les données sont désormais libres de circuler dans le pays - et dans le monde, d'ailleurs. Ce qui était autrefois une contrainte douloureuse, à savoir la frappe de fenêtres groupées pour les processus ETL, est en train de se dissiper, à mesure que le brouillard cède la place à un ciel dégagé à la lueur d’un soleil brûlant. Lorsque le transfert de données d'un système à un autre devient une opération transparente, une ère de nouvelles opportunités se fait jour.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Les êtres humains constitueront probablement le plus de frictions sur la route vers un nouvel avenir. Les vieilles habitudes ont la vie dure. Nary un CIO est trop enthousiaste à l'idée de modifier en profondeur les systèmes de l'entreprise. A déclaré l'un des cadres supérieurs avisés du rôle: "Préparez-vous à être seul." Moins d'un an après ce commentaire, il était consultant. Ce n'est pas un chemin facile, en essayant de gérer le monde incroyablement lourd des données d'entreprise.

La bonne nouvelle est que Kafka fournit une rampe vers l'avenir. Parce qu’il s’agit d’un bus haute puissance à multiples facettes, il crée des ponts entre les systèmes existants et leurs homologues tournés vers l’avenir. Ainsi, les organisations qui embrassent cette nouvelle opportunité avec un esprit ouvert et un budget suffisant seront en mesure de pénétrer dans le nouveau monde sans quitter l’ancien. C'est un gros problème.

Aux affaires

Bien qu'Apache Kafka soit une technologie à source ouverte, gratuite à télécharger et à utiliser, les personnes qui ont créé ce logiciel pour LinkedIn ont créé une entité distincte, Confluent, qui vise à renforcer l'offre pour une utilisation en entreprise. À l'instar de Cloudera, Hortonworks et MapR ont développé leurs activités autour du projet open source d'Apache Hadoop. Confluent cherche donc à monétiser Kafka.

Dans une récente interview avec InsideAnalysis, le PDG et cofondateur de Confluent, Jay Kreps, a expliqué son origine à LinkedIn:

«Nous essayions de résoudre différents problèmes. L’un d’eux était que nous avions tous ces systèmes de données avec différents types de données. Nous avions des bases de données et des fichiers journaux, nous avions des statistiques sur les serveurs et des utilisateurs qui cliquaient dessus. Il était très difficile de rassembler toutes ces données, car elles devenaient plus grandes. Leur puissance n'était disponible que si vous pouviez les transmettre aux applications, aux traitements ou aux systèmes qui en avaient besoin. C'était un gros problème.

"Notre autre problème était que nous avions adopté Hadoop. J'y participais. Nous avions cette fantastique plate-forme de traitement hors ligne que nous pouvions adapter et où nous pouvions mettre toutes nos données. Pour LinkedIn, toutes nos données sont réellement Il y avait toujours ce décalage, car nous essayions de créer des éléments clés de l'entreprise à partir de nos données, entre un événement qui se déroulait une fois par jour, peut-être la nuit, et des résultats le lendemain. et ce genre de données continues - de brefs temps d’interaction - qu’il fallait rattraper. Nous voulions être en mesure de faire quelque chose qui existait dans le monde universitaire depuis un moment, mais qui n’était pas vraiment une chose courante, à savoir: puiser dans les flux de données et les traiter au fur et à mesure de leur génération, plutôt qu’au moment où ils se sont assis. "

Bien. C’est exactement ce que Confluent cherche maintenant à faire avec des données d’entreprise de toutes formes et de toutes tailles. L'occasion en jeu? Greenfield. Franchement, dans toute l’histoire des logiciels d’entreprise, on peut affirmer que le marché adressable de cette technologie prend tout le gâteau. Il n’existe pas une seule grande entreprise, ni même une petite entreprise qui utilise beaucoup de données, qui ne puisse bénéficier énormément de cette technologie.

Cela est particulièrement vrai en raison de l'aspect neurologique de cette technologie; pas seulement les esprits impliqués, mais la nature de ce que Kafka fait pour les systèmes d’information. Parce que Kafka peut être utilisé pour gérer le mouvement des données au sein d'une organisation, il peut être perçu comme étant plus qu'un simple agent de la circulation, mais plutôt le cerveau de l'opération elle-même. Étaient aux premiers stades de cette vision, mais rassurez-vous, sa réalité.

Comment Kafka changera la gestion des données

Pour comprendre comment Kafka changera la nature de la gestion des données, il suffit de penser à la manière dont LinkedIn a modifié les réseaux. Trouver des collègues est devenu tellement plus facile. Rester en contact avec les gens est maintenant un jeu d'enfant. Kafka fera pour les systèmes d’information ce que LinkedIn fait pour les hommes d’affaires: maintenez-les connectés dans les plus vastes étendues de la planète.

Les retombées de Confluent sont emblématiques de ce que nous pourrions appeler la nouvelle innovation, un mouvement motivé par le découplage du développement de logiciels et de la mentalité du type de source fermée, guidé par les créateurs de la technologie du code source ouvert, alimenté par de grandes quantités de capital-risque, monétisé par entreprises à but lucratif qui cherchent à révolutionner la manière dont les organisations et les personnes créent, rassemblent, analysent et exploitent les données.

Pour citer Franz Kafka, "à partir d'un moment donné, il n'y a plus de retour en arrière. C'est le point qui doit être atteint".

Nous avons passé le Rubicon. Il n'y a pas de retour en arrière maintenant.