Forward Momentum: Relationnel au-delà du traditionnel

À emporter: L'animateur Eric Kavanaugh discute des innovations en matière de technologie de base de données avec les experts Dez Blanchfield, Robin Bloor et Bert Scalzo.

Vous n'êtes actuellement pas connecté. Veuillez vous connecter ou vous inscrire pour voir la vidéo.

Eric Kavanagh: Mesdames et Messieurs, nous sommes mercredi, à quatre heures, heure de l'Est. Je suis à la Nouvelle-Orléans, l’été arrive, ça veut dire qu’il fait chaud! C’est le moment de Hot Technologies, oui, oui. Je m'appelle Eric Kavanagh, je serai votre hôte. Je vais renvoyer la balle ici pour Hot Technologies. Le sujet d’aujourd’hui est: «Une nouvelle dynamique: Relationnel au-delà du traditionnel». Nous avons aujourd'hui trois experts en base de données au téléphone. Par conséquent, si vous avez des questions, que ce soit les plus difficiles, n’hésitez pas. Nous avons un tas de bon contenu pour vous aujourd'hui. Il y a un endroit sur le tien vraiment, assez sur moi. Bien sûr, cette année est chaude. Nous parlons entièrement de technologies de pointe dans cette émission, qui est un partenariat avec nos amis de Techopedia. Et nous en sommes au fondement de la gestion de l’information, qui est bien sûr la base de données. Nous allons parler de la façon dont nous sommes arrivés ici, de ce qui se passe aujourd’hui et de ce qui se passe à l’avenir. Il se passe beaucoup de choses très intéressantes.

De toute évidence, nous avons des innovations sérieuses dans l’espace de la base de données. C'était assez calme pendant un moment; si vous parlez à certains des analystes du secteur, je dirais probablement de l’année 2005 à 2009 ou 10, il ne semblait pas y avoir trop d’innovations.Et tout à coup, cela a éclaté, comme un jailbreak ou quelque chose du genre, et maintenant il se passe toutes sortes de choses intéressantes. Cela tient en grande partie à la taille du Web et à toutes les propriétés Web intéressantes qui font différentes choses intéressantes. C’est de là que vient le concept NoSQL. Et cela signifie deux choses différentes: cela ne signifie pas SQL, car cela ne prend pas en charge SQL, cela ne signifie pas seulement SQL. Certaines personnes ont utilisé le terme «NewSQL». Mais évidemment, le langage SQL - le langage de requête structuré - est vraiment la base, c’est la base de la requête.

Et il est intéressant de noter que tous ces moteurs NoSQL, que s’est-il passé? Eh bien, ils sont sortis, cela suscitait beaucoup d'enthousiasme et quelques années plus tard, qu'avions-nous tous commencé à entendre? Oh, SQL sur Hadoop. Eh bien, toutes ces entreprises ont commencé à intégrer des interfaces SQL à leurs outils NoSQL, et quiconque évoluant dans le monde de la programmation sait que cela posera des défis et des difficultés, et des liens croisés, etc. Nous allons donc découvrir beaucoup de ces choses aujourd'hui.

Il y a nos trois présentateurs: Dez Blanchfield nous appelle de Sydney, notre propre Robin Bloor, qui vit au Texas, et Bert Scalzo, lui aussi. Nous allons d’abord entendre Dez Blanchfield. Nous allons tweeter sur le hashtag de #HotTech. N'hésitez donc pas à laisser vos commentaires et vos questions à travers le composant Q & A de la console de diffusion sur le Web, ou même à travers la fenêtre de discussion. Et avec ça, Dez Blanchfield, emporte-le.

Dez Blanchfield: Merci Eric. Salut à tous. Je vais donc essayer de situer la scène à 30 000 pieds de ce qui s’est passé au cours de la dernière décennie et des bouleversements importants que nous avons observés - ou au moins une décennie et demie de toute façon - de la Les systèmes de gestion de base de données et certains des impacts d’un point de vue commercial ou technique, ainsi que certaines des tendances que nous avons perdues ces derniers temps, nous amènent au débat que nous allons avoir aujourd’hui sur le sujet.

Mon image de couverture ici est une dune de sable, et le vent souffle de petits morceaux de sable dessus. Et à la suite de cela, il se passe que la dune de sable se déplace lentement d’un espace à l’autre. Et c’est un phénomène étonnant: ces énormes montagnes de sable d’une hauteur de 40 à 50 pieds se déplacent effectivement. Et ils se déplacent très lentement, mais ils se déplacent sûrement et changent de paysage. Et c’est vraiment quelque chose à regarder si vous passez du temps dans une région où les dunes de sable sont une chose naturelle. Parce que vous pouvez regarder par la fenêtre un jour et vous rendre compte que cette énorme montagne de sable, de petits grains minuscules ont bougé de leur propre chef, et que le vent le déplace lentement d’un endroit à l’autre.

Et à bien des égards, c’est le monde des systèmes de base de données depuis un certain temps. Jusqu'à tout récemment, ce très petit changement sous la forme de grains de sable déplaçait une gigantesque montagne de sable sous la forme d'une dune de sable. Les plates-formes de bases de données ont peu évolué au fil des ans et il s’agit d’un environnement relativement stable et solide autour des systèmes et des plates-formes de bases de données, à travers le mainframe de l’ère des moyennes fréquences. Mais récemment, nous avons eu des problèmes assez importants concernant nos besoins commerciaux et nos facteurs techniques. Je vais nous guider à travers ceux-ci.

Je pense que le concept de base d'une base de données, tel que nous le connaissions depuis de très nombreuses années, et comme vous l'avez peut-être entendu dans les plaisanteries d'avant-spectacle, nos deux experts qui sont à l'appel avec moi aujourd'hui ont passé leur vie à cet espace et ils ont bien raison de partager le droit de se vanter d'être là quand tout a commencé au début des années 80. Mais nous avons vu ce changement radical au cours de la dernière décennie et un peu, et je vais rapidement nous guider avant de céder la parole au Dr Robin Bloor.

Nous avons vécu ce que j’appelle une expérience «plus grande, meilleure, plus rapide, moins chère». Comme je l'ai dit, la définition d'une base de données a changé. Le paysage dans lequel les plates-formes de bases de données ont dû faire face aux performances et aux exigences techniques et commerciales a également changé. Nous avons constaté une augmentation de la demande de solutions pour faire face à des exigences commerciales plus complexes ou à des exigences techniques plus complexes. Et donc, un coup d'œil rapide sur ce que cela signifie réellement, dans mon esprit, c'est que nous avons en quelque sorte commencé par les années 90, et nous avons vu la technologie de base de données impactée par l'introduction d'Internet, et une sorte de ce que nous appelions à l'époque Internet échelle. Nous ne parlions pas seulement des personnes assises devant des terminaux, à l’origine des terminaux de type téléimprimeur avec une interface physique intégrée et 132 colonnes de papier. Ensuite, les premiers terminaux à écran vert, perforés au clavier.

Mais vous savez, notre monde était constitué de terminaux et de câbles série ou de câbles réseau communiquant avec des ordinateurs pendant longtemps. Puis vint Internet, et cette croissance explosive de la connectivité, que vous n’aviez plus besoin d’être branché à l’ordinateur. Pour accéder à un système de base de données, vous n'aviez besoin que d'un navigateur Web. La technologie de base de données a donc dû changer radicalement pour s'adapter à l’échelle de tout, des technologies de base des moteurs de recherche utilisées pour indexer le monde et stocker un index d’informations, à l’aide du format de la base de données. Et des gens comme Google et d'autres ont fourni une plate-forme pour le faire. Et tous les nouveaux types de stockage de base de données, d'interrogation et d'indexation ont été produits. Et puis nous avons eu des sites de musique et des sites de cinéma.

Et puis, dans les années 2000, nous avons assisté à l'essor de la bulle Internet, ce qui a provoqué une explosion encore plus dramatique du nombre d'utilisateurs de systèmes utilisant systématiquement une base de données. À ce stade, les bases de données relationnelles supportaient encore la majeure partie de la charge, nous les avons simplement placées sur des boîtiers plus gros et nous nous sommes plus ou moins tournés vers les très, très très grands systèmes de milieu de gamme exécutant des plates-formes Unix de personnes comme IBM et Sun, etc. . Le boom de la bulle Internet a rendu les choses plus grandes et plus rapides du point de vue du matériel, des performances et des changements importants ont été apportés aux moteurs de base de données, mais dans l’ensemble, c’était toujours la même chose que nous avions vue depuis un certain temps. Longtemps.

Et puis nous avons eu cette ère du Web 2.0, comme nous le désignons. Et ce fut un changement monstrueux, car tout d'un coup, nous avions besoin de plates-formes de base de données beaucoup plus simples et d'une échelle horizontale. Et c'était un changement tellement important dans la façon dont nous avons abordé l'idée de ce qu'est une base de données. Nous sommes toujours en train de rattraper notre retard. Et maintenant, nous avons affaire à tout ce bourbier, et je le dis avec une tournure positive, pas une connotation négative, ce bourbier de ce que nous appelons le big data, et une énorme explosion, et je veux dire une explosion. Ce déplacement scandaleux verticalement sur le graphique du nombre d'options que nous avons lorsque nous parlons d'une base de données et d'une forme de capacité d'interrogation relationnelle.

Et curieusement, j’ai personnellement le sentiment que le big data n’est en réalité que la partie visible de l’iceberg. Nous avons tendance à être un peu excités par l’impact du big data et par les types de choix que nous avons à présent. Nous avons tout ce qu’il faut des moteurs NoSQL, nous avons des moteurs de graphes, nous avons tous ces types de plates-formes différentes sur lesquelles nous pouvons envoyer des données et en faire des choses. Au point même où l'une des toutes premières conversations que j'ai eues avec Eric Kavanagh, qui est avec nous aujourd'hui, portait sur une conversation concernant Apache Drill, un projet à code source ouvert permettant de consulter data inside modélise différents types de données: des fichiers CSE bruts sur un disque dur aux systèmes de fichiers HDFS à l'échelle du pétaoctet. Et vous savez, cela vous permet de faire ces requêtes de type SQL de données structurées et non structurées de toutes sortes de plantes passionnantes.

Nous sommes sur le point de voir le «bâtiment intelligent» devenir une chose, et nous aimerions penser que nous avons des bâtiments intelligents de sécurité et de gestion de la chaleur, mais je parle de bâtiments intelligents qui en savent beaucoup plus sur qui vous êtes et où vous vous trouvez lorsque vous entrez et faites toutes sortes de choses intéressantes à ce niveau, jusqu'aux villes intelligentes - des écosystèmes entiers au niveau de la ville - qui savent comment faire les choses intelligemment. Et au-delà de cela, nous avons cette chose incroyable que je ne pense pas que quiconque dans le monde comprenne parfaitement, et qui est la forme de l’Internet des objets. Tous ces changements ont eu lieu au cours de la dernière décennie et un peu, peut-être une vingtaine d’années, si nous l’arrêtons, qui ont en quelque sorte eu une incidence sur le monde de ce que nous considérons comme des bases de données, à mon avis.

Deux choses importantes ont rendu cela possible. Le coût des disques durs a considérablement diminué et, à bien des égards, c’est ce qui a permis de piloter certaines architectures de référence telles que le modèle Hadoop, en ce sens que nous exploitons une grande quantité de données et les répartissons sur de nombreux disques durs. faire des choses intelligentes avec elle. Et, en fait, ce qui est devenu un partage, à mon avis, de la base de données relationnelle ou du modèle d’unité de base de données traditionnel. Et la RAM était très, très bon marché, et cela nous donnait une toute nouvelle occasion de jouer avec différentes architectures de référence, telles que la mémoire en mémoire, et de partitionner de très très gros volumes de données.

C’est ce qui nous donne cette petite image que nous examinons à présent. Il s’agit d’un diagramme qui montre les types de plates-formes disponibles si vous êtes dans le paysage big data. Et c’est très, très difficile à lire, et la raison en est qu’il ya trop d’informations à ce sujet. Il existe un si grand nombre d'options de création, de modélisation et de fabrication permettant de placer des données dans des systèmes de base de données de n'importe quelle forme, de les interroger et d'effectuer la lecture-écriture traditionnelle. Et ils ne sont pas tous conformes. En fait, très peu d’entre eux ne se conforment à aucune norme de style de base, mais ils se considèrent toujours comme une base de données. Et je vais vous montrer quelques écrans dans une seconde pour vous expliquer ce que je veux dire par le passage des années 90 et de l’échelle Internet au Web 2.0, puis à l’ensemble de la croissance grâce au Big Data. Si nous pensons que ce graphique de paysage de technologies de données volumineuses est intéressant, car il comporte de nombreuses options, examinons simplement une verticale clé.

Regardons la technologie marketing. Voici les options pour les systèmes de gestion de base de données, ou la gestion de données dans l'espace mar-tech, donc les technologies liées au marketing. C'était en 2011, donc il y a quelques années; Il y a cinq ans, voici à quoi ressemblait le paysage. Si je reviens brièvement sur une diapositive, voici à quoi ressemble le paysage de données d’aujourd’hui dans les différentes marques et offres que nous avons dans les technologies de bases de données. Voici à quoi ressemblait une verticale il y a cinq ans, uniquement en technologie marketing.

Si j’en viens au point de vue d’aujourd’hui, c’est à quoi cela ressemble et c’est complètement impénétrable. C’est juste ce mur de marques et d’options, et ce sont des milliers de combinaisons de logiciels qui se considèrent comme appartenant à la classe de base de données, qui peuvent capturer, créer, stocker et récupérer des données sous diverses formes. Et je pense que nous entrons dans une période très, très intéressante et courageuse, où il était une fois que vous pouviez connaître les grandes marques, les cinq ou six plates-formes différentes d'Oracle et Informix, DB2, etc. presque un expert sur toutes les marques qui étaient disponibles il y a environ 20 ans. Il y a dix ans, cela devenait un peu plus facile parce que certaines marques ont chuté et que toutes ne pouvaient pas faire face à l'ampleur du boom de la technologie Internet, et certaines entreprises ont fait faillite.

Aujourd’hui, il est absolument impossible d’être un expert de toutes les technologies de bases de données existantes, qu’il s’agisse de bases de données relationnelles ou de plates-formes de gestion de bases de données standard que nous connaissons depuis une vingtaine d’années. Ou probablement les cas, les moteurs plus modernes comme Neo4j et ces types. Je pense donc que nous entrons dans un monde très courageux où de nombreuses options sont disponibles et où nous avons des plates-formes à l’échelle horizontale, en mémoire ou sur disque. Mais je pense que c’est une période difficile pour les décideurs en matière de technologie et d’entreprise, car ils doivent prendre de très grandes décisions en matière de technologie, qui dans certains cas n’existent que depuis des mois. Dix-huit mois n’est plus un chiffre effrayant pour certaines des plateformes de base de données open source les plus excitantes et les plus nouvelles. Et ils commencent à fusionner les plates-formes et deviennent encore plus nouveaux et plus excitants.

Je pense que nous aurons une bonne conversation aujourd’hui sur l’impact de tout cela sur les plates-formes de bases de données traditionnelles et sur la manière dont elles y réagiront, ainsi que sur les types de technologies utilisées. Et, gardant cela à l’esprit, je vais maintenant laisser la parole au Dr Robin Bloor et obtenir ses observations. Robin, à toi.

Robin Bloor: Ok, merci pour ça. Oui, c'est un sujet trop vaste. Je veux dire, si vous preniez juste un morceau d'une des illustrations que Dez venait de vous montrer, vous pourriez avoir une longue conversation sur l'un des morceaux. Mais vous savez, vous pouvez créer une base de données - je ne connais pas les bases de données depuis les années 1980, et vous pouvez les examiner de différentes manières. Et l’une des choses que j’ai pensé que j’aimerais faire, j’entrerais dans la conversation aujourd’hui, c’était de parler de la raison pour laquelle des événements perturbateurs se sont produits au niveau du matériel. Et vous devez garder à l’esprit que de nombreuses perturbations se sont également produites au niveau des logiciels. C’est pourquoi ce n’est pas une image complète, ce n’est qu’une affaire de matériel.

Je n’allais pas parler très longtemps non plus, je voulais juste vous donner une photo du matériel. Une base de données comprenait des fonctionnalités de récupération de données couvrant l’unité centrale, la mémoire et le disque, et cela change radicalement. Et la raison pour laquelle je dis cela, c’est que j’ai appris à comprendre la base de données du point de vue de ce que vous avez réellement fait. Vous savez, il existe une différence de latence entre les données stockées dans la CPU et celles extraites de la mémoire dans la CPU, et celles extraites du disque dans la mémoire et par l’intermédiaire de la CPU. Et les anciennes architectures de base de données essayaient simplement d'équilibrer cela. Vous savez, ils disaient simplement: «Eh bien, cela va très lentement, nous allons mettre en cache les données sur le disque afin qu’elles soient en mémoire. Nous allons essayer de le faire de manière très précise, de manière à conserver une bonne proportion des données demandées dans la mémoire. Et nous allons transférer les données sur le processeur aussi rapidement que possible. ”

Et les bases de données ont été écrites à l'ancienne. Les machines sont écrites pour de petits groupes. Et maintenant, pour les ignorants du parallélisme. Car si vous voulez obtenir des performances d’un cluster, vous devrez faire plusieurs choses en parallèle. Le parallélisme fait partie du jeu, il n’a rien à voir avec la situation actuelle. Je vais juste faire le tour de ce qui s’est passé.

Tout d'abord, le disque. Eh bien, le disque est fini, vraiment. C’est à peu près terminé en ce qui concerne les bases de données. Je pense que l'archivage des données présente un certain nombre d'inconvénients, et même de très grands lacs de données fonctionnant sur Hadoop, le pire disque en rotation est probablement viable de nos jours. En réalité, le problème avec le disque en rotation était que les vitesses de lecture ne s’amélioraient pas beaucoup. Et lorsque le processeur monte en puissance, la loi de Moore, plus ou moins rapide, est plus rapide tous les six ans. Et la mémoire suivait un peu dans son sillage, puis ces deux-là se maintenaient à un rythme raisonnable, ce n’était pas tout à fait lisse, mais ils l’avaient fait.

Mais la lecture aléatoire sur un disque où la tête s’envole, je veux dire, mis à part tout le reste, c’est un mouvement physique. Et si vous effectuez des lectures aléatoires sur un disque, il est incroyablement lent comparé à une lecture mémoire, c’est 100 000 fois plus lent. Et assez récemment, la plupart des architectures de base de données que j’ai examinées en profondeur viennent en fait de lire en série des disques. Vous voulez vraiment, d'une manière ou d'une autre, mettre en cache autant que possible le disque, et le retirer de ce périphérique lent et le placer sur un périphérique rapide. Et il y a beaucoup de choses intelligentes que vous pouvez faire avec ça, mais c'est un peu fini.

Et les disques à semi-conducteurs, ou lecteurs flash, sont en réalité ce qu’ils sont, remplacent très rapidement les disques en rotation. Et cela change à nouveau complètement, car la manière dont les données sont organisées sur un disque est-elle organisée selon le mode de fonctionnement du disque? Il s’agit en fait d’une tête se déplaçant sur une surface en rotation, de plusieurs têtes se déplaçant sur plusieurs surfaces en rotation et capturant les données au fur et à mesure. Un disque SSD est juste un bloc de choses que vous pouvez lire. Je veux dire, la première chose à faire est que toutes les bases de données traditionnelles ont été conçues pour la rotation de disques et qu’elles sont maintenant remodelées pour le SSD. Les nouvelles bases de données peuvent probablement - quiconque écrit actuellement une nouvelle base de données peut probablement ignorer le disque en rotation, sans y penser du tout. Mais Samsung, le principal fabricant de disques SSD, nous dit que les disques SSD suivent en réalité la courbe de la loi de Moore.

Je pense qu’ils étaient déjà environ trois ou quatre fois plus rapides que la rotation sur disque, mais ils vont maintenant devenir beaucoup plus rapides tous les 18 mois, en gros. Double en vitesse et 10 fois plus rapide qu’environ six ans. Si c’était juste ça, ce n’est pas ça, comme je vous le dirai dans un instant. Le disque en rotation devient bien sûr un support d’archivage.

De la mémoire. Tout d'abord, la RAM. Le ratio de la CPU entre la RAM par CPU augmente tout le temps. Et cela bien sûr, d’une certaine manière, offre une vitesse bien plus grande, car la quantité de mémoire que vous pouvez avoir maintenant peut stocker beaucoup plus. Cela permet en réalité de réduire la pression exercée sur les applications MLTP, ou les applications à lecture aléatoire, car il est plus facile de les gérer, car vous avez maintenant beaucoup de mémoire. Ainsi, vous pouvez mettre en cache tout ce qui est susceptible d'être lu en mémoire. Mais vous rencontrez des problèmes avec un plus gros tas de données, donc le Big Data n’est en réalité pas si simple.

Et puis nous avons Intel avec 3D Xpoint et IBM avec ce qu’ils appellent PCM, une mémoire à changement de phase, fournit quelque chose qu’ils croient être - eh bien, c’est au moins 10 fois plus rapide que les SSD actuels, et ils croient que cela obtiendra très proche d'être la même vitesse que la RAM. Et bien sûr, c’est moins cher. Ainsi, auparavant, vous disposiez de cette structure de base de données (processeur, mémoire et disque). Nous passons maintenant à une structure à quatre couches. Il possède le processeur, la mémoire ou la RAM, puis ce type de mémoire plus rapide que SSD, qui est en fait non volatile, puis un disque SSD. Et ces nouvelles technologies sont non volatiles.

Et il ya le memristor de HP, qui n’est pas encore, vous savez, car il a été annoncé il y a environ sept ans, mais il n’a pas encore été publié. Mais les rumeurs que j’entends dire sont que HP changera un peu le jeu avec un memristor également, vous avez donc une nouvelle situation de mémoire. Ce n’est pas comme si nous avions des trucs plus rapides, c’est comme si nous avions une toute nouvelle couche. Et puis nous avons le fait que l’accès SSD, vous pouvez le lire en parallèle. Vous ne pouvez pas lire un disque en rotation en parallèle, sauf en ayant beaucoup de disques en rotation différents. Mais un bloc de SSD, vous pouvez réellement lire en parallèle. Et parce que vous pouvez lire cela en parallèle, la vitesse de lecture est bien supérieure à celle de la simple vitesse de lecture si vous configurez plusieurs processus sur plusieurs process sur un seul processeur et que vous vous contentez du SSD.

On estime que cela permet d’atteindre presque les vitesses de la RAM. Et tout ce que cela dit, l'avenir de l'architecture de la mémoire n'est pas clair. Je veux dire, la réalité est que les différents fournisseurs dominants, quels qu’ils soient, détermineront probablement l’orientation du matériel. Mais personne ne sait où il va à ce stade. J’ai parlé à des ingénieurs de bases de données qui ont dit «Je n’ai pas peur de ce qui se passe», mais ils ne savent pas comment l’optimiser dès le départ. Et vous l’avez toujours fait, alors c’est intéressant.

Et puis il y a le CPU. Eh bien, les processeurs multicœurs ne sont pas simplement des processeurs multicœurs. Nous avons également d’importants volumes de cache L1, L2 et L3, en particulier L3, ce qui correspond à des dizaines de mégaoctets, je ne le sais pas. Vous pouvez en mettre beaucoup, vous savez. Et par conséquent, vous pouvez réellement utiliser la puce comme support de mise en cache. Donc, cela a changé le jeu. Et certainement, le traitement des vecteurs et la compression des données, un certain nombre de fournisseurs l’ont fait, ont glissé ces éléments sur le processeur pour les rendre beaucoup plus rapides. Vous comprenez ensuite que les processeurs équipés de GPU sont vraiment efficaces pour accélérer les analyses. Et ils sont vraiment très bons pour certains types de requêtes, cela dépend simplement de la nature de votre requête.

Vous pouvez créer des cartes sur lesquelles des processeurs et des GPU sont activés, ou, comme AMD le fait actuellement, vous produisez quelque chose appelé APU, qui est une sorte de mariage d'un processeur et d'un GPU. il possède les deux types de capacités. C'est donc un type de processeur différent. Et puis, la récente annonce d'Intel selon laquelle ils vont installer un FPGA sur la puce, c'est ce que j'ai eu la tête à la tête. Je me suis dit: "Comment cela va-t-il se passer?" possibilité de CPU, GPU, et vous avez la possibilité de CPU, FPGA - et d'ailleurs, si vous voulez vraiment, sur la même carte, vous pouvez mettre un CPU, un GPU et un FPGA. Je ne sais pas comment vous feriez comme cela, mais je connais des entreprises qui font ce genre de choses, et elles obtiennent des réponses de requête très, très rapides. Ce n’est pas quelque chose qui va être ignoré, c’est quelque chose qui va être utilisé par les vendeurs établis, et peut-être par de nouveaux vendeurs. Les SGBD étaient toujours parallèles, mais maintenant les possibilités parallèles viennent d'exploser, car cela vous permet de paralléliser ceci avec cela, avec cela, avec cela de différentes manières.

Enfin, pour augmenter ou réduire? La mise à l'échelle est vraiment la meilleure solution, mais pour une chose. Vous obtenez de bien meilleures performances de nœud si vous pouvez optimiser de manière absolue les performances du processeur et de la mémoire sur le disque d'un nœud. Et vous utiliserez moins de noeuds, ce sera donc moins cher, non? Et ce sera plus facile à gérer. Malheureusement, cette conception dépend du matériel et, à mesure que le matériel change, il devient de moins en moins possible de le faire, à moins que vos ingénieurs ne puissent fonctionner aussi vite que le matériel change. Et vous avez des problèmes de charge de travail, car lorsque vous augmentez vos capacités, vous formulez différentes hypothèses sur ce que la charge de travail va faire.

Si votre architecture évolue, c’est-à-dire que si votre architecture met l’accent sur l’échelle avant l’agrandissement - vous devez en fait les faire à la fois, c’est simplement que vous en accentuez une. Vous obtiendrez alors de meilleures performances réseau, car l’architecture s’en occupera. Cela coûtera plus cher en termes de matériel car il y aura plus de nœuds, mais les problèmes de charge de travail seront moins nombreux et la conception sera plus flexible.

Et je pensais juste que je mettrais ça dans le vif du sujet, parce que si vous pensez vraiment à tous les changements matériels, je viens juste de pointer du doigt, et ensuite vous réfléchissez, comment allez-vous augmenter et réduire ce genre de choses? Vous réalisez ensuite que les ingénieurs de bases de données sont, à mon avis du moins, bien sous-payés. Donc, si vous ne considérez que la couche matérielle, les défis de la base de données sont clairs. Maintenant, je passe la parole à Bert, qui va nous faire sentir éduqués.

Eric Kavanagh: C'est ça! Bert?

Bert Scalzo: Merci beaucoup. Permettez-moi d'entrer directement dans ces diapositives. J'ai beaucoup de diapositives à parcourir, donc je peux en passer assez rapidement. Nous allons parler de ce «moment d’avancement: Relationnel au-delà du traditionnel». Ce n’est plus la base de données de votre père. Les choses ont changé et, comme l'a dit un intervenant précédent, le paysage a radicalement changé ces six à sept dernières années.

Moi-même, je crée des bases de données depuis le milieu des années 80. J’ai écrit des livres sur Oracle, SQL Server, le benchmarking et bien d’autres choses encore. «Le monde change très vite. Big ne battra plus petit. Ce sera le rapide qui bat le lent. »J'ai ajouté le mot« s'adapter ». C'était de Rupert Murdoch. Je crois vraiment que cela va être vrai. Vous ne pourrez pas créer de bases de données comme vous le faisiez il y a 10, 15 ou 20 ans. Vous allez devoir le faire comme l'entreprise le souhaite maintenant.

Je vais essayer de rester un peu générique dans ce que je présente, mais la plupart des fonctionnalités dont je parle sont celles d’Oracle, de SQL Server, de MySQL, de MariaDB et d’autres grands. joueurs. La révolution de la base de données relationnelle, je suis à nouveau d’accord avec les orateurs précédents. Si vous regardez bien vers 2010, nous sommes passés de la voiture de course rouge à la voiture de course jaune. Il y a eu un changement important et à compter de 2020, je pense que vous allez assister à un autre changement radical. Nous sommes dans une période très intéressante.

Maintenant, cette diapositive est la clé, c’est pourquoi j’y ai mis une clé. Tous ces changements sont en cours, et à gauche, j’ai la technologie, et à droite, j’ai des affaires. Et la question est de savoir qui fait quoi et qui soutient quoi? Nous avons toutes ces modifications matérielles: disques en baisse, taille de disque en hausse, nouveaux types de disques, ce qui était couvert par les haut-parleurs précédents. Le prix de la mémoire en baisse, toutes ces nouvelles versions de bases de données. Mais à droite, nous trouvons protection et conformité des données, entreposage de données, veille stratégique, analyses, conservation obligatoire des données. Les deux côtés de l'équation sont déterminants, et ils vont utiliser toutes ces nouvelles fonctionnalités.

Tout d’abord, nous avons notre disque en rotation SAS typique: jusqu’à 10 téraoctets. Si vous ne le voyez pas, Western Digital, HGST possède ce qu’on appelle son lecteur à hélium, c’est maintenant environ 10 téraoctets. Les coûts liés aux disques en rotation sont très bas. Comme il a été mentionné précédemment, vous pouvez obtenir des disques à semi-conducteurs d’une capacité allant jusqu’à environ deux téraoctets, mais Samsung dispose bientôt d’une unité de 20 téraoctets. Les coûts deviennent raisonnables. Une chose que je vais parler des autres n’a pas été, le concept de disques flash. PCIe, c’est le PCI Express, par opposition à NVMe, vous avez peut-être entendu parler de cela, de la mémoire non volatile. En gros, NVMe va remplacer SAS et SATA, et il s’agit plus d’un protocole de communication que d’autre chose. Mais ces disques atteignent actuellement environ trois téraoctets.

Vous avez peut-être aussi vu que certains disques SAS sont désormais livrés avec des connecteurs U.2, qui sont en quelque sorte un connecteur différent de celui d'un SAS ou d'un SATA, qui prend en charge NVMe avec un disque standard - le disque doit également le prendre en charge, bien entendu. Et puis SATA avec connecteurs M.2, et ceux-ci commencent à obtenir NVMe. En fait, certains vendeurs d’ordinateurs portables vendent maintenant des ordinateurs portables dotés d’un disque flash NVMe, et ces objets crieront face à la technologie que vous avez utilisée auparavant.

Beaucoup de gens ne savent pas ce que sont tous ces éclairs. Si vous regardez dans le coin en bas à droite, c’est un exemple de M.2. Vous pouvez dire: «Eh bien, ça ressemble beaucoup au disque mSATA à sa gauche.» Mais comme vous pouvez le voir, il ya deux trous dans les broches au lieu d’un, et c’est un peu plus grand. Et aussi, le M.2 peut venir en trois tailles différentes.

Et puis le flash PCI Express et le flash NVMe. Maintenant, NVMe Flash est aussi PCI Express, mais PCI Express est généralement toujours un algorithme de contrôleur de type SAS ou SATA écrit pour le disque en rotation, et NVMe sont les algorithmes ou techniques écrits spécifiquement pour Flash. Et encore une fois, vous allez voir tout cela.

NVMe offre pas mal de choses. Je pense que les deux plus grandes améliorations sont, dans le coin supérieur droit, la latence a été réduite de 70%. J'ai en fait vu encore plus haut que cela. De plus, si vous regardez dans le coin inférieur droit, lorsque votre système d'exploitation communique avec le disque NVMe, il utilise beaucoup moins de logiciels. En gros, vous passez par le pilote NVMe inclus à présent dans le système d’exploitation, qui parle directement aux médias. Il existe de nombreuses raisons pour lesquelles cette technologie va radicalement changer le monde des bases de données.

Et souvent, les gens diront: «À quel point NVMe est-il rapide?» Vous savez, le bon vieux temps, en 2004 et avant, nous étions excités si nous avions un Ultra-320 SCSI, 300 mégaoctets par seconde. Aujourd’hui, beaucoup d’entre vous utilisez probablement la fibre optique ou l’InfiniBand. NVMe, là-bas à droite, commence là où aboutissent les technologies actuelles. Je veux en venir au fait, le PCI Express 3.0 avec une liaison à huit voies commence à près de 8 000, et il augmentera à mesure que nous aurons de nouvelles versions du PCI Express, des versions quatre et ainsi de suite. NVMe n'a nulle part où aller sauf en place.

Maintenant, quelles sont certaines des choses qui changent dans la base de données? Maintenant, dans le coin supérieur droit de mes diapositives, j’expose les raisons commerciales qui, à mon avis, ont fait apparaître la technologie. Dans ce cas, en raison de l’entreposage de données et pour des raisons réglementaires imposant la conservation obligatoire des données, les bases de données commencent à proposer une compression. À présent, certaines bases de données offrent la compression en tant qu’add-on, d’autres l’intègrent à la norme, par exemple l’édition entreprise de leur base de données. Pourtant, certaines bases de données, comme dans Oracle, pourraient même avoir une version encore meilleure de la compression. dans leur plate-forme Exadata, par exemple, ils ont en fait construit du matériel pouvant prendre en charge une compression très spécialisée et celui-ci, par exemple, obtient un taux de compression de 40 fois, ce qui est très important. Et je pense que c’est la conservation obligatoire des données, les utilisateurs veulent simplement plus de données. Les entreprises, pour faire de l’analyse et de la BI, ont besoin des 5, 10, 15 dernières années de données.

Une autre caractéristique qui a commencé à apparaître vers 2008, a été la partition. Encore une fois, vous le trouverez dans des bases de données telles qu'Oracle, SQL Server et dans les deux cas, vous devez payer pour cela. Dans Oracle, vous devez acheter l'option de partitionnement et dans SQL Server, vous devez figurer dans l'édition du centre de données. C’est votre technique traditionnelle de division et de conquête et ce que vous faites, c’est que vous avez le concept d’une grande table logique en haut et que, lorsqu’elle est placée sur disque, elle est en fait divisée en plusieurs compartiments. Et vous pouvez voir que ces compartiments sont organisés en fonction de critères de séparation, généralement référencés ou appelés votre fonction de partitionnement. De même, vous pouvez également sous-partitionner sur certaines plates-formes de base de données et aller encore plus loin.

Encore une fois, je pense que l’entreposage de données et la conservation obligatoire des données ont poussé loin, et dans certaines de ces bases de données, vous pouvez avoir jusqu’à 64 000 partitions, et je crois que dans d’autres bases de données, même jusqu’à 64 000 sous-partitions. Cela vous permet de fractionner vos données en éléments gérables. Vous allez également partitionner les index; c’est une option, vous n’avez pas à le faire, mais vous pouvez aussi partitionner vos index. Une des raisons pour cela est peut-être que vous avez une fenêtre glissante de données. Vous souhaitez conserver des données pendant 10 ans, mais pour supprimer les index afin d’exécuter le chargement par lots de ce soir, vous ne souhaitez pas supprimer les index sur chaque ligne, mais uniquement sur les lignes figurant dans le compartiment actuel. Le partitionnement est en fait un très bon outil administratif, même si la plupart des gens pensent que son grand avantage est de ne pas supprimer les partitions dans vos plans et donc d’accélérer vos requêtes. C’est vraiment une sorte de cerise sur le gâteau.

Maintenant, vous avez probablement entendu parler du sharding et vous vous êtes probablement dit: «Pourquoi avez-vous mis cette diapositive ici?». C’est l’un de ces NoSQL - c’est l’un de ces environnements de type Hadoop. Oracle 12c en a publié deux, ce qui n’est pas encore le G8, mais qui est affiché ou prévisualisé contient en fait du sharding. Vous allez avoir un système de base de données traditionnel comme Oracle et vous allez pouvoir partager le résultat comme vous le faites dans le modèle Hadoop. Vous aurez donc une autre technique de division et de conquête qui divisera votre système. tableau par rangée en groupes par nœud et ce sera - tout comme ce que vous voyez dans certaines de vos bases de données NoSQL. Et en fait, MySQL, vous pouvez le faire en utilisant l’une de leurs techniques de clustering, mais cela arrive à une base de données traditionnelle et j’imagine que Microsoft ne voudra pas se laisser distancer. Ces deux joueurs jouent sans cesse l'un contre l'autre, je m'attendrais donc à voir un éclat dans peut-être la prochaine version de SQL Server.

Gestion du cycle de vie des données, encore une fois une conservation obligatoire des données, mais également pour la veille stratégique et l'analyse. Vraiment, il s’agit d’une technique de division et de conquête, et les administrateurs de base de données le font généralement à la main, c’est-à-dire: «Je vais conserver les données de cette année sur des disques rapides, celles de l’année dernière sur des disques légèrement plus lents. conserver les deux dernières années précédentes sur des disques encore plus lents, puis j'aurai une méthode d'archivage. "Ce n'est généralement plus enregistré, mais plutôt - vous avez une sorte de stockage connecté au réseau ou un périphérique qui en a beaucoup de stockage et est, vous le savez, rentable, mais il tourne toujours le disque.

Et donc maintenant, vous pouvez réellement - à la fois sur Oracle et sur SQL Server - vous pouvez acheter une option dans laquelle vous définissez les règles et cela se produit automatiquement en arrière-plan. Vous n’êtes plus obligé d’écrire des scripts, vous n’avez rien à faire. Et si vous avez vu SQL Server 2016, qui vient de sortir le premier juin, il existe une nouvelle fonctionnalité appelée «Étirer les bases de données» qui vous permet de faire - en bas à droite, vous pouvez passer de plusieurs couches directement au cloud. Et encore une fois, il s'agit d'une fonctionnalité intégrée à la base de données. Vous dites simplement: «Si les données datent de plus de 365 jours, déplacez-les dans le cloud et, vous le savez, faites-le automatiquement pour moi."

Ce sera une fonctionnalité vraiment intéressante. En fait, je pense que c’est peut-être ce que nous verrons dans le futur, c’est-à-dire que vous disposerez de bases de données hybrides dans lesquelles vous conserverez des informations locales. et certains dans le nuage. Avant cela, les gens se disaient: «Je vais soit faire sur place, soit je vais le faire sur le cloud.» Nous voyons maintenant le mariage des deux technologies de manière hybride. Je pense que ce sera assez gros et Microsoft y est arrivé le premier.

Rédaction, cela est dû à la protection et à la conformité des données. Dans le bon vieux temps, nous aurions peut-être dit: «Hé, développeur d'applications, lorsque vous affichez cela dans le rapport, lorsque vous affichez ceci à l'écran, vous devez vérifier certaines informations relatives à la sécurité. S'il vous plaît, ne voyez que les données. ils sont supposés voir, masquer ou éditer les données qu'ils ne sont pas censés voir. »Comme de coutume, lorsque vous le transmettez à l'application, cela n'est pas fait à un endroit, donc ça se fait différemment ou ça ne fonctionne pas. ne pas se faire à certains endroits. Et maintenant, vous avez réellement cette capacité dans vos systèmes de base de données.

Désormais, dans SQL Server 2016, cette fonctionnalité est intégrée, de sorte que ce n’est pas un élément de coût facultatif qui doit encore faire partie de l’addition du centre de données, je crois; et dans Oracle 12, vous devez acheter leur module complémentaire de gestion du cycle de vie, mais c’est quelque chose de nouveau et c’est encore une fois dicté par le commerce. Et surtout parce que vous conservez une grande quantité de données, et que vous effectuez l'exploration de données, la BI et l'analyse, vous devez savoir qui accède à quelles données et vous assurer qu'elles ne sont autorisées à voir que ils sont autorisés à voir.

De même, regardez à nouveau la protection et la conformité des données. Vous constaterez que de nombreux systèmes de base de données créent actuellement une compression, ou je suis désolé, le cryptage directement dans la base de données et l’importance de ce cryptage, si vous regardez la flèche vers le bas et la flèche vers le haut sur le diagramme, il l’écrit. sur le disque chiffré, puis il le lit en mémoire et le déchiffre. C’est en fait un modèle, un autre modèle qui, vous le savez, ne le ferait que lorsqu’il communique ces données sur le réseau à l’application cliente réelle.

Dans ce cas, même sur le serveur de base de données en mémoire, il pourrait toujours être chiffré et déchiffré uniquement lorsqu’il est envoyé à l’application cliente. Il existe deux modèles différents ici et vous les trouverez dans les bases de données. En fait, l’une des bases de données récemment ajoutées est MariaDB dans sa version 10.X; Je crois qu’ils sont sur 10.1 ou 10.2 maintenant. Et j’ai en fait procédé à des analyses comparatives sur ce chiffrement et, pour obtenir ce chiffrement, j’ai constaté une diminution d’environ 8% du débit ou de la vitesse. Lors d’un test d’analyse comparative, le chiffrement n’a pas causé beaucoup de problèmes et constitue donc une fonctionnalité très utile.

Nous avons déjà mentionné la mémoire flash, les disques SSD, etc. L’une des fonctionnalités que vous avez dans Oracle et SQL Server et que beaucoup de gens ne réalisent pas, c’est que vous pouvez prendre un flash ou un SSD qui se trouve sur votre serveur de base de données et vous pouvez dire à la base de données: «Utilisez ceci comme s’il s’agissait de mémoire. Traitez la mémoire RAM comme préférentielle, mais prétendez-vous que la mémoire est lente et utilisez-la comme cache étendu. »Désormais, dans SQL Server 2014, cela s'appelait« Extension du pool de mémoire tampon », c’est gratuit. Dans Oracle, il est sorti en 11g R2 et s'appelait «Database Flash Cache» (Cache de base de données Flash). Il était également gratuit là-bas.

Mon conseil, cependant, est de tester cette fonctionnalité avec soin. Chaque fois que vous agrandissez le cache lorsque vous effectuez une recherche, cela prend plus de temps. Si vous insérez une carte flash de trois téraoctets et dites à la base de données: «Ajoutez-la à votre mémoire», vous constaterez peut-être que quelque chose a ralenti à cause du temps requis pour regarder et qu'il est en flash, est-il sale ou défectueux? nettoyer? Il y a un point de rendement décroissant. Je vous conseille à nouveau d’essayer ceci, voyez ce qui fonctionne pour vous, mais encore une fois, cela se trouve dans votre base de données et dans le cas d’Oracle, dans SQL Server comme dans Oracle, il existe déjà depuis quelques années.

Et puis cela nous amène au grand-père qui était les bases de données en mémoire et c’est parce que les prix des bases de données ont chuté. L’autre raison pour laquelle vous penserez probablement que cela s’est produit est qu’une grande partie de l’analyse exige que les données soient très rapidement accessibles, et donc en mémoire. Notez que les algorithmes utilisés par les bases de données pour accéder à ces données, les compresser, les chiffrer, les stocker, vous savez que dans certains cas, certaines bases de données peuvent continuer à stocker en mémoire sous forme de ligne.

Dans certains cas, certaines bases de données peuvent diviser cela en colonnes et obtenir un niveau de compression beaucoup plus élevé, de l'ordre de 11 à 12X, en le stockant dans l'ordre des colonnes par rapport à celui des lignes. Cette première apparition dans SQL Server 2014 portait le nom de «Hekaton». Elle a été considérablement augmentée dans SQL Server 2016, elle sera référencée sous différents noms et publiée dans Oracle 12c; Je dis la deuxième version ici, pas R2. Il y avait deux versions différentes d'Oracle 12c, la 12.1.0.1 et la 12.1.0.2. C’est la deuxième version de la version R1 de la base de données.

Et selon votre définition, l'objet en mémoire est similaire dans les deux bases de données. Ici, vous pouvez voir dans le coin supérieur droit, je crée un serveur SQL Server et vous pouvez voir que cela dit avec une mémoire optimisée et la durabilité étant uniquement un schéma. Je ne vais pas passer en revue toutes ces significations syntaxiques, et dans Oracle, c’est encore plus simple, il vous suffit de modifier une table et de dire en mémoire ou non et vous pouvez changer cela. Je peux dire aujourd’hui que c’est en mémoire et demain non, c’est donc très flexible.

J'ai fait des tests sur Oracle avec des tables en mémoire. J'ai eu des tests qui ont pris presque 40 minutes à s'exécuter, tout en haut de la rangée. Ce qui est important, c’est qu’au moment où j’atteignais les deux dernières lignes, j’avais augmenté ou réduit la durée d’exécution à environ cinq minutes, et lorsque j’ai examiné le facteur de compression, les données en mémoire étaient de 3,6. à 4,6 fois plus petit. C’est important parce que dans ce cas, j’utilisais un format orienté colonne et sa compression. Et alors devinez quoi? En fait, je stockais presque quatre à cinq fois plus de données dans ma mémoire. J'avais non seulement l'avantage de la mémoire, de la colonne, mais également de beaucoup plus de données - jusqu'à cinq fois plus de données dans la mémoire cache. Il s'agit donc d'une technique assez puissante. Encore une fois, Oracle et SQL Server, vous voulez les regarder, ce sont des fonctionnalités vraiment intéressantes. Et avec cela, je pense que je vais ouvrir la voie aux questions.

Eric Kavanagh: Eh bien Bert, d’abord, vous avez été très désintéressé dans toute cette merveilleuse éducation. Pourriez-vous parler un instant de ce que vous faites? Parce que vous avez une technologie habilitante qui peut faciliter ce dont vous avez parlé. Parlons juste une minute de ce que vous faites et ensuite plaçons Dez et Robin dans l’équation.

Bert Scalzo: Oui, je travaille pour une société appelée IDERA. Nous sommes au Texas, notre siège est à Houston et je suis actuellement à Austin mais je suis basé à Dallas. Nous créons des outils de base de données et des outils de base de données pour vous aider à résoudre vos problèmes. Ce problème peut être aussi simple que la productivité. Dans ce cas, nous avons un outil appelé DBArtisan qui vous permet d’effectuer vos tâches administratives de base de données. C’est un outil qui vous permet de gérer 12 plates-formes de base de données différentes. Je peux gérer SQL Server, Oracle, MySQL, DB2, Postgres et utiliser un seul outil, un seul exécutable, une seule interface graphique et un seul ensemble de flux de travail cohérent. Nous fabriquons également des outils pour assurer la conformité. Nous disposons d'un outil appelé SQL Compliance Manager pour vous aider à répondre à vos besoins en matière de conformité. Un autre outil appelé SQL Security, nous essayons donc de rendre les outils qui vous aideront à être efficaces et efficients, et ce qui est vraiment sympa si vous allez sur notre site Web, nous avons tout un tas de logiciels gratuits là-bas, alors si rien d'autre, téléchargez-le - Je pense que nous avons environ 20 ou 25 freewares. Il existe de très bons logiciels gratuits, tels que SQL Server et Windows Help Check, qui examinent en gros ce que vous avez et vous indiquent si vous avez des problèmes ou des choses totalement gratuites.

Eric Kavanagh: Et vous, vraiment genre de ...

Bert Scalzo: Certainement le premier truc ...

Eric Kavanagh: Vous parlez de l'hétérogénéité du marché aujourd'hui, il y avait une sorte d'équation à taille unique dans laquelle, en fait, je me souviens d'avoir interviewé le Dr Michael Stonebraker à l'époque, en 2005, alors qu'il poursuivait Il a parlé du verdict sur le mouvement des bases de données axées sur les colonnes et de la manière dont le modèle relationnel à taille unique a dominé pendant de nombreuses années, et il a prédit que cela changerait tout, et il avait raison. Nous avons maintenant un environnement très diversifié et intéressant avec de nombreuses options et opportunités différentes, mais vous avez besoin de quelqu'un pour gérer tout cela et il me semble que votre entreprise est très concentrée sur la résolution des problèmes mathématiques, ce qui lui permet de en-tête d'hétérogénéité, non?

Bert Scalzo: Absolument. Je veux dire, il y aura toujours des DBA qui diront: "Je ne veux pas utiliser un outil graphique, je fais tout avec des scripts", vous savez? Ils pensent qu’ils sont du type de DBA de type superman et que c’est bien, mais pour la plupart d’entre nous, nous voulons simplement travailler et - vous savez, j’utilise Microsoft Word pour rédiger mes documents. J'utilise Microsoft Outlook pour faire mon. Je veux dire, j'ai des outils pour faire des tâches. Nous construisons le même type de concept, nous construisons des outils pour les administrateurs de bases de données et les développeurs afin de les aider à se concentrer sur ce qu’ils veulent faire et non pas sur la façon dont ils doivent le faire.

Eric Kavanagh: Cela a du sens, mais laissez-moi vous laisser la parole à nos experts, et les gens se sentiront libres de plonger. Nous avons quelques commentaires de la part du public. Peut-être, Dez, quelques questions et Robin, quelques questions?

Dez Blanchfield: Sûr. L’une des premières questions que je voudrais vous poser, compte tenu de la vaste expérience que vous avez acquise, est-ce que vous voyez un point dans le temps où tout cela va ralentir? Ou pensez-vous que nous sommes vraiment juste au point d’entrée de cette ligne de changement en croissance continue? Je pense que l’un des plus grands problèmes auxquels les entreprises sont confrontées, et invariablement les personnes qui tentent de soutenir la technologie fournie à ces entreprises pour gérer leurs entreprises, est que le taux de changement est si spectaculaire qu’elles ne peuvent tout simplement pas suivre le rythme de tous. Les différentes fonctionnalités, les logiciels, les systèmes, les frameworks, les architectures et le nouveau code à venir, puis le matériel sous-jacent, voyez-vous le taux actuel de changement ralentir du tout immédiatement? Je veux dire, vous traitez avec une gamme si large de plates-formes avec toute la suite IDERA, allons-nous ralentir bientôt ou sommes-nous en quelque sorte sur ce train de marchandises folle et fou pendant longtemps?

Bert Scalzo: Je pense que nous en sommes aux premiers 20% de cette courbe de croissance et que nous avons un long chemin à parcourir et que deux éléments l’y poussent. La technologie continue d'évoluer. Vous avez mentionné certains des nouveaux types de mémoire qui vont sortir, ce sera fantastique. Samsung va bientôt disposer d’un lecteur flash de 20 téraoctets. Cela va changer les choses. Nous avons toutes ces bases de données NoSQL et Cloud, ça va continuer. Ce qui est drôle en revanche, c’est que lorsque je regarde des bases de données comme Oracle, SQL Server et quelques-unes des autres, elles ne sont plus vraiment des bases de données relationnelles. Je peux mettre des données non structurées dans Oracle tout en maintenant la conformité ACID. Si vous m'aviez dit qu'il y a 20 ans, je venais de dire que vous preniez de la drogue.

Dez Blanchfield: Oui, oui, ils sont cool. Eh bien, même maintenant, ces moteurs qui ont de très bons secteurs de niche comme les SIG, sont meilleurs que les capacités natives. Vous avez fait d’excellents commentaires sur les défis auxquels les administrateurs de base de données sont confrontés et sur les différentes époques que nous espérons voir se dérouler aux alentours, mais à quoi ressemble le monde avec le type de secteur auquel vous faites face? Je veux dire, ce sont les personnes qui utilisent les différentes plates-formes depuis votre responsable des diagnostics jusqu'aux outils d'inventaire, en passant par la défragmentation, comment les administrateurs de base de données font-ils face à ce changement et comment - en quelque sorte - vous savez , que font-ils avec vos outils pour faire face à ce changement significatif dans leur paysage?

Bert Scalzo: Eh bien, je vais revenir en arrière il y a presque 20 ans, puis je vais dire que les administrateurs de base de données résolvent un rôle très spécifique dans une organisation. Ils travaillent généralement avec une plate-forme de base de données, peut-être deux, et gèrent un nombre relativement restreint de bases de données. Aujourd’hui, administrateur rapide de la base de données, il va connaître 10 plates-formes de base de données. Il gère, et ce n’est pas une blague, dans certains cas, des milliers de bases de données; C’est davantage le monde SQL Server ou MySQL. Mais toujours dans le monde Oracle, ils pourraient gérer des centaines de bases de données. Et donc, ils ont toutes ces nouvelles fonctionnalités, ils ont toutes ces nouvelles plates-formes, et ils ont toutes ces bases de données dont ils sont responsables. Ils recherchent des outils pour améliorer leur productivité et les aider à apprendre certaines choses.

Et je vais vous donner un exemple - si je veux partitionner une table, la syntaxe est assez obscure, et si je veux la sous-partitionner, la syntaxe devient encore plus difficile. Je sais ce que je veux faire, je veux créer des seaux. Si j’ai un outil comme DBArtisan qui dit: «Hé, voici un bel écran qui vous permet de vous concentrer sur ce que vous essayez de faire plutôt que sur la façon dont vous essayez de le faire. Affichez le bouton SQL lorsque vous avez terminé et nous vous montrerons ce qu'était le code SQL afin que vous puissiez commencer à apprendre et à maîtriser réellement cette fonctionnalité. ”

Les administrateurs de bases de données découvrent que les outils qui les aident à faire le travail mais aussi à leur apprendre toutes les nouvelles choses qu'ils utilisent et que ce serait la même chose serait vrai - disons que je suis un gars d'Oracle et que je vais sur MySQL et disons: “D'accord, créez une base de données, DBArtisan. Montrez-moi le code SQL car je me demande ce que signifie créer une base de données sur MySQL et je viens d’apprendre la syntaxe. »Nous ne les aidons donc pas à travailler sur plusieurs bases de données, nous les éduquons également sur plusieurs bases de données.

Dez Blanchfield: Cela devient encore plus intéressant lorsque vous parlez des technologies les plus modernes - ou pas plus modernes, c’est injuste - mais jadis, une base de données était une base de données. Ces jours-ci, je vois tout ce dont vous parlez avec le défi supplémentaire que représentent les piles de technologie que nous voyons traditionnellement chez les fournisseurs et vous offrez une sorte de source ouverte dans ce domaine, mais aussi qu’elles sont bonnes. Non seulement les moteurs de base de données et les langages de requête, mais également les types de données, les données structurées et non structurées, comme vous le savez, le défi de gérer tout ce qui se trouve de l'extrémité inférieure du spectre d'un HDFS à plusieurs pétaoctets environnement à petits conteneurs minuscules, et des fichiers de paquets et divers formats de fichier journal.

Et je pense que c'est quelque chose que nous voyons maintenant où aucun être humain, peu importe sa superman, sa super-femme, quoi qu'ils puissent penser, physiquement, ils ne peuvent tout simplement pas gérer mentalement ce taux de changement et l'échelle des variations. Je pense que la suite d’outils que vous proposez va arriver à un point où ils seront presque sur un ensemble par défaut de plusieurs façons, de sorte que nous ne puissions pas utiliser les environnements de base de données que nous avons obtenus sans eux, car nous ne faisons que physiquement. Je ne peux pas leur jeter autant de corps. J'ai vraiment apprécié votre présentation. Je vais laisser la parole à M. Robin Bloor. Je suis sûr qu’il a de nombreuses questions à vous poser également.

Robin Bloor: D'accord. Eh bien, j'ai certainement des questions. Bert, je ne sais pas où vous allez - j'ai eu une conversation très intéressante il y a quelques jours au cours de laquelle quelqu'un a commencé à me parler de la dernière protection des données à l'UA, et il me semblait d'après ce qu'ils disaient que c'était incroyablement draconien en termes de choses sur lesquelles ils ont insisté. Je me demandais si vous aviez réellement examiné cela. est-ce quelque chose que vous connaissez?

Bert Scalzo: Absolument. Ouais.

Robin Bloor: 2016, d'accord, parle-nous en.

Bert Scalzo: Et j’ai en fait ...

Robin Bloor: Profondément intéressant.

Bert Scalzo: En fait, j'ai travaillé pendant un certain temps pour un fournisseur flash, dans le domaine des bases de données, en l'aidant à créer des produits flash pour bases de données, et je peux vous dire que le draconien va jusqu'au bout. Ce que je veux dire, c’est que, si vous vous souvenez de ma première diapositive, j’ai dit que dans certaines bases de données, le chiffrement sera effectué, mais il est enregistré dans la mémoire du serveur et dans certaines bases, le chiffrement est toujours chiffré dans la mémoire du serveur, il n’est déchiffré que lorsque il est envoyé au client. Vous trouverez également certaines de ces normes gouvernementales, en particulier celles du ministère de la Défense et de l'armée, aux États-Unis, qui vont jusqu'au niveau de la mémoire flash. Ils veulent savoir non seulement que vous prenez en charge le cryptage et le décryptage. votre matériel, mais que si quelqu'un volait les puces qui - vous savez, les sortaient de la chose, de votre serveur, que ce qu'il y avait là était crypté et que, même si elles avaient le stockage, cela ne pouvait pas être et elles le feraient jusqu’à la réalité - pas à la partie flash elle-même mais aux puces individuelles. Ils voulaient connaître cette puce par puce, tout était crypté.

Robin Bloor: Sensationnel. Je veux dire, il y a beaucoup de choses qui - vous savez, je pense que vous n’avez évoqué qu’une ou deux diapositives, mais c’était quelque chose, un scénario que je trouve vraiment intéressant. La suppression des informations, par exemple, doit être un peu plus astucieuse que de masquer différents domaines car, de nos jours, en particulier avec l’apprentissage automatique, vous pouvez faire des choses déductives qui vous permettent de faire apparaître des informations que vous ne pouviez pas faire auparavant.

Si vous essayez de protéger, disons, des informations sur la santé, il s'agit d'une règle très, très draconienne aux États-Unis en matière d'information sur la santé, mais vous pouvez en fait, en utilisant diverses techniques d'apprentissage automatique, vous pouvez souvent déterminer les informations médicales de quelqu'un est en fait. Je me demandais simplement si vous aviez quelque chose à dire à ce sujet, car ils pensent tous que c’est un domaine intéressant.

Bert Scalzo: Oui, tout à fait, et je ne me sers que de cet exemple, je n’essaie pas de dire qu’une base de données est meilleure qu’une autre, mais c’est un très bon exemple de ce que vous venez de demander. Dans Oracle, par exemple, si je ne suis pas autorisé à voir une ligne de données, par exemple, je ne suis pas autorisé à voir le dossier médical de John Smith. Dans Oracle, si je dis: «Sélectionnez cet enregistrement», je serai bloqué ou je serai autorisé à voir ce que je suis autorisé à voir et il sera expurgé. Et si je dis: «Sélectionnez l’étoile du compte dans le tableau où John Smith est égal à», j’aurai zéro.

Dans SQL Server, il peut effectuer la rédaction mais il comporte des trous. Si je dis: «Sélectionnez l’étoile du compte dans le tableau où cela équivaut à John Smith», je vais en récupérer un, je sais donc qu’il ya un John Smith. L'un est plus sécurisé que l'autre. Maintenant, je m'attends à ce qu'ils règlent ce problème, ils jouent toujours les uns avec les autres. Et encore une fois, je ne cherche pas à différencier les bases de données autrement que pour montrer un exemple de - regardez ce dont nous parlons maintenant, quelque chose d'aussi simple que de sélectionner un compte doit également être coupé par la rédaction, même si, techniquement, parlant, il n’ya rien d’exprimé autre que l’existence de la rangée.

Robin Bloor: Oui en effet. C’est assez intéressant. Je veux dire, une autre question d’ordre général, parce que je n’ai pas beaucoup de temps, concerne uniquement les améliorations.Je veux dire que vous en avez été dans une où je sais que vous nous avez montré des exemples de différents résultats de tests que vous avez exécutés - pensez-vous que les bases de données traditionnelles, appelons-les bases de données dominantes, SQL Server et Oracle, pense-t-il qu'ils vont rester en avance sur l'achèvement? Ou pensez-vous qu’ils vont se laisser prendre par l’un ou l’autre des divers types de perturbations sur le marché qui les touchent réellement? Qu'en penses-tu?

Bert Scalzo: J’ai une opinion et c’est, vous savez, je vais encore une fois dire que c’est mon opinion. Microsoft, par exemple, dans l’ère post-Ballmer ne fait que impressionner mon enfer. Je parle de cette base de données extensible utilisant SQL Server sous Linux, .NET sous Linux, PowerShell sous Linux; Je ne pense pas que les fournisseurs de bases de données traditionnels vont être laissés pour compte. Je pense qu’ils ont décidé: «Hé, laissez les nouveaux gars, les startups définir quelque chose. Laissez-les comprendre ce qu'est le sharding et comment il devrait être perfectionné. Une fois que tous les travaux de recherche et de développement ont été effectués, nous savons exactement ce que veulent les utilisateurs. Ajoutons maintenant le sharding à Oracle. »Je pense qu'ils deviennent intelligents et en disant: "Hé, être deuxième ou troisième n'est pas mauvais quand vous êtes le joueur dominant car les gens ne migreront pas hors de vous."

Robin Bloor: Oui, je veux dire que c'est une stratégie qui a été utilisée. Je veux dire qu'IBM avait l'habitude de faire cela et l'ensemble de - pour l'ensemble de leurs gammes de produits et que le taux est raisonnablement bon jusqu'à ce que quelqu'un propose quelque chose de tout à fait détraqué auquel personne n'a jamais pensé, mais vous ne pouvez pas planifier contre cela quand même.

Des questions du public, Eric?

Eric Kavanagh: Oui, mais vous avez le temps, je pense, pour un seul et je sais que Bert doit courir. Il y avait quelque chose ici - d'accord, l'architecture de sharding sur Oracle 12c est-ce une indication de - ou qu'est-ce que cela indique, à votre avis, que se passe-t-il là-bas?

Bert Scalzo: Eh bien, Oracle absorbe et / ou propose tout ce que tous les autres fournisseurs de bases de données sont. Par exemple, je peux mettre des données non structurées dans Oracle. Je ne sais pas comment vous pouvez mettre des données non structurées puis les appeler une base de données relationnelle, alors cela n’a aucun sens, mais vous pouvez le faire. Et maintenant, Oracle ajoute le partage, donc Oracle dit: «Vous savez quoi? Quels que soient les souhaits du marché, nous allons proposer notre base de données car ce dernier veut ce qu’il veut et nous voulons proposer la solution. Nous voulons qu’ils restent avec nous. ”

Je pense que vous allez voir des éléments supplémentaires. Je ne serais pas surpris de voir la mise en cluster des nœuds de base de données, semblable à celle de Hadoop, non pas dans un rack Oracle ou dans un cluster d'applications réelles, mais plutôt dans une mise en cluster traditionnelle de type Hadoop faisant ce partage. Je pense donc que vous pourrez déployer une base de données comme Oracle, comme vous le feriez avec Hadoop, et ce genre de tendance va se poursuivre. Ces gros fournisseurs de bases de données gagnent des milliards de dollars et ne veulent pas perdre leur marché. Ils sont donc prêts à s’adapter à n'importe quoi ou à adopter quoi que ce soit.

Eric Kavanagh: Eh bien, vous savez, c’est drôle parce que je suis les fournisseurs de logiciels à code source ouvert depuis un certain temps et je me suis demandé tout en pensant quel impact cela aurait sur la technologie traditionnelle des portes fermées. les vendeurs open-source progressaient sérieusement, et maintenant, quand je regarde le marché, je vois un peu ce que vous dites, que les gros joueurs ont fait le calcul, ont affiné leurs crayons et ont compris comment ils pouvaient tisser beaucoup de ce genre de choses dans leurs architectures. Qu'il s'agisse d'IBM, d'Oracle ou de SAP, je venais d'assister à la conférence SapphireNow le mois dernier et Steve Lucas, qui dirige la moitié de cette société, se vantait que SAP intègre désormais dans sa plate-forme de cloud HANA davantage de composants à source ouverte que leurs sociétés. concurrents. Si vous faites le calcul à ce sujet, c’est une déclaration assez impressionnante et cela me dit que les grands ne vont nulle part de si tôt.

Bert Scalzo: Non, je parierais mon argent sur les deux. Je veux dire, si vous regardez, le stock de Microsoft était récemment à environ 50 dollars et, vous savez, il y a quelques années, il était à 25. Vous ne doublez pas le prix de vos actions en peu de temps, à moins que vous ne fassiez de bonnes choses. Sachez que tout, depuis la gratuité de Windows 10 pour la première année à toutes les autres choses intelligentes qu’ils font, cette fonctionnalité de base de données étendue est, à mon avis, tout simplement phénoménale. Je pense que ce qui va arriver, c'est que beaucoup de gens vont se retrouver dans Azure, pas directement, pas comme ils l'avaient dit, «migrons ma base de données vers Azure». Elle migrera là-bas par magie car elle sera archivée. Là-bas, en utilisant cette nouvelle fonctionnalité de base de données extensible, l’adoption d’Azure va exploser.

Eric Kavanagh: C’est l’une des tendances du marché que même moi, même sur votre Mac. Au fur et à mesure que vous allez sur votre Mac pour enregistrer certains documents, ils les utilisent maintenant - et les nouveaux Mac suivent tout simplement le cloud, n'est-ce pas? Je veux dire, cette stratégie a beaucoup de sens et je la regarde aussi et je dis: «Ok les gars, vous essayez de m'attirer pièce par pièce dans votre environnement en nuage, puis un jour quand je veux regarder un film si ma carte de crédit est expirée, je vais avoir des problèmes. "

Bert Scalzo: Oui, mais vous le faites.

Eric Kavanagh: Ouais. C'est vrai.

Bert Scalzo: Vous mettez tout.

Eric Kavanagh: Eh bien, pas tout à fait.

Bert Scalzo: Non je veux dire-

Eric Kavanagh: Ouais, vas-y.

Bert Scalzo: Ces tendances sociales touchent les entreprises. Aujourd'hui, les entreprises ont encore beaucoup à faire, mais elles constatent ces tendances et agissent de la même manière. Je ne vois ni Oracle ni Microsoft s'en aller. En fait, je vais acheter des actions sur les deux à chaque baisse.

Eric Kavanagh: Oui en effet. Eh bien, allez sur idera.com, I-D-E-R-A point com. Comme Bert l’a dit, ils proposent toute une gamme de produits gratuits et c’est l’une des nouvelles tendances du marché: vous pouvez jouer gratuitement, vous rendre accro et ensuite acheter les véritables produits.

Les gens, cela a été une autre technologie Hot. Merci pour votre temps d’aujourd’hui, Bert, Dez bien sûr, et Robin également. Nous vous parlerons la semaine prochaine, chers collègues, beaucoup de choses se passent. Si vous avez des idées, n'hésitez pas, Nous vous parlerons la prochaine fois, faites attention. Bye Bye.