Pourquoi Hadoop est le partenaire idéal pour le séquençage du génome

Contenu

Le présent et l'avenir de la génomique
Les besoins de l'industrie de la cartographie du génome
Qu'est-ce qui est attendu dans la solution?
Pourquoi Hadoop est la meilleure solution pour le séquençage du génome
Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire
Qu'est-ce que Hadoop peut faire d'autre?
Opportunités pour Hadoop
Arbalète: la plate-forme de gestion de données de nouvelle génération
Autres logiciels de génomique basés sur Hadoop
Conclusion

Source: A3701027 / Dreamstime.com

À emporter:

Le séquençage du génome nécessite de puissants outils technologiques pour gérer toutes ses données, et Hadoop est à la hauteur de la tâche.

La génomique clinique est un sujet fascinant, où les gens travaillent sur des technologies de pointe pour traiter des résultats rapides et précis. Il existe de nombreux séquenceurs de génome disponibles sur le marché. Ils produisent des pétaoctets de données de séquence et la croissance du séquençage va produire des exaoctets de données dans un avenir proche. Hadoop constitue ici la plate-forme idéale pour traiter des flux de travail complexes en génomique. Hadoop peut stocker et trier des quantités énormes d’informations, ainsi que des analyses significatives. (Pour avoir une idée de la quantité de données que cela implique, lisez Comprendre les bits, les octets et leurs multiples.)

Le présent et l'avenir de la génomique

Aujourd'hui, la cartographie du génome a atteint son apogée. De nombreuses personnes associées à l'industrie de la génomique regorgent de curiosité et, à mesure que de nouvelles opportunités se présentent, une technologie de pointe est une nécessité urgente. Le séquençage du génome est une tâche très répétitive et gourmande en ressources. Rien qu'en 2013, environ 15 pétaoctets de données ont été produits, et seulement par 2 000 séquenceurs. Cette quantité stupéfiante comprenait 300 Ko de données séquencées sur le génome humain. À ce rythme de production de données, on peut estimer qu'en 2018, environ un exaoctet de données sera produit. Cela sera dû à la croissance des séquenceurs, qui produiront de plus en plus de données par cycle. Une autre raison est l'avènement de machines de séquençage du génome extrêmement puissantes et peu coûteuses. Depuis 2008, le prix de ces machines a régulièrement diminué. Ceci est dû aux puissantes machines de nouvelle génération qui ont pénétré sur le marché.

Les besoins de l'industrie de la cartographie du génome

Des algorithmes complexes sont utilisés pour traiter les données collectées à partir du génome humain. Ensuite, cette information doit être stockée. Il sera peut-être revu ultérieurement pour la comparaison avec les données d'origine. Le traitement et le stockage de 100 Go de données ne sont pas trop difficiles, surtout lorsque vous le faites avec les puissantes machines utilisées dans les centres de séquençage. Des études montrent que cette quantité de données peut être traitée en environ 1 000 heures de processeur, donc c'est très simple. À ce rythme d'avancement technique, il est évident que l'industrie du génome traitera bientôt des milliers de gigaoctets en quelques secondes seulement.

Cependant, les techniques de gestion et de stockage des données n’évoluent pas aussi rapidement, ce qui entraîne une perte importante de données précieuses. C'est vraiment indésirable, car cela entraverait sérieusement les progrès de la génomique humaine. Ainsi, le besoin d'une technique de gestion de données efficace, pouvant être facilement mise à jour, est très élevé. Cela peut être efficace, en particulier dans un proche avenir, où la cartographie du génome passera de grands laboratoires dotés d'ordinateurs puissants à de petits hôpitaux et laboratoires.

Qu'est-ce qui est attendu dans la solution?

Le rythme auquel de nouvelles techniques de séquençage génomique sont découvertes et développées est extrêmement élevé. Ce rythme peut être très bénéfique pour la science médicale sous la forme d'une étape décisive vers l'éradication des principales maladies. Cependant, ce rythme peut être très difficile aussi.

Le défi consiste à gérer les grandes quantités de données générées par les projets de séquençage. Une solution efficace est donc nécessaire pour faciliter le stockage et le traitement des données volumineuses. Cette solution doit être économique et rapide, tout en étant adaptative. L'analyse fournie par cette solution doit également être exacte et constante. Alors, quelle est la solution au problème? Sans aucun doute, c'est Hadoop. (Pour plus d'informations sur les utilisations de Hadoop, voir 5 Aperçu du Big Data (Hadoop) en tant que service.)

Pourquoi Hadoop est la meilleure solution pour le séquençage du génome

Ce dont l'industrie de la génomique a besoin, c'est d'une solution supérieure qui puisse l'aider à gérer efficacement les données, à les traiter et à les stocker pour une utilisation future. Cette solution semble correspondre parfaitement au logiciel Hadoop. Ainsi, Hadoop peut être considéré comme le logiciel de gestion de Big Data idéal, capable d'améliorer considérablement les techniques de stockage de données actuelles de l'industrie de la génomique.

Les capacités temps réel de Hadoop permettent aux séquenceurs génomiques d’analyser et de stocker de grandes quantités de données simultanément en temps réel. Cela permet également l’utilisation future des données. Hadoop peut battre de nombreux systèmes existants, car il est beaucoup plus rapide et plus fiable qu’eux.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Qu'est-ce que Hadoop peut faire d'autre?

Grâce à Hadoop, un grand nombre de possibilités et d'opportunités s'est ouvert dans le domaine de la génomique et du séquençage de gènes. Hadoop offre des options de calcul parallèle grâce auxquelles un séquençage plus rapide est possible. De plus, en utilisant la fonction MapReduce de Hadoop, un grand nombre de gènes peuvent être cartographiés très facilement. De ce fait, le séquençage avec Hadoop deviendra véritablement «next-gen» et sera beaucoup moins compliqué.

Opportunités pour Hadoop

Hadoop a plusieurs opportunités dans l’industrie du génome, mais le meilleur est tiré de l’article de Lynda Chin intitulé «Donner un sens aux données génomiques sur le cancer» dans la revue Genes & Development. Dans cet article, elle explique comment la génomique moderne a ouvert de nouvelles portes, ce qui a conduit à de nombreux résultats positifs, tels que la découverte d'informations génomiques sur le cancer. Pour cette raison, nous sommes plus près de découvrir le remède contre le cancer lui-même. Cependant, cela nécessite un peu plus d'attention et une puissante application de gestion des données pour une meilleure capacité de recherche sur le terrain. Cela peut être la meilleure opportunité pour Hadoop de prouver sa rapidité, sa puissance et sa précision.

Arbalète: la plate-forme de gestion de données de nouvelle génération

Crossbow, un logiciel destiné à l'analyse du reséquençage du génome, est l'une des meilleures solutions. C’est le résultat d’une intégration au sein de Hadoop entre un algorithme rapide d’alignement des données séquencées, appelé Bowtie, et un algorithme puissant qui compare et examine les données séquencées, c’est-à-dire un génotypeur nommé SoapSNP. Il est construit sur Apache Hadoop et repose sur une implémentation du framework MapReduce. Crossbow est portable, évolutif et convient également comme outil de cloud computing.

Avec cette intégration puissante, un génome complet peut être examiné en une journée sur un cluster local comprenant 10 nœuds. Avec un cluster de 40 nœuds, le processus est encore plus rapide et se termine en seulement trois heures pour un coût total inférieur à 100 $! Une étude menée pour tester la précision de Crossbow a montré qu'elle pouvait comparer chaque génome avec une précision de 99%. Une autre caractéristique utile de Crossbow est qu’elle fonctionne sur le cloud. Ainsi, Crossbow permettra aux milliers de futurs centres de séquençage, tels que les hôpitaux, de séquencer de grandes quantités de données génomiques sans recourir à des ordinateurs et à une technologie puissants et coûteux.

Autres logiciels de génomique basés sur Hadoop

De nombreuses entreprises ont reconnu le pouvoir d’Hadoop de changer le monde de la génomique. Hadoop a été modifié de manière appropriée pour exploiter son potentiel de séquençage avancé du génome. Quelques exemples de solutions de séquençage du génome basées sur Hadoop sont donnés ci-dessous:

Hadoop-BAM: C’est un puissant outil de gestion de données qui utilise la fonction MapReduce de Hadoop pour diverses activités liées à la génomique, comme le génotypage. Cela fonctionne au format binaire Alignement / Carte.
Cloudburst: Cette solution basée sur Hadoop a été créée en 2009. Elle est extrêmement efficace pour comparer les séquences du génome et cartographier des gènes individuels. C'est également l'une des premières applications Hadoop conçues à cet effet.

Conclusion

L'intégration entre le Big Data et l'industrie de la génomique s'avère être une aubaine dans les temps modernes. Ces plateformes sont efficaces dans la découverte des traitements de plusieurs maladies comme le cancer. Les données obtenues par cartographie du génome peuvent être utilisées pour la formulation d'informations préventives sur ces maladies. L'avènement du Big Data peut être considéré comme un tournant dans le monde de la génomique. Si les informations sont utilisées à bon escient, il est possible que ce soit également dans le domaine plus vaste des soins de santé. Le seul moyen d'avancer dans ce domaine consiste à utiliser des outils de gestion de données appropriés tels que Hadoop.