Comment gérer les vagues de données numériques ?
Actualité
Des chercheurs proposent à leurs collègues en sciences du vivant une nouvelle façon de travailler : avec des outils mutualisés et collaboratifs.
Les sciences du vivant, comme les autres domaines scientifiques, produisent des données numériques. Celles-ci sont traitées et rendues exploitables grâce aux outils de la bio-informatique, née dans les années 1970. Cette discipline faisait d’ailleurs partie des axes de recherche de Biogenouest, le réseau des plates-formes technologiques en sciences du vivant et de l’environnement du grand Ouest, lors de sa création en 2002.
Accélération en 2008
C’est en effet au début des années 2000 que les premiers gros volumes de données ont commencé à arriver ; en provenance de la génomique, cette science qui consiste à découper une séquence d’ADN, ou des génomes entiers (le livre), pour en identifier chaque motif élémentaire (les lettres) et reconstituer les gènes (les mots). Puis les choses se sont encore accélérées à partir de 2008, avec l’arrivée des séquenceurs haut débit, capables de produire des gigaoctets de données par heure ! En parallèle, les chercheurs sont confrontés au foisonnement des logiciels en bio-informatique. Il en existe, par exemple, presque autant que de types de génomes : végétaux, bactériens... Car chaque laboratoire a tendance à développer son propre outil, qui devient d’ailleurs rapidement dépassé(1).
« Nous avons passé un cap, confirme Yvan Le Bras, animateur du projet e-science au sein de Biogenouest. Aujourd’hui, on ne peut plus faire face à l’augmentation du volume de données simplement en augmentant les capacités de calcul et de stockage. Il faut changer nos usages, mutualiser les services, les serveurs, mais aussi les ressources humaines. Car certains chercheurs me disent qu’ils ne parviennent plus à lire leurs données ! »
Faire de la e-science
C’est dans ce contexte qu’Olivier Collin, responsable de la plate-forme rennaise de bio-informatique de Biogenouest, a lancé, en 2012, le projet e-science(2) dans le grand Ouest. Pour la première phase, la mutualisation, il s’est inspiré des outils de partage qui existent déjà sur Internet, comme Google ou Facebook, très utilisés par le grand public, mais adaptés aux chercheurs. « Nous avons choisi le logiciel libre Hubzero, créé en 2010 dans le domaine des nanosciences aux États-Unis, qui est déjà utilisé par 600000 personnes dans le monde, précise Yvan Le Bras. C’est la première brique de l’environnement virtuel du chercheur. C’est un lieu de stockage commun qui permet de faire de la gestion de groupes et de projets. » Chercheur à la Station biologique de Roscoff, Thierry Tonon a été l’un des premiers utilisateurs : « J’ai trouvé cette plate-forme de partage très utile pour travailler avec des collègues basés à Rennes, explique-t-il. Nous pouvions tous accéder aux fichiers de façon sécurisée. » Sans passer par de multiples échanges par mail dans lesquels le même fichier, parfois très lourd, est à chaque fois transféré pour être modifié.
Des logiciels plus ouverts
Cet environnement virtuel est la porte d’entrée vers deux outils plus spécifiques aux chercheurs. Le premier est une plate-forme de gestion des métadonnées(3), qui permet aussi de mettre en forme des résultats de recherche selon les standards des grandes publications scientifiques. Le second regroupe près de huit cents outils d’analyse propres aux données de génomique (séquençage, protéomique...) déjà existants et créés à partir de logiciels libres, ou développés par l’Inria pour Biogenouest. « L’ouverture des logiciels est très importante : s’ils sont moins spécialisés, ils peuvent être utilisés dans différents domaines de la biologie.
Qu’elle provienne d’une algue ou d’une bactérie, une paire de bases n’est, pour un informaticien, qu’un bit de données ! »
Les prochaines vagues
Depuis un an et demi qu’elle fonctionne en test, la plate-forme e-science de Biogenouest est fréquentée par une centaine d’utilisateurs. Elle doit maintenant passer en phase de production pour en accueillir un plus grand nombre. C’est un des seuls projets en France sur ce thème (il en existe un autre développé en sciences humaines et sociales pour de la gestion documentaire). Il devrait aider les chercheurs à affronter les prochaines vagues de données, qui pourraient venir de l’étude des protéines (protéomique) et de l’imagerie. Le terme de “datanamis” - en référence aux tsunamis - commence à être utilisé pour décrire les déferlantes de données qui nous envahissent un peu plus chaque jour. Et qui ne se limitent pas à la recherche...
L’écologie, une discipline branchée !
Pour illustrer l’e-science, thème de la dernière édition du congrès Gen2bio(4), le professeur Willem Bouten, de l’Université d’Amsterdam était invité pour présenter ses travaux en e-écologie. Depuis qu’il a eu l’idée de démonter son téléphone portable pour en extraire le GPS, et d’en équiper des oiseaux migrateurs, il récolte plein de données ! De manière inattendue, celles-ci se sont révélées très précises et renseignent sur le comportement individuel de l’oiseau : l’altitude à laquelle il se trouve, s’il marche, court ou plane en se servant des courants avant de se poser sur son nid... Ces données peuvent être croisées avec d’autres informations, sur les paysages, par exemple. De quoi prendre un peu de hauteur.
(1)En biologie, la durée de vie des algorithmes liés aux nouvelles technologies de séquençage est de deux à six mois, contre des dizaines d’années pour les algorithmes développés en physique.
(2)Concept inventé en 2001 par le Britannique John Taylor qui décrit la science améliorée grâce aux Technologies de l’information et de la communication.
(3)Les métadonnées donnent des informations sur les données ; par exemple, des mots-clés.
(4)Organisé par Biogenouest, il s’est tenu le 3 avril dernier au Palais du Grand Large à Saint-Malo.
Yvan Le Bras Tél. 02 99 84 72 78
yvan.le_bras [at] irisa.fr (yvan[dot]le_bras[at]irisa[dot]fr)
Thierry Tonon Tél. 02 98 29 23 30
thierry.tonon [at] sb-roscoff.fr (thierry[dot]tonon[at]sb-roscoff[dot]fr)
TOUTES LES ACTUALITÉS
du magazine Sciences Ouest