Des masses de données à traiter

N° 308 - Publié le 8 avril 2013
© DR
Grâce au cloud, les chercheurs ont pu analyser 10^15 combinaisons de données génétiques et d'imagerie médicale pour obtenir des informations sur des maladies du cerveau

Comment gérer et utiliser les millions de données mises en ligne sur les clouds ? Des chercheurs s’y emploient.

Les nuages informatiques annoncent de grandes promesses. Mais s’ils peuvent stocker la déferlante d’informations générées par les nouvelles technologies, il faut encore développer les moyens de les utiliser. « Depuis quelques années, la production de données augmente plus vite que notre capacité à les traiter », explique Gabriel Antoniu, responsable de l’équipe KerData, au centre Inria de Rennes. Il travaille sur les big data, les masses de données et leur traitement dans le cloud, définis comme l’une des priorités du centre de recherche dans son plan stratégique 2013-2017. « Il faut trouver un moyen de les filtrer, pour pouvoir travailler dessus. »

1015 combinaisons images-séquences

Aujourd’hui, la plupart des clouds utilisent le même environnement, le même langage en quelque sorte pour développer les applications. « Nous, nous pouvons améliorer les performances de cet environnement pour aller plus vite. Depuis quelques années, nous développons pour cela un logiciel libre, BlobSeer, que nous adaptons au cloud. »

À Saclay, l’équipe rennaise travaille avec Microsoft dans un centre de recherche commun, sur une application biologique. « Il s’agit de chercher des corrélations entre des données génétiques et des indices sur des images du cerveau, pour détecter certaines maladies. Cela demande de traiter, en parallèle, des millions de données génétiques et autant d’images : on arrive à 1015 combinaisons images-séquences génétiques à tester ! » Grâce à BlobSeer, les chercheurs ont pu améliorer de 45 % l’efficacité de traitement des données sur le cloud de Microsoft. Un petit exploit !

Des résultats à la hauteur

« Notre logiciel permet à plusieurs requêtes d’atteindre en même temps les mêmes données. Mais surtout, nous gérons différemment les métadonnées : ces informations sur les données. » Car pour ne pas perdre ses données dans le cloud, il faut bien noter quelque part où elles sont placées, à côté de qui... « Ces métadonnées sont habituellement regroupées à un seul endroit. Nous sommes parvenus à les distribuer et, à y accéder efficacement, cela permet d’améliorer la performance. » Les résultats sont à la hauteur de l’attente des chercheurs. « Nous avons travaillé sur 1 000 cœurs à la fois (ndlr : un cœur est une sous-unité du processeur), pendant près de deux semaines. Cela représente, mis bout à bout 200 000 heures de calcul ! » Cerise sur le nuage, il semblerait que des correspondances significatives au niveau médical aient été détectées. Comme l’a prédit l’Américain Jim Gray, le cloud pourrait bien représenter le nouveau paradigme de la découverte scientifique.

Céline Duguey

Gabriel Antoniu
gabriel.antoniu [at] inria.fr (gabriel[dot]antoniu[at]inria[dot]fr)

TOUT LE DOSSIER

Abonnez-vous à la newsletter
du magazine Sciences Ouest

Suivez Sciences Ouest