Comment les outils logiciels ouverts de l’IORC inaugurent une nouvelle ère de collaboration mondiale en recherche sur le cancer

Les données génomiques jouent un rôle vital dans la recherche sur le cancer parce qu’il est essentiel de comprendre la biologie du cancer et son évolution pour mettre au point de nouveaux outils qui permettront de mieux diagnostiquer et traiter la maladie. Dans le cadre de gigantesques projets de recherche internationaux, comme le Consortium international de génomique du cancer (International Cancer Genome Consortium ou ICGC), on a séquencé des dizaines de milliers d’échantillons tumoraux qui ont été mis gratuitement à la disposition des chercheurs du monde entier.

L’un des résultats de ces travaux ambitieux et novateurs, ce n’est plus la rareté des données génomiques qui devient le principal problème auquel font face les chercheurs en cancérologie, mais leur surabondance. Les chercheurs ont besoin de bons outils, comme des bases de données bien organisées et des portails logiciels accessibles, pour trier et trouver les données que les projets comme l’ICGC ont déjà partagées avec la communauté des chercheurs et le faire d’une manière qui ne soit pas chronophage au point de ralentir ou de freiner leurs travaux.

Au cours de la dernière décennie, les chercheurs de l’IORC qui travaillent au sein du groupe d’informatique génomique ont créé des outils logiciels ouverts pour résoudre ce problème et ont ainsi permis aux chercheurs du monde entier d’accéder facilement et rapidement à certaines des plus vastes bases de données de la planète sur le génome des tumeurs. Ces outils ont contribué à stimuler le développement de l’écosystème collaboratif nécessaire de nos jours pour mener, dans le domaine de la recherche sur le cancer, des initiatives de médecine de précision qui exigent un grand volume de données, ce qui, en définitive, aide à accélérer le rythme de la recherche en cancérologie afin qu’au bout du compte, elle puisse bénéficier aux patients.

Cette année, l’IORC s’est vu attribuer deux nouveaux projets importants, soit celui du portail de données ICGC-ARGO (ICGC-Accelerate Research in Genomics Oncology), un projet dans le cadre duquel on traitera une quantité de données génomiques quatre fois plus importante que celle traitée par l’ICGC et on entreposera des données cliniques connexes, et celui du portail de données Kids First (Kids First Data Resource Portal) qui reliera les renseignements cliniques et génomiques sur les anomalies congénitales et le cancer infantile pour tenter de mieux comprendre ce qu’ils ont en commun.

Les logiciels qui stimulent la science d’aujourd’hui

« La science de la génomique ne peut se passer de logiciels », déclare Vincent Ferretti, docteur en mathématiques et directeur du programme d’informatique génomique à l’IORC.

Pour les chercheurs, une base de données bien conçue est essentielle à leurs travaux. Imaginez une bibliothèque qui posséderait des succursales partout en ville, mais qui ne serait dotée d’aucun système de classification; il faudrait certainement des jours pour trouver un seul livre. Les chercheurs sont souvent confrontés à un problème semblable à une bien plus vaste échelle lorsqu’ils cherchent de grandes quantités de données qui peuvent être entreposées dans diverses bases de données de recherche isolées réparties à travers le monde.

« À mesure que le volume de données augmente, il devient pratiquement impossible de mener des recherches sans les bons outils et, sans eux, les chercheurs ne peuvent mener des travaux de grande envergure », explique Junjun Zhang, gestionnaire principal en bioinformatique au sein de l’équipe d’informatique génomique. « Il faut des outils conviviaux capables de décortiquer cette masse d’information. »

C’est ici que M. Ferretti et son équipe interviennent. Les logiciels et les bases de données que nous avons créés au cours de la dernière décennie ont amélioré la façon dont les recherches sur le cancer sont menées en permettant aux chercheurs d’interroger relativement facilement des bases de données partout dans le monde.

MM. Ferretti et Zhang ont tous deux joué un rôle déterminant dans la conception et le lancement du portail de données du Consortium international de génomique du cancer (International Cancer Genome Consortium ou ICGC) en septembre 2013, le premier projet important mené par le groupe de M. Ferretti. L’IORC accueille dans ses installations le centre de coordination et le secrétariat de l’ICGC.

Aujourd’hui, le portail de données de l’ICGC donne accès à plus de 1,3 pétaoctet of données et plus de 200 chercheurs l’utilisent quotidiennement (un pétaoctet équivaut à un million de gigaoctets; à titre de comparaison, le téléphone intelligent haut de gamme moyen a une capacité de stockage de 64 gigaoctets). Son succès a facilité les réalisations de l’ICGC dans leur ensemble et a amélioré la capacité de l’organisme à favoriser des projets de recherche à l’échelle mondiale. M. Ferretti note que l’équipe « a acquis une certaine célébrité dans le domaine » pour ses travaux de conception du portail, principalement parce qu’ils étaient axés d’abord et avant tout sur l’expérience utilisateur.

En outre, le portail a été reconnu aux États-Unis par le National Cancer Institute (NCI), qui a demandé à l’Université de Chicago et à l’IORC de créer un portail similaire pour le Genomics Data Commons du NCI, un entrepôt de données unifié pour les études génomiques sur le cancer qui stimule la collaboration en médecine de précision.

Le GDC est encore plus vaste et beaucoup plus utilisé par le milieu de la recherche que le portail de données de l’ICGC. Des milliers de chercheurs y ont recours chaque mois pour accéder à environ deux pétaoctets de données. L’IORC a conçu et mis au point la couche intermédiaire du projet, soit l’interface utilisateur-ordinateur frontal et l’API (interface de programmation) d’interrogation. « Il s’agissait pour nous d’un plus petit rôle que celui que nous avions joué dans le portail de données de l’ICGC, mais il était crucial et avait une très grande portée, déclare M. Ferretti. Nos compétences ont été reconnues et on a fait appel à nous pour créer des outils pour un projet bien plus vaste que celui de l’ICGC. »

Passer au nuage

Les leçons tirées de la création des portails de l’ICGC et du GDC ont mené directement à la création d’une ressource infonuagique universitaire appelée collaboratoire sur le génome du cancer. Parce que les ensembles de données sur le cancer sont très grands, il faut souvent aux chercheurs des semaines, voire des mois, pour télécharger les données et les utiliser. En entreposant ces ensembles de données dans le nuage, un plus grand nombre de chercheurs peuvent y accéder et gagner du temps en n’ayant pas à les télécharger. Le collaboratoire contient 2 592 cœurs de processeurs et plus de 7,7 pétaoctets de stockage. Il met environ un téraoctet de données de l’ICGC à la disposition des chercheurs partout dans le monde, qu’ils travaillent ou non dans des institutions dotées de superordinateurs de grande puissance.

Pour accéder à leurs données, de nombreuses organisations utilisent des services infonuagiques commerciaux comme ceux d’Amazon, mais le collaboratoire s’apparente davantage à une ressource universitaire, qui permet aux chercheurs de tester leurs travaux à moindre coût.

« Si l’organisation ne peut pas traiter les données de l’ICGC comme il le faut, elle peut se tourner vers le collaboratoire », affirme M. Ferretti. Les données brutes contenues dans le collaboratoire, qui ont été séquencées dans le cadre de divers projets de l’ICGC menés dans différents pays du monde, ont été harmonisées pour être plus faciles à utiliser. Cela « permet aux chercheurs de comparer des pommes avec des pommes », dit-il, ce qui rend les comparaisons plus significatives sur le plan scientifique.

Des logiciels de nouvelle génération

Maintenant, l’équipe a deux nouveaux défis à relever : créer la base de données derrière ICGC-ARGO et son portail de données ainsi que tous les autres outils logiciels derrière Kids First.

ICGC-ARGO, la prochaine phase de l’ICGC, est bien plus vaste. La base de données comprend des échantillons biologiques provenant de 100 000 patients cancéreux, qu’elle combine avec des données cliniques afin de créer une ressource encore plus puissante pour les chercheurs et plus profitable pour les patients.

a screenshot of ICGC Argo

« Nous sommes en train de concevoir, pour ARGO, un tout nouveau système qui est fortement inspiré de celui de l’ICGC, mais que nous avons étendu afin d’y inclure des données cliniques, déclare M. Ferretti. Il sera de plus grande taille, il permettra de recueillir davantage de renseignements cliniques longitudinaux détaillés, comme des données sur les diagnostics, les expositions, les habitudes de vie, les antécédents familiaux, la réponse aux traitements et la survie, il contiendra de meilleures annotations et sera interrogeable. » Cela signifie qu’il comprendra un plus grand nombre de champs cliniques, de points de données et de rapports cliniques, ce qui le rendra plus complexe à gérer.

L’équipe travaille également en partenariat avec l’Alliance mondiale pour la génomique et la santé afin que les données soient interexploitables avec d’autres systèmes à travers le monde.

Le projet Kids First a été annoncé en août 2017. L’IORC crée actuellement cette ressource en partenariat avec le programme de recherche pédiatrique Gabriella Miller Kids First du Fond commun de financement des National Institutes of Health (NIH) et le Children’s Hospital of Philadelphia (CHOP). Kids First présente un modèle de fonctionnement des bases de données ouvertes différent pour l’avenir.

a screenshot of ICGC Argo

Kids First rassemblera des données axées sur les anomalies congénitales et les cancers infantiles provenant de douzaines de cohortes distinctes déjà établies. Les chercheurs du CHOP et de l’IORC combineront ces données et les rendront accessibles par l’intermédiaire d’une base de données infonuagique unique et d’un portail de découverte. L’un des principaux objectifs de ce projet est d’aider les chercheurs à mieux comprendre le lien entre les cancers infantiles et les anomalies congénitales et de trouver des stratégies pour enrayer ou ralentir le développement de ces cancers.

M. Ferretti appelle Kids First un portail de « troisième génération », créé grâce aux connaissances acquises et aux leçons tirées de la création des portails de l’ICGC et du GDC. Toutefois, contrairement à ces projets et en raison de sa plus grande complexité et des fonctionnalités qui y ont été ajoutées, Kids First intégrera des caractéristiques courantes des médias sociaux : ces utilisateurs, notamment les chercheurs et les patients, pourront se mettre en communication par l’intermédiaire du portail. Les chercheurs pourront explorer et partager leurs projets et les patients pourront communiquer avec les chercheurs et leur poser des questions. En bref, la base de données offrira aux utilisateurs une plateforme leur permettant de se parler.

Pour M. Ferretti, il s’agit d’une formidable occasion de mettre en communication les personnes qui mènent les recherches et les personnes qui bénéficient le plus de ces recherches. « C’est plus difficile, mais plus intéressant et il s’agit d’un tout nouveau rôle pour l’IORC, affirme M. Ferretti. Je n’ai jamais rencontré une personne ayant fait un don à l’ICGC, même si je travaille avec les données de l’organisme depuis des années. Un projet comme celui-ci rend notre travail plus concret et nous rappelle à quel point il a une grande incidence sur la vie des patients. »

Science ouverte. Données ouvertes. Codes sources ouverts.

Tout ce que l’équipe d’informatique génomique de l’IORC a conçu fait appel à des logiciels existants aux codes sources ouverts. Les outils utilisés dans le cadre des projets ICGC-ARGO et Kids First sont créés sous forme de composants individuels qui peuvent être partagés avec les membres de la communauté pour créer d’autres projets, dans le but d’aider à mettre au point davantage de ressources destinées au milieu des créateurs de logiciels ouverts.

C’est notre nouvelle façon de créer. C’est l’occasion de redonner à la communauté à laquelle nous appartenons depuis de nombreuses années. Nous le faisons pour que nos travaux aient des répercussions encore plus grandes.
– M. Vincent Ferretti

Pour M. Zhang, la nouvelle génération d’outils logiciels renforcera la mission de l’IORC qui consiste à favoriser la collaboration scientifique. Avec les portails existants, il voit ces logiciels comme une occasion de rapprocher les différents secteurs de la recherche qui, auparavant, ne communiquaient pas entre eux. « Les initiatives auxquelles nous avons travaillé ont été créées pour encourager le partage et réduire le cloisonnement, affirme M. Zhang. Amener tous les intervenants à travailler ensemble est très important et c’est la raison pour laquelle il est essentiel de créer des outils faciles à utiliser. »

Les travaux menés par l’équipe contribueront également à rapprocher la recherche sur le cancer de la pratique clinique. Bien qu’ils soient utilisés en coulisses dans des ordinateurs et des salles de serveurs, ces outils ouvrent une nouvelle ère de collaboration en recherche sur le cancer impossible à imaginer il y a encore une décennie. « Nous ne mettons au point aucun traitement ni médicament ni ne travaillons en laboratoire sec, mais notre contribution, qui consiste à créer des outils logiciels, est néanmoins considérable et fondamentalement importante pour comprendre le cancer », affirme M. Zhang.

« Tous les projets auxquels l’équipe se consacre aident la communauté de chercheurs en cancérologie à travailler mieux, plus vite et plus intelligemment, ajoute M. Ferretti, et c’est le résultat de ce travail qui permettra de mieux diagnostiquer et traiter le cancer.»


Dr. Christina Yung

M. Ferretti ayant accepté un nouveau poste au Québec, l’IORC est fier d’accueillir Mme Christina Yung, docteure en ingénierie biomédicale, qui dirigera l’équipe d’informatique génomique à l’Institut. De retour à l’IORC après une année passée à l’Université de Chicago, Mme Yung nous arrive forte d’une décennie d’expérience en création d’infrastructures pour le partage et l’analyse de données génomiques à grande échelle. À l’IORC, Mme Yung dirigera la création de la base de données ICGC-ARGO et des outils permettant d’y accéder tout en maintenant à jour le portail de données de l’ICGC et le collaboratoire sur le génome du cancer.