omicX

Afin de découvrir la variété de métiers que regorgent la bio-informatique, je vous propose de suivre mon aventure dans la recherche d’entreprises liées à notre domaine ! Cette semaine, l’entreprise française omicX a répondu à mes questions. Pour la petite anecdote, j’ai découvert l’existence de cette entreprise en cherchant par harsard le nom d’un outil dont j’avais besoin sur l’ami Google.

J’ai trouvé sa fiche descriptive sur le site d’Omic Tools créé par omicX et je me suis rendue compte que c’était un site bien pratique pour établir une liste des logiciels présentement existants, pour une thématique donnée. Il est aussi très pertinent pour savoir si un logiciel est toujours maintenu par son équipe de création ou bien s’il n’est plus fonctionnel. Ça évite de passer des heures à essayer de l’installer sans succès et se rendre compte à la fin que personne ne pourra vous expliquer ce que vous n’avez pas fait correctement !


Quelques mots d’introduction

omicX a été fondée en 2013 par Arnaud Desfeux, docteur en Neurosciences. L’entreprise compte aujourd’hui une quarantaine de salariés experts en data science, en bio-informatique, en biologie et en développement web. Les bureaux de l’entreprise sont situés à Rouen au cœur de la pépinière Seine Innopolis, acteur majeur de l’innovation en Normandie.

L’entreprise a suscité l’intérêt des investisseurs grâce au positionnement innovant de son moteur de recherche, lequel permet de trouver en quelques clics et pour toute question biologique posée, une réponse logicielle adaptée. “Dans un contexte de production croissante de logiciels, réunir, classer et documenter l’ensemble des outils utiles à l’analyse de données biologiques me semblait être la meilleure stratégie à adopter” affirme le fondateur de l’entreprise.

Cinq ans après son lancement, le succès de la plateforme se confirme et pour cause, omicX dépasse les 3 millions de pages vues et les 1 millions de visiteurs par an. Avec plus de 25 000 utilisateurs inscrits à ce jour, elle est parvenue à engager les scientifiques issus des plus grandes universités et institutions (NIH, Oxford, Cambridge, Yale, Chinese Academy of Sciences, etc).  

L’ambition de départ de l’entreprise

omicX : Notre objectif premier est de guider la communauté scientifique dans l’exploitation des données biologiques. Le volume de données actuel est tel qu’il dépasse de loin les capacités d’analyse des chercheurs. C’est pourquoi nous avons développé un écosystème qui capitalise sur l’intelligence collective pour générer des protocoles directement exploitables par l’humain. Initialement positionnée sur la classification et la suggestion d’applications, l’entreprise s’oriente progressivement vers l’aide à la décision. Notre slogan ‘Unleashing the value of big biodata’ va d’ailleurs dans ce sens : exploiter les Big BioData pour réaliser de nouvelles percées scientifiques.

Les services proposés

omicX : Outre notre moteur de recherche sémantique, nous proposons un outil d’analyse en capacité de déchiffrer la littérature scientifique pour générer des protocoles et des méta-analyses* (i.e. des suites logicielles logiques construites à partir de l’ensemble des outils que nous référençons). Les protocoles peuvent être modifiés par l’intermédiaire d’un éditeur conçu spécifiquement pour personnaliser les analyses que nous générons de manière à ne laisser aucune question sans réponses.

Nous proposons également plusieurs modules statistiques. Notre plateforme compile des données sur les spécifications des outils, le contexte biologique dans lequel ils sont utilisés, les pathologies auxquelles ils répondent, leurs citations, et fournit des aperçus détaillés sur les tendances en développement logiciel, les collaborations scientifiques et les institutions contributrices.

Quelques exemples de profils actuels en bioinformatique dans l’entreprise

omicX :  Nous employons essentiellement des bioinformaticiens, des biologistes et des ingénieurs en développement web et génie logiciel, possédant pour la plupart un Master et/ou un Doctorat.

Une des principales missions des bioinformaticiens concerne la classification des applications et l’écriture de scripts pour l’extraction des spécifications. Ils interviennent également au niveau de la validation et de la vérification des protocoles issus de la littérature scientifique. Ils participent également à l’extraction des modules/outils, à la « dockerisation » des logiciels et au développement des futures fonctionnalités du site.

Les futurs projets ?

omicX : Nous prévoyons prochainement de déployer une solution de cloud computing pour permettre aux chercheurs d’exécuter leurs analyses directement en ligne. Nos utilisateurs pourront ainsi lancer des analyses en utilisant des ensembles de données stockées dans des bibliothèques dédiées. L’intégration de cette dernière brique fonctionnelle permettra à omicX de devenir un environnement de travail complet, couvrant l’ensemble des étapes d’analyse.



Merci chaleureusement à Emeline Duquenne de m’avoir permis de rentrer en contact avec l’entreprise omicX. Pour notre prochain article, vous pourrez découvrir son portrait en tant que bio-curatrice dans l’entreprise !

 

Kit de démarrage en bio-informatique

Passer du monde de la biologie à la bio-informatique n’est pas quelque chose de spontanée. Se familiariser avec l’environnement Linux et commencer à utiliser exclusivement son terminal pour naviguer dans ses dossiers n’est pas une tâche aisée. Mais n’ayez crainte, après quelques semaines de pratique, vous serez plus à l’aise pour découvrir les joies de la programmation et l’affichage du Hello World n’aura plus de secret pour vous ! Pour ceux qui commencent leurs cursus en bio-informatique, ici, voici quelques outils qui vous permettront de bien débuter votre nouveau parcours.


I. Travailler sous GNU / Linux

Les systèmes d’exploitation Windows et Apple sont assez communs sur le marché. Il est plus rare de commencer à utiliser un système d’exploitation Unix sans y avoir été initié par un connaisseur. Pourtant, l’un de ses principaux avantages et que contrairement aux deux autres, c’est qu’il est gratuit et accessible à tous. Il existe plusieurs familles de système Unix mais nous allons plus spécifiquement vous parler de la famille GNU/Linux, couramment utilisée dans le domaine de la bio-informatique. Linux est le noyau d’un système d’exploitation, qui a pour particularité de fonctionner sur les ordinateurs personnels. Ce noyau est associé à un interpréteur de commandes et une série de différents outils, souvent des logiciels libres fournis par GNU, afin de former le système d’exploitation au complet.

A. Installation

Si vous souhaitez installer Linux sur votre ordinateur, trois options s’offrent à vous :

  • L’installation en machine virtuelle : une machine virtuelle est un logiciel qui permet de recréer dans une nouvelle fenêtre un système d’exploitation de manière indépendante. Le majeur inconvénient c’est qu’elle consomme pas mal de ressources.

Il existe plusieurs logiciels permettant de créer des machines virtuelles sur votre ordinateur tels que : VMWare Workstation, ou encore Oracle VM Virtual Box.

Tutoriel : Installation d’une machine virtuelle à l’aide de VM Virtual Box
  • L’installation en dual boot : cela permet de faire cohabiter deux systèmes d’exploitation sur votre ordinateur en partitionnant votre disque dur en deux parties.

Au démarrage, il vous sera alors proposé de choisir le système d’exploitation sur lequel vous devez travailler.

Tutoriel : Installation du dual boot
  • Le remplacement total de votre système d’exploitation par Linux : il vaut mieux connaître quelqu’un de suffisamment habitué à faire ce genre d’opérations pour ne pas endommager votre ordinateur. La communauté utilisant GNU/Linux est très solidaire, n’hésitez pas à faire un tour sur les forums de discussion pour demander un coup de main.

Par exemple, sur Bordeaux en France, le collectif Giroll est une association qui aide à l’installation de la distribution de GNU/Linux sur votre ordinateur personnel.

B. Choisir sa distribution

Sous GNU/ Linux, il existe un grand nombre de distributions différentes. Une distribution est un ensemble de logiciels associés au noyau Linux. Le choix d’une distribution aura donc un impact sur :

  • l’installation de Linux
  • les logiciels pré-installés
  • le suivi de sécurité (manager d’installation et de mise à jour)

GNU/Linux, comme les autres systèmes d’exploitation Unix, vous laisse choisir votre environnement de bureau. Ce dernier est un programme ou un ensemble de programmes dédiés qui permet notamment de manipuler votre ordinateur via une interface utilisateur en mode graphique.

En savoir plus : Les environnements de bureau sous Linux 

Il existe une multitude de distribution GNU/Linux toutes accessibles sur internet, et elles suivent une philosophie commune : elles prônent le logiciel libre et l’interopérabilité.

Définition de logiciel libre par GNU : Le terme « Logiciel libre » désigne des logiciels qui respectent la liberté des utilisateurs. Cela veut dire que les utilisateurs ont la liberté d’exécuter, copier, distribuer, étudier, modifier et améliorer ces logiciels.
Définition de l’interopérabilité par AFUL : L’interopérabilité est la capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d’autres produits ou systèmes existants ou futurs, et ce, sans restrictions d’accès ou de mise en œuvre.

Pour un bio-informaticien débutant, afin de se familiariser plus facilement avec un environnement Linux, voici une présentation des avantages de deux distributions populaires dérivées de Debian* :

Petit rappel sur Debian :
Distribution publiée par une organisation communautaire et démocratique, dont le but est le développement de systèmes d'exploitation basés exclusivement sur des logiciels libres

Pour les plus curieux qui souhaitent découvrir d’autres distributions, je vous incite à consulter la liste proposée par Wikipedia qui regorge de nombreux exemples et donnent plus d’informations sur d’autres distributions parentales tels que Slackware, RedHat Linux et Arch Linux et leurs descendants respectifs.

II. Bien choisir son environnement de développement

Le meilleur ami de l’informaticien est l’éditeur de code. C’est dans cette interface que vous allez travailler donc, il est très important d’être complètement à l’aise avec celui-ci. Ne pensez pas qu’il s’agit d’un simple bloc-note coloré. Les éditeurs de code vous aident réellement à repérer les erreurs, à indenter ou même à exécuter vos programmes. Ils offrent de nombreuses fonctionnalités.

On vous propose ici quelques exemples d’éditeurs de texte mais il en existe une multitude. Le plus important c’est de prendre celui qui vous convient le mieux et avec lequel vous vous sentez le plus à l’aise pour coder. Certains utilisateurs privilégieront un éditeur très léger et rapide aux fonctions accessibles par de nombreux raccourcis clavier, d’autres préféreront l’ergonomie et l’extensibilité d’un éditeur plus consommateur en mémoire vive. L’important c’est que cet éditeur soit présent sur toutes les plateformes. Trois différents exemple ci-dessous :

A. GNU Emacs

Emacs est un éditeur libre et gratuit, extensible, paramétrable et historique. C’est un éditeur très complet et puissant. Attention cependant, il faut du temps pour se familiariser avec ses nombreux raccourcis et son interface qui peut paraître très austère au premier lancement. Les plus courageux (ou les plus fous ?) pourront même découvrir au sein de cet éditeur, un navigateur internet ou bien même une messagerie mail.

B. Visual Studio Code

VSCode est un éditeur relativement récent si on le compare à son aîné Emacs. Édité par Microsoft, il est open-source et propose une interface plus sophistiquée. Sa grande force repose sur son extensibilité via un magasin de “plugin” gratuits. Nativement, il propose différents thèmes et colorations syntaxiques. Ses raccourcis claviers sont moins nombreux que ceux d’Emacs mais plus conventionnels. Il est également plus simple d’utilisation.

C. Atom

Atom est le cousin de Visual Studio Code. Atom appartient à Github et est lui aussi open-source. La plupart des fonctionnalités de VSCode sont présentes sous Atom, mais il faut pour cela télécharger des modules annexes (Packages). Ces derniers sont d’ailleurs la particularité de ce logiciel. Tout le monde peut publier gratuitement un plugin sur le magasin. C’est à la fois un avantage et un inconvénient. Parfois ces plugins ne sont pas optimisés ou non compatibles entre-eux. Ainsi, de manière générale, Atom est plus lent et plus gourmand en mémoire que VScode.

III. Sites de support

A. Openclassroom

C’est LA référence française pour trouver des cours  en informatique qui s’adressent aussi bien aux débutants qu’aux initiés. Vous y trouverez des cours et des travaux pratiques sur à peu près tous les langages et outils informatiques.

B. Stackoverflow

C’est le forum d’informatique le plus fréquenté, si vous avez une question ou si vous bloquez sur quelque chose, dites-vous que quelqu’un a certainement déjà rencontré ce problème et que la réponse se trouve sur le forum. Si jamais la question n’a pas été posée, la communauté est très réactive et toujours prête à aider.

C. bioinfo-fr.net

Ce site créé depuis 2012 a pour vocation de réunir une équipe de bio-informaticiens francophones qui partagent leurs savoirs et expériences à travers la rédaction d’articles sur le domaine de la bio-informatique. Ils relaient également les différents événements liés à la bio-informatique en France.

IV. Quelques outils gratuits pour les étudiants

Github Student Pack

Github est un service en ligne d’hébergement et de gestion de projet , il est basé sur le logiciel de gestion de version Git. C’est l’outil indispensable du développeur et du jeune bio-informaticien pour gérer les versions des projets de développement et travailler en collaboration.

Il est possible de s’y inscrire gratuitement mais il existe également une version premium qui permet notamment de créer des projets privés. Si vous êtes étudiant, vous pourrez avoir accès au plan premium et d’autres outils intéressants en souscrivant au Github Student Pack disponible sur ce lien.

Remarques :

  • Le Github student pack est également gratuit pour toutes les personnes faisant partie du monde académique. 
  • Pour en savoir plus sur Git, rendez vous sur les excellents articles de bioinfo-fr.

Vous voilà prêts à rentrer dans le monde de la bio-informatique ! Nous remercions chaudement l’AMBB pour nous avoir permis de reprendre leur travail pour la rédaction de cet article. Avez-vous d’autres propositions pour compléter ce kit de démarrage ? N’hésitez pas nous proposer vos idées par commentaire.

Ndlr : L’article à été mis à jour suite à des remarques faites par nos lecteurs, merci à eux pour leur vigilance et leurs encouragements.