Interview d’Albert Georgel CEO et CTO de talk⁴

Albert, vous êtes un spécialiste des  réseaux neuronaux, vous avez fait votre thèse sur le sujet du classement  non supervisé de publications scientifiques, quelles sont les  particularités techniques du problème auquel talk⁴ apporte  une solution?

Classer en quelques minutes, les réponses classées en quelques  minutes, les réponses faites en langage naturel à des questions ouvertes  dans le cadre d’une discussion, est une application qui pose 2  problèmes techniques majeurs :

  • L’entraînement que  l’on peut anticiper pour le moteur de Machine Learning, ne concerne que  la connaissance du langage (langue et vocabulaire spécifique lié à un  métier par exemple), ce qui est déjà un sujet complexe.‌‌Pour autant cet entraînement ne suffit pas pour apporter le niveau de  performance attendue pour le classement de verbatims qui se conçoivent  dans un contexte spécifique. Il faut donc ajouter à cet entraînement  préalable, un apprentissage supplémentaire: celui de la grille de  lecture du pilote dans le contexte précis du talk traité. Cet  apprentissage ne peut se faire qu’au fil de l’intégration des données,  c’est du Machine learning ‘dynamique’.‌‌Une complexité supplémentaire vient du fait que la suite des verbatims  collectés n’est pas un processus aléatoire, les premières réponses  révélant la pensée commune, les suivants étant plus personnels et  spécifiques.
  • Le fait de vouloir  restituer le classement en quelques minutes quand on est en ‘live’  ajoute une exigence forte de rapidité de traitement.

Ces 2 contraintes  conjuguées se traduisent en un enjeu spécifique d’optimisation du modèle  de représentation des verbatims, ainsi que dans une exigence de  performance sur la chaîne de traitement qui va calculer les distances  mathématiques entre ces données et donc l’indice de confiance permettant  de les classer ou pas dans le même groupe.

Le sujet de l’analyse sémantique en langage naturel semble connaitre un regain d’intérêt récemment et une accélération dans la qualité des résultats obtenus, pourquoi ?

L’analyse sémantique de langage naturel est effectivement un domaine  ancien de la recherche algorithmique. C’est un sujet qui bénéficie  aujourd’hui d’abord de l’accélération des recherches et des  développements sur l’Intelligence artificielle, mais des travaux publiés  ces dernières années, sur de nouvelles avancées dans la modélisation  vectorielle des mots ont ouvert de nouvelles perspectives. Le dynamisme  de l’open innovation et la structuration qu’apporte des repository comme  Github permettent en outre de partager plus vite les avancées des uns  et des autres et de disposer d’outils déjà développés.

Les travaux de recherche et de développement de talk⁴ sont basées sur les publications scientifiques disponibles en open innovation. Du coup, quels sont les verrous et comment talk⁴ peut y apporter une réponse opérationnelle ?

Avant tout, il faut pouvoir repérer dans le foisonnement actuel des  publications celles qui peuvent contribuer à notre problématique propre.‌‌Ensuite, passer d’une théorie démontrée ou d’un prototype testé, à une  vraie chaîne de production capable d’être stable dans ses résultats et  ses performances, dans un environnement réel, est un énorme challenge.  Cela suppose d’optimiser à la fois chacune des étapes de la chaîne  algorithmique et leur assemblage, d’un point de vue mathématique, mais  aussi informatique.‌‌C’est le rôle aujourd’hui assigné à une équipe de R&D comme celle de talk⁴.

L’analyse sémantique du langage naturel est un domaine technique qui nécessite des expertises en linguistique, en mathématiques et en développement informatique. Comment réunir des équipes compétentes dans ce domaine de l’intelligence artificielle ?

Effectivement, dans une  équipe de recherche et développement en NLP, il faut des compétences  linguistiques qui seront critiques pour les phases de prétraitement des  données où l’on va s’attacher à créer une représentation simplifiée des  mots et des phrases.

Il faut ensuite des compétences mathématiques pour les phases de calcul vectoriel et statistique. Il faut enfin, être capable de traduire tout ceci dans un code  performant, ce qui est d’autant plus critique chez talk⁴ car le classement est calculé en quelques minutes.

La seule solution est  donc de créer une équipe pluridisciplinaire, curieuse d’apprendre hors  de son champ strict d’expertise, et de se contraindre à beaucoup de  rigueur dans le processus de développement et d’évaluation des résultats  obtenus.

Aujourd’hui tout le monde parle d’intelligence artificielle, beaucoup disent en faire, quel est votre point de vue sur cette situation ?

On l’a dit précédemment, il y a aujourd’hui de nombreuses recherches et algorithmes déjà développés qui sont disponibles sur internet et les outils qui les accompagnent. Certains peuvent croire qu’il suffit de les utiliser pour produire une application avec de l’intelligence artificielle.

Or pour passer à un code stable en conditions d’exploitation intensive, et ‘scalable’ en terme de volumes et performances, il faut maîtriser la logique de ces prototypes pour pouvoir en optimiser l’application. Très peu possèdent les connaissances et l’expérience pour le faire.

Il y a aussi tous ceux qui disent qu’ils font de l’intelligence artificielle ...

Or, les non spécialistes ont bien du mal à faire la différence entre tout ceci. Les généralisations et les mises en production peuvent engendrer des frustrations auprès des utilisateurs. En promettant trop, trop tôt, on prend le risque de générer de la défiance ce que nous avons déjà vécu dans les années 90 quand l'I.A. recouvrait les moteurs d'inférence et autres systèmes à base de règles tandis que le les réseaux de neurones étaient regroupés sous le vocable connexionnisme.