Albert, vous êtes un spécialiste des réseaux neuronaux, vous avez fait votre thèse sur le sujet du classement non supervisé de publications scientifiques, quelles sont les particularités techniques du problème auquel talk⁴ apporte une solution?
Classer en quelques minutes, les réponses classées en quelques minutes, les réponses faites en langage naturel à des questions ouvertes dans le cadre d’une discussion, est une application qui pose 2 problèmes techniques majeurs :
- L’entraînement que l’on peut anticiper pour le moteur de Machine Learning, ne concerne que la connaissance du langage (langue et vocabulaire spécifique lié à un métier par exemple), ce qui est déjà un sujet complexe.Pour autant cet entraînement ne suffit pas pour apporter le niveau de performance attendue pour le classement de verbatims qui se conçoivent dans un contexte spécifique. Il faut donc ajouter à cet entraînement préalable, un apprentissage supplémentaire: celui de la grille de lecture du pilote dans le contexte précis du talk traité. Cet apprentissage ne peut se faire qu’au fil de l’intégration des données, c’est du Machine learning ‘dynamique’.Une complexité supplémentaire vient du fait que la suite des verbatims collectés n’est pas un processus aléatoire, les premières réponses révélant la pensée commune, les suivants étant plus personnels et spécifiques.
- Le fait de vouloir restituer le classement en quelques minutes quand on est en ‘live’ ajoute une exigence forte de rapidité de traitement.
Ces 2 contraintes conjuguées se traduisent en un enjeu spécifique d’optimisation du modèle de représentation des verbatims, ainsi que dans une exigence de performance sur la chaîne de traitement qui va calculer les distances mathématiques entre ces données et donc l’indice de confiance permettant de les classer ou pas dans le même groupe.
Le sujet de l’analyse sémantique en langage naturel semble connaitre un regain d’intérêt récemment et une accélération dans la qualité des résultats obtenus, pourquoi ?
L’analyse sémantique de langage naturel est effectivement un domaine ancien de la recherche algorithmique. C’est un sujet qui bénéficie aujourd’hui d’abord de l’accélération des recherches et des développements sur l’Intelligence artificielle, mais des travaux publiés ces dernières années, sur de nouvelles avancées dans la modélisation vectorielle des mots ont ouvert de nouvelles perspectives. Le dynamisme de l’open innovation et la structuration qu’apporte des repository comme Github permettent en outre de partager plus vite les avancées des uns et des autres et de disposer d’outils déjà développés.
Les travaux de recherche et de développement de talk⁴ sont basées sur les publications scientifiques disponibles en open innovation. Du coup, quels sont les verrous et comment talk⁴ peut y apporter une réponse opérationnelle ?
Avant tout, il faut pouvoir repérer dans le foisonnement actuel des publications celles qui peuvent contribuer à notre problématique propre.Ensuite, passer d’une théorie démontrée ou d’un prototype testé, à une vraie chaîne de production capable d’être stable dans ses résultats et ses performances, dans un environnement réel, est un énorme challenge. Cela suppose d’optimiser à la fois chacune des étapes de la chaîne algorithmique et leur assemblage, d’un point de vue mathématique, mais aussi informatique.C’est le rôle aujourd’hui assigné à une équipe de R&D comme celle de talk⁴.
L’analyse sémantique du langage naturel est un domaine technique qui nécessite des expertises en linguistique, en mathématiques et en développement informatique. Comment réunir des équipes compétentes dans ce domaine de l’intelligence artificielle ?
Effectivement, dans une équipe de recherche et développement en NLP, il faut des compétences linguistiques qui seront critiques pour les phases de prétraitement des données où l’on va s’attacher à créer une représentation simplifiée des mots et des phrases.
Il faut ensuite des compétences mathématiques pour les phases de calcul vectoriel et statistique. Il faut enfin, être capable de traduire tout ceci dans un code performant, ce qui est d’autant plus critique chez talk⁴ car le classement est calculé en quelques minutes.
La seule solution est donc de créer une équipe pluridisciplinaire, curieuse d’apprendre hors de son champ strict d’expertise, et de se contraindre à beaucoup de rigueur dans le processus de développement et d’évaluation des résultats obtenus.
Aujourd’hui tout le monde parle d’intelligence artificielle, beaucoup disent en faire, quel est votre point de vue sur cette situation ?
On l’a dit précédemment, il y a aujourd’hui de nombreuses recherches et algorithmes déjà développés qui sont disponibles sur internet et les outils qui les accompagnent. Certains peuvent croire qu’il suffit de les utiliser pour produire une application avec de l’intelligence artificielle.
Or pour passer à un code stable en conditions d’exploitation intensive, et ‘scalable’ en terme de volumes et performances, il faut maîtriser la logique de ces prototypes pour pouvoir en optimiser l’application. Très peu possèdent les connaissances et l’expérience pour le faire.
Il y a aussi tous ceux qui disent qu’ils font de l’intelligence artificielle ...
Or, les non spécialistes ont bien du mal à faire la différence entre tout ceci. Les généralisations et les mises en production peuvent engendrer des frustrations auprès des utilisateurs. En promettant trop, trop tôt, on prend le risque de générer de la défiance ce que nous avons déjà vécu dans les années 90 quand l'I.A. recouvrait les moteurs d'inférence et autres systèmes à base de règles tandis que le les réseaux de neurones étaient regroupés sous le vocable connexionnisme.