Système de question-réponse multimodal

Contexte

L’objectif du projet consiste à proposer une nouvelle approche, plus naturelle, de recherche d’information consistant à fournir à l’utilisateur la possibilité de poser une question multimodale, combinant par exemple, une image à du texte afin d’interroger une collection de documents audiovisuels. L’image peut ainsi contenir des informations complémentaires à celles exprimées dans la partie textuelle tout en présentant des notions ou des concepts difficiles à formaliser par l’utilisateur. L’un des objectifs fondamentaux du projet est de parvenir à la modélisation d’un langage multimodal, qu’il s’agisse de comprendre le sens d’une demande multimodale utilisateur, de la définition d’un langage d’interrogation ou encore d’un langage de génération et composition de réponse multimodale.

Si de nombreux systèmes de recherche d’information existent pour traiter des documents contenant les trois modalités textuelle, visuelle et acoustique, la plupart des systèmes de questions-réponses sont monomodaux et les quelques tentatives de recherche multimodale existantes incorporent souvent plusieurs moteurs distincts pour les différentes modalités, sans véritable intégration de l’information exprimée dans les différents médias.

Les épisodes constituant une saison ou l’intégralité d’une série télévisée constituent un bon exemple de documents multimedia qu’il peut être intéressant d’interroger via un système de questions-réponses multimodal. Une série télévisée fait en effet intervenir les modalités textuelle (via les sous-titres/transcriptions mais également toutes les méta-données associées à la série et disponibles sur internet, notamment des résumés d’épisodes), visuelle et acoustique. Dans ce cadre, le corpus TVD, en cours de développement au LIMSI et composé dans sa version actuelle des deux séries “Game of Thrones” et “The Big Bang Theory”, pourra être utilisé afin d’expérimenter et d’évaluer les résultats obtenus.

Dans le cadre de ce projet, deux pistes complémentaires seront explorées afin de mettre en place un système de questions-réponses orienté vers la recherche d’information sur les personnages présents dans la série ainsi que les relations qu’ils entretiennent les uns avec les autres.

Sujet 1 : Construction d’une base de connaissances multimodale

La première piste consiste à construire une base de connaissance multimodale fondée à la fois sur les données textuelles disponibles autour des deux séries constituant notre corpus (livres et wiki pour la série “Game of Thrones” et wiki pour la série “The Big Bang Theory”) mais également sur les informations acoustiques et visuelles disponibles dans les vidéos. Ces informations, permettant de savoir “qui parle quand” et éventuellement “de qui”, ont notamment pour objectif de mettre à jour des relations entre personnages potentiellement très changeantes (notamment dans la série “Game of Thrones” où les alliances entre personnages évoluent beaucoup).

Sujet 2 : Analyse de questions multimodales

La seconde piste a pour objectif de développer le système de questions-réponses proprement dit permettant à un utilisateur d’obtenir des informations sur un personnage apparaissant à l’écran (éventuellement silencieux dans la scène choisie), ou de connaître la relation (et son évolution) existant entre deux personnages présents dans la vidéo. Il s’agira d’exploiter les différentes modalités lors de l’analyse des questions afin de proposer une représentation du sens de la question permettant de produire une requête pouvant permettre l’interrogation d’une base de connaissance ou de la recherche de passages ou scènes dans le corpus.

Ces sujets pourront donner lieu à une thèse.

Compétences requises

Master 2 en Informatique, avec au moins une spécialité en Recherche d’information, Traitement automatique de la langue, Traitement de la parole, Analyse d’images, Apprentissage

Lieu du stage

LIMSI, Bâtiment 508, rue John von Neumann, 91405 Orsay CEDEX

Durée

5 mois, environ 550€ par mois.

Contacts

Camille Guinaudeau, camille[dot]guinaudeau__at__limsi__dot__fr