Récupération de l’information avec du contenu web collaboratif

web collaboratif

La prolifération de l’accès omniprésent à Internet permet à des millions d’utilisateurs Web de collaborer en ligne à diverses activités. Beaucoup de ces activités se traduisent par la construction de grands référentiels de connaissances, soit comme objectif principal (par exemple, Wikipedia), soit en tant que sous-produit (par exemple, Yahoo! Answer). Dans ce tutoriel, nous discuterons de l’organisation et de l’exploitation du contenu généré en collaboration (CGC) pour l’organisation et la récupération d’informations. Plus précisément, nous avons l’intention de couvrir deux domaines complémentaires du problème: (1) utiliser un tel contenu comme une puissante ressource pour des représentations intelligentes et enrichies de connaissances et de nouveaux algorithmes de récupération d’informations, et (2) le développement de technologies d’extraction, de filtrage, et organiser du contenu créé en collaboration.

Les quantités d’informations sans précédent dans CGC permettent de nouvelles approches d’accès aux informations riches en connaissances, qui sont nettement plus puissantes que les méthodes conventionnelles basées sur des mots. Des progrès considérables ont été réalisés dans ce sens au cours des dernières années. Les exemples incluent la manipulation explicite des concepts définis par l’homme et leur utilisation pour augmenter le nombre de mots (voir Analyse sémantique explicite), en utilisant des taxonomies à grande échelle de sujets de Wikipedia ou du projet Open Directory pour construire des fonctionnalités Wikipedia pour une meilleure désambiguïsation des mots.

Cependant, la qualité et l’exhaustivité du contenu créé en collaboration varient considérablement et, pour que cette ressource soit utile, une quantité importante de pré-traitement, de filtrage et d’organisation est nécessaire. Par conséquent, de nouvelles méthodes d’analyse de la CGC et des interactions utilisateur correspondantes sont nécessaires pour exploiter efficacement les connaissances obtenues. Ainsi, non seulement les référentiels de contenu peuvent être utilisés pour améliorer les méthodes IR, mais la pollinisation inverse est également possible, car de meilleures méthodes d’extraction d’informations peuvent être utilisées pour collecter automatiquement davantage de connaissances ou vérifier le contenu fourni. Ce lien naturel entre la modélisation du processus de génération de CGC et l’utilisation efficace des connaissances accumulées suggère de couvrir les deux domaines en un seul tutoriel.

Le public visé par le tutoriel comprend des chercheurs IR et des étudiants diplômés, qui souhaiteraient en savoir plus sur les avancées récentes et les possibilités de recherche dans le domaine du contenu généré en collaboration. Le didacticiel proposé mettra l’accent sur la comparaison des approches existantes et sur la présentation des techniques pratiques que les praticiens de l’IR peuvent utiliser dans leurs recherches. Nous prévoyons également de couvrir les défis de la recherche ouverte, ainsi que les ressources disponibles (outils logiciels et données) pour commencer à travailler dans ce domaine de recherche.

Présentateurs : Eugene Agichtein et Dr. Evgeniy Gabrilovich

Eugene Agichtein est professeur adjoint au Département de mathématiques et d’informatique de l’Université Emory. Il est le fondateur du laboratoire IRLab (Emory Intelligent Information Access Laboratory). L’expertise d’Eugene en recherche se situe dans l’accès et la recherche d’informations, en particulier dans la compréhension et la modélisation des interactions des utilisateurs dans la recherche sur le Web et les médias sociaux pour améliorer l’accès à l’information et la découverte. Il a publié de nombreux articles sur la recherche d’informations Web et sur l’extraction d’informations à partir de textes et du Web. Certaines des publications de recherche d’Eugene ont été récompensées par le prix du «meilleur papier étudiant» lors de la conférence ICDE 2003 et par le «prix du meilleur article» lors de la conférence SIGMOD 2006. Eugene est également activement impliqué dans la communauté de recherche IR et Web Search, et servira de coprésident du programme de la conférence WSDM 2012 à Seattle. Il a été membre du comité de programme principal (président de zone) des conférences SIGIR 2007, 2008, 2009, 2010 et 2011, des conférences ICWSM 2010 et 2011, de la chaire de recherche sur l’information pour la conférence HLT 2010 et la réunion annuelle de la conférence de l’Association for Computational Linguistics (ACL 2008). Eugene a également siégé aux comités de programme des conférences SIGIR, AAAI, KDD, ACL, EMNLP, ICDE, COLING, WWW, WSDM et HLT. En lien direct avec le sujet du didacticiel, le Dr Agichtein a co-fondé et co-présidé les trois premiers ateliers sur la recherche dans les médias sociaux (SSM 2008) au CIKM 2008 à Napa Valley, Californie, SSM 2009 à SIGIR 2009 à Boston et SSM 2010. au WSDM 2010 à New York, qui a attiré une large participation de chercheurs universitaires et industriels. Eugene a présenté des tutoriels à AAAI 2010 et WWW 2010 sur «Intention et comportement dans la recherche de modèles», et a donné des conférences sur des sujets connexes dans les principaux laboratoires de recherche et moteurs de recherche Web, notamment Google, Microsoft, Yahoo, Ebay et Yandex. Eugene a déjà présenté un didacticiel populaire sur l’extraction et l’intégration de l’information évolutive lors de la conférence ACM KDD 2006 et une webémission SIGKDD invitée sur «l’extraction d’informations évolutive» en 2007.

Le Dr. Evgeniy Gabrilovich est chercheur scientifique et directeur du groupe NLP & IR chez Yahoo! Recherche. Ses intérêts de recherche incluent la recherche d’informations, l’apprentissage automatique et la linguistique informatique. Récemment, il a organisé à SIGIR 2010 un atelier sur la création et la sélection de fonctionnalités pour la recherche d’informations, des ateliers sur la synergie entre les connaissances fournies par les utilisateurs et la recherche en IA à IJCAI 2009 et AAAI 2008 et des ateliers Evgeniy a été membre senior du PC ou président de zone chez SIGIR, AAAI, IJCAI, EMNLP et ICWSM et a également siégé aux comités de programme de WWW, WSDM, SIGIR, CIKM, AAAI, ACL, EMNLP, HLT, COLING et JCDL. Evgeniy est récipiendaire du prix Karen Sparck Jones pour ses contributions au traitement du langage naturel et à la récupération d’informations. Evgeniy a obtenu sa maîtrise et son doctorat en informatique auprès du Technion – Israel Institute of Technology. Dans son doctorat thèse, il a développé une méthodologie pour utiliser des référentiels à grande échelle de la connaissance du monde (par exemple, toutes les connaissances disponibles dans Wikipedia) pour améliorer la représentation du texte au-delà du sac de mots. Evgeniy a présenté des didacticiels sur la publicité informatique à SIGIR 2010, CIKM 2009, IJCAI 2009 (invité), EC 2008 et ACL-HLT 2008 (invité). Il a également présenté des conférences invitées à ECIR 2011, Canadian AI 2009 et l’Atelier sur la recherche sur le Web social et l’exploitation minière tenu au CIKM 2009. Evgeniy a également présenté plusieurs conférences dans les principaux laboratoires de recherche du monde universitaire et de l’industrie, notamment Microsoft.