BM I+D / Voz y Lenguaje




Investigamos el procesamiento del lenguaje, tanto escrito como oral, con el fin de disponer de herramientas para el proceso automatizado de contenidos lingüísticos en entornos multilingües o en los que el lenguaje humano se convierte en la modalidad de interacción prioritaria. Las tecnologías desarrolladas permiten:

  • Análisis masivo de textos para extraer opiniones, sentimientos y datos de conjuntos de textos, para generar sistemas de perfilado de usuarios y recomendaciones híbridas, así como agrupar y clasificar contenidos textuales.
  • Corrección de textos y libros de estilo, tanto para hablantes nativos como para aquellos que están aprendiendo una segunda lengua.
  • Sistemas de normalización de textos, de filtración/moderación de contenidos y de generación automática de contenidos y resúmenes..
  • Traducción automática entre dos lenguas y recuperación de información cross – language.
  • Síntesis de voz bilingüe catalán-castellano con expresividad natural, basado en el motor de síntesis de Cereproc ©
  • Tratamiento de lenguas de signos, aplicaciones que integran avatares signantes.


Procesamiento de lenguaje natural

Hacemos investigación, desarrollo e innovación sobre tecnologías robustas y portables en el ámbito del procesamiento del lenguaje natural, en concreto: anotación semántica, reconocimiento de entidades nombradas (NERC), modelado del lenguaje, análisis semántico, agrupaciones y clasificaciones y análisis de la factualidad.

Estas tecnologías estudian, modelan y caracterizan textos, tanto mediante aproximaciones lingüísticas como aproximaciones estadísticas. Las primeras se basan en una comprensión del lenguaje mediante reglas, diccionarios, ontologías... y de entender las dependencias y relaciones entre las palabras. Las aproximaciones estadísticas, en cambio, infieren en el conocimiento a base de aprender con ejemplos. Esta aproximación híbrida combina las ventajas de ambas aproximaciones, de manera que sobre un conjunto de textos y de forma semiautomática o automática se “comprende” aquello que se dice, de qué se habla y cómo se habla. Es decir, se puede extraer información estructurada a partir de textos donde la información no está estructurada.

Concretamente, la investigación en el ámbito del procesamiento del lenguaje natural, se centra principalmente en:

  • La anotación semántica - El reconocimiento de entidades nombradas (NERC)
  • El modelado del lenguaje
  • El análisis semántico
  • Las agrupaciones y las clasificaciones
  • El análisis de la factualidad

Las tecnologías lingüísticas son altamente dependientes del idioma y del tipo de escritura. Actualmente, la línea de investigación aborda el catalán, el castellano y el inglés. Además, trata escrituras formales (provenientes de noticias o bloques), contenido generado por el usuario (reseñas y textos limitados como pueden ser los provenientes de Facebook o Twitter) y transcripciones automáticas. Adicionalmente, el grupo también trabaja en el tratamiento de la información en más de una lengua.

Prosodia para la síntesis de voz

Trabajamos en la automatización del proceso de creación de voces, en el campo de la automatización del proceso de creación de voces y en la adaptación de éstas a dominios concretos. Por eso, las principales áreas de investigación son el desarrollo de modelos fonéticos y prosódicos del lenguaje, modelos que mejoren la naturalidad de las voces sintéticas, modelos que permitan la generación de voces sintéticas con emociones, procesamiento lingüístico basado en reglas y generación de diccionarios y vocabularios.

Equipo

La línea de Voz y Lenguaje de Barcelona Media está integrada por un equipo de investigadores que cubren las diversas especialidades de este ámbito de I+D.

Director

Toni Badia [+]

Técnico Comercial

David Comas [+]

Equipo

Joan Codina [+]
Judith Domingo [+]
David García Narbona [+]
Bernat Grau [+]
Jens Grivolla [+]
Patrick Lambert [+]
Maria Teresa Melero [+]
Guillem Massó [+]
Carlos Rodríguez [+]
Marta Ruiz [+]
Roser Sauri [+]
Teresa Suñol [+]

Colaboradores

Martí Quixal [+]

Proyectos

  • Social Media

    Tiene como objetivo la explotación del último fenómeno social proporcionado por Internet: la publicación de información y opinión por parte de los usuarios de la red y su creciente participación en las redes sociales.
    Website Social Media

  • T4ME

    Alianza estratégica para la creación de tecnologías y aplicaciones necesarias para hacer sostenibles la diversidad lingüística y la sociedad multicultural europeas, tales como el aprendizaje automático, la informática social, los sistemas cognitivos, las tecnologías del conocimiento y los contenidos multimedia.
    Website T4ME

  • ICE3

    Tiene como objetivo promover el aprendizaje de idiomas asistido por ordenador en el ámbito escolar, basado en una orientación pedagógica y que integra herramientas de procesamiento para la generación inmediata de respuestas.
    Website ICE3

  • Emaps

    Pretende dar respuesta a los retos en torno al asesoramiento en las oportunidades y los riesgos en el uso de la web y los social media como herramienta de información significativa y para desarrollar una comunicación participativa entre científicos y diferentes públicos.

  • Análisis de opiniones en la comunicación

    Diseña tecnologías de Customer Interaction Analytics para el desarrollo de una nueva plataforma comercial de servicios.

  • i3media

    Proyecto de investigación industrial dedicado al desarrollo de tecnologías para la creación y gestión automatizada de contenidos audiovisuales inteligentes.
    Website i3media

 

Demos y Downloads
   
Publicaciones
   
Informes técnicos