
Investigamos el procesamiento del lenguaje, tanto escrito como oral, con el fin de disponer de herramientas para el proceso automatizado de contenidos lingüísticos en entornos multilingües o en los que el lenguaje humano se convierte en la modalidad de interacción prioritaria. Las tecnologías desarrolladas permiten:
- Análisis masivo de textos para extraer opiniones, sentimientos y datos de conjuntos de textos, para generar sistemas de perfilado de usuarios y recomendaciones híbridas, así como agrupar y clasificar contenidos textuales.
- Corrección de textos y libros de estilo, tanto para hablantes nativos como para aquellos que están aprendiendo una segunda lengua.
- Sistemas de normalización de textos, de filtración/moderación de contenidos y de generación automática de contenidos y resúmenes..
- Traducción automática entre dos lenguas y recuperación de información cross – language.
- Síntesis de voz bilingüe catalán-castellano con expresividad natural, basado en el motor de síntesis de Cereproc ©
- Tratamiento de lenguas de signos, aplicaciones que integran avatares signantes.
Procesamiento de lenguaje natural
Hacemos investigación, desarrollo e innovación sobre tecnologías robustas y portables en el ámbito del procesamiento del lenguaje natural, en concreto: anotación semántica, reconocimiento de entidades nombradas (NERC), modelado del lenguaje, análisis semántico, agrupaciones y clasificaciones y análisis de la factualidad.
Estas tecnologías estudian, modelan y caracterizan textos, tanto mediante aproximaciones lingüísticas como aproximaciones estadísticas. Las primeras se basan en una comprensión del lenguaje mediante reglas, diccionarios, ontologías... y de entender las dependencias y relaciones entre las palabras. Las aproximaciones estadísticas, en cambio, infieren en el conocimiento a base de aprender con ejemplos. Esta aproximación híbrida combina las ventajas de ambas aproximaciones, de manera que sobre un conjunto de textos y de forma semiautomática o automática se “comprende” aquello que se dice, de qué se habla y cómo se habla. Es decir, se puede extraer información estructurada a partir de textos donde la información no está estructurada.
Concretamente, la investigación en el ámbito del procesamiento del lenguaje natural, se centra principalmente en:
- La anotación semántica - El reconocimiento de entidades nombradas (NERC)
- El modelado del lenguaje
- El análisis semántico
- Las agrupaciones y las clasificaciones
- El análisis de la factualidad
Las tecnologías lingüísticas son altamente dependientes del idioma y del tipo de escritura. Actualmente, la línea de investigación aborda el catalán, el castellano y el inglés. Además, trata escrituras formales (provenientes de noticias o bloques), contenido generado por el usuario (reseñas y textos limitados como pueden ser los provenientes de Facebook o Twitter) y transcripciones automáticas. Adicionalmente, el grupo también trabaja en el tratamiento de la información en más de una lengua.
Prosodia para la síntesis de voz
Trabajamos en la automatización del proceso de creación de voces, en el campo de la automatización del proceso de creación de voces y en la adaptación de éstas a dominios concretos. Por eso, las principales áreas de investigación son el desarrollo de modelos fonéticos y prosódicos del lenguaje, modelos que mejoren la naturalidad de las voces sintéticas, modelos que permitan la generación de voces sintéticas con emociones, procesamiento lingüístico basado en reglas y generación de diccionarios y vocabularios.
Barcelona Media | Av. Diagonal 177 | 08018 Barcelona | Tel: +34 93 238 14 00 | Fax: +34 93 309 31 88
© Fundació Barcelona Media | Informació legal
Barcelona Media @ Social networks: