BM R+D / Veu i Llenguatge




Investiguem el processament del llenguatge, tant escrit com oral, a fi de disposar d’eines per al processament automatitzat de continguts lingüístics en entorns multilingües on en què el llenguatge humà es converteix n la modalitat d’interacció prioritària. Les tecnologies desenvolupades permeten:

  • Anàlisi massiu de textos per extraure opinions, sentiments i dades de conjunts de textos, per generar sistemes de perfilat d’usuaris i recomanacions híbrides, així com agrupar i classificar continguts textuals.
  • Correcció de textos i llibres d’estil, tant per parlants natius com per aquells que estan aprenent una segona llengua.
  • Sistemes de normalització de textos, de filtratge/moderació de continguts i de generació automàtica de continguts i resums.
  • Traducció automàtica entre dues llengües i recuperació d’informació cross – language
  • Síntesi de veu bilingüe català-castellà amb expressivitat natural, basat en el motor de síntesi de
    Cereproc ©
  • Tractament de llenguas de signes, aplicacions que integren avatars signants.


Processament de llenguatge natural

Fem recerca, desenvolupament i innovació en tecnologies robustes i portables en l’àmbit del processament del llenguatge natural, en concret: anotació semàntica, reconeixement de entitats nombrades (NERC), modelatge del llenguatge, anàlisi semàntic, agrupacions i classificacions i anàlisi de la factualitat.

Aquestes tecnologies estudien, modelen i caracteritzen textos, tan mitjançant aproximacions lingüístiques com aproximacions estadístiques. Les primeres, es basen en una comprensió del llenguatge mitjançant regles, diccionaris, ontologies... i d’entendre les dependències i relacions entre les paraules. Les aproximacions estadístiques, en canvi, infereixen el coneixement a base d’aprendre amb exemples. Aquesta aproximació híbrida combina els avantatges d’ambdues aproximacions, de manera que sobre un conjunt de textos i de forma semi – o automàtica, es “comprèn” què es diu, de què es parla i com se’n parla. És a dir, es pot extreure informació estructurada a partir de textos on la informació no està estructurada.

Concretament, la recerca en l’àmbit del processament del llenguatge natural, se centra principalment en:

  • L’anotació semàntica - El reconeixement d’entitats nombrades (NERC)
  • El modelatge del llenguatge
  • L’anàlisi semàntica 
  • Les agrupacions i les classificacions
  • L’anàlisi de la factualitat

Les tecnologies lingüístiques són altament dependents de l’idioma i del tipus d’escriptura. Actualment el grup de recerca aborda el català, el castellà i l’anglès. A més, tracta escriptures formals (provinents de notícies o blogs), contingut generat per usuari (ressenyes i textos limitats com poden ser els provinents de facebook o twitter) i transcripcions automàtiques. Addicionalment el grup també treballa en el tractament de la informació en més d’una llengua.

Prosòdia per la síntesi de veu

Treballem en l’automatització del procés de creació de veus En concret, es treballa en l’automatització del procés de creació de veus i l’adaptació d’aquestes a dominis concrets. Per això, les principals àrees d’investigació són el desenvolupament de models fonètics i prosòdics del llenguatge, models que millorin la naturalitat de les veus sintètiques, models que permetin la generació de veus sintètiques amb emocions, processament lingüístic basat en regles i generació de diccionaris i vocabularis. 

Equip

La línia de Veu i llenguatge de Barcelona Media està integrada per un equip d'investigadors que cobreixen les diverses especialitats d'aquest àmbit de R+D.

Director

Toni Badia [+]

Coordinador

Carlos Rodríguez [+]

Tècnic Comercial

David Comas [+]

Membres de l’equip

Joan Codina [+]
Judith Domingo [+]
David García Narbona [+]
Jens Grivolla [+]
Patrik Lambert [+]
Maria Teresa Melero [+]
Guillem Massó [+]
Roser Sauri [+]
Teresa Suñol [+]

Col·laboradors

Martí Quixal [+]

Projectes

  • Social Media

    Té com a objectiu l'explotació de l'últim fenomen social proporcionat per Internet: la publicació d'informació i opinió per part dels usuaris de la xarxa i la seva creixent participació a les xarxes socials.
    Website Social Media

  • T4ME

    Aliança estratègica per a la creació de tecnologies i aplicacions necessàries per fer sostenibles la diversitat lingüística i la societat multicultural europees, com ara l’aprenentatge automàtic, la informàtica social, els sistemes cognitius, les tecnologies del coneixement i els continguts multimèdia.
    Website T4ME

  • ICE3

    Té com a objectiu promoure l’aprenentatge d’idiomes assistit per ordinador a l’àmbit escolar, basat en una orientació pedagògica i que integra eines de processament per a la generació immediata de respostes.
    Website ICE3

  • Emaps

    Pretén donar resposta als reptes entorn l’assessorament en les oportunitats i els riscos en l’ús del web i els social media com a eina d’informació significativa i per desenvolupar una comunicació participativa entre científics i diferents públics.

  • Anàlisi d’opinions en la comunicació

    Dissenyar tecnologies de Customer Interaction Analytics per al desenvolupament d'una nova plataforma comercial de serveis.

  • i3media

    Projecte de recerca industrial dedicat al desenvolupament de tecnologies per a la creació i gestió automatitzada de continguts audiovisuals intel·ligents.
    Website i3media

 

Demos & Downloads
   
Publicacions
   
Informes Tècnics