La situación actual de las tecnologías lingüísticas



Las tecnologías lingüísticas en el contexto europeo

El contexto institucional

Los programas marco

La financiación de los proyectos de investigación y desarrollo en Europa se organiza en torno a programas marco (Framework Programmes).

7o Programa Marco

Proyectos de investigación y desarrollo relacionados con las tecnologías lingüísticas financiados entre 2007 y 2013 en el Séptimo Programa Marco de Investigación y Desarrollo Tecnológico (FP7, Seventh Framework Programme for Research and Technological Development) y en el programa ICT-PSP (Information and Communication Technologies Policy Support Programme):

Language technologies - Projects. Information and Communication technologies, Seventh Framework Programme. CORDIS, Community Research and Development Information Service, European Commission. Consultado en http://cordis.europa.eu/fp7/ict/language-technologies/projects_en.html

Horizonte 2020

Horizon2020

Horizon 2020, The EU Framework Programme for Research and Innovation (2014-2020).

Horizon 2020. Work programme 2014-2015. 5.- Leadership in enabling and industrial technologies. i.- Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/main/h2020-wp1415-leit-ict_en.pdf

ICT-15 Big Data and Open Data Innovation and take-up.

“Collaborative projects focused on innovation and technology transfer in multilingual data harvesting and analytics solutions and services.”

Horizon 2020. Work programme 2014-2015. 5.- Leadership in enabling and industrial technologies. i.- Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/main/h2020-wp1415-leit-ict_en.pdf

ICT-16 Big Data - research.

“Collaborative projects to develop novel data structures, algorithms, methodology, software architectures, optimisation methodologies and language understanding technologies for carrying out data analytics, data quality assessment and improvement, prediction and visualization tasks at extremely large scale and with diverse structured and unstructured data. Of specific interest is the real time cross-stream analysis of very large numbers of diverse, and, where appropriate, multilingual, multimodal data streams.”

Horizon 2020. Work programme 2014-2015. 5.- Leadership in enabling and industrial technologies. i.- Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/main/h2020-wp1415-leit-ict_en.pdf

ICT-17 Cracking the language barrier.

“The aim of this challenge is to launch interdisciplinary work leading to a new paradigm in overcoming the language barrier and progressively, to reach high quality for all language combinations and translation directions, and cater for the most demanded text types and use contexts. Systems and solutions that are intended to overcome the language barriers, are expected to deal with huge volumes, high variety of languages and text styles, and deliver results in reasonable time (in most cases, instantly). Where the methods require automatic learning from language resources, the availability and suitability of the latter need to be addressed. Special focus is on the 21 EU languages (both as source and target languages) that have “fragmentary” or “weak/no” machine translation support according to the META-NET language White Papers.”

Horizon 2020. Work programme 2014-2015. 5.- Leadership in enabling and industrial technologies. i.- Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/main/h2020-wp1415-leit-ict_en.pdf

Cracking the Language Barrier. A federation of European projects and organisations working on technologies for a multilingual Europe. (2016). Saarbrücken: DFKI, Deutsches Forschungszentrum für Künstliche Intelligenz. Consultado en http://www.cracking-the-language-barrier.eu

ICT-22 Multimodal and Natural computer interaction.

“Provide interactive information retrieval systems with more efficient and natural ways of delivering answers to users’ queries especially in unexpected and/or difficult circumstances. This should be supported by research on knowledge-based autonomous human-like social agents that can handle and learn from conversational spoken and multimodal interaction as well as react proactively to new communicative situations. Systems should cope with spontaneous spoken dialogue and gestural interaction, in multiple languages, and exhibit adequate communicative, conversational, affective and social capabilities in relation to the domain/task under consideration and the needs and abilities of the user.”

“Develop and validate innovative multimodal interfaces to provide more efficient and natural ways of interacting with computers and improve users’ experience. Leveraging on one or multiple smart devices and sensors with capabilities such as scene analysis, voice recognition, human position, gestures and body language detection capabilities, such systems must provide non-intrusive interaction with human where real and virtual content are blended.”

Horizon 2020. Work programme 2014-2015. 5.- Leadership in enabling and industrial technologies. i.- Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/main/h2020-wp1415-leit-ict_en.pdf
Horizon 2020. Work programme 2016-2017. 5.i. Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2016_2017/main/h2020-wp1617-leit-ict_en.pdf
“Application of Language Technologies is supported under topics ICT-14, 15, 16 (Big data PPP). Proposers addressing other topics are encouraged to make use of Language Technologies (e.g. machine translation, speech recognition, dialogue management, text analysis, text generation), if the proposal involves analysis or interpretation of information expressed in human language, or if the proposal addresses human-to-human or human-to-machine interaction or communication” (p. 5).

Horizon 2020. Work programme 2016-2017. 5.i. Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2016_2017/main/h2020-wp1617-leit-ict_en.pdf

ICT-14-2016-2017: Big Data PPP: cross-sectorial and cross-lingual data integration and experimentation.

“Data experimentation incubators should address big data experimentation in a cross-sectorial, cross lingual and/or cross-border setup. This setup should include access to data in different domains and languages, appropriate computational infrastructure, and open software tools. . . . the incubators are expected to address the technical, linguistic, legal, organisational, and IPR issues, and provide a supported environment for running the experiments” (p. 42)

Horizon 2020. Work programme 2016-2017. 5.i. Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2016_2017/main/h2020-wp1617-leit-ict_en.pdf

ICT-19-2017: Media and content convergence.

“Development and advancement of accessibility solutions specifically for converging media and content. This may include technologies for subtitles, sign language, descriptive language, automated graphical presentation of avatar character, automated translation and adaption, personalised setup in an accessibility scenario” (p.50).

Horizon 2020. Work programme 2016-2017. 5.i. Information and communication technologies. European Commission. Consultado en http://ec.europa.eu/research/participants/data/ref/h2020/wp/2016_2017/main/h2020-wp1617-leit-ict_en.pdf

La agenda digital europea

DigitalAgenda

DAE, Digital Agenda for Europe.

Desigualdades en el uso de las lenguas en Internet en Europa.

The Gallup Organization. (2011). User language preferences online [Survey conducted by the Gallup Organization, Hungary, upon the request of Directorate-General Information Society and Media]. Eurobarometer, Flash EB Series #313, European Commission. . Consultado en http://ec.europa.eu/commfrontoffice/publicopinion/flash/fl_313_en.pdf

Language Technologies. (2016). Data - Economy - Digital Single Market. European Commission. Consultado en https://ec.europa.eu/digital-single-market/en/language-technologies

“How can we cope with all the content on the Web and make it available to interested people, regardless of the language(s) they speak and understand? The obvious answer is to teach computers how to understand and process written and spoken human language.
The online market (the Digital Single Market) remains fragmented by significant language barriers, despite the European Single Market should allow for free circulation of goods and services.
These barriers hinder online commerce, social communication and exchange of cultural content, as well as the wider deployment of pan-European public services. Machine translation (MT) solutions available on the market usually don’t reach the required levels of quality, or only for limited number of languages, text types or topics. However, customizing MT engines is difficult due to high cost, lack of the necessary language resources and not universally applicable tools and techniques.”

Language Technologies. (2016). Data - Economy - Digital Single Market. European Commission. Consultado en https://ec.europa.eu/digital-single-market/en/language-technologies

La gestión de la agenda digital europea

European Commission Directorate General for Communications Networks, Content and Technology (DG CONNECT), Directorate G: Data, Unit G3: Learning, Multilingualism and Accessibility.

“The mission of the unit is to make the Digital Single Market more accessible, secure and inclusive. To this end, the unit supports policy, research, innovation and deployment of learning technologies and key enabling digital language technologies and services to allow all European consumers and businesses to fully benefit from the Digital Single Market. The unit is responsible for the Web Accessibility Directive, which makes public sector websites accessible by people with impairments The unit also promotes a better Internet for children by protecting and empowering children online, and improving the quality of content available to them.”

Who we are, DG CONNECT, Digital Single Market. European Commission.

El contexto empresarial

LT_Companies_EU_size.jpg

Tamaño de las empresas europeas dedicadas a las tecnologías lingüísticas.

LT-Innovate. (2013). Facts & Figures about Language Technology in Europe. LT-Innovate. The forum for Europe’s language technology industry. Consultado en http://www.lt-innovate.org/lt-observe/document/lt2013

LT_Companies_EU_location.jpg

Distribución geográfica de las empresas europeas dedicadas a las tecnologías lingüísticas.

LT-Innovate. (2013). Facts & Figures about Language Technology in Europe. LT-Innovate. The forum for Europe’s language technology industry. Consultado en http://www.lt-innovate.org/lt-observe/document/lt2013

La situación de las lenguas

Estado de las tecnologías lingüísticas en las lenguas de la Unión Europea.

Libros blancos publicados en 2012 en el marco del proyecto META-NET.

“El estudio, elaborado por más de 200 expertos y publicado en la serie de Libros Blancos META-NET (disponibles tanto en línea como en papel), evalúa el soporte tecnológico para cada idioma en cuatro áreas diferentes: la traducción automática, la interacción con la voz, el análisis textual y la disponibilidad de recursos lingüísticos. Según los expertos, un total de 21 de los 30 idiomas (o sea, el 70%) se sitúan en la categoría más baja, según la cual el soporte tecnológico es “débil o inexistente” al menos en una de las áreas. Varios idiomas, como el islandés, el letón, el lituano y el maltés, reciben la puntuación más baja en las cuatro áreas. En el otro extremo del espectro, y aunque no se considera que ninguna lengua goza de un soporte “excelente”, sólo el inglés recibe “un buen soporte”, seguido del español que, junto con el francés, el alemán, el neerlandés y el italiano cuentan con un “apoyo tecnológico moderado”. Por otro lado, el catalán y el euskera, junto a otras lenguas como el búlgaro, el griego, el húngaro y el polaco presentan una situación de soporte “fragmentario”, lo cual los sitúa también en el conjunto de lenguas de alto riesgo.”

21 idiomas europeos en peligro de extinción digital. META-NET White Paper series: Press release. META, A Network of Excellence forging the Mulltilingual Europe Technology Alliance. Consultado en http://www.meta-net.eu/whitepapers/press-release-es
METANET_Traduccion_automatica.jpg

Traducción automática.

META-NET White Paper series: Key results and cross-language comparison. META, A Network of Excellence forging the Multilingual Europe Technology Alliance. Consultado en http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison

METANET_Tecnologias_habla.jpg

Tecnologías del habla.

META-NET White Paper series: Key results and cross-language comparison. META, A Network of Excellence forging the Multilingual Europe Technology Alliance. Consultado en http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison

METANET_PLN.jpg

Análisis de textos (Procesamiento del lenguaje natural).

META-NET White Paper series: Key results and cross-language comparison. META, A Network of Excellence forging the Multilingual Europe Technology Alliance. Consultado en http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison

METANET_Recursos.jpg

Recursos lingüísticos (Corpus orales y textuales).

META-NET White Paper series: Key results and cross-language comparison. META, A Network of Excellence forging the Multilingual Europe Technology Alliance. Consultado en http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison

Las tecnologías lingüísticas en el contexto europeo

Principi

Las tecnologías lingüísticas en el contexto español

Asociaciones y redes

SEPLN

SEPLN, Sociedad Española para el Procesamiento del Lenguaje Natural

RTTH

RTTH, Red Temática en Tecnologías del Habla

Iniciativas gubernamentales

Plan de impulso a las tecnologías del lenguaje

Plan de Impulso de las Tecnologías del Lenguaje. (2015). Agenda Digital para España. Madrid: Ministerio de Energía, Turismo y Agenda Digital - Ministerio de Hacienda y Función Pública. Consultado en http://www.agendadigital.gob.es/tecnologias-lenguaje/Paginas/plan-impulso-tecnologias-lenguaje.aspx

“El Plan de Impulso de las Tecnologías del Lenguaje tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural y la traducción automática en lengua española y lenguas cooficiales.
Para ello, el Plan establece medidas encaminadas a aumentar el número, calidad y disponibilidad de las infraestructuras lingüísticas en español y lenguas cooficiales; impulsar la Industria del lenguaje fomentando la transferencia de conocimiento entre el sector investigador y la industria; e incorporar a la Administración como impulsor del sector de procesamiento de lenguaje natural y la traducción automática.”

Plan de Impulso de las Tecnologías del Lenguaje. (2015). Agenda Digital para España. Madrid: Ministerio de Energía, Turismo y Agenda Digital - Ministerio de Hacienda y Función Pública. Consultado en http://www.agendadigital.gob.es/tecnologias-lenguaje/Paginas/plan-impulso-tecnologias-lenguaje.aspx
“Eje I: Apoyo al desarrollo de infraestructuras lingüísticas
Este eje pretende facilitar el desarrollo de procesadores (reconocedores de entidades, desambiguadores, calculadores de proximidad semántica, etc.) y recursos lingüísticos (corpus paralelos, diccionarios, taxonomías, etc.) que sirvan de combustible para el desarrollo de la industria española de procesamiento de lenguaje natural y de traducción automática.

Eje II: Impulso de la Industria de las Tecnologías del Lenguaje
El segundo de los ejes responde al objetivo de apoyar la transferencia de conocimiento entre el sector investigador y la industria, así como la internacionalización de las empresas e instituciones que componen el sector.

Eje III: La Administración Pública como impulsor de la Industria del Lenguaje
Este eje se propone la creación de sendas plataformas comunes de procesamiento del lenguaje y de traducción automática para las Administraciones Públicas. Además, la política de reutilización de la información del sector público (RISP) representa un cauce para el desarrollo de estos recursos lingüísticos.

Eje IV: Proyectos faro de tecnologías de procesamiento de lenguaje natural.
El cuarto de los ejes se orienta al impulso de los proyectos faro, que son proyectos de aplicación de las tecnologías del lenguaje natural, emprendidos inicialmente por las Administraciones Públicas en sectores estratégicos (Sanidad, Turismo y Educación), y abiertos a la futura iniciativa público-privada, que pretenden servir de demostración de sus capacidades y beneficios, generar industria y crear recursos reutilizables en otros proyectos. También servirán de aprendizaje para futuros desarrollos.”

Plan de Impulso de las Tecnologías del Lenguaje. (2015). Agenda Digital para España. Madrid: Ministerio de Energía, Turismo y Agenda Digital - Ministerio de Hacienda y Función Pública. Consultado en http://www.agendadigital.gob.es/tecnologias-lenguaje/Paginas/plan-impulso-tecnologias-lenguaje.aspx

La situación de las tecnologías lingüísticas

Tecnologías lingüísticas en español

Grado de desarrollo de las tecnologías lingüísticas en español en una escala del 0 (muy bajo) al 6 (muy alto).

Melero, M., Badia, T. y Moreno, A. (2012). The Spanish language in the digital age / La lengua española en la era digital. Heidelberg: Springer. Consultado en http://www.meta-net.eu/whitepapers/volumes/spanish

Las tecnologías lingüísticas en el contexto español

Principi

Las tecnologías lingüísticas en el contexto catalán

Asociaciones y redes

ClusterLingua

Clusterlingua, Associació Catalana Clúster de les Indústries de la Llengua

La situación de las tecnologías lingüísticas

Tecnologías lingüísticas en catalán

Grado de desarrollo de las tecnologías lingüísticas en catalán en una escala del 0 (muy bajo) al 6 (muy alto).

Moreno, A., Bel, N., Revilla, E., García, E. y Vallverdú, S. (2012). The Catalan language in the digital age / La llengua catalana a l’era digital. Heidelberg: Springer. Consultado en http://www.meta-net.eu/whitepapers/volumes/catalan

“L’estiu de 2015 es va presentar l’Informe sobre el estado de las tecnologías del lenguaje en España dentro de la Agenda Digital para España (Bel i Rigau, 2015). . . . Quant a fortaleses, l’informe mostra que Catalunya disposa de capacitat tecnològica i experiència provada en les tecnologies del llenguatge. El servei gratuït de TA que la Generalitat de Catalunya va posar en marxa del 2006 al 2010, el sistema especialitzat en l’àmbit jurídic que dóna serveis als professionals de l’Administració de justícia i l’ús de TA en la publicació bilingüe de premsa (El Segre o El Periódico des dels anys noranta) mostren clarament que a Catalunya es va veure aviat el paper clau d’aquesta tecnologia. El clúster català d’indústries de la llengua, ClusterLingua, creat el 2011, mostra l’existència d’un sector econòmic i engloba empreses que desenvolupen eines per al tractament automàtic de la llengua. Les empreses del sector, unes vint d’identificades, són tecnològicament capdavanteres, algunes amb presència internacional, en particular en el reconeixement de la parla i la TA.
També són considerats capdavanters i de prestigi internacional els deu grups de recerca, repartits a totes les universitats catalanes, i amb projectes de col·laboració amb empreses, projectes de recerca i innovació subvencionats pel Programa marc de la Comissió de la Unió Europea o el Pla nacional d’investigació i desenvolupament propi de tecnologia. En particular destaca el processador FreeLing (Padró i Stanilovsky, 2012), programa de codi obert amb més de 250.000 descàrregues des del 2009.
En l’apartat d’amenaces, l’informe assenyala que el desenvolupament d’aplicacions per a una llengua està condicionat per les dimensions del segment de mercat que representa el nombre de parlants de la llengua en qüestió. Un mercat com l’europeu, tan fragmentat lingüísticament, no és atractiu comercialment, i no es produeixen aplicacions per a moltes de les seves llengües. La situació sociopolítica del català i les dimensions del seu mercat apunten a una progressiva extinció digital, com anunciava l’informe de META-NET: el risc és que aquestes aplicacions no arribin a tractar textos en català” (pp. 19-20).

Bel, N. y Marimon, M. (2016). Les indústries de la llengua i la tecnologia per al català. Llengua i ús: revista tècnica de política lingüística, 58, 17-26. Consultado en http://www.raco.cat/index.php/LlenguaUs/article/view/311744

Las tecnologías lingüísticas en el contexto catalán

Principi
La situación actual de las tecnologías lingüísticas
Joaquim Llisterri, Departament de Filologia Edivyola, Universitat Autònoma de Barcelona

Last updated: