Aplicaciones del procesamiento del lenguaje natural


La corrección automática de textos

La traducción automática

El tratamiento de la información


Verificación y corrección automáticas de textos

Gómez Guinovart, X. (2001). Recursos d’ajut a l’edició: ortografia, sintaxi i estil. En M. A. Martí (Ed.), Les tecnologies del llenguatge (pp. 15-26). Barcelona: Edicions de la UOC.

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.

Verificación y corrección ortográfica

Herramienta:

Verificador ortográfico.
Corrector ortográfico.
Spell checker.
Spelling checker.

“Los verificadores ortográficos son programas informáticos que sirven para revisar la ortografía de un texto. Estos programas suelen realizar dos tareas diferenciadas: por una parte, la identificación de las palabras del texto que suponen algún error de ortografía; por otra, la determinación de la forma correcta de la palabra o, cuando esto no es posible, sugieren la forma correcta” (p. 31).

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.
acudit_corrector_iPhone.jpg

Fuente: https://www.facebook.com/KakarottoyGoku/photos/a.171775466265099.34229.171552376287408/836259203150052/

Tipología de errores ortográficos

Errores de competencia

Relacionados con el desconocimiento de la norma ortográfica de la lengua.

Los errores de competencia pueden deberse a varios factores:

La irregularidad de las relaciones entre grafías y sonidos.

(esp.)
<b> y <v>
<g> y <j>
<h>

Las diferencias entre la norma ortográfica y la variante lingüística propia.

(esp.)
<s> y <z> en las variantes seseantes
<ll> y <y> en las variantes yeístas

La discrepancia entre la norma y el habla.

(esp.)
*élite
*périto

La interferencia de las normas ortográficas de otras lenguas.

(esp.)
*móbil (del catalán mòbil)

La baja frecuencia de aparición de una palabra.

Errores de actuación

Errores propios del proceso de escritura mediante el empleo de un teclado.

Responden a cuatro tipos básicos:

Elisión.

Ausencia de un carácter.

Inserción.

Adición de un carácter.

Sustitución.

Cambio de un carácter por otro.

Transposición.

Inversión en el orden de dos caracteres.
La distancia de edición

La tipología de errores de actuación permite el cálculo de la distancia de Levenshtein o distancia de edición, utilizada en la comparación de dos cadenas de caracteres.

Número mínimo de elisiones, inserciones y sustituciones (ediciones) necesarias para convertir una cadena en otra.

Distancia entre vendo y verde = 2
sustitución de <n> por <d>
sustitución de <o> por <e>

Distancia entre casa y calle = 3
sustitución de <s> por <l>
inserción de <l>
sustitución de <a> por <e>

Identificación de palabras con errores ortográficos

Comparación del texto con una lista de palabras almacenada en el programa.

La lista debe contener todas las formas flexionadas y derivadas de las palabras.

abalorio abalorio NCMS000
abalorios abalorio NCMP000
abanderada abanderado NCFS000
abanderadas abanderado NCFP000
abanderado abanderado NCMS000
abanderados abanderado NCMP000
abanderamiento abanderamiento NCMS000
abanderamientos abanderamiento NCMP000
abandonismo abandonismo NCMS000
abandonismos abandonismo NCMP000
abandonista abandonista NCCS000
abandonistas abandonista NCCP000
abandono abandono NCMS000
abandonos abandono NCMP000
abanicazo abanicazo NCMS000
abanicazos abanicazo NCMP000
abanico abanico NCMS000
abanicos abanico NCMP000

Muestra del diccionario de nombres de FreeLing usado por LanguageTool.

Padró, L. (s. f.). FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/index.php

Naber, D. (s. f.). LanguageTool. Consultado en https://languagetool.org/

abalance abalanzar VMM03S0
abalance abalanzar VMSP1S0
abalance abalanzar VMSP3S0
abalancemos abalanzar VMM01P0
abalancemos abalanzar VMSP1P0
abalancen abalanzar VMM03P0
abalancen abalanzar VMSP3P0
abalances abalanzar VMSP2S0
abalancé abalanzar VMIS1S0
abalancéis abalanzar VMSP2P0
abalanza abalanzar VMIP3S0
abalanza abalanzar VMM02S0
abalanzaba abalanzar VMII1S0
abalanzaba abalanzar VMII3S0
abalanzabais abalanzar VMII2P0
abalanzaban abalanzar VMII3P0
abalanzabas abalanzar VMII2S0
abalanzad abalanzar VMM02P0
abalanzada abalanzar VMP00SF
abalanzadas abalanzar VMP00PF
abalanzado abalanzar VMP00SM
abalanzados abalanzar VMP00PM
abalanzamos abalanzar VMIP1P0
abalanzamos abalanzar VMIS1P0
abalanzan abalanzar VMIP3P0
abalanzando abalanzar VMG0000
abalanzar abalanzar VMN0000
abalanzara abalanzar VMSI1S0
abalanzara abalanzar VMSI3S0
abalanzarais abalanzar VMSI2P0
abalanzaran abalanzar VMSI3P0
abalanzaras abalanzar VMSI2S0
abalanzare abalanzar VMSF1S0
abalanzare abalanzar VMSF3S0
abalanzareis abalanzar VMSF2P0
abalanzaremos abalanzar VMIF1P0
abalanzaren abalanzar VMSF3P0
abalanzares abalanzar VMSF2S0
abalanzaron abalanzar VMIS3P0
abalanzará abalanzar VMIF3S0
abalanzarán abalanzar VMIF3P0
abalanzarás abalanzar VMIF2S0
abalanzaré abalanzar VMIF1S0
abalanzaréis abalanzar VMIF2P0
abalanzaría abalanzar VMIC1S0
abalanzaría abalanzar VMIC3S0
abalanzaríais abalanzar VMIC2P0
abalanzaríamos abalanzar VMIC1P0
abalanzarían abalanzar VMIC3P0
abalanzarías abalanzar VMIC2S0
abalanzas abalanzar VMIP2S0
abalanzase abalanzar VMSI1S0
abalanzase abalanzar VMSI3S0
abalanzaseis abalanzar VMSI2P0
abalanzasen abalanzar VMSI3P0
abalanzases abalanzar VMSI2S0
abalanzaste abalanzar VMIS2S0
abalanzasteis abalanzar VMIS2P0
abalanzo abalanzar VMIP1S0
abalanzábamos abalanzar VMII1P0
abalanzáis abalanzar VMIP2P0
abalanzáramos abalanzar VMSI1P0
abalanzáremos abalanzar VMSF1P0
abalanzásemos abalanzar VMSI1P0
abalanzó abalanzar VMIS3S0

Muestra del diccionario de verbos de FreeLing usado por LanguageTool.

Padró, L. (s. f.). FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/index.php

Naber, D. (s. f.). LanguageTool. Consultado en https://languagetool.org/

Falsas alarmas: palabras correctas que aparecen en el texto y no están recogidas en el diccionario.

Errores no detectados debido a que coinciden con palabras existentes en el diccionario.

Posibilidad de crear un diccionario de usuario.

Corrección de los errores

Búsqueda en el diccionario de palabras que puedan corresponder con la forma correcta.

Se mantiene la primera letra de la palabra, puesto que se sabe que en la primera letra se cometen muy pocos errores.

Búsqueda teniendo en cuenta las posibilidades de elisión, inserción, sustitución y transposición, así como las combinaciones entre más de un tipo de error.

“Las sugerencias de corrección de *catra incluirían las palabras catara (omisión de a), cara (inserción de t) y carta (inversión de t y r). Esta técnica suele ampliarse con la incorporación de sugerencias para los errores que contienen más de uno de estos cuatro procesos (*aietra por abierta, con omisión y transposición) y para los que empiezan por una letra incorrecta (*sbierta)” (p. 33).

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.

Uso de bigramas y trigramas para evaluar la semejanza gráfica entre el error y las posibles alternativas correctas en función del número de bigramas o de trigramas compartidos.

“Así, *golzar (formado por los trigramas [#go, gol, olz, lza, zar, ar#], donde el símbolo # representa un carácter de inicio y final de palabra) tendría tres trigramas en común con golear ([#go, gol, ole, lea, ear, ar#]) y con gozar ([#go, goz, oza, zar, ar#]), pero sólo uno con glosar ([#gl, glo, los, osa, sar, ar#])” (p. 33).

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.

Posibilidad de emplear criterios basados en la semejanza fonética.

Se requiere un diccionario transcrito fonéticamente en el que efectuar las búsquedas y un programa de transcripción fonética automática para transcribir la palabra que aparece en el texto.

Verificación y corrección gramatical

Herramienta:

Verificador gramatical.
Corrector gramatical.
Grammar checker.

Tipología de errores gramaticales

Errores de competencia

Relacionados con el conocimiento de la norma gramatical.

Errores de actuación

Errores propios del proceso de escritura.

Omisión de una palabra

*Le informó que vendría

Adición de una palabra

*Dice de que viene

Sustitución de una palabra por otra

*Gana de diez por Gana por diez

Reconocimiento de patrones

Búsqueda en el texto de secuencias de palabras correspondientes a patrones de error previamente definidos.

El grado de abstracción de los patrones depende de las posibilidades de análisis lingüístico del texto, especialmente de la lematización y del análisis morfológico.

El buen funcionamiento del sistema depende de la definición previa de los patrones de error.

Los patrones de error pueden ampliarse con sugerencias de corrección.

<!-- PP_V_1 Concordancia (yo entregas)--> <rule id="PP_V_1" name="Concordancia 1-a persona"> <pattern> <token postag="PP1(.{2}N|CN0|MP0).*" postag_regexp="yes"> <exception postag="SP.*" postag_regexp="yes" scope="previous"></exception><exception postag="V.{3}1.*|C.*|SP.*" postag_regexp="yes"></exception> </token> <token postag="V.{3}[23].*" postag_regexp="yes"> <exception postag="V.{3}1.*|AQ.*" postag_regexp="yes"></exception> </token> </pattern> <message>Posible falta de concordancia de persona entre &#171;\1&#187; y &#171;\2&#187;.</message> <short>Concordancia de persona dudosa.</short> <example type="incorrect"><marker>Yo vienes</marker></example> <example type="correct">Yo vengo</example> </rule>

Regla para la corrección de los errores de concordancia de primera persona empleada en LanguageTool.

Miłkowski, M., Martorell, J., y Socop, A. (2012). Spanish grammar and typo rules for LanguageTool. En D. Naber, LanguageTool. Consultado en https://languagetool.org/

<!-- VERBO_DE_QUE Que&iacute;smo: Pienso de que -> Pienso que --> <rule id="VERBO_DE_QUE" name="verbo tipo pensar + de que"> <pattern> <token inflected="yes" regexp="yes">pensar|opinar|creer|comentar|expresar|decir|deducir|inferir|colegir|razonar|comunicar|confirmar|corroborar|desmentir|constar|resultar|aconsejar|ver|observar</token> <token>de</token> <token>que</token> </pattern> <message>Posible deque&iacute;smo: <suggestion>\1 \3</suggestion>.</message> <short>Posible deque&iacute;smo.</short> <example correction="Pienso que" type="incorrect"><marker>Pienso de que</marker> estamos mejorando mucho.</example> <example type="correct">Creemos <marker>que</marker> podemos mejorar m&aacute;s.</example> </rule>

Regla para la corrección de los errores de queísmo con verbos relacionados con “pensar” empleada en LanguageTool.

Miłkowski, M., Martorell, J., y Socop, A. (2012). Spanish grammar and typo rules for LanguageTool. En D. Naber, LanguageTool. Consultado en https://languagetool.org/

Análisis sintáctico

El uso de analizadores sintácticos permite verificar la gramática de un texto, aunque requiere una cierta adaptación.

“Las técnicas de verificación basadas en el análisis sintáctico consiguen ofrecer un análisis sintáctico de los enunciados gramaticalmente anómalos atenuando las reglas gramaticales que la expresión analizada no respeta. Por ejemplo, si se debilita la regla gramatical de concordancia entre determinante y nombre del analizador, el verificador podrá analizar el enunciado Este niña leía un cuento y señalar el error de concordancia” (p. 36).

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.

Verificación y corrección estilística

Herramienta:

Verificador estilístico.
Corrector estilístico.
Style checker.

“la propiedad estilística de un texto se basa en la afinidad de su estilo con la norma estilística del género al cual se adscribe, y la norma estilística de un género puede definirse a partir de las construcciones lingüísticas del género en cuestión” (p. 38).

Gómez Guinovart, X. (2003). Recursos de ayuda a la edición. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 30-40). Barcelona: Editorial UOC.

Modelos estilísticos

El usuario asigna el texto que desea revisar a una determinada variedad estilística elelegida entre las que están disponibles en el programa.

El verificador compara los rasgos lingüísticos del texto con los rasgos lingüísticos mediante lo que se ha definido un modelo estilístico.

En algunos casos el usuario puede modificar la definición de un modelo estilístico decidiendo si se aplican o no determinadas reglas.

Stylus_opciones.jpg

Opciones de revisión de Stilus en español.

s|ngular Meaning. (s. f.). Stilus - Corrector ortográfico, gramatical y de estilo multilingüe. Madrid: s|ngular Meaning. Consultado en http://www.mystilus.com/Main

Word_formal.jpg

Ajustes de estilo para el inglés en Microsoft Word.

Microsoft. (2014). Select grammar and writing style options. Office. Redmond, WA: Microsoft Corporation. Consultado en https://support.office.com/en-us/article/Check-spelling-and-grammar-in-Office-2010-and-later-5cdeced7-d81d-47de-9096-efd0ee909227

Word_casual.jpg

Ajustes de estilo para el inglés en Microsoft Word.

Microsoft. (2014). Select grammar and writing style options. Office. Redmond, WA: Microsoft Corporation. Consultado en https://support.office.com/en-us/article/Check-spelling-and-grammar-in-Office-2010-and-later-5cdeced7-d81d-47de-9096-efd0ee909227

Evaluación del nivel de legibilidad

El grado de dificultad para la comprensión de un texto (nivel de legibilidad) puede evaluarse a partir de un conjunto de características lingüísticas cuantificables:

El índice de legibilidad de Flesch

Flesch Reading Ease.

Fórmula para calcular el grado de legibilidad de un texto propuesta para el inglés por Rudolf Flesch.

IL = 206,835 - (0,846 x media de sílabas por palabra) - (1,105 x media de palabras por oración)

Los valores de la fórmula corresponden a los empleados para el cálculo del índice de legibilidad en inglés.

El valor del índice oscila entre 0 (mayor grado de dificultad) y 100 (menor grado de dificultad).

El índice de legibilidad de Flesch-Kincaid

Flesch-Kincaid Grade Level.

0,39 x (media de palabras por oración) + 11,8 (media de sílabas por palabra) - 15,59

Los valores de la fórmula corresponden a los empleados para el cálculo del índice de legibilidad en inglés.

El resultado corresponde a un determinado nivel del sistema escolar americano.

Word_readability.jpg

Estadísticas de legibilidad en un texto en inglés calculadas en Microsoft Word.

Select grammar and writing style options. (2014). Microsoft Office. Redmond, WA: Microsoft Corporation. Consultado en https://support.office.com/en-us/article/Check-spelling-and-grammar-in-Office-2010-and-later-5cdeced7-d81d-47de-9096-efd0ee909227

La corrección automática de textos

Herramientas de ayuda a la escritura

Principio

Traducción automática

TA, Traducción automática.
MT, Machine Translation.

Alonso, J. A. (2001). La traducció automàtica. En M. A. Martí (Ed.), Les tecnologies del llenguatge (pp. 86-119). Barcelona: Edicions de la Universitat Oberta de Catalunya.

Alonso, J. A. (2003). La traducción automática. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 94-129). Barcelona: Editorial UOC.

Alonso, J. A. (2007). Els sistemes de traducció automàtica. Llengua i ús. Revista tècnica de política lingüística, 38, 23-32. Consultado en http://www.raco.cat/index.php/LlenguaUs/article/view/128280

Problemas de la traducción automática

La información lingüística que contiene un enunciado se complementa con inferencias basadas en el conocimiento del mundo que poseen los hablantes.

Els pingüins poden nedar però no volen.
Els nens poden nedar però no volen.

Ayer estuve en un banco leyendo el periódico.
Ayer estuve en un banco para hablar con el director.
poder_Apertium.jpg

Apertium. Una plataforma lliure / de codi font obert per a la traducció automàtica. (s. f.). Consultado en https://www.apertium.org/

poder_Opentrad.jpg

Opentrad. (2010). Santiago de Compostela - Usurbil: Imaxin|software - Eleka Ingeniaritza Linguistikoa. Consultado en http://www.opentrad.com/

poder_Softcatala.jpg

Traductor català / valencià - castellà / espanyol, anglès, francès, portuguès. (2012). Barcelona: Softcatalà. Consultado en https://www.softcatala.org/traductor

Dificultad de “programar” el conocimiento sobre el mundo.

Traducción directa

Léxicos monolingües y bilingües de una extensión considerable.

Procesamiento morfosintáctico muy limitado.

Calidad muy limitada.

Traducción basada en la transferencia

Traducción basada en reglas.
RBMT, Rule-Based Machine Translation.

Técnica que incorpora conocimiento lingüístico formalizado mediante reglas.

Tres etapas en la traducción:

Segmentación en frases del texto de entrada en la lengua de origen.

Análisis lingüístico, recurriendo a herramientas de tratamiento morfológico y sintáctico que emplean las reglas de la gramática de análisis y los datos de un léxico monolingüe de la lengua de origen.

Tras el análisis se obtiene una representación de la que, en la fase de transferencia, se traduce cada palabra por medio de un léxico bilingüe, teniendo también en cuenta toda la información estructural acumulada en el análisis. Si es necesario, se realizan cambios estructurales.

En la fase de generación se convierten los resultados de la transferencia en oraciones gramaticalmente aceptables en la lengua de destino mediante varias operaciones:

TA

Principales módulos lingüísticos de un sistema de traducción automática basado en la transferencia

Adaptado de Alonso, J. A. (2001). La traducció automàtica. En M. A. Martí (Ed.), Les tecnologies del llenguatge (pp. 86-119). Barcelona: Edicions de la Universitat Oberta de Catalunya.
Alonso, J. A. (2003). La traducción automática. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 94-129). Barcelona: Editorial UOC.

Traducción basada en la interlengua

Se traduce a partir de una representación abstracta del significado en forma de red semántica, extraída durante la fase de análisis, y que se utiliza como base para la generación: interlengua (o interlingua).

En la fase de generación los conceptos representados en la interlengua se expresan mediante el léxico y la estructura sintáctica de la lengua de llegada.

La principal dificultad estriba en la representación exhaustiva de los conceptos en términos de rasgos semánticos y de las relaciones que pueden establecerse entre los mismos.

Un traductor automático basado en la interlengua puede proporcionar buenos resultados con textos de un ámbito muy restringido, pero presenta problemas importantes tanto en el diseño como en la puesta en práctica.

Traducción basada en corpus

CBMT, Corpus-Based Machine Translation.
Data-Driven Machine Translation.

Basada en el uso de corpus paralelos bilingües alineados que se emplean para obtener el conocimiento necesario para la traducción.

Rosetta.jpg

La piedra de Rosetta

Budge, E. A. W. (1922). The Rosetta stone. London: The British Museum. Consultado en http://ia801407.us.archive.org/11/items/rosettastone00budgrich/rosettastone00budgrich.pdf

Resumption of the session Reanudación del período de sesiones
I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999, and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant festive period. Declaro reanudado el período de sesiones del Parlamento Europeo, interrumpido el viernes 17 de diciembre pasado, y reitero a Sus Señorías mi deseo de que hayan tenido unas buenas vacaciones.
Although, as you will have seen, the dreaded ‘millennium bug’ failed to materialise, still the people in a number of countries suffered a series of natural disasters that truly were dreadful. Como todos han podido comprobar, el gran “efecto del año 2000” no se ha producido. En cambio, los ciudadanos de varios de nuestros países han sido víctimas de catástrofes naturales verdaderamente terribles.
You have requested a debate on this subject in the course of the next few days, during this part-session. Sus Señorías han solicitado un debate sobre el tema para los próximos días, en el curso de este período de sesiones.
In the meantime, I should like to observe a minute' s silence, as a number of Members have requested, on behalf of all the victims concerned, particularly those of the terrible storms, in the various countries of the European Union. A la espera de que se produzca, de acuerdo con muchos colegas que me lo han pedido, pido que hagamos un minuto de silencio en memoria de todas las víctimas de las tormentas, en los distintos países de la Unión Europea afectados.
Please rise, then, for this minute' s silence. Invito a todos a que nos pongamos de pie para guardar un minuto de silencio.
(The House rose and observed a minute' s silence) (El Parlamento, de pie, guarda un minuto de silencio)
Madam President, on a point of order. Señora Presidenta, una cuestión de procedimiento.
You will be aware from the press and television that there have been a number of bomb explosions and killings in Sri Lanka. Sabrá usted por la prensa y la televisión que se han producido una serie de explosiones y asesinatos en Sri Lanka.
One of the people assassinated very recently in Sri Lanka was Mr Kumar Ponnambalam, who had visited the European Parliament just a few months ago. Una de las personas que recientemente han asesinado en Sri Lanka ha sido al Sr. Kumar Ponnambalam, quien hace pocos meses visitó el Parlamento Europeo.
Would it be appropriate for you, Madam President, to write a letter to the Sri Lankan President expressing Parliament's regret at his and the other violent deaths in Sri Lanka and urging her to do everything she possibly can to seek a peaceful reconciliation to a very difficult situation? ¿Sería apropiado que usted, Señora Presidenta, escribiese una carta al Presidente de Sri Lanka expresando las condolencias del Parlamento por esa y otras muertes violentas, pidiéndole que haga todo lo posible para encontrar una reconciliación pacífica ante la extremadamente difícil situación que está viviendo su país?
Yes, Mr Evans, I feel an initiative of the type you have just suggested would be entirely appropriate. Sí, señor Evans, pienso que una iniciativa como la que usted acaba de sugerir sería muy adecuada.
If the House agrees, I shall do as Mr Evans has suggested. Si la Asamblea está de acuerdo, haré lo que el señor Evans acaba de sugerir.

Koehn, P. (2012). Europarl Parallel Corpus v7. Statistical Machine Translation. Consultado en http://www.statmt.org/europarl/

“In 1988, at the Second TMI conference at Carnegie Mellon University, IBM’s Peter Brown shocked the audience by presenting an approach to Machine Translation (MT) which was quite unlike anything that most of the audience had ever seen or even dreamed of before (Brown et al. 1988). IBM’s “purely statistical” approach, inspired by successes in speech processing, and characterized by the infamous statement “Every time I fire a linguist, my system’s performance improves” flew in the face of all the received wisdom about how to do MT at that time, eschewing the rationalist linguistic approach in favour of an empirical corpus-based one. There followed something of a flood of “new” approaches to MT, few as overtly statistical as the IBM approach, but all having in common the use of a corpus of translation examples rather than linguistic rules as a significant component” (p. 113).

Somers, H. (1999). Review article: Example-based Machine Translation. Machine Translation, 14(2), 113-157. doi:10.1023/A:1008109312730

Traducción basada en ejemplos

EBMT, Example-Based Machine Translation.
Traducción por analogía.
Translation by analogy.

Parte de un corpus bilingüe paralelo en el que se busca una frase idéntica a la de la lengua de partida y la correspondiente traducción.

Si no se encuentra una frase idéntica, se buscan ejemplos semejantes en el corpus recurriendo a unidades menores que la frase.

Puede incorporarse conocimiento lingüístico (en forma de reglas) para efectuar sustituciones, modificaciones o adaptaciones para generar la traducción.

La traducción se basa en la equivalencia entre un segmento de la lengua de partida y otro de la lengua de llegada.

Traducción basada en métodos estadísticos

SMT, Statistical Machine Translation.

Entrenamiento del sistema mediante:

Modelo de traducción: conjunto de todas las posibles traducciones de una palabra o de un grupo de palabras con una probabilidad asociada.

Modelo de lenguaje: corpus con probabilidades de aparición conjunta de secuencias de palabras.

Traducción: cálculo de la probabilidad de que un grupo de palabras en la lengua de origen tenga como traducción un grupo de palabras de la lengua de destino.

TA_estadistica_Koehn_2007.jpg

Traducción basada en métodos estadísticos.

Koehn, P. (2007). Statistical machine translation. En MT Summit XI. Copenhagen, Denmark. 10 September, 2007. Consultado en http://www.mt-archive.info/MTS-2007-Koehn-3.pdf

“The decoding process essentially treats translation as a search problem: given the sentence to be translated, search over all possible translations permitted by the translation model, and all possible reorderings thereof, for the one which is assigned the highest overall probability according to the translation and language models. . . . rather than focusing on the best process to use to generate a single optimal translation for a source sentence, SMT focuses on generating many thousands of hypothetical translations for the input string, and then working out which one of those is most likely” (pp. 205-206).

Hearne, M. y Way, A. (2011). Statistical Machine Translation: A guide for linguists and translators. Language and Linguistics Compass, 5(5), 205-226. doi:10.1111/j.1749-818X.2011.00274.x

Google. (27 de agosto de 2010). Inside Google Translate. Consultado en https://www.youtube.com/watch?v=Rq1dow1vTHY

La calidad de los resultados depende de varios factores:

Koehn, P. (s. f.). Statistical Machine Translation. Consultado en http://www.statmt.org/

Forcada, M. L. (2014). Traducción automática. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=2

La traducción automática

Sistemas de traducción automática

Principio

Tratamiento de la información

Gonzalo, J. y Verdejo, M. F. (2001). Recuperació i extracció d’informació. En M. A. Martí (Ed.), Les tecnologies del llenguatge (pp. 151-187). Barcelona: Edicions de la Universitat Oberta de Catalunya.

Gonzalo, J. y Verdejo, M. F. (2003). Recuperación y extracción de información. En M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 157-192). Barcelona: Editorial UOC.

Recuperación de la información

RI, Recuperación de información.
IR, Information Retrieval.

Selección en un conjunto de documentos de aquellos que contienen la información que un usuario ha buscado mediante una consulta.

“Los sistemas de recuperación de información (RI) realizan las tareas de seleccionar y recuperar aquellos documentos que son relevantes a necesidades de información arbitrarias formuladas por los usuarios. Como resultado, estos sistemas devuelven una lista de documentos que suele presentarse ordenada en función de valores que intentan reflejar en qué medida cada documento contiene información que responde a las necesidades expresadas por el usuario.
Los sistemas de RI más conocidos son aquellos que permiten –con mayor o menor éxito– localizar información a través de Internet” (p. 2).

Vicedo, J. L. (2003). Recuperación de información de alta precisión: los sistemas de búsqueda de respuesta. Sociedad Española para el Procesamiento del Lenguaje Natural.
retrieval_Uszkoreit.jpg

Uszkoreit, H. (s. f.). Language Technology. A first overview. Department of Computational Linguistics and Phonetics, Saarland University at Saarbrücken. Consultado en http://www.dfki.de/~hansu/LT.pdf

Recuperación de información multilingüe

RIM, Recuperación de información multilingüe.
CLIR, Cross-Language Information Retrieval.

Se pretende que el usuario llegue a encontrar los documentos que sean relevantes con independencia de la lengua en la que estén escritos y de la lengua en la que haya realizado su consulta.

Extracción de información

EI, Extracción de información.
IE, Information Extraction.

La finalidad de la búsqueda es encontrar unos datos determinados en el contenido de un conjunto de documentos y ofrecérselos al usuario de la forma más organizada posible.

“Los sistemas de extracción de información (EI) realizan la tarea de buscar información muy concreta en colecciones o flujos de documentos. Su finalidad consiste en detectar, extraer y presentar la información en un formato que sea susceptible de ser tratado posteriormente de forma automática.
Estos sistemas se diseñan y construyen de forma específica para la realización de una tarea determinada, en consecuencia, dispondremos de un sistema diferente en función del tipo de información a extraer en cada caso” (p. 3).

Vicedo, J. L. (2003). Recuperación de información de alta precisión: los sistemas de búsqueda de respuesta. Sociedad Española para el Procesamiento del Lenguaje Natural.
extraction_Uszkoreit.jpg

Uszkoreit, H. (s. f.). Language Technology. A first overview. Department of Computational Linguistics and Phonetics, Saarland University at Saarbrücken. Consultado en http://www.dfki.de/~hansu/LT.pdf

Búsqueda de respuestas

BR, Búsqueda de respuestas.
QA, Question Answering.

Se intenta buscar en un conjunto de documentos la respuesta a una consulta precisa realizada por el usuario.

“Se puede definir la BR como aquella tarea automática realizada con ordenadores que tiene como finalidad la de encontrar respuestas concretas a necesidades precisas de información formuladas por los usuarios. Los sistemas de BR son especialmente útiles en situaciones en las que el usuario final necesita conocer un dato muy específico y no dispone de tiempo –o no necesita– leer toda la documentación referente al tema de la búsqueda para solucionar un problema” (p. 4).

Vicedo, J. L. (2003). Recuperación de información de alta precisión: los sistemas de búsqueda de respuesta. Sociedad Española para el Procesamiento del Lenguaje Natural.

García, M. Á. (2014). Búsqueda de respuestas. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=6&lesson=44

Resumen automático de textos

Resumen de textos.
Text summarisation.

Resumen automático del contenido de un texto.

summarization_Uszkoreit.jpg

Uszkoreit, H. (s. f.). Language Technology. A first overview. Department of Computational Linguistics and Phonetics, Saarland University at Saarbrücken. Consultado en http://www.dfki.de/~hansu/LT.pdf

Lloret, E. (2014). Generación de resúmenes. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=2&lesson=25

Plaza, L. (2014). Generación de resúmenes (2). En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=6&lesson=45

Tratamiento de la información de carácter subjetivo

Minería de opiniones.
Opinion Mining.

Análisis del sentimiento.
Sentiment analysis.

Sentiment analysis, also called opinion mining, is the field of study that analyzes people’s opinions, sentiments, evaluations, appraisals, attitudes, and emotions towards entities such as products, services, organizations, individuals, issues, events, topics, and their attributes. It represents a large problem space. There are also many names and slightly different tasks, e.g., sentiment analysis, opinion mining, opinion extraction, sentiment mining, subjectivity analysis, affect analysis, emotion analysis, review mining, etc. However, they are now all under the umbrella of sentiment analysis or opinion mining. While in industry, the term sentiment analysis is more commonly used, in academia both sentiment analysis and opinion mining are frequently employed. Regardless, they basically represent the same field of study” (p. 1).

“Finally, we must not forget sentiment analysis is a NLP problem. It touches every aspect of NLP, e.g., coreference resolution, negation handling, and word sense disambiguation, which add more difficulties since these are not solved problems in NLP. However, it is also useful to realize that sentiment analysis is a highly restricted NLP problem because the system does not need to fully understand the semantics of each sentence or document but only needs to understand some aspects of it, i.e., positive or negative sentiments and their target entities or topics. In this sense, sentiment analysis offers a great platform for NLP researchers to make tangible progresses on all fronts of NLP with the potential of making a huge practical impact” (p. 6).

Liu, B. (2012). Sentiment analysis and opinion mining. San Rafael, CA: Morgan & Claypool.

MeaningCloud. (2016). Demo de Analítica de Textos. New York, NY: MeaningCloud. Consultado en https://www.meaningcloud.com/es/demo

Troyano, J. A. (2014). Introducción al análisis de opinión. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=9&lesson=53

Taboada, M. (2014). Generación de recursos para el análisis de opinión. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=9&lesson=52

Datos masivos, datos abiertos y datos enlazados

Datos masivos

Big data.
Dades massives.

“Dar un significado teórico a Big Data es complejo porqué más allá de lo que propiamente es, se debe a diferentes contextos actuales que permiten su aparición y tiene de trasfondo un cambio de mentalidad en el conocimiento. Empecemos por una definición simple: “Big Data es en el sector de las TIC una referencia a los sistemas que manipulan grandes conjuntos de datos” (Wikipedia). Esta frase tan llana lleva asociadas muchas ideas que hay que apuntar. Las primeras son las famosas tres Vs, usadas para definir las características clave de Big Data: Volumen, Velocidad y Variedad. A las cuales ya han incluido otras como valor, veracidad, variabilidad, visualización o viralidad –aunque estas últimas se deben matizar y las dejaremos de lado–. Por volumen debemos entender tanto la cantidad de datos que se producen, como la posibilidad de guardarlos y aumentarlos. La velocidad hace referencia a todo el proceso, rapidez en el registro, captación, análisis de los datos, visualización y toma de decisiones. Es importante entender que el objetivo final es, normalmente, la toma de decisiones. Así que es importante llegar al punto final. Y la variedad, la cual nos indica que no se trabaja en una base de datos cuadriculada y ejemplar. Sino que pueden existir documentos diversos, información que deba ser digitalizada, datos de geolocalización, archivos de voz e imágenes... No hay límite. Debemos ser conscientes que existe software capaz de digitalizar fácilmente textos escritos y programas de reconocimiento facial o de voz que pueden llegar a analizar actitudes o transcribir un dialogo. Ya hay empresas que se dedican a extraer sentimientos o conductas de los usuarios en las redes sociales. Eso sí, aún con márgenes de acierto relativos (50% - 70%).”

Calabuig, O. (2014). ¿Qué es Big Data? Las entrañas de los datos. Portal de la Comunicación InCom-UAB. Cerdanyola del Vallès: Institut de la Comunicació (InCom-UAB). Consultado en http://portalcomunicacion.com/monograficos_det.asp?id=261
4_Vs_of_big_data_IBM.jpg

The FOUR V’s of Big Data. (s. f.). Big Data and Analytics - Overview. Armonk, NY: International Business Machines Corp. Consultado en http://www.ibm.com/software/data/bigdata/

¿Por qué es importante big data? (2012). EMC Big Ideas. Hopkinton MA: EMC Education Services, EMC Corporation. Consultado en https://www.youtube.com/watch?v=d9NJt4DBb-I

Datos abiertos

Open data.
Dades obertes.

Open data is data that can be freely used, re-used and redistributed by anyone - subject only, at most, to the requirement to attribute and sharealike.
The full Open Definition gives precise details as to what this means. To summarize the most important:
Availability and Access: the data must be available as a whole and at no more than a reasonable reproduction cost, preferably by downloading over the internet. The data must also be available in a convenient and modifiable form.
Re-use and Redistribution: the data must be provided under terms that permit re-use and redistribution including the intermixing with other datasets.
Universal Participation: everyone must be able to use, re-use and redistribute - there should be no discrimination against fields of endeavour or against persons or groups. For example, ‘non-commercial’ restrictions that would prevent ‘commercial’ use, or restrictions of use for certain purposes (e.g. only in education), are not allowed.”

Dietrich, D., Gray, J., McNamara, T., Poikola, A., Pollock, R., Tait, J., y Zijlstra, T. (s. f.). What is Open Data? En Open Data Handbook. Open Knowledge. Consultado en http://opendatahandbook.org/guide/en/what-is-open-data/

Datos enlazados

Linked data.
Dades enllaçades.

“Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web. La Web Semántica no se trata únicamente de la publicación de datos en la Web, sino que éstos se pueden vincular a otros, de forma que las personas y las máquinas puedan explorar la web de los datos, pudiendo llegar a información relacionada que se hace referencia desde otros datos iniciales. De la misma forma que la web de la web del hipertexto, la web de los datos se construye mediante documentos en la web. Sin embargo, y a diferencia de la web del hipertexto, donde los enlaces son relaciones entre puntos de los documentos escritos en HTML, los datos enlazan cosas arbitrarias que se describen en RDF.
Linked Data permite construir la Web de los datos, una gran base de datos interconectados y distribuidos en la Web. Los datos se vinculan y se exploran de una forma similar a la utilizada para vincular los documentos HTML.”

Linked data

Este grafo representa a distintos conjuntos de datos de diversos tipos, organizados mediante colores por dominios. Estos conjuntos de datos están conectados entre sí de forma que componen la “Nube de Linked Data” o “Nube de Datos Enlazados”.

W3C España. (s. f.). Guía breve de Linked Data. Guías breves de tecnologías W3C. Gijón: Oficina española del World Wide Web Consortium (W3C). Consultado en http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData

W3C España. (s. f.). Guía breve de Linked Data. Guías breves de tecnologías W3C. Gijón: Oficina española del World Wide Web Consortium (W3C). Consultado en http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData

W3C España. (s. f.). Guía breve de Web Semántica. Guías breves de tecnologías W3C. Gijón: Oficina española del World Wide Web Consortium (W3C). Consultado en http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica

El tratamiento de la información

Principio
Aplicaciones del procesamiento del lenguaje natural
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: