El tratamiento computacional de los niveles de análisis lingüístico


Procesamiento del lenguaje natural: trabajos generales

Procesamiento del lenguaje natural: manuales


El proceso de análisis del texto

proceso_analisis.jpg

Análisis del texto en el procesamiento del lenguaje natural.

Martí, M. A. (2003). Introducción. In M. A. Martí (Ed.), Tecnologías del lenguaje (pp. 9-29). Barcelona: Editorial UOC.

Principio

Nivel morfológico

Lematización

Herramienta:

Lematizador.
Lemmatiser.

Segmentación de una palabra para separar la raíz (lexema) de los morfemas de flexión.

“Lema: forma de citación de una palabra (p. ej., el lema de leíamos es leer).

Lematización: asignación, en forma de etiqueta, de lema (o forma canónica) a una palabra tal y como la encontramos en el discurso textual” (p. 285).

Martí, M. A. (Ed.). (2003). Tecnologías del lenguaje. Barcelona: Editorial UOC.

Permite relacionar con un mismo lema todas las formas flexionadas de una palabra.

rematar_Molino_1.jpg
rematar_Molino_4.jpg
rematar_Molino_2.jpg
rematar_Molino_3.jpg

Molino de Ideas. (2012). Lematizador. MolinoLabs. Madrid: Molino de Ideas. Consultado en http://www.molinolabs.com/lematizador.html

La lematización aporta una mayor flexibilidad en las búsquedas en textos.

Corpes_forma.jpg

Búsqueda de la forma “sermonear” en el CORPES XXI.

Real Academia Español. (2013). CORPES XXI. Corpus del Español del Siglo XXI. Madrid: Real Academia Española. Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi

Corpes_lema.jpg

Búsqueda del lema “sermonear” en el CORPES XXI.

Real Academia Español. (2013). CORPES XXI. Corpus del Español del Siglo XXI. Madrid: Real Academia Española. Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi

Stemming

Herramienta:

Stemmer.

En el proceso conocido como stemming se busca la raíz (stem) de la palabra para utilizarla en aplicaciones relacionadas con la extracción de información.

Stemming: proceso por el que se truncan las palabras de los documentos antes de indexarlos, con el objetivo de identificar palabras con la misma raíz” (p. 286).

Martí, M. A. (Ed.). (2003). Tecnologías del lenguaje. Barcelona: Editorial UOC.
“For IR purposes, it doesn’t usually matter whether the stems generated are genuine words or not –thus, “computation” might be stemmed to “comput”– provided that (a) different words with the same ’‘base meaning’’ are conflated to the same form, and (b) words with distinct meanings are kept separate. An algorithm which attempts to convert a word to its linguistically correct root (“compute” in this case) is sometimes called a lemmatiser.”

Hooper, R. y Paice, C. (2005). What is stemming? The Lancaster stemming algorithm. Lancaster: School of Computing and Communications, Lancaster University.
Stemming usually refers to a crude heuristic process that chops off the ends of words in the hope of achieving this goal correctly most of the time, and often includes the removal of derivational affixes. Lemmatization usually refers to doing things properly with the use of a vocabulary and morphological analysis of words, normally aiming to remove inflectional endings only and to return the base or dictionary form of a word, which is known as the lemma. If confronted with the token saw, stemming might return just s, whereas lemmatization would attempt to return either see or saw depending on whether the use of the token was as a verb or a noun. The two may also differ in that stemming most commonly collapses derivationally related words, whereas lemmatization commonly only collapses the different inflectional forms of a lemma.”

Manning, C. D., Raghavan, P. y Schütze, H. (2008). Stemming and lemmatization. Introduction to information retrieval. Cambridge: Cambridge University Press. Consultado en http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Snowball_angles.jpg

Snowball. (s.f.). Snowball - Demo. Snowball. Consultado en http://snowballstem.org/demo.html

Snowball. (s.f.). Spanish stemming algorithm. Snowball . Consultado en http://snowballstem.org/algorithms/spanish/stemmer.html

Olalla, I. (2010). A Catalan stemming algorithm. Snowball. Consultado en http://snowball.tartarus.org/algorithms/catalan/stemmer.html

Demostración de varios sistemas de stemming:

Perkins, J. (s. f.). Stemming and lemmatization with Python NLTK - Demo. Python NLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado en http://text-processing.com/demo/stem/

Análisis morfológico

Herramienta:

Analizador morfológico.
Etiquetador morfológico.
POS (part of speech) tagger.
Tagger.

Segmentación automática de la palabra en sus componentes morfológicos: análisis.

Asignación automática de la categoría léxica (parte de la oración) de una palabra en función del contexto en el que aparece: etiquetado.

Información sobre las categorías gramaticales expresadas por los morfemas gramaticales presentes en la palabra: etiquetado.

“Análisis morfológico: proceso que da como resultado las posibles interpretaciones morfológicas de una palabra.

Etiquetador (morfosintáctico): programa informático, en el ámbito de la lingüística de corpus, que permite la asignación automática de una etiqueta (tag en inglés) de su categoría gramatical a cada palabra” (pp. 282-3).

Martí, M. A. (Ed.). (2003). Tecnologías del lenguaje. Barcelona: Editorial UOC.
“Se trata de un recurso prácticamente resuelto desde un punto de vista tanto técnico como teórico. Estos analizadores, desarrollados en general en entornos universitarios, cubren prácticamente la totalidad de fenómenos lingüísticos y obtienen resultados muy buenos tanto en eficiencia –pueden llegar a analizar 60 000 palabras por segundo– como en cobertura y precisión, que se sitúa entorno al 98 % de acierto.”

Martí, M. A. y Taulé, M. (2011). La Academia y la investigación universitaria en las tecnologías de la lengua. En S. Senz y M. Alberte (Eds.), El dardo en la Academia. Esencia y vigencia de las academias de la lengua española (Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado en https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

Operaciones necesarias para el análisis morfológico:

“el programa debe ser capaz de efectuar tres acciones, relativamente independientes:
– determinar qué categoría (o cuáles categorías) puede tener cada palabra,
– decidir cuál de estas categorías en la adecuada en el contexto en que aparece cada palabra, y
– asignar a cada palabra analizada la información morfológica que le corresponde.”

“Estas tres acciones en que subdividimos el proceso de análisis morfológico se pueden realizar gracias a tres operaciones básicas (dos, si omitimos la tercera):
– búsqueda en el léxico,
– desambiguación, e
– incorporación de la información morfológica” (pp. 223-4).

Badia, T. (2003). Técnicas de procesamiento del lenguaje. En M. A. Martí (Ed.), Tecnologías del lenguaje. Barcelona: Editorial UOC.

Búsqueda en el léxico

Se realiza sobre un diccionario con todas las formas expandidas de las palabras (diccionario de formas desplegadas) y con la información correspondiente a la categoría léxica (parte de la oración).

bajo_Grampal.jpg

Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html

Herramientas para la generación automática de las formas flexionadas correspondientes a un lema.

Analizadores y generadores morfológicos en línea

Proceso de desambiguación

Decisión sobre la categoría léxica (parte de la oración) de la palabra en función de su contexto de aparición.

Cada noche que bajo1 a la calle, el músico bajo2 toca el bajo3 bajo4 la luna.
bajo1: verbo
bajo1: adjetivo
bajo2: nombre
bajo3: preposición
bajo_IULA.jpg

JQ-MS: adjetivo calificativo - masculino singular.
P: preposición.

IULA. (s.d.). Demostració de les eines d’anàlisi del CT sobre text lliure. Recursos - Corpus i eines. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra. Consultado en http://eines.iula.upf.edu/cgi-bin/hectorwww/hectormain.pl

bajo_frase_Grampal.jpg

Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html

Información morfológica

Requiere la definición de etiquetas (tags) consistentes en categorías o en rasgos que permitan describir los fenómenos morfológicos propios de cada lengua.

El conjunto de etiquetas (tag set) empleado se conoce como “etiquetario”.

etiquetario_Grampal_1.jpg
etiquetario_Grampal_2.jpg

Etiquetario empleado en Grampal.

Moreno, A. y Guirao, J. M. (s.d.). Etiquetario. Grampal. Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://cartago.lllf.uam.es/grampal/grampal.cgi?m=etiquetario

Padró, L. (2016). Etiquetas EAGLES para el español. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en https://talp-upc.gitbooks.io/freeling-user-manual/content/tagsets/tagset-es.html

Padró, L. (2016). Etiquetes EAGLES per al català. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en https://talp-upc.gitbooks.io/freeling-user-manual/content/tagsets/tagset-ca.html

Métodos estadísticos

“The rule-based methods used for the POS tagging problem began to be replaced by stochastic models in the early 1990s. The major drawback of the oldest rule-based systems was the need to manually compile the rules, a process that requires linguistic background. Moreover, these systems are not robust in the sense that they must be partially or completely redesigned when a change in the domain or in the language occurs. Later on a new paradigm, statistical natural language processing, has emerged and offered solutions to these problems. As the field became more mature, researchers began to abandon the classical strategies and developed new statistical models.
Several people today argue that statistical POS tagging is superior to rule-based POS tagging. The main factor that enables us to use statistical methods is the availability of a rich repertoire of data sources: lexicons (may include frequency data and other statistical data), large corpora (preferably annotated), bilingual parallel corpora, and so on. By using such resources, we can learn the usage patterns of the tag sequences and make use of this information to tag new sentences.” (p. 240).

Güngör, T. (2010). Part-of-speech tagging. En N. Indurkhya y F. J. Damerau (Eds.), Handbook of natural language processing (2nd ed., pp. 205-235). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.

Los sistemas de análisis y etiquetado morfológico basados en técnicas estadísticas requieren un corpus de entrenamiento previamente etiquetado.

Las etiquetas en un texto nuevo se asignan en función de las probabilidades de aparición en un determinado contexto, partiendo de la información extraída del corpus de entrenamiento.

bajo_Freeling.jpg

SPS00: preposición simple.
AQ0MS0: adjetivo calificativo masculino singular.
NCMS000: nombre común masculino singular.
VMIP1S0: verbo principal indicativo presente primera persona singular.

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo. Python NLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado en http://text-processing.com/demo/tag/

Analizadores y generadores morfológicos en línea

Principio

Nivel sintáctico

Tokenización

Herramienta:

Tokenizador.
Tokeniser.

Dos conceptos básicos:

Las niñas salen ahora y los niños saldrán mañana.

6 tipos: l- (las, los), niñ- (niñas, niños), sal- (salen, saldrán), ahora, mañana, y.
9 tokens: las, los, niñas, niños, salen, saldrán, ahora, mañana, y.

La tokenización es un proceso de segmentación previo al análisis sintáctico.

Incluye el tratamiento de todos los elementos de un texto: signos de puntuación, expresiones numéricas, símbolos, etc.

Tokenization
The process of segmenting running text into words and sentences.
Electronic text is a linear sequence of symbols (characters or words or phrases). Naturally, before any real text processing is to be done, text needs to be segmented into linguistic units such as words, punctuation, numbers, alpha-numerics, etc. This process is called tokenization.
In English, words are often separated from each other by blanks (white space), but not all white space is equal. Both “Los Angeles” and “rock ’n’ roll” are individual thoughts despite the fact that they contain multiple words and spaces. We may also need to separate single words like “I’m” into separate words “I” and “am”.
Tokenization is a kind of pre-processing in a sense; an identification of basic units to be processed.

Trim, C. (23 de enero de 2013). The art of tokenization. Language Processing. Consultado en https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
Tokenization_Xerox_fr_1.jpg

Tokenization_Xerox_fr_2.jpg

Xerox. (2014). Tokenization. Linguistic tools, Open Xerox. Xerox Corporation. Consultado en https://open.xerox.com/Services/fst-nlp-tools/Consume/Tokenization-175

Perkins, J. (s. f.). Word tokenization with Python NLTK - Demo. Python NLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado en http://text-processing.com/demo/tokenize/

Segmentación en frases

Splitting.

Herramienta:

Segmentador de frases
Splitter.

División de un texto en frases.

Problemas planteados por los signos de puntuación que no constituyen una frontera de frase.

splitter_Lager.jpg

Lager, T. (s.d.). Simple Sentence Splitter. Department of Philosophy, Linguistics and Theory of Science, University of Gothenburg : Göteborg. Consultado en http://www.ling.gu.se/~/lager/mogul/sentence-splitter/index.html

Análisis sintáctico

Herramienta:

Analizador sintáctico.
Syntactic parser.
Parser.

“Análisis sintáctico: análisis que intenta determinar la validez de una expresión (normalmente respecto a una gramática) y de obtener su estructura sintáctica
Proceso que da como resultado un árbol sintáctico, el cual representa la estructura de constituyentes de una frase

Parser: analizador sintáctico” (pp. 282, 285).

Martí, M. A. (Ed.). (2003). Tecnologías del lenguaje. Barcelona: Editorial UOC.
“El desarrollo de los analizadores sintácticos tiene como objetivo establecer las relaciones estructurales y de dependencia entre las palabras dentro de la frase. El análisis consiste básicamente en la identificación de sintagmas o constituyentes y en la anotación de los mismos con sus funciones correspondientes. Se trata de un recurso que, aunque obtiene resultados con un nivel de acierto respetable, todavía no se considera resuelto.”

Martí, M. A. y Taulé, M. (2011). La Academia y la investigación universitaria en las tecnologías de la lengua. En S. Senz y M. Alberte (Eds.), El dardo en la Academia. Esencia y vigencia de las academias de la lengua española (Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado en https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

El análisis sintáctico automático clásico se basa en gramáticas derivadas de las gramáticas libres de contexto (CFG, context free grammars) o gramáticas de estructura de frase (phrase-structure grammars).

O → SN SV
SN → (Det) N Adj
SV → V SN
Det → el
N → gato | salmón
Adj → negro | ahumado
V → come
gato_Freeling.jpg

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

gato_Stilus.jpg

s|ngular Meaning. (s.d.). Analizador morfosintáctico. Stilus. Madrid: s|ngular Meaning. Consultado en http://www.mystilus.com/Analizador_morfosintactico

gato_SFN.jpg

SFN. (s.d.). Parser. SFN, Spanish Framenet. An online lexical resource and its application to Spanish NLP. Bellaterra - Berkeley, CA: Universitat Autònoma de Barcelona - International Computer Science Institute. Consultado en http://spanishfn.org/tools

gato_VISL.jpg

VISL. (2014). Spanish - Machine analysis - Tree Structure. Visual Interactive Syntax Learning. Odense: Institute of Language and Communication, University of Southern Denmark. Consultado en http://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php

bajo_frase_Freeling.jpg

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

bajo_frase_Stilus.jpg

s|ngular Meaning. (s.d.). Analizador morfosintáctico. Stilus. Madrid: s|ngular Meaning. Consultado en http://www.mystilus.com/Analizador_morfosintactico

Análisis sintáctico superficial

Shallow parsing.
Partial parsing.
Chunking.

Fragmentos (chunks)

“I begin with an intuition: when I read a sentence, I read it a chunk at a time. For example, the previous sentence breaks up something like this:
(1) [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]
These chunks correspond in some way to prosodic patterns. It appears, for instance, that the strongest stresses in the sentence fall one to a chunk, and pauses are most likely to fall between chunks. Chunks also represent a grammatical watershed of sorts. The typical chunk consists of a single content word surrounded by a constellation of function words, matching a fixed template.”

Abney, S. (1989). Parsing by chunks. En C. Tenny (Ed.), The MIT Parsing Volume, 1988-89. Cambridge, MA: Center for Cognitive Science, Massachusetts Institute of Technology. Consultado en http://www.vinartus.net/spa/89d.pdf
segmentacio_token_chunk.jpg

Segmentación y etiquetado de tokens y fragmentos (chunks) (sintagmas nominales).

Bird, S., Klein, E., y Loper, E. (2009). Natural language processing with Python. Analyzing text with the Natural Language Toolkit. Sebastopol, CA: O’Reilly Media.

segmentacio_token_chunk_arbre.jpg

Representación en árbol de la estructura de fragmentos (chunks).

Bird, S., Klein, E., y Loper, E. (2009). Natural language processing with Python. Analyzing text with the Natural Language Toolkit. Sebastopol, CA: O’Reilly Media.

simple_parsing_FreeLing.jpg

Análisis sintáctico superficial.

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo. Python NLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado en http://text-processing.com/demo/tag/

Análisis sintáctico profundo

Deep parsing.
Full parsing.

full_parsing_FreeLing.jpg

Análisis sintáctico profundo.

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

Análisis de dependencias

Dependency parsing.

dependency_parsing_FreeLing.jpg

Análisis de dependencias.

Padró, L. (2016). Demonstration. FreeLing 4.0. An open-source suite of language analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politècnica de Catalunya. Consultado en http://nlp.lsi.upc.edu/freeling/demo/demo.php

Métodos estadísticos

“The application of statistical methods to parsing started in the 1980s, drawing on work in the area of corpus linguistics, inspired by the success of statistical speech recognition, and motivated by some of the perceived weaknesses of parsing systems rooted in the generative linguistics tradition and based solely on hand-built grammars and disambiguation heuristics. In statistical parsing, these grammars and heuristics are wholly or partially replaced by statistical models induced from corpus data. By capturing distributional tendencies in the data, these models can rank competing analyses for a sentence, which facilitates disambiguation, and can therefore afford to impose fewer constraints on the language accepted which increases robustness. Moreover, since models can be induced automatically from data, it is relatively easy to port systems to new languages and domains, as long as representative data sets are available.
Against this, however, it must be said that most of the models currently used in statistical parsing require data in the form of syntactically annotated sentences—a treebank—which can turn out to be quite a severe bottleneck in itself, in some ways even more severe than the old knowledge acquisition bottleneck associated with large-scale grammar development. Since the range of languages and domains for which treebanks are available is still limited, the investigation of methods for learning from unlabeled data, particularly when adapting a system to a new domain, is therefore an important problem on the current research agenda. Nevertheless, practically all high-precision parsing systems currently available are dependent on learning from treebank data, although often in combination with hand-built grammars or other independent resources” (pp. 263-4).

Nivre, J. (2010). Statistical parsing. En N. Indurkhya y F. J. Damerau (Eds.), Handbook of natural language processing (2nd ed., pp. 237-266). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.

Gómez, C. (2014). Análisis sintáctico. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=8&lesson=50

Analizadores sintácticos en línea

Principio

Nivel semántico

“Los procesos y recursos necesarios para el análisis semántico se encuentran en un estado de desarrollo menos avanzado que los existentes para el análisis sintáctico y, en consecuencia, los resultados que se obtienen son todavía parciales. El tratamiento del significado implica, en mayor o menor medida, incluir conocimiento sobre el mundo en las aplicaciones que se han descrito. Por esta razón el tratamiento del significado se hace especialmente difícil, ya que los humanos no somos conscientes del tipo de conocimiento que está en juego en este proceso. Existen muchas teorías sobre qué es el significado y cómo se puede representar, pero ninguna de ellas es satisfactoria ni computacionalmente tratable de manera completa. Es por ello que en este nivel de proceso la tecnología se limita a los aspectos más tratables del problema.”

Martí, M. A. y Taulé, M. (2011). La Academia y la investigación universitaria en las tecnologías de la lengua. En S. Senz y M. Alberte (Eds.), El dardo en la Academia. Esencia y vigencia de las academias de la lengua española (Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado en https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

Desambiguación de sentidos

WSD, Word Sense Desambiguation
DSA, Desambiguación Semántica Automática.

Asignación del sentido de una palabra polisémica en función del contexto en el que se encuentra.

Proceso en el ámbito de la semántica léxica.

La desambiguación semántica automática requiere disponer de recursos lingüísticos:

Martí, M. A. (2014). Semántica y pragmática 3: WSD. En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Alicante: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=11&lesson=56

Oliver, A. (2014). Basado en corpus y basado en conocimiento (y 2). En moocTLH. Nuevos retos en las Tecnologías del Lenguaje Humano. Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Consultado en http://mooctlh.uaedf.ua.es/unit?unit=8&lesson=48

Interpretación de las relaciones semánticas

Proceso en el ámbito de la semántica oracional.

Establecimiento de las relaciones semánticas entre predicado y argumentos: asignación de papeles semánticos.

cat_Boxer.jpg

Análisis semántico mediante Boxer de The cat eats the fish.

Bos, J. (s. f.). Boxer output for sentences. Demonstration, C&C tools. Sidney. Consultado en http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo

fish_Boxer.jpg

Análisis semántico mediante Boxer de The fish eats the cat.

Bos, J. (s. f.). Boxer output for sentences. Demonstration, C&C tools. Sidney. Consultado en http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo

Principio

Nivel discursivo

Estructura textual

Análisis de la estructura y de la organización del texto.

Procesamiento automático de textos con una estructura prototípica: resúmenes de artículos científicos, prospectos de fármacos.

Segmentación del texto

División automática del texto en partes correspondientes a los temas y los subtemas tratados en cada parte.

Segmentación basadas en los cambios de elementos léxicos que corresponden a cada cambio de tema.

“The approach assumes that a particular set of lexical items is in use during the course of a given subtopic discussion and, when the subtopic changes, a significant proportion of the vocabulary changes too. The method assumes three broad categories of lexical items to be found within a text:
(1) words that occur frequently throughout the text, which are often indicative of its main topic(s);
(2) words that are less frequent but more uniform in distribution, which do not provide much information about the divisions between discussions;
(3) groups of words that are ‘clumped’ together with high density in some parts of the text and low density in other parts. These groups of words are indicative of subtopic structure.
The problem of subtopic segmentation is thus the problem of determining where these clusters of words in the third category begin and end” (p. 603).

Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook of computational linguistics and natural language processing (pp. 599-629). Chichester: Wiley-Blackwell.

Tratamiento de fenómenos relacionados con la coherencia textual

Descripción formalizada de las relaciones entre los elementos que forman un texto.

Teoría de la Estructura Retórica (RST, Rethorical Structure Theory)

Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: Simon Fraser University. Consultado en http://www.sfu.ca/rst/

RST_lactosa.gif

Título y resumen del principio de un artículo de Scientific American

Preparación: texto que se presentará al lector o que lo prepara para interpretar el texto que se presentará.
Fondo: texto del que se facilita la comprensión o que facilita la comprensión.
Elaboración: información básica o información adicional.
Contraste: opción entre dos elementos.

Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: Simon Fraser University. Consultado en http://www.sfu.ca/rst/

Teoría del centrado (Centering Theory)

“The main idea of centering theory (Grosz et al., 1983; 1995) is that certain entities mentioned in an utterance are more central than others and this imposes constraints on the use of referring expressions and in particular on the use of pronouns. It is argued that the coherence of a discourse depends on the extent to which the choice of the referring expressions conforms to the centering properties” (pp. 607-8).

Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook of computational linguistics and natural language processing (pp. 599-629). Chichester: Wiley-Blackwell.
(1) Esta noche, Clara estaba consultando el correo mientras Sofía hablaba por teléfono; luego, ella se fue a hacer la cena.
(2) Esta noche, Sofía estaba consultando el correo mientras Clara hablaba por teléfono; luego, ella se fue a hacer la cena.

Clara y Sofía son compañeras de piso y viven en un pequeño apartamento en Barcelona. Todas las noches, Sofía se hace la remolona a la hora de hacer la cena, con lo que Clara siempre termina preparándola. Pero a Clara no le importa, porque a ella le encanta cocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocina india. Además, por las mañanas Clara tiene mucho tiempo libre para poder hacer la compra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparará la cena. Esta noche, Sofía estaba consultando el correo mientras Clara hablaba por teléfono; luego, ella se fue a hacer la cena.

Clara y Sofía son compañeras de piso y viven en un pequeño apartamento en Barcelona. Todas las noches, Sofía se hace la remolona a la hora de hacer la cena, con lo que Clara siempre termina preparándola. Pero a Clara no le importa, porque a ella le encanta cocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocina india. Además, por las mañanas Clara tiene mucho tiempo libre para poder hacer la compra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparará la cena. Esta noche, Clara estaba consultando el correo mientras Sofía hablaba por teléfono; luego, ella se fue a hacer la cena.

Llisterri, J. y Rello, L. (2012). La interfaz entre prosodia y discurso en la resolución de la anáfora pronominal en español. En T. Jiménez Juliá, B. López Meirama, V. Vázquez Rozas, y A. Veiga (Eds.), Cum corde et in nova grammatica. Estudios ofrecidos a Guillermo Rojo (pp. 465-475). Santiago de Compostela: Universidade de Santiago de Compostela. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Rello_Prosodia_Anafora_12.pdf

Resolución de la anáfora

“The process of determining the antecedent of an anaphor is called anaphora resolution. In anaphora resolution the system has to determine the antecedent of the anaphor. For identity-of-reference nominal anaphora, any preceding NP which is coreferential with the anaphor is considered as the correct antecedent . . .
The process of automatic resolution of anaphors consists of the following main stages: (1) identification of anaphors, (2) location of the candidates for antecedents, and (3) selection of the antecedent from the set of candidates on the basis of anaphora resolution factors” (p. 614).

Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook of computational linguistics and natural language processing (pp. 599-629). Chichester: Wiley-Blackwell.

El problema de los “pronombres cero”.

La Constitución Españolai
Øi Fue refrendada por el pueblo español el 6 de diciembre de 1978.

El Ø que está obsesionado con que todo el mundo piensa mal es Javier.

Rello, L. (2010). Elliphant: a machine learning method for identifying subject ellipsis and impersonal constructions in Spanish (Tesis de máster, University of Wolverhampton - Universitat Autònoma de Barcelona). Consultado en http://www.luzrello.com/Projects_files/luz_rello_master_thesis_elliphant_20101201.pdf
Principio

Procesamiento del lenguaje natural: trabajos generales

Procesamiento del lenguaje natural: manuales


El tratamiento computacional de los niveles de análisis lingüístico
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: