La lingüística de corpus
Conjunto estructurado y documentado de materiales recogidos en función de criterios explícitos.
«A
corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.»
«A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research.»
«a corpus typically implies a finite body of text, sampled to be maximally representative of a particular variety of a language, and which can be stored and manipulated using a computer» (p. 59).
McEnery, T. y Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996)
«Corpus linguistics is perhaps best described . . . as the study of language based on examples of ‘real life’ language use» (p. 1).
McEnery, T. y Wilson, A. (2001).
Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996)
«Corpus linguistics, like all linguistics, is concerned primarily with the description and explanation of the nature, structure and use of language and languages» (p. 8).
Manuales de lingüística de corpus
Actas de congresos y compilaciones
Publicaciones periódicas
GELC Students & Researchers Channel. (2013, 5 de diciembre). History of corpus linguistics [Documento en vídeo]. Consultado en https://youtu.be/L1kKKsWA6R4
Teoría y descripción lingüísticas
- Fonética.
- Fonología.
- Morfología.
- Lexicología.
- Sintaxis.
- Semántica.
- Pragmática.
- Análisis del discurso.
- Análisis de la conversación.
- Lingüística del texto.
Lingüística «empirista» basada en corpus y lingüística «racionalista» basada en la introspección.
McEnery, T. y Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996) Consultado en https://www.lancaster.ac.uk/fss/courses/ling/corpus/Corpus1/1FRA1.HTM
«Armchair linguistics does not have a good name in some linguistic circles. A caricature of the armchair linguist is something like this. He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and writes something down. Then he paces around for a few hours in the excitement of having come still closer to knowing what language is really like. (There isn’t anybody exactly like this, but there are some approximations.)»
«Corpus linguistics doesn’t have a good name in some linguistic circles. A caricature of the corpus linguist is something like this. He has all the primary facts that he needs, in the form of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence. (There isn’t anybody exactly like this, but there are some approximations.)»
Investigación en lingüística aplicada
- Adquisición de la primera lengua (L1).
- Adquisición de segundas lenguas (L2).
- Lingüística clínica.
- Lingüística judicial.
- Sociolingüística.
- Lingüística contrastiva.
- Lingüística diacrónica.
- Lexicografía.
- Terminología.
- Traductología.
- Comunicación mediatizada por ordenador.
- Documentación de lenguas minorizadas.
Aplicaciones de los corpus escritos
Aplicaciones de los corpus orales
Written corpora.
Text corpora.
Consistentes en textos originalmente escritos.
El tratamiento y el análisis del corpus se realiza a partir de la forma escrita.
Los corpus escritos
❯ Los corpus de lengua oral
❯ Los corpus orales
Planificación del proyecto
Diseño del corpus
Disponibilidad de los materiales
Derechos de autor y consentimiento de los informantes
Formato de los materiales
Recogida de los datos
Codificación
Transcripción
Alineación
Anotación o etiquetado
Documentación
Validación
Producción
Distribución
Mantenimiento
Definición de objetivos.
Definición de tareas.
Evaluación de materiales existentes.
Evaluación de estándares existentes.
Recursos humanos.
Recursos técnicos.
Recursos económicos.
Planificación temporal.
El diseño del corpus depende de la finalidad de la investigación.
Definición del material lingüístico contenido en el corpus.
Definición de las características de los textos o de los locutores.
Definición del entorno y del procedimiento de recogida de datos.
Definición de los criterios y niveles de representación de los datos.
Los niveles de representación de los datos dependen de los objetivos del corpus.
Corpus para el estudio fonético:
representación fonética, caracterización de los datos mediante parámetros acústicos o articulatorios.
❯ La utilidad de los corpus
Materiales existentes en formato digital
- Materiales procedentes de la web.
- Materiales en otros formatos digitales.
- Textos disponibles creados mediante programas de tratamiento de textos.
- Grabaciones en formato digital.
Materiales disponibles en formato analógico
La conversión de los materiales disponibles en papel a textos en formato electrónico requiere, al menos, cuatro etapas:
- Escaneado: conversión de texto a imagen.
- Reconocimiento óptico de caracteres (ROC, OCR, Optical Character Recognition): conversión de la imagen a texto.
- Corrección del resultado del ROC mediante una herramienta de verificación ortográfica.
- Codificación del texto mediante un lenguaje de marcación.
La conversión de grabaciones analógicas en grabaciones digitales requiere un proceso de digitalización de la señal sonora.
❯ La conversión de analógico a digital
Si se constituye un corpus para la difusión pública o para la explotación comercial es preciso tener en cuenta que los materiales originales pueden estar sujetos a los derechos de autor, regulados por las leyes relativas a la propiedad intelectual.
La recogida de datos que implique la participación de personas (por ejemplo, en la grabación de un corpus oral) requiere el consentimiento informado de los participantes.
Los documentos de un corpus textual o las transcripciones de un corpus oral pueden almacenarse en diversos formatos:
SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language
Los documentos sonoros de un corpus oral suelen almacenarse en formato .wav (Waveform Audio File Format) o en otros formatos de sonido compatibles.
Cada uno de los documentos o archivos que forman el corpus debe estar asociado a una descripción del mismo, indicando sus datos de procedencia y todas las informaciones relevantes para la utilización posterior del corpus.
En los corpus codificados mediante SGML (Standard Generalized Markup Language) o XML (eXtensible Markup Language) según los estándares de la TEI (Text Encoding Initiative) esta información se incluye en la cabecera (TEI Header).
En los corpus orales, la cabecera (header) de cada uno de los documentos sonoros contiene la información sobre la grabación y sobre el contenido de los archivos.
La información relativa a los textos o a las grabaciones puede almacenarse también en una base de datos convencional.
Herramientas para la recogida de los datos y, si es necesario, su transformación en el formato de los materiales definido para el corpus.
Estándares y procedimientos de grabación.
Procedimiento de búsqueda y de selección de locutores.
Encoding.
Procedimiento de representación de los caracteres, de la estructura del texto y de la anotación, de modo que la estructura y la anotación se mantienen separadas del contenido del corpus.
Sistema o esquema de codificación.
- Fenómenos representados en los diferentes niveles del corpus.
- Etiquetas correspondientes a los fenómenos representados.
La codificación de los textos permite:
- Separar el contenido del texto y su estructura (títulos, subtítulos, párrafos, etc.).
- Separar el texto original de las anotaciones introducidas por el investigador.
Ejemplo de texto sin codificar:
La codificación del texto
Los estándares de la TEI
La Text Encoding Initiative ha establecido un conjunto de estándares para la codificación de los textos. Así, es posible separar el contenido de un documento del formato en el que se presenta.
En este caso, la codificación se llevará a cabo usando el lenguaje de marcación conocido como XML (eXtensible Markup Language) y mediante una herramienta disponible en https://oxgarage2.tei-c.org
Ejemplo de texto codificado en XML (eXtensible Markup Language) según los estándares de la versión 5 de la Text Encoding Initiative mediante la herramienta OxGarage:
<xmp>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>La codificación del texto</title>
<author/>
</titleStmt>
<editionStmt>
<edition>
<date/>
</edition>
</editionStmt>
<publicationStmt>
<p>no publication statement available</p>
</publicationStmt>
<sourceDesc>
<p>Written by OpenOffice</p>
</sourceDesc>
</fileDesc>
<revisionDesc>
<listChange>
<change>
<name/>
<date/>
</change>
</listChange>
</revisionDesc>
</teiHeader>
<text>
<body>
<head>La codificación del texto</head>
<div type="div1">
<head>Los estándares de la TEI</head>
<p rend="color(#000000)">La <hi rend="italic">Text Encoding Initiative</hi> ha establecido un conjunto de estándares para la <hi rend="bold">codificación</hi> de los textos. Así, es possible separar el contenido de un documento del formato en el que se presenta.</p>
<p rend="color(#000000)">En este caso, la codificación se llevará a cabo usando el lenguaje de marcación conocido como XML (<hi rend="italic">eXtensible Markup Language</hi>) y mediante una herramienta disponible en <ptr target="https://oxgarage2.tei-c.org"/>. </p>
</div>
</body>
</text>
</TEI>
</xmp>
La Text Encoding Initiative (TEI) ha establecido un conjunto de normas para la codificación de los textos electrónicos basada en los lenguajes de marcación SGML (Standard Generalized Markup Language) y XML (eXtensible Markup Language).
SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language
TEI, Text Encoding Initiative
❯ La codificación de los corpus de lengua oral
Primer nivel de representación de un corpus oral.
«un procedimiento de traslado o transposición a una forma gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral» (p. 45).
Niveles de transcripción en un corpus oral
❯ La representación fonética de corpus orales
Alignment.
La señal sonora se sincroniza temporalmente con la transcripción ortográfica y con la transcripción fonética, fonológica o prosódica.
Etiquetado y alineación de fonos, de difonemas (difonos) y de palabras en el fragmento “el año”, realizados mediante el programa Praat.
Annotation.
Labelling.
«Corpus annotation is the practice of adding interpretative linguistic information to a corpus. . . . adding annotation to a corpus is giving ‘added value’, which can be used for research by the individual or team that carried out the annotation, but which can also be passed on to others who may find it useful for their own purposes.»
Enriquecimiento del corpus mediante información adicional introducida por el investigador en función de sus objetivos y de su interpretación lingüística de los datos.
Para cada nivel de representación se establece un conjunto de «etiquetas» que se asocian a unidades de análisis del corpus.
- Etiquetado fonético segmental (transcripción fonética): refleja las características articulatorias o acústicas de los sonidos del habla. Requiere el acceso a la señal sonora.
- Etiquetado fonológico (transcripción fonológica): refleja los sonidos del habla que son distintivos en una lengua determinada.
- Etiquetado prosódico (transcripción prosódica): incorpora información sobre los elementos suprasegmentales.
- Etiquetado morfológico (tagging): refleja las propiedades morfológicas y léxicas de las palabras.
- Etiquetado sintáctico (parsing): expresa la estructura de constituyentes de los enunciados.
Corpus etiquetados sintácticamente: treebanks.
- Etiquetado semántico: incorpora información sobre el significado léxico.
- Etiquetado pragmático: refleja información de naturaleza pragmática (actos de habla, intencionalidad,...).
- Etiquetado de la estructura del discurso.
Necesidad de establecer un inventario de etiquetas (tag set), en algunos casos adaptado a corpus multilingües.
Etiquetado de corpus orales
La documentación es esencial para garantizar la reutilización del corpus.
Puede presentarse en forma de uno o varios manuales o en forma de metadatos.
«In earlier times, it was customary to provide corpus metadata in a free standing reference manual, if at all. It is now more usual to present all metadata in an integrated form, together with the corpus itself, often using the same encoding principles or markup language. This greatly facilitates both automatic validation of the accuracy and consistency with which such documentation is provided, and also facilitates the development of more human-readable and informative software access to the contents of a corpus.»
Linguistic Data Consortium. (2010). Filename Conventions & Metadata. Providing Data. Philadelphia, PA: Linguistic Data Consortium, University of Pennsylvania. Consultado en https://www.ldc.upenn.edu/data-management/providing/filenames-metadata
Proceso de verificación de los aspectos formales y de contenido del corpus.
La validación pueden llevarla a cabo los propios investigadores o bien puede realizarse externamente en centros especializados.
Validation. (2015). Paris: ELRA, European Language Resources Association. Consultado en http://www.elda.org/en/services-around-lrs/validation/
Validación de corpus orales
Publicación del corpus en un soporte físico o en la red.
La distribución puede realizarse a través de centros especializados en la distribución de recursos lingüísticos.
❯ Centros de distribución de recursos lingüísticos
❯ Iniciativas para la identificación y la distribución de recursos lingüísticos
Los corpus publicados en la red requieren un mantenimiento, especialmente en lo que se refiere a los aspectos técnicos.
La lingüística de corpus
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Darrera actualització: