Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Universidad Autónoma de Madrid http://www.lllf.uam.es/ESP/Corlec.html
Contenidos
Transcripción ortográfica de grabaciones de lengua oral (1991-1992).
1.100.000 palabras.
Textos administrativos, científicos, conversacionales o familiares, educativos, humanísticos, instrucciones de megafonía, jurídicos, lúdicos (concursos), políticos y periodísticos: debates, deportes, documentales, entrevistas, noticiario, publicitarios, religiosos y técnicos.
Porcentaje de representatividad en función del tipo de texto:
Administrativos y políticos - 5.6 %.
Científicos - 3.3 %.
Conversacionales o familiares - 24.5 %.
Educativos - 5.3 %.
Humanísticos - 5.6 %.
Instrucciones (megafonía) - 0.6 %.
Jurídicos - 3.2 %.
Lúdicos (concursos, etc.) - 5.6 %.
Periodísticos:
Debates - 8.5 %.
Deportes - 5.3 %.
Documentales - 2.6 %.
Entrevistas - 15.6 %.
Noticiario - 6.6 %.
Publicitarios - 2.8 %.
Religiosos . 1.1 %.
Técnicos - 3.9 %.
CORLEC, Corpus Oral de Referencia de la Lengua Española Contemporánea. (s. f.). Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://www.lllf.uam.es/ESP/Info Corlec.html
Fenómenos codificados
Palabras cortadas.
Reconstrucción de segmentos omitidos por el hablante.
Vacilaciones.
Elementos fáticos (afirmación, duda, interrogación, negación).
Ruidos (ruidos solapados en la conversación; risas, aplausos, música).
Onomatopeyas.
Identificación de los hablantes.
Simultaneidad de turno de palabras.
Silencio.
Siglas.
Palabras extranjeras.
Texto leído.
Errores de producción del hablante.
Dificultades de transcripción.
Texto no transcrito.
Borrado involuntario.
Interrupción de la grabación.
CORLEC, Corpus Oral de Referencia de la Lengua Española Contemporánea. (s. f.). Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://www.lllf.uam.es/ESP/Info Corlec.html
Información contenida en la cabecera
Número de la cinta donde se encuentra el texto grabado.
Posición del texto en la cinta.
Fecha.
Procedencia del texto.
Autor de la transcripción.
Tipo de texto transcrito.
Temas tratados.
Identificación de los hablantes que intervienen.
Edad, sexo y profesión del los hablantes.
CORLEC, Corpus Oral de Referencia de la Lengua Española Contemporánea. (s. f.). Madrid: Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid. Consultado en http://www.lllf.uam.es/ESP/Info Corlec.html
Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Universidad Autónoma de Madrid http://www.lllf.uam.es/ESP/Corlec.html
Samper, J. A., Hernández Cabrera, C. E. y Troya, M. (Eds.). (1998). Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de las Palmas de Gran Canaria.
Contenidos
Transliteración de ochenta y cuatro horas de grabación.
Muestras paralelas de doce ciudades hispánicas: México, Caracas, Santiago de Chile, Santafé de Bogotá, Buenos Aires, Lima, San Juan de Puerto Rico, La Paz, San José de Costa Rica, Madrid, Sevilla y Las Palmas de Gran Canaria.
Catorce entrevistas individuales de aproximadamente media hora con intervención del encuestador para cada ciudad.
Muestras distribuidas por generación y por sexo.
Formato de los textos y estándares de codificación
Los textos orales constituyen el 10 % del CREA y equivalen a unos 9 millones de registros procedentes de más de 1600 documentos.
Textos procedentes de grabaciones de radio o de televisión transcritos y codificados.
Textos procedentes de otros corpus orales adaptados a los estándares del CREA:
Análisis de la Conversación de la Universidad de Alcalá de Henares.
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico de la Asociación de Lingüística y Filología de América Latina.
Caracas-77: Estudio sociolingüístico de Caracas, 1977.
Caracas-87: Estudio sociolingüístico de Caracas, 1987.
Corpus de Encuestas en Asunción de Paraguay.
Corpus oral de la variedad juvenil universitaria del español hablado en Alicante.
Corpus para el estudio del español hablado en Santiago de Compostela.
Corpus Sociolingüístico de Mérida-Venezuela.
UAM: Corpus Oral de Referencia del Español Contemporáneo de la Universidad Autónoma de Madrid.
Material público procedente de Internet.
Medio:
Canal comunicativo:
Radio.
Televisión.
Grabación directa.
Teléfono.
Otros.
Procedencia:
Grabación.
Texto previamente transcrito.
Texto previamente transcrito y codificado.
Origen:
España: 50 %.
Hispanoamérica: 50 %:
Zona Andina: Venezuela, Colombia, Ecuador, Perú y Bolivia.
Zona Caribeña: Cuba, Pánama, Puerto Rico, República Dominicana, costas de Venezuela y Colombia y sudeste de Estados Unidos.
ZonaCentral: Costa Rica y Nicaragua.
Zona Chilena: Chile.
Zona Mexicana: Guatemala, Honduras, El Salvador, México y Sudoeste de Estados Unidos.
Zona Rioplatense: Argentina, Paraguay y Uruguay.
Época:
1975-1979.
1980-1984.
1985-1989.
1990-1994.
1995-1999.
2000-2004.
Tipología textual:
Textos procedentes de grabaciones de radio y de televisión:
Noticias.
Reportajes.
Entrevistas.
Debates.
Tertulias.
Documentales.
Retransmisiones deportivas.
Magacines.
Revistas deportivas.
Variedades.
Sorteos y concursos.
Otros textos: discursos políticos, conversaciones telefónicas, mensajes en contestadores, diálogos informales, etc..
Grado de formalidad:
Formalidad = alta, Audiencia = interlocutor, Canal = cara a cara.
Pino, M. (1998). Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. 29/07/1997. En J. A. Samper Padilla, C. E. Hernández Cabrera, & M. Troya Déniz (Eds.), Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). [CD-ROM] Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.
Pino, M. y Sánchez, M. (1999). El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación. Oralia. Análisis del Discurso Oral, 2, 83-138.
Plantillas y macros para Word que permiten la automatización del proceso de transcripción.
Alineación entre el texto y la señal sonora en la segunda etapa del CREA.
Fenómenos codificados
Divisiones en el texto.
<div>
Cada entrevista o conversación constituye una unidad <div>
Se indica el nivel jerárquico (<div1>, <div2>, <div3>, ... <div8>) si se encuentran entrevistas o conversaciones dentro de entrevistas o conversaciones más amplias.
<s>
Secuencia separada del resto del texto por un punto, exclamación o interrogación.
Turnos de palabra de cada hablante y tipo de transición entre turnos.
<u>
Segmento precedido o seguido de un cambio de hablante.
Atributo who: código identificador del participante.
Tipo de transición entre turnos y solapamientos entre hablantes.
<u>
Atributo trans
smooth cuando <u> empieza con una pausa normal.
overlap cuando <u> empieza antes de que la anterior haya finalizado.
Pausas.
<pause>
Fenómenos no vocales y no comunicativos.
<event>
Atributo desc: describe el tipo de evento del que se trata.
Fenómenos no vocales comunicativos.
<kinesic>
Atributo desc: describe el tipo de gesto del que se trata.
Expresiones semiléxicas o no léxicas que comunican algún tipo de estado.
<vocal>
Atributo type: recoge la transcripción del fenómeno vocal:
tos, respiración, estornudo, risa
aha, tch tch, e..., risa
Atributo desc: describe la intención comunicativa del fenómeno vocal:
asentimiento, negación
Discurso directo.
<q>
Atributo rend: indica el tipo de resalte empleado en la transcripción.
Texto leído.
<writing>
Palabras extranjeras.
<foreign>
Atributo lang: especifica la lengua según el código ISO 639.
Números.
<num>
Palabras deletreadas.
<distinct>
Atributo type
dele
Abreviaturas.
<abbr>
Atributo type: especifica el tipo de abreviatura:
normal
acronym
Texto resaltado en la transcripción ortográfica.
<hi>
Atributo rend: especifica el tipo de resalte:
cdob: comillas dobles.
curs: cursiva.
mayu: mayúscula.
Fragmentos poco claros en la grabación.
<unclear>
Atributo cert: recoge el grado de certeza.
unclear: fragmento poco claro, que se reproduce de la manera más ajustada posible.
unintelligible: fragmento ininteligible, que no se reproduce.
Errores de producción del hablante.
<sic>
Palabras fragmentarias o truncadas y repeticiones de palabras.
<distinct>
Atributo type
titu: palabra fragmentaria por titubeo.
repe: palabra repetida por titubeo.
Información contenida en la cabecera
Título y subtítulo del documento.
Responsable de la transcripción y codificación del texto.
Información sobre la edición electrónica del texto.
Información sobre la extensión del texto.
Localización del texto en la grabación.
Procedencia española o hispanoamericana del texto y país de procedencia.
Descripción de la codificación.
Clasificación del texto.
Descripción de los hablantes: código de identificación, nombre, papel, sexo, edad, lengua materna, variante dialectal, origen geográfico, país de procedencia, clase social y nivel de estudios..
Grupo Val.Es.Co (Valencia Español Coloquial), Departamento de Filología Española, Universidad de Valencia - Universidad de Alicante http://www.valesco.es/
Contenidos
Transcripción ortográfica de grabaciones de conversaciones coloquiales.
46 conversaciones (corpus Val.Es.Co 2.0).
90 % de las grabaciones secretas recogidas en entornos reales (corpus Val.Es.Co 2.0)..
Fragmento de audio
Val.Es.Co. (s. f.). Fragmento de audio. Valencia: Val.Es.Co. (Valencia, Español Coloquial), Departamento de Filología Española, Universidad de Valencia. Consultado en http://valesco.es/photos/corpus.mp3
Fenómenos codificados
Val.Es.Co. (s. f.). Fragmento de transcripción siguiendo el sistema Val.Es.Co. Valencia: Val.Es.Co. (Valencia, Español Coloquial), Departamento de Filología Española, Universidad de Valencia. Consultado en http://www.valesco.es/photos/corpus.pdf
Val.Es.Co. (n.d.). Sistema de transcripción. Val.Es.Co., Valencia Español Coloquial. Valencia: Val.Es.Co. (Valencia, Español Coloquial), Departamento de Filología Española, Universidad de Valencia. Retrieved from http://www.uv.es/valesco/sistema.pdf
Cabedo, A., & Pons, S. (Eds.). (n.d.). Corpus Val.Es.Co 2.0. Valencia: Val.Es.Co. (Valencia, Español Coloquial), Departamento de Filología Española, Universidad de Valencia. Consultado en http://www.valesco.es
Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Universidad Autónoma de Madrid http://www.lllf.uam.es/ESP/Coralrom.html
Contenidos
300.000 palabras para cada una de las 4 lenguas del corpus.
Estilos de habla.
Habla informal: 50 %.
Habla formal: 35 %.
Medios de comunicación: 15 %.
Variación sociolingüística y acústica equivalente en las cuatro lenguas.
Conversaciones grabadas entre el investigador y los informantes seleccionados.
Selección de los informantes a partir de criterios sociolingüísticos para conseguir una muestra estratificada.
Entrevistas semi-dirigidas de unos 45 minutos de duración estructuradas en función de un conjunto de módulos:
Saludos.
El tiempo.
Lugar donde vive.
Familia y amistad.
Costumbres.
Peligro de muerte.
Anécdotas importantes en la vida.
Deseo de mejora económica.
Final.
Archivo sonoro de muestra
PRESEEA. (s. f.). Archivo sonoro de muestra. Metodología - Materiales del proyecto para el estudio sociolingüístco del español de España y de América. PRESEEA, Proyecto para el estudio sociolingüístico del español de España y de América. Consultado en http://preseea.linguas.net/Portals/0/Metodologia/MALA_H23_001.mp3
Corpus de lengua oral en español Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona Darrera actualització: Esta página ha dejado de actualizarse