Corpus

Corpus de Referencia del Español Actual

El Corpus de Referencia del Español Actual (CREA) es una base de datos del español creada por la Real Academia Española. Se puede consultar en el siguiente enlace:

http://corpus.rae.es/creanet.html

En su última versión (versión 3.2 datada en junio del 2008) este corpus contiene más de ciento sesenta millones de formas. Los textos corresponden tanto a formas escritas, como a formas orales y abarcan el período temporal comprendido entre 1975 y 2004. Concretamente, el 90 % de los textos corresponde a la lengua escrita y el 10 % a la lengua oral. Los textos escritos proceden de libros, prensa y también de otras fuentes como folletos, prospectos, correos electrónicos, blogs, etc.

Respecto a la distribución geográfica, el 50 % del material del CREA procede de España, y el otro 50 %, de América. A su vez, este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, Antillas (caribeña), caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata. En la última versión del CREA es posible encontrar casi nueve millones de formas transcritas procedentes de la lengua hablada. Estas formas proceden de medios de comunicación como la radio y la televisión (que constituyen el núcleo de la base de los datos orales) y también de otras fuentes como conversaciones telefónicas, discursos políticos, diálogos informales, etc. De la misma forma que ocurre en el caso de los textos escritos, el 50 % del material oral procede de España, y el otro 50 %, de América y presenta la misma distribución geográfica comentada para los textos escritos.

Las búsquedas se pueden realizar siguiendo diferentes criterios, tal y como mostramos a continuación (cf. (1))

(1)

En primer lugar, el usuario debe completar un campo libre de “consulta” donde puede introducir las formas pertinentes. A continuación, es posible restringir la búsqueda a través de diferentes criterios: autor, obra, temática, cronología y distribución geográfica.

Una de las ventajas del CREA es que permite crear una estadística que muestra el porcentaje de aparición del ítem seleccionado en cada país, así como el año y el número concreto de casos encontrados.

La siguiente tabla corresponde a la forma “romperse” (cf. (2)):

(2)

A su vez, el CREA permite también recuperar los ejemplos en bruto (cf. (3)).

(3)

En el ASinES podemos encontrar información procedente del CREA de manera directa o indirecta. Algunos de los ejemplos que se recogen han sido incorporados a través de los datos que ofrecía la NGLE cuya fuente era el CREA. Otros ejemplos han sido extraídos directamente del corpus.

En novembre de 2015 se publicó la versión anotada del CREA (0.1). Esta nos permite buscar por formas, lemas y categorías gramaticales.

Podemos consultar esta versión en el siguiente enlace:

http://www.rae.es/recursos/banco-de-datos/crea-version-anotada

El Corpus del Español del Siglo XXI

El Corpus del Español del Siglo XXI (CORPES XXI) es, de la misma forma que el CREA, un corpus de referencia realizado por la Real Academia de la Lengua Española. A diferencia del CREA, el CORPES XXI se encuentra en fase de desarrollo.

Este corpus está formado por textos orales y escritos procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por año, procedentes de los años comprendidos entre 2001 y 2012. El 70% de las fuentes procede de América y el 30% restante de España. Además, los datos que aparecen en el CREA presentan anotación morfosintáctica y lematización de las diferentes formas. El CORPES XXI también permite obtener las coapariciones de una palabra, es decir, los términos que aparecen en su contexto inmediato.

En octubre de 2013 se presentó una versión provisional y desde diciembre de 2014 es posible realizar consultas a través del siguiente enlace:

http://web.frl.es/CORPES/view/inicioExterno.view;jsessionid=BD8264946F0C183B7FAC245833D36B21

En la siguiente imagen podemos observar el motor de búsqueda (cf. (1)):

(1)

Es posible realizar búsquedas por lema, por forma y por clase de palabra. Además, el usuario puede también acotar la búsqueda a través de los campos “subcorpus” y “proximidad”, donde se pueden añadir restricciones adicionales como tema, autor, fecha, etc. El CORPES XXI, como hemos comentado para el CREA (3.1), permite obtener datos estadísticos (mediante la opción “estadística”) y también los ejemplos en bruto (a través de la opción “concordancia”).

A continuación, podemos ver los resultados de la búsqueda del término “asín”. En la primera imagen aparecen las concordancias (cf. (2)) y en la segunda la estadística (cf. (3)).

(2)

(3)

El objetivo final del CORPES XXI es reunir (en 2018) un conjunto de textos que contenga 400 millones de formas de la lengua común de casi 500 millones de hispanohablantes.

La última versión de consulta (0.83) fue publicada en junio de 2016 y presenta 237. 678 documentos que en total suman 225 millones de formas.

Varigrama

El proyecto Varigrama (Variación Gramatical del Español en el Mundo) nació en 2001 con el propósito de conocer todos los aspectos gramaticales de la situación actual del español. La investigación en esta fuente de información consta de tres campos diferenciados: fonética, morfología y lexicología. Varigrama trabaja con encuestas distribuidas en diez ciudades de España y trece capitales de América Latina. Los resultados que se obtienen de dichas encuestas sirven para confirmar que la variedad geográfica puede llevar a nuevas cuestiones gramaticales del español y nuevos puntos de vista en un análisis sintáctico de esta misma lengua.

El proyecto está disponible en línea en el siguiente enlace: http://lecture.ecc.u-tokyo.ac.jp/~cueda/varigrama/index.html#0 . El funcionamiento se basa en una serie de encuestas realizadas en años distinguidos (2004, 2008, 2010 y 2014). Cada sondeo consta de apartados: Introducción al tema que se pretende analizar, distribución, preguntas, personas encuestadas, respuestas y comentarios a los resultados obtenidos.

Los resultados que se obtienen en este proyecto resultan muy útiles para el estudio del ASinES, ya que el atlas incorpora en su página los resultados obtenidos de las encuestas de Varigrama para ampliar el estudio de las elaboraciones de variación de construcciones sintácticas del español en el mundo, sobre todo aquellas que son del español de América latina.

A continuación se muestra un ejemplo del funcionamiento de la fuente redactada en este apartado. La encuesta de variación sintáctica que se ha seleccionado está datada en el año 2008 y está realizada en los siguientes territorios de América latina: Ciudad de México (México), Bogotá (Colombia), Asunción (Paraguay), Buenos Aires (Argentina) y Santiago de Chile (Chile). El empleo de dicha encuesta, donde se pide el nombre y apellido del hablante, el sexo, la ocupación, la edad, sería el siguiente:

(1) Esta encuesta tiene por objetivo observar cómo se usan algunas expresiones del español en la vida ordinaria y cotidiana. Por favor, indique con un V, lo que usted personalmente diría.
Por ejemplo, (1) diría la parte en cursiva en las frases siguientes, o (2) no lo diría, pero lo he oído decir, o (3) no lo diría ni lo he oído decir. Por ejemplo,

[ej. 1］ Yo la dije la verdad. (la = María)

V (1) Yo lo diría así.
(2) Yo no lo diría, pero lo he oído decir.
(3) Yo no lo diría ni lo he oído decir.
(4) Comentarios

Atención: NO se trata de juzgar si las frases son correctas o incorrectas GRAMATICALMENTE, sino contestar si son las formas que USTED MISMO(A) USARÍA o NO USARÍA en casa, en la escuela, con sus familiares y amigos. Nuestro propósito es obtener una imagen real del uso actual de la lengua española en la vida corriente de personas concretas.

[Tomado de VARIGRAMA]

Acto seguido, se analizan todos los hablantes que han hecho dicha encuesta con los datos que han introducido al hacer esta misma. Posteriormente, se agrupan todos los resultados en función del territorio, la edad y el sexo de la siguiente manera:

[Tomado de VARIGRAMA]

Por último, se crea una sección de comentarios donde se extraen los apuntes que han hecho los encuestados en el apartado de comentarios (4):

[Tomado de VARIGRAMA]

Este estudio es de gran utilidad a la hora de analizar fenómenos concretos del español y con hablantes muy específicos. Para más información de este proyecto se puede consultar en el siguiente enlace:

Corpus Oral y Sonoro del Español Rural

El Corpus Oral y Sonoro del Español Rural (COSER) es un corpus dialectal, restringido al habla de aquellos informantes que fueron objeto de interés en la dialectología tradicional: hablantes rurales (mayores, índice bajo de escolarización y naturales del lugar en que son entrevistados). El COSER se nutre del mismo tipo de informantes que los atlas lingüísticos. Han sido grabados alrededor de 2.248 informantes.

La edad media global de los informantes es de 71,5 años, siendo ligeramente más elevada en los hombres (72,5 años) que en las mujeres (70,6 años). Se trata de informantes que han nacido en el primer tercio del siglo XX y que han recibido una cierta instrucción educativa: por lo general, han cursado, algunos años de escuela primaria aprendiendo «a leer y escribir, y las cuatro reglas» matemáticas elementales.

El COSER dispone actualmente de 1.434 horas de grabación. Aunque la mayor parte se grabó en soporte analógico, en 2010 se finalizó la digitalización de todos los materiales, de los que se presenta una muestra como archivos sonoros.

Las grabaciones que integran el COSER han sido obtenidas con regularidad desde el año 1990 en una serie de campañas de encuesta. En el siguiente enlace se facilitan las campañas de encuesta organizadas hasta el momento:

http://www.corpusrural.es/campanas.php

El trabajo de campo ha sido organizado como parte de las prácticas de campo de las asignaturas «Dialectología hispánica» (cursos 1988-1996) y «El español hablado. Variantes peninsulares» (1996-2004), «Curso monográfico de variedades del español» (2005-2011), materias optativas pertenecientes a la Licenciatura de Filología Hispánica de la Universidad Autónoma de Madrid y con el apoyo de los proyectos de investigación que se citan en este enlace:

http://www.corpusrural.es/financiacion.php.

Desde 2011 se han integrado como actividad optativa de la asignatura «Lengua española. Variedades de la lengua» (3er curso) del Grado de Estudios Hispánicos de la Universidad Autónoma de Madrid.


Enclaves encuestados	Provincias	Total del as grabaciones	Promedio de grabación por entrevista	Entrevistas disponibles en texto y audio (2015)
1.124	44	1.434 horas	1h. 15 minutos	147

Hasta 2015 se han realizado entrevistas en 1.124 enclaves rurales de la Península Ibérica pertenecientes a 44 provincias. La localización geográfica de los mismos figura en el mapa (http://www.corpusrural.es/mapa.php), donde pueden identificarse a través de un código numérico que resume la provincia y el enclave, ordenados alfabéticamente. Los materiales sonoros abarcan gran parte de la Península Ibérica y la densidad de la red de puntos es equiparable a la de los atlas regionales o incluso más tupida.

Para realizar una consulta, acceda al atlas a través de este enlace: http://corpusrural.es/consulta.php

Esglora

El corpus para el estudio del español oral (ESLORA) contiene 60 horas de entrevistas semidirigidas y 20 horas de conversaciones de hablantes de Galicia grabadas entre los años 2007 y 2015. Los registros sonoros se transcribieron ortográficamente con alineación texto-voz para facilitar el acceso inmediato al audio desde la transcripción. A día de hoy es posible obtener datos de una parte de los materiales mediante un sistema de consultas simples y combinadas que incluye variables sociales (grupo de edad, nivel de estudios y sexo) junto a categorías lingüísticas (lemas, clases de palabras y categorías morfológicas). La aplicación de consulta tiene además la ventaja de que permite recuperar los fragmentos sonoros correspondientes a las consultas realizadas.

El corpus ESLORA ha sido elaborado por el Grupo de Gramática del Español de la Universidad de Santiago de Compostela a través de los proyectos ESLORA y ESLORA2 financiados por el Ministerio de Economía y Competitividad (FFI2010-17417 y FFI2014-52287-P).

La búsqueda en este corpus se puede organizar por:

Palabras ortográficas (decir, del, diciéndome).
Elementos gramaticales (dijo, de —incluyendo los casos de la contracción del—, diciendo —incluyendo los casos del tipo diciéndome, diciéndolo—, etc.).
Lemas (todas las formas del verbo decir).
Clases de palabras (verbo, por ejemplo).
Valores de las subcategorías gramaticales aplicables en cada caso (género y número en el caso de los sustantivos, etc.).

Todas estas posibilidades son combinables entre sí. Por otro lado, el sistema permite la recuperación de datos de la totalidad del corpus o bien del subcorpus virtual creado directamente por quien hace la consulta en función de las características de los hablantes utilizadas en la configuración de ESLORA:

Edad
Papel desempeñado en el texto
Nivel de estudios
Sexo

Por último, la pestaña Buscar en permite referir las búsquedas a la totalidad del texto, que es la opción habitual, o bien centrarlas en fragmentos que han recibido cierta etiquetación.

En los diferentes tipos de búsquedas, la aplicación permite trabajar con distintas opciones en la recuperación, como la que toma en cuenta la existencia de caracteres con tildes o diferenciar mayúsculas y minúsculas.

Se puede realizar una consulta accediendo a la web a través de este enlace: http://galvan.usc.es/eslora/search