"cumbr e": corpus lingüÍstico del español contemporáneo. Fundamentos, metodología y aplicaciones de los corpus lingüísticos. Aquilino Sánchez editor Aquilino Sánchez



Descargar 0.58 Mb.
Página1/9
Fecha de conversión29.04.2018
Tamaño0.58 Mb.
  1   2   3   4   5   6   7   8   9






"C U M B R E":
CORPUS LINGÜÍSTICO DEL ESPAÑOL CONTEMPORÁNEO.

Fundamentos, metodología y aplicaciones de los corpus lingüísticos.


------------------------------------------------------------

Aquilino Sánchez

editor

----------------------------------------------------------

-----------------------------------------------------------------------------------------------------------------

Aquilino Sánchez

Autor y Director del Corpus.

Director del área de Análisis Lexicográfico y Enseñanza de lenguas extranjeras.
Ramón Sarmiento

Director del área de Análisis Gramatical.


Pascual Cantos

Director del área de Tratamiento Informático del corpus.


José Simón

Diseño de aplicaciones informáticas



-----------------------------------------------------------------------------------------------------------------
CONTENIDO:
Capítulo I.

Aquilino Sánchez

1. Qué es un corpus lingüístico.

2. Breve historia de los "corpus lingüísticos".

3. De la utilidad del corpus a su necesidad. Características distintivas.


Capítulo II.

Aquilino Sánchez

Organización del corpus "Cumbre".


Capítulo III.

Pascual Cantos

Tratamiento informático y obtención de resultados.


Capítulo IV.

Aquilino Sánchez

El corpus "Cumbre" y la lexicografía.


Capítulo V.

Ramón Sarmiento

La investigación gramatical mediante "corpus": el corpus "Cumbre".


Capítulo VI

Aquilino Sánchez

Implicaciones del corpus en la enseñanza de la lengua.


Capítulo VII

José Simón

Diseño de aplicaciones informáticas avanzadas para el proceso de datos lingüísticos de los corpus.



Capítulo I


1. Qué es un corpus lingüístico.

Desde que Chomsky (1957:16) dijera que "la capacidad del hablante nativo para producir y reconocer oraciones gramaticales no se fundamenta sobre cuestiones de aproximación estadística o similares"; o desde que su énfasis en la intuición del hablante ahuyentara los intentos de los estructuralistas para basar sus observaciones sobre repertorios lingüísticos (es decir, sobre la observación de datos lingüísticos tomados del uso) y tal punto de vista se convirtiese en quasi-dogmático dentro del campo de la lingüística, ha habido importantes innovaciones y han tomado cuerpo nuevos enfoques que han enriquecido el análisis lingüístico.



La anécdota que comentan Biber/Finegan (Ajmer 1991:204), referida a dos importantes lingüistas, a principios de los años sesenta, R. B. Lees y W. Nelson Francis, es también reveladora e ilustrativa de los cambios que se han dado en sólo tres décadas. Cuando Lees preguntó a Nelson Francis sobre sus proyectos futuros y éste le informó que le había sido concedida una ayuda para preparar un corpus computarizado del inglés, la sorprendente respuesta de Lees no se hizo esperar: ")Y para qué sirve eso?" A la réplica de Nelson Francis, "Para descubrir la realidad de la gramática inglesa", Lees le contestó maravillado: "Esto es una pérdida total de tiempo y de dinero público. Usted es un hablante nativo del inglés: puede producir en sólo diez minutos más ejemplos sobre cualquier punto gramatical del inglés que los que podría encontrar en muchos millones de palabras de textos elegidos al azar". Lo que interesa destacar aquí no es que uno u otro de los interlocutores sea o no acertado en sus juicios, sino la distancia que separa los puntos de vista sobre los que cada uno de los lingüistas se fundamenta en la apreciación de un hecho: Lees no ve ninguna utilidad en la investigación propuesta porque la intuición del hablante nativo es más que suficiente. En realidad -se viene a decir- el hablante nativo de una lengua es como un "corpus viviente", siempre potencialmente productivo e inagotable, mientras que un repertorio de textos, por muy amplio que éste sea, es una recopilación necesariamente reducida a la "actualización" (performance) lingüística y, en consecuencia, cerrada. Francis, por el contrario, considera que la gramática inglesa precisa de una base documental que la avale. Si bien es verdad que los hablantes nativos son "potencialmente" susceptibles de generar un sinfín de "producciones lingüísticas", se dan circunstancias que limitan esa producción individualizada, especialmente si la comparamos con el conjunto de la producción lingüística realmente generada por todos los hablantes de una lengua. El corpus, con la ayuda del ordenador, tiene precisamente la posibilidad de superar muchas de esas limitaciones, no solamente en amplitud y en aumento de representatividad, sino en la posibilidad de ofrecer acceso selectivo y abundante a aquellos ámbitos o elementos que deseemos o precisemos en un momento determinado. No parece que deba darse, por tanto, oposición entre el cometido del hablante nativo y el corpus. A no ser que en el transfondo de todo ello alguien pueda percibir la eterna polémica entre quienes consideran que la lengua debe ser "como los lingüistas y gramáticos dicen que debe ser" y aquellos otros que afirman que la lengua es un contrato entre los hablantes de un mismo idioma y, por ende, es el uso que los hablantes hacen de ella lo que determina la adecuación o corrección del sistema comunicativo utilizado. En el primer caso, la necesidad de un corpus lingüístico es ociosa y hasta puede ser "perjudicial", ya que la norma la determinan unos pocos hablantes selectos y son únicamente éstos quienes deben ser propuestos como modelos. En el segundo caso, por el contrario, el corpus lingüístico es un utensilio imprescindible para llevar a cabo un análisis adecuado del lenguaje porque ofrece mayores garantías de representatividad respecto al uso que de él hacen los hablantes. Y tampoco parece existir ninguna razón de peso que impida la proyección de los resultados de un corpus hacia la globalidad de la lengua ("generalización"), como se alegaba en la escuela generativista. No debería inferirse de lo anterior que los corpus deben constituir la norma de referencia para los hablantes, entre otras razones, quizás porque el uso presenta tales variantes que harían difícil desembocar en una sola norma (piénsese, por ejemplo, en las "desviaciones" de todo tipo que se dan en el lenguaje oral, especialmente en el familiar o coloquial, frente al nivel de "corrección" que rige en la lengua escrita, especialmente en la de carácter literario). Pero tampoco cabe la menor duda de que un corpus representativo de cualquier idioma ofrece al lingüista un conjunto de datos lingüísticos ideal para el análisis gramatical, léxico o fonético, cual no se había tenido hasta el momento. Si los resultados del corpus serán o no tenidos en cuenta para establecer la norma y en qué medida, es un tema abierto. No obstante, nadie puede negar que el uso real siempre ha servido de fuente primera para los lexicógrafos "manuales" y ha protagonizado los cambios en fonología, morfología y sintaxis a lo largo de la historia de cualquier lengua.

)Qué es un corpus lingüístico?
Un corpus lingüístico es un conjunto de datos lingüísticos (pertenecientes al uso oral o escrito de la lengua, o a ambos), sistematizados según determinados criterios, suficientemente extensos en amplitud y profundidad de manera que sean representativos del total del uso lingüístico o de alguno de sus ámbitos y dispuestos de tal modo que puedan ser procesados mediante ordenador con el fin de obtener resultados varios y útiles para la descripción y el análisis.

Un corpus lingüístico no es, pues, un mero repertorio de textos, sino un repertorio de datos lingüísticos que pueden alcanzar extraordinaria variedad y amplitud, que se recopilan con fines de investigación y análisis y que precisan de la ayuda del ordenador para hacerlos accesibles al investigador en términos de practicidad y utilidad. Según esta definición, el tamaño por sí sólo no bastaría para constituir un corpus. Actualmente la edición electrónica de textos se ha extendido tanto en todos los ámbitos (no solamente en las editoriales e imprentas, sino también en las empresas y en el trabajo individual) que sería posible referirse a corpus con suma facilidad. El corpus, además del tamaño, debe estar adecuadamente sistematizado y ordenado en todos sus aspectos. Sin ese requisito sería imposible alcanzar un mínimo de representatividad respecto al ámbito de uso lingüístico que se tome como referencia. No ha de dejarse de lado un hecho fundamental: si el corpus se utiliza con fines analíticos y de investigación, debe ser susceptible de generalización en cuanto a los resultados que de él puedan obtenerse.

Quizás un somero contraste de lo que puede ofrecer el corpus frente al procedimiento habitual seguido en la elaboración de los diccionarios ilustrará mejor las novedades que aporta el corpus. Tomemos como ejemplo el diccionario de la RAE, modelo indiscutible en la lexicografía española. Este diccionario se ha ido elaborando sobre la base de un "corte horizontal" del uso lingüístico a través de la historia, especialmente centrado en el uso que de la lengua han hecho los autores reconocidos o de prestigio, fundamentalmente literatos. La gran diferencia respecto al corpus estriba en el hecho de que los usos anotados en el diccionario de la RAE no solamente se restringen a un género (el literario), sino que, además, pasan siempre por un segundo filtro interpretativo, el de los académicos, quienes actúan con un notable sesgo purista y, por lo general, conservador. Este hecho no resta autoridad al diccionario, pero sí disminuye el índice de representatividad respecto al uso. El corpus no se somete a ninguna de estas restricciones: la sistematización debe garantizar una razonable representatividad de todos los ámbitos de uso lingüístico y el analista debe atenerse a los significados reales que aparecen en las muestras, siempre dentro de su contexto natural.


Sobre la base del corpus se sustenta la lingüística del corpus, disciplina que empieza actualmente a cultivarse y que, sin lugar a duda, en un próximo futuro no solamente experimentará un notable auge, sino que se expandirá en distintas direcciones, como ocurrió con la Lingüística Aplicada en las dos últimas décadas. Es previsible que algunas subdisciplinas de la lingüística encontrarán en los corpus el mejor aliado para llegar a conclusiones fiables. Tal es el caso, entre otros, de la pragmática, de la sociolingüística y de la lexicografía; pero no menos relevante será la utilidad de la lingüística del corpus para la sintaxis, la morfología y la fonética, así como para la gramática en general. Y a partir de ahí, se reconocerá su validez en prácticamente todas las áreas de la lingüística aplicada.

La utilidad de un corpus no debe llevar a ilusiones vanas. Un corpus no es la panacea de la lingüística: es una valiosa ayuda y un instrumento de trabajo que pronto será imprescindible en los estudios lingüísticos. Tiene, sin embargo, limitaciones que conviene señalar de inmediato:




a. Un idioma, cualquiera que éste sea, es un sistema de comunicación siempre abierto a nuevas modalidades y a nuevas adquisiciones. En tal sentido las lenguas son "sistemas estructurados de comunicación que nunca están cerrados ni pueden ser considerados como tales". Definir un sistema lingüístico como cerrado equivale a "certificar su defunción", porque ello equivaldría a afirmar que tal sistema ya no está en uso o carece de sujetos que se valgan de él como medio de comunicación. Esa es en realidad la causa que posibilita definirlo como "cerrado". El corpus tiene una limitación temporal incuestionable. Hacia atrás, porque la lengua oral es ya inaccesible (a excepción del período en que las grabaciones magnéticas empezaron a llenar los archivos de emisoras de radio y televisión, aunque debe tenerse en cuenta que este tipo de archivos es también limitado a un tipo de lenguaje oral). Hacia adelante, porque es evidente que el presente en que se recopila marca el punto final de cualquier repertorio. Esa limitación temporal convierte al corpus en un conjunto de datos lingüísticos "encajonados por arriba y por abajo". Como tales, su vigencia está sujeta a los límites de supervivencia de las muestras recopiladas. En la medida en que la lengua cambia y evoluciona, en la medida en que incorporará nuevos elementos, en esa misma medida el corpus se irá distanciando de la realidad comunicativa del momento e irá perdiendo validez como instrumento representativo para el análisis o la investigación del presente.
b. )Existe algún diccionario que recoja todas las palabras de un idioma? La respuesta es, obviamente, negativa. Este es uno de los principales retos de cualquier obra lexicográfica y el origen de notables esfuerzos económicos y humanos por parte de un gran número de editoriales que pretenden mantenerse al día en la interminable carrera de la adecuación al uso lingüístico. A pesar de todo, hay que reconocer que los diccionarios cuentan ya en su haber con una trayectoria de siglos y suelen combinar y compaginar un buen trecho del pasado con el presente más inmediato. El corpus lingüístico puede incluir en sí el legado del pasado y acercarse todavía más que el diccionario al presente real. Pero es prácticamente imposible que recoja en un repertorio limitado -un repertorio ilimitado sería imposible- todas las palabras y todos los usos gramaticales que encierra un idioma. De la misma manera que no es posible que incluya todas las palabras, tampoco será posible que incluya todos los significados o acepciones de cada término. Un corpus no puede comprender el 100% del uso lingüístico.
c. También en el tema de la representatividad el corpus cuenta con limitaciones de importancia. La obra lexicográfica ni siquiera se plantea este problema: los diccionarios dan cuenta de las palabras y acepciones registradas por el lexicógrafo sin preocuparse de señalar la frecuencia de uso y a veces sin especificar si tal uso persiste o no en la actualidad y cómo. El corpus tiene precisamente como objetivo el suministro de información sobre el uso actual, de manera que el investigador o analista pueda emitir conclusiones al respecto. El corpus también informa sobre la frecuencia, aunque en términos relativos, ya que las conclusiones generales no pueden ser más que proyecciones a partir de datos limitados en el tiempo y en el espacio. En muchos casos sólo se certifica que una voz o una acepción aparece una vez o unas pocas veces, sin poder otorgar garantía más fiable sobre el uso real de tal voz o acepción en relación con el total de la lengua (que el mismo corpus no puede representar). En consecuencia, la fiabilidad de un corpus sobre la frecuencia debe entenderse también con limitaciones. Si el artículo "el" aparece 50.000 veces y la palabra "corporeidad" solamente una vez, el analista está autorizado a concluir que "el" aparece en este repertorio 50.000 veces más a menudo que "corporeidad". Es, por tanto, una conclusión en términos relativos, restringida al ámbito concreto del corpus y generalizable sólo en función del grado de representatividad de aquél. Adviértase, no obstante, que la relatividad de las conclusiones no debe inducir a restarles el valor y utilidad que les corresponde.


d. El análisis del corpus se sustenta de manera preponderante en los listados de frecuencias y en las concordancias o palabras en contexto. Ello es así porque el ordenador sólo es capaz de identificar letras o estructuras que previamente le han sido suministradas y definidas. Tanto las frecuencias como las concordancias se ofrecen de manera ordenada, pero el computador no diferencia, por ejemplo, entre corro (nombre) o corro (primera persona del verbo correr), si bien es cierto que el desarrollo de los analizadores morfológicos y sintácticos contribuirá en el futuro a resolver algunas de estas ambigüedades, especialmente si los elementos lingüísticos se ajustan a procedimientos generales formulados con antelación. De igual manera que no es capaz de asociar las diferentes flexiones verbales a la forma de infinitivo (a no ser que se le indique mediante subrutinas especiales). El investigador tiene que intervenir personalmente para detectar estas peculiaridades y reordenar estos datos. La elaboración de las concordancias puede adoptar variantes muy diversas y útiles.
e. No menos importante es tener en cuenta otra realidad: el corpus presenta una ingente cantidad de datos. Es la gran ventaja que le caracteriza. Sobre una forma muy usada, como puede ser el artículo, es posible que tengamos miles o decenas de miles de ejemplos de uso, según sea el tamaño del corpus. En tal caso es también evidente que la ventaja resulta un inconveniente de cara a la manejabilidad de los datos ofrecidos. Hablar de cifras en términos globales es ciertamente impresionante: un corpus de ocho millones de palabras generará unas concordancias de, aproximadamente, 200.000 páginas. Sólo las concordancias correspondientes a las voces de la letra A ocuparán cerca de 20.000 páginas. La consulta de tales muestras o su análisis implican, por tanto, la dedicación de muchas horas de trabajo, algo que probablemente está vedado al esfuerzo individual y requiere la colaboración y trabajo conjunto de un equipo.
h. Finalmente, el corpus lingüístico no debe equipararse al concepto de "norma". Sería equivocado interpretar la lingüística del corpus como "lingüística normativa". Ese paso, si se da, debe darse por otras razones que salen ya del ámbito a que se cicumscribe un corpus: éste no hace sino ofrecernos una muestra de cómo es y cómo se comporta la lengua en el uso que de ella hacen los hablantes nativos. Ahí acaba su función.
De esta enumeración de limitaciones no tiene por qué surgir una actitud pesimista, sino más bien realista: ser consciente de los problemas a que nos enfrentamos a la hora de trabajar con un corpus es la condición necesaria para no forjarnos ilusiones vanas. Además, el lado menos halagüeño de un corpus no tiene por qué ocultar la otra vertiente, la vertiente positiva.

Ya apunté anteriormente que el corpus ha nacido ligado al ordenador. Con la ayuda de éste último, es posible obtener y clasificar los datos de tal manera que resulten no solamente útiles (los datos lingüísticos serían útiles al lingüista en cualquier forma en que fuesen presentados), sino también accesibles de manera sistematizada y en abundancia. Mediante el cuenteo de frecuencias podemos saber con rapidez cuántas veces aparece una palabra o una estructura determinada (la que queramos, mediante definición previa que debe suministrarse al ordenador), cuál es el contexto anterior y posterior. Si elegimos el verbo depender podremos comprobar enseguida cuántas veces se utiliza sin preposición y cuántas con la preposición de. En general, el régimen preposicional de los verbos quedará ilustrado en suficientes instancias para que el analista pueda llegar a conclusiones realmente representativas de la realidad lingüística. De igual manera será fácil detectar las variantes de uso de voces o expresiones en lenguajes específicos, en estratos diferentes, en regiones diferentes, etc.: bastará una codificación adecuada y sencilla de los textos recopilados para que el investigador detecte con rapidez el ámbito de uso de cada voz o expresión. El desarrollo de los programas de ordenador, siempre a la zaga de los avances que estas máquinas han logrado en cuanto a la velocidad de proceso, irá ampliando notablemente las posibilidades de manipulación de los datos, de manera que éstos puedan presentarse al interesado de modo más accesible y con opciones más personalizadas, según los intereses del investigador. Pero ya en la actualidad un buen gestor informático puede lograr resultados finales altamente útiles y reveladores, además de los listados de frecuencia y concordancias a que se ha hecho referencia.

La tradición lexicográfica, sin duda la más afín al tema del corpus y a su primer aprovechamiento en la investigación, se ha caracterizado por la paciente recopilación de ejemplos tomados de fuentes escritas, antes eminentemente literarias, ahora más conectadas con la prensa diaria y periódica. En general, el recopilador recoge uno o dos párrafos, en los cuales se inserta la voz. A veces la extensión se reduce a una frase con sentido pleno, aunque ortográficamente quede incompleta. La cita así recopilada o bien es autoexplicativa en lo referido al significado de la voz subrayada o bien se acompaña de una explicación que el recopilador formula. Lo más interesante y menos frecuentemente comentado respecto a esta tradición manual es la razón que empuja a seleccionar o no una determinada voz. En efecto, el recopilador, que suele ser siempre también lector, siguiendo una regla subconsciente de la mente humana, tenderá a fijarse no en lo normal y habitual, sino más bien en lo nuevo, en lo exótico o en lo poco usual. Este proceder es extremadamente adecuado para detectar nuevas voces o nuevas acepciones. Y en esta "batalla" están inmersas casi todas las editoriales a la hora de informar o hacer publicidad sobre sus obras lexicográficas: se destaca el número de voces nuevas, la adecuación a los tiempos, la puesta al día de significados. Lo demás queda en un segundo plano. Sin embargo, se da la circunstancia de que "lo demás" es lo más substantivo, ya que lo nuevo constituye para el sistema lingüístico en su totalidad solamente una mínima parte, a veces una parte insignificante. El problema en este caso deriva de la selección realizada por el recopilador y de los condicionantes a que éste está sometido. En contraste con este proceder sesgado, el corpus no selecciona voces o acepciones sino que ofrece muestras, sin más, tal cual aparecen en los contextos de uso. Naturalmente, y se ha de especificar una vez más, la evidencia que aportan tales muestras será fiable sólo si el corpus en su conjunto es fiable, es decir, si es representativo de la realidad lingüística, lo cual exige un mínimo en tamaño y amplitud y una adecuada sistematización de los datos.




Se ha mencionado varias veces el término representatividad. El corpus no debe carecer de esta cualidad, ya que en tal caso no sería fiable para ser utilizado como objeto de análisis, tanto en lexicografía como en otras áreas de la lingüística. Los objetivos que se pretende conseguir requieren que el corpus sea representativo de la totalidad de la lengua usada y, por ende, no debe restringirse ni a una variedad geográfica, ni a un registro, ni a un estrato social, ni a un área específica (ciencia, literatura, periodismo, etc.). Puesto que es imposible reunir en un solo corpus toda la lengua, se hace imprescindible seleccionar lo que es típico y central en relación con cada región, con cada variedad, con cada estrato, con cada género y con cada área temática. A ese criterio responde la selección de muestras de lengua del corpus "Cumbre" (véase el Capítulo 2).
El lingüista que se enfrenta a un corpus puede tener la sensación de que se enfrenta a un mundo nuevo. Y, al menos en parte, esta sensación está justificada: el volumen de "evidencia" a que debe hacer frente es tal que puede desbordarle. En todo caso, lo cierto es que tiene ante sí un conjunto ordenado de muestras que hasta ahora no había sido accesible a nadie, no porque faltara voluntad para ello, sino porque se trataba de una empresa irrealizable sin la cooperación de las computadoras. Este ingente volumen de datos es una fuente de información cuya transcendencia probablemente todavía no apreciamos en su justa medida. Pero no cabe duda que la existencia de los corpus lingüísticos supondrá un hito decisivo en los estudios sobre las lenguas. Tampoco conviene olvidar la realidad y la fuerza de los hábitos. Hasta ahora era habitual inventar ejemplos para ilustrar un determinado punto de vista: la gramática "tradicional" es un buen punto de referencia, como también lo ha sido la teoría generativo-transformacional propiciada por Noam Chomsky. Tales ejemplos no son desechables "per se", ya que, en el último de los casos, son fruto de la "intuición" del hablante nativo y producto de su creatividad lingüística. Aunque tampoco hay que olvidar que dichos "productos" ( = oraciones) nacen para ilustrar algo ya existente (reglas, teorías ...), pero no surgen de la necesidad de utilizar la lengua como instrumento normal de comunicación. Hay una notable diferencia, por tanto, en las razones que dan origen a los ejemplos "expresamente inventados" por los lingüistas y los ejemplos ofrecidos por el corpus. A lo dicho se añade aún otra dimensión que debe tenerse en cuenta: el contexto. Los ejemplos creados "ad hoc" se caracterizan, entre otras cosas, por carecer de contexto extra-oracional. El corpus, por el contrario, ofrece al analista un contexto amplio, dentro del cual las palabras y las frases cobran su significado pleno. Es una importante ventaja no solamente en el campo de la lexicografía, sino también en el de la gramática en general.

Trabajar con los datos que aporta el corpus no es una tarea sencilla: tiene ventajas e inconvenientes, si bien estos últimos no afectan tanto a la calidad de lo ofrecido cuanto a la dificultad de acceder a todos ellos por parte del investigador, que es necesariamente un ser limitado, especialmente en cuanto al tiempo se refiere. Pero es preciso subrayar que quien empieza a trabajar con los datos de un corpus tarda muy poco en convencerse de la abundancia de la información que tiene ante sí, de la riqueza y variedad de esa información y de las insospechadas posibilidades que se abren ante él. Para aceptar lo que el corpus ofrece es necesaria una posición de relativa "humildad" y atreverse a aceptar algunos riesgos, especialmente cuando los datos pongan en evidencia ciertos planteamientos o creencias aceptados que no encuentren justificación en el corpus. Lo que no debería constituir ningún obstáculo ni generar "complejos" dentro de la lingüística del corpus es la renuencia a la innovación que cabe esperar por parte de algunos estudiosos. En ocasiones puede resultar más divertido viajar en carro que en avión. Pero el hecho no anula las ventajas del avión para trasladarse de un lugar a otro con mayor rapidez. La lingüística del corpus exige el trabajo conjunto de hombre y "máquina". El rechazo de la "máquina" en este caso equivaldría a preferir "el carro frente al avión".
  1   2   3   4   5   6   7   8   9


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal