La ingeniería lingüística en la sociedad de la información



Descargar 174.93 Kb.
Página1/5
Fecha de conversión29.04.2018
Tamaño174.93 Kb.
  1   2   3   4   5


[Ponencia originalmente leída en el seminario "La ingeniería lingüística en la sociedad de la información", Fundación Duques de Soria. Soria, 17-21 de julio de 2000. Posteriormente publicada en M. A. Martí y J. Llisterri.2002. Tratamiento del lenguaje natural. Edicions Universitat de Barcelona: 61-90]

Tratamiento de corpora bilingües

Joseba Abaitua


www.deli.deusto.es
Universidad de Deusto

Resumen

Los corpora bilingües son una fuente inagotable de recursos lingüísticos útiles para el desarrollo de aplicaciones como la lexicografía, la terminografía, la traducción automática, la enseñanza de segundas lenguas, la edición plurilingüe y la búsqueda translingüística de información. El avance de la tecnología de tratamiento de corpora de lengua escrita ha coincidido con el desarrollo de la tecnología web en Internet. Esta coincidencia ha propiciado una confluencia de estrategias en los dos campos, lo que se ha traducido en un interés común hacia los mecanismos de codificación y anotación, así como hacia la explotación de los contenidos. El plurilingüismo de Internet y los corpora multilingües son el tema principal de esta ponencia.



0 Introducción

En la edición navideña de 1998 de Language International 10-6, en lo que era equivalente a una carta a los Reyes Magos, Eduard Hovy, presidente de la Association for Machine Translation in the Americas (AMTA), pedía dos cosas: un gusano que recorriera Internet recogiendo los vocablos nuevos que fueran surgiendo, tanto en su versión original como en sus traducciones; y un reconocedor de géneros y de "tipos" de texto. Con ello, estaba señalando dos de los problemas más acuciantes de la tecnología del lenguaje, la diversidad lingüística y la dispersión documental, y además anticipaba cuál iba a ser su principal campo de aplicación, Internet.

Una de las líneas de trabajo más productivas en el contexto actual de la ingeniería lingüística es el tratamiento de corpora multilingües. La importancia de esta línea de trabajo está refrendada precisamente por el papel que ha adquirido Internet como vehículo de comunicación y depósito de información a escala planetaria. La red se ha convertido en el primer destinatario de aplicaciones lingüísticas, a la vez que en la más importante fuente de recursos. Es por ello que muchos estudiosos del lenguaje contemplan Internet como un inmenso corpus de información lingüística.

El primer apartado de la ponencia está dedicado a la lingüística de corpus, que es el área de la lingüística especializada en el aprovechamiento de los corpora. El segundo apartado presentará los corpora bilingües y multilingües, con sus características y variedades, y las razones por las que se cotizan al alza (utilizaremos indistintamente los términos "multilingüe" y "plurilingüe"). El tercer apartado aborda las técnicas de tratamiento. El cuarto expone los tipos de anotaciones. El quinto y sexto se dedican a las tareas de segmentación y de alineación. De las aplicaciones se habla en el séptimo y por último se aportan algunos datos que ilustrarán la importancia del plurilingüismo en Internet.



1 La lingüística de corpus

Como paso previo a la discusión sobre los corpora multilingües, en este apartado se va a reseñar brevemente el enfoque metodológico de la lingüística de corpus. Las obras de McEnery y Wilson 1996, o Pérez Guerra 1998 son dos introducciones muy recomendables para el lector que desee ampliar los datos aquí presentados.

Los primeros estudios basados en corpus se remontan a los años del estructuralismo prechomskyano, que consideraba el acopio de datos una tarea esencial del análisis lingüístico. Suele citarse la gramática de Fries 1952 como ejemplo pionero de aprovechamiento de datos extraídos de textos reales, con un adelanto de más de treinta años sobre la obra A comprehensive grammar of the English language (de Quirk y otros, 1985). Pero la revolución del generativismo, a finales de los cincuenta, hizo que objetivos y metodologías del estructuralismo se cuestionaran. Chomsky identificó las limitaciones del corpus para explicar el carácter productivo del lenguaje y propició un cambio radical en la forma de estudiar la gramática. La lingüística abandonó los métodos empiristas basados en la observación de los datos, para promover la prospección introspectiva. Durante las décadas de los sesenta y setenta, la escuela generativa ha protagonizado la escena lingüística, desplazando los trabajos de la lingüística de corpus a un segundo plano.

Sin embargo, a finales de los ochenta algunos teóricos comenzaron a alzar la voz alertando de las limitaciones de los modelos racionalistas. Birdsong 1989, por ejemplo, cuestionó las deficiencias de algunos análisis gramaticales basados únicamente en intuiciones, a menudo imprecisas y mal contrastadas, que no consideraban los datos empíricos observados en textos reales. Pero es sobre todo en áreas aplicadas, como la lingüística computacional, donde, pese al éxito en el desarrollo de modelos formales útiles para tratar computacionalmente muchos aspectos del lenguaje, comienzan a notarse las limitaciones del enfoque racionalista.

Los formalismos gramaticales de los ochenta (FUG, LFG, HPSG, etc.) basan su potencial en información de tipo simbólico, y carecen de capacidad para expresar datos relacionados con la frecuencia o la probabilidad. Pese a algunos intentos para combinar ambos tipos de información, los resultados han tenido poca difusión fuera del laboratorio. Entre tanto la industria necesita aplicaciones para textos reales, y eso requiere el desarrollo de gramáticas muy complejas. La enorme cantidad de variantes oracionales y sintagmáticas del lenguaje escrito es un escollo que complica esta tarea. Muchos sistemas acaban acumulando un número excesivo de reglas, lo que irremediablemente conduce a la redundancia, a la explosión combinatoria (de opciones alternativas - con devastadores efectos sobre la resolución de ambigüedades-), así como a la aparición de inconsistencias y contradicciones. Otra fuente de preocupación ha sido el reducido tamaño de los diccionarios en la mayoría de los sistemas desarrollados y la baja cobertura de texto real que ello implica.

Movidos por estas inquietudes, desde mediados de los ochenta distintos colectivos han decidido recopilar y preparar para su aplicación colecciones de corpora. Con ellos se pretende conocer mejor la realidad de los textos que se van a tratar. Merecen ser destacadas las siguientes iniciativas:



  • en EEUU

  • Association for Computational Linguistics/Data Collection Initiative (ACL/DCI)

  • Linguistic Data Consortium (LDC)

  • Consortium for Lexical Research (CLR)

  • en Europa

  • European Language Resources Association (ELRA)

La utilidad de los corpora depende de los criterios que se aplican en el momento de selección y compilación de los textos. Varios autores (Atkins y otros 1992, Biber 1993, o McEnery y Wilson 1996) subrayan la influencia que estos criterios van a tener sobre el corpus resultante. Los corpora pueden ser de tipos muy variados. Una primera clasificación depende de la propia naturaleza física de los datos. Marcos Marín 1994 distingue tres clases:

  • Corpus oral: contiene sonidos, material fonético sin transliteración que sirve sobre todo para trabajos específicos de síntesis y reconocimiento de habla.

  • Corpus de lengua hablada: contiene transliteraciones de textos grabados del registro oral.

  • Corpus de lengua escrita: contiene textos pertenecientes a todas las modalidades de lengua escrita, incluyendo la comercial, publicitaria, escolar y literaria.

Cada una de estas clases cumple funciones distintas y requiere por ello de tecnologías muy diferentes para su aprovechamiento. Aquí vamos a abordar la problemática de los corpora multilingües en la variedad de lengua escrita, que es la más habitual.

Otro criterio de clasificación tiene que ver con el género y la tipología textual. Este criterio afecta fundamentalmente a las propiedades de representatividad del corpus. Los criterios de selección serán muy diferentes según se pretenda diseñar un corpus especializado, como el Aarhus Corpus - sobre derecho contractual europeo -, o se desee crear un corpus de referencia, con una cobertura amplia de estilos y registros. Por definición, los corpora de referencia abarcan, de la manera más exhaustiva posible, todos los aspectos relevantes sobre una lengua. Es el caso notorio del British National Corpus (BNC), que sobrepasa los 100 millones de palabras (90% de lengua escrita y 10% de lengua hablada).

Es fácil confundir nociones como "dominio de especialidad", "campo temático", "categoría textual" o "género". Todas tienen que ver con grupos textuales que el compilador de un corpus debe considerar. Biber y Finegan 1986 y también Nakamura 1991 aplican la noción de género para distinguir los textos por su función pragmática: novela, artículo periodístico, ensayo, etc., es decir, atendiendo a factores extralingüísticos. La noción de "tipo" de texto la emplean para distinguir los textos según las propiedades lingüísticas relacionadas con aspectos cuantitativos: longitud de oraciones, utilización de perífrasis verbales, densidad léxica, uso de conectores, etc. Laviosa 1998, por ejemplo, ha encontrado diferencias cuantitativas importantes entre textos traducidos y originales en un corpus de inglés.

La tabla 1 muestra los criterios recomendados para el diseño del corpus de referencia del español, según la información proporcionada por Marcos Marín 1999 (y se comparan con los resultados del subcorpus elaborado en Argentina).


Porcentaje recomendado en %



Género

C. argentino %




10-15

Científico

16,11




8-12

Comercial

3,25




15-20

Escolar

9,20




5-6

Humanístico

21,66




5-6

Jurídico

6,30




5-10

Literario

9,09




20-25

Periodístico

28,00




5-6

Publicitario

-




10-15

Técnico

6,79




nº de palabras del corpus argentino: 2.008.969




Tabla 1 Porcentaje de textos según géneros para corpus de referencia

De los corpora de lengua española, destacan los de la Real Academia de la Lengua (RAE), ocupada desde 1995 en compilar y anotar un corpus de carácter histórico y otro de referencia del español actual:

  1. El Corpus Diacrónico del Español (CORDE) contiene textos de tres épocas fundamentales, Edad Media, Siglos de Oro y Época Contemporánea, y pretende ser representativo del español a lo largo de su historia.

  2. El Corpus de Referencia del Español Actual (CREA) cubre veinticinco años desde 1975 hasta 1999.

Cada corpus contiene 125 millones de palabras, e intenta representar todos los territorios de habla hispana, tanto peninsulares como extrapeninsulares. A estos dos proyectos hay que sumar lógicamente algunos más.

Varias editoriales disponen también de corpora de español: Vox Bibliograf posee uno de 10 millones de palabras, la editorial SGEL otro de 8 millones (denominado CUMBRE, Sánchez y Cantos 1997) y la editorial SM otro de 60.000 palabras (Pérez Hernández y otros 1999). En Cataluña , el Institut d'Estudis Catalans, así como TERMCAT y l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra (Bach y otros 1997) han compilado corpora del catalán; en el País Vasco Euskaltzaindia y UZEI, así como las universidades del País Vasco y Deusto, disponen de distintas colecciones en euskara; y en Galicia la Academia de la Lengua, ayudada por el Centro de Investigacións Ramón Piñeiro (Magán 1996), está estudiando el etiquetado de su propios recursos textuales. El principal objetivo de todos estos esfuerzos es su aplicación en el campo de la lexicografía y terminografía. A partir de ahora vamos a centrarnos en los corpora multilingües.



2 Tipos de corpora multilingües

Con la rara excepción de Eaton 1940, la mayor parte de los corpora que se han recopilado en el mundo hasta fechas recientes han sido monolingües. Sin embargo, la apreciación de los corpora multilingües aumenta cada día, debido sobre todo a la riqueza de información y posibilidades de aprovechamiento que aportan. Es importante distinguir entre dos tipos:



  • Corpora de textos en distintos idiomas. Colecciones de textos en varios idiomas recopiladas con la intención de servir para estudios cuantitativos o estadísticos. Los criterios de selección pueden ser muy diversos, desde la simple disponibilidad de los textos, hasta la selección según géneros y tipos similares (pero sin llegar a ser comparables). Un ejemplo es el Multilingual Corpus de la European Corpus Initiative (D. McKelvie y H.S. Thompson, 1994).

  • Corpora comparables: Baker 1995 introdujo este término para corpora monolingües compuestos por textos originales en una lengua y traducciones de otros textos semejantes en la misma lengua. Martínez 1999 amplía el término a corpora multilingües que contienen textos en distintos idiomas, que sin ser traducciones, comparten similar origen, temática, extensión y número: partes meteorológicos, ofertas laborales, artículos periodísticos, etc. Es decir, que los textos no se reúnen de manera arbitraria, sino que se escogen de acuerdo con unos criterios de selección comunes (Hallebeek 1999). Es el caso del Corpus Aarhus, compuesto por textos de derecho contractual en danés, francés e inglés; o también la colección bilingüe de textos chinos e ingleses que Fung 1995 utiliza para generar diccionarios bilingües.

  • Corpora paralelos: se aplica a corpora que contienen la misma colección de textos en más de una lengua, es decir, cuando a las versiones originales les acompañan sus traducciones. El caso óptimo de paralelismo se produce cuando las traducciones son un reflejo simétrico de la versión original. El caso más conocido es el Hansard Corpus, que son actas del parlamento canadiense publicadas en francés e inglés.

Existen otras consideraciones relacionadas con la traducción que se deben considerar. Las traducciones pueden responder a tipologías muy distintas. Así, por ejemplo, los textos del China News Service, que Xu y Tau 1999 alinearon como base de un sistema de traducción asistida, o los resúmenes en inglés y japonés del National Center for Sience Information Systems (NACSIS), que Kando y Aizawa 1998 utilizaron para probar la recuperación translingüística de información, tienen muy poco que ver con las actas en francés e inglés del Hansard. Tampoco es comparable una traducción de una novela de Julio Verne o Ken Follett con las traducciones que los autores hacen de su obra (como las traducciones al castellano que Pere Guinferrer hace de sus poemas en catalán, o la traducción al castellano que Bernardo Atxaga hizo de su colección de relatos Obabakoak). Existen más de veinte versiones españolas de Romeo y Julieta, cada una con su rasgos y particularidades.

Para valorar adecuadamente los factores que afectan a la categorización de un corpus bilingüe, es pertinente considerar aspectos que han sido estudiados en traductología y que están relacionados con conceptos como status, función, o las distintas dimensiones de equivalencia. Sager 1993 ha introducido la noción de "status" para describir la dependencia del texto traducido respecto al original. Propone tres tipos:



  • Tipo A: cuando los textos traducidos son autónomos y sustituyen a los originales en la lengua de llegada, pudiendo incluso desempeñar una función distinta. Es el caso más normal: traducciones de novelas de autores como Agatha Chirstie, Tom Clancy o Stephen King.

  • Tipo B: cuando las traducciones complementan al texto original, coexistiendo en el tiempo y en el espacio con él. El mejor ejemplo son las ediciones bilingües de obras literarias.

  • Tipo C: cuando las traducciones intentan reflejar de manera simétrica el texto original y mantienen la misma función. Además de los típicos documentos institucionales bilingües o multilingües, como las actas del Hansard, se considerarían de este tipo las llamadas "traducciones canónicas", como la traducción inglesa de la Biblia del Rey Jacobo, el Hamlet de Moratín, o la versión inglesa del Guzmán de Alfarache realizada por James Mabbe en 1662 (Rabadán 1994).

Otro aspecto importante es la "función" del texto traducido. Según Rabadán 1994, la función la determina la intencionalidad comunicativa del traductor, quien puede actuar movido por alguno de los siguientes objetivos:

  1. Presentar un contenido temático, un argumento, una historia, un relato (es la función más común, como en las novelas policíacas de Dashiel Hammet o Raymond Chandler).

  2. Presentar el estilo y el punto de vista del autor original (adaptaciones de Borges de la poesía anglosajona, las traducciones de Ezra Pound de los clásicos griegos y latinos).

  3. Introducir elementos culturales o tecnológicos nuevos en la sociedad destinataria de la traducción (traducciones técnicas, traducciones de obras de culturas "exóticas").

  4. Introducir nuevas formas literarias y textuales en la lengua de llegada (traducciones de sonetos italianos de Boscán y Garcilaso, la traducción de la Biblia de Lutero en 1534, que supuso la normalización del Hochdentch como forma estándar del alemán).

  5. Facilitar la comprensión del texto original por medio de la traducción (obras bilingües de poesía).

  6. Recrear la obra original en un texto nativo nuevo (el Teatro Nuevo Español de 1800, la versión de Edward Fitzgerald del Rubáiyat de Omar Kayyan).

  7. Difundir o reforzar una ideología literaria, filosófica, política o religiosa (la versión de Macbeth de Michel Garneau en 1978, que sirvió para crear un modelo de teatro nacional québécois y legitimar las aspiraciones de independencia de este estado francófono de Canadá).

Otro factor clave en la traducción es el valor de equivalencia. Nord 1994 propone tres dimensiones de equivalencia:

  • Pragmática: Cuando el original y su traducción comparten la misma función, el mismo efecto comunicativo y van dirigidos al mismo grupo de receptores.

  • Estilística: Cuando la traducción intenta reflejar la forma y belleza del original.

  • Semántica: Cuando el texto traducido transmite el mismo mensaje o tiene el mismo significado que el original.

Según el tipo de traducción, tendrá más sentido considerar una dimensión u otra de equivalencia. Así, en la traducción de Obabakoak de Bernardo Atxaga, tiene prioridad la equivalencia estilística frente a la semántica. Por contra, en un documento jurídico bilingüe o multilingüe, como es la Constitución española, o cualquier otra normativa europea, la correspondencia semántica deberá ser fiel, casi literal, respecto al original.

3 Tratamiento de corpora multilingües

A los niveles típicos de procesamiento monolingüe (análisis morfológico, lematización, desambiguación, análisis sintáctico) se añade en los corpora multilingües un tipo de tratamiento particular mediante el que se establecen las equivalencias entre las unidades de textuales. Esta fase recibe distintos nombres: emparejamiento, correspondencia, alineación (el más utilizado). La alineación es el proceso que mayor valor añadido aporta a un corpus multilingüe.

La forma más común de marcar los resultados del procesamiento es mediante etiquetas (tags), códigos (codes) o anotaciones (annotations) -estos tres términos suelen utilizarse de manera indistinta. Las anotaciones suponen un mecanismo importante en el tratamiento de los corpora y, salvo para algunos estudios cuantitativos, resultan prácticamente imprescindibles.

3. 1 Estudios cuantitativos

Los corpora monolingües se han utilizado durante años como fuente de datos cuantitativos con aplicación en la lexicografía (generación de lexicones, comprobación de frecuencias, estudio de colocaciones, concordancias, etc.), en filología (verificación de la autoría de una obra, descripción del estilo, etc.), además de en otras disciplinas cercanas: lingüística cuantitativa, lingüística diacrónica, dialectología, psicolingüística, psicología social, sociolingüística, etc. (McEnery y Wilson 1996).

Podemos ilustrar brevemente la utilidad de los datos cuantitativos con algunos resultados obtenidos por Laviosa 1998. Se trata de una comparación de textos originales y traducciones, que pretendía identificar los hábitos de escritura de los traductores. El estudio se realizó sobre un corpus comparable en inglés, compuesto de textos periodísticos y prosa narrativa con un tamaño de unos 2 millones de palabras, de los cuales la mitad eran textos originales y la otra mitad traducciones. Los datos cuantitativos mostraron que en las traducciones había una proporción menor de palabras léxicas frente a funcionales, con independencia de cuál hubiera sido la lengua de la que se había traducido. Asimismo se observaba que las 108 palabras más frecuentes, o lista nuclear (list head), se repetían más a menudo, que las palabras menos frecuentes variaban menos y que el tamaño medio de las oraciones era menor en las traducciones. El estudio también indicaba un uso distinto de los auxiliares. En conjunto, las traducciones mostraban un densidad léxica (Stubbs 1996) menor, es decir, una proporción de palabras funcionales muy alta en relación al total. En definitiva, los resultados de Laviosa concluían que es posible distinguir entre traducciones y originales a partir únicamente de datos cuantitativos.

Con todo, los estudios cuantitativos son más productivos si se realizan sobre corpora anotados. Algunos datos cuantitativos - como la longitud media de las oraciones- requieren un proceso previo de segmentación/anotación. La oración como unidad ortográfica contenida entre dos signos de punto es un concepto que se apoya en las convenciones de la escritura, que pueden variar de una lengua a otra. En árabe por ejemplo los signos de punto se utilizan para distinguir párrafos, mientras que las oraciones se representan coordinadas mediante conjunciones. Las convenciones de escritura presentan dificultades de reconocimiento también para lenguas occidentales, como el inglés o el español, cuyas normas más simples son también ambiguas. El signo de punto, por ejemplo, no sólo señala el límite de la oración, sino que se utiliza también en acrónimos, cifras, iniciales, nomenclaturas, etc. Por ello las anotaciones resultan en la práctica imprescindibles para el aprovechamiento adecuado de los corpora.


  1   2   3   4   5


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal