La ingeniería lingüística en la sociedad de la información



Descargar 174.93 Kb.
Página4/5
Fecha de conversión29.04.2018
Tamaño174.93 Kb.
1   2   3   4   5

Durante la década de los noventa, la alineación de corpora ha sido una de las líneas de actuación más esperanzadoras de la ingeniería lingüística. Gale y Church 1991, Dagan y otros 1993, Macklovitch 1994, McEnery y Oakes 1996, Schmied y Schäffler 1996, o Melamed 1997, son otras referencias destacables.

7 Aplicaciones

A principios de la década de los noventa, los campos de la lexicografía y terminografía, así como la traducción automática protagonizaron la actividad en torno a los corpora multilingües. En la actualidad el interés se ha ampliado hacia otras áreas como la enseñanza de segundas lenguas o la didáctica de la traducción, herederas de experiencias muy anteriores (McEnery y Wilson 1996). Pero las dos aplicaciones que más atención reciben en estos momentos son la recuperación translingüística de información y la internacionalización de productos.



7.1 Enseñanza de segundas lenguas

Una aplicación tradicional de los corpora multilingües es la enseñanza de segundas lenguas. Como actividad más reciente destacamos el International Corpus of Learner English (ICLE) de la Universidad de Lovaina-la Neuve. Este corpus contiene una colección de composiciones cortas hechas por estudiantes de niveles altos de inglés de procedencia dispar: chinos, checos, holandeses, finlandeses, franceses, alemanes, japoneses, polacos, rusos, españoles y suecos. El objetivo de esta recopilación es comprobar la hipótesis del "modelo de lengua común" al que se llega en los niveles avanzados. Se ha comprobado, por ejemplo, que los alumnos abusan de ciertas palabras (verbos auxiliares, pronombres personales, algunas conjunciones, como and y but, los verbos get y think, algunas palabras de significado vago, como people, things, del cuantificador very) y que infrautilizan otras (como the, this, these, o by). También se ha estudiado la influencia de las respectivas lenguas maternas sobre el modelo de adquisición de la segunda lengua.

Cuando una palabra se infrautiliza a menudo indica que se produce un alerta inconsciente ante un problema de aprendizaje. Así en el corpus alemán, el verbo become se utiliza mucho menos que en los otros corpora, porque tiene un falso amigo en bekommen, palabra muy frecuente en alemán que tiene un significado muy distinto del inglés. Los estudiantes tienden a evitar palabras que perciben como potencialmente conflictivas y tienden a utilizar el léxico que les es más familiar. Esta actitud ha sido muy estudiada y se denomina "principio del oso de peluche", teddy bear principle.

7. 2 Didáctica de la traducción

Baker 1996 y 1997 ha defendido la utilidad de los corpora comparables para estudiar la traducción, sobre todo en su aplicación a la enseñanza. Han comprobado que factores extralingüísticos, como el sexo del traductor, su edad, la lengua de origen, etc. influyen en las traducciones. Atendiendo a la propuesta de Toury 1995, el grupo de Baker (Laviosa 1997 y 1998, Sardinha 1997) pretende descubrir las "leyes probabilísticas y condicionales del comportamiento traduccional" (laws of translational behaviour), a partir de los datos de un extenso corpus comparable de textos originales y traducciones.

Con fines análogos se han realizado estudios contrastivos entre el inglés y el sueco (Johansson. 1996), así como entre el inglés y el noruego (Johansson y Ebeling 1996), o el inglés y el polaco (Piotrowska 1997). Otro corpus diseñado para servir de modelo en la didáctica de la traducción es el Corpus LSP, del Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra (Vivaldi 1996, Bach y otros 1997).

7. 3 Lexicografía y terminografía

Los lexicógrafos siempre han recurrido a grandes colecciones de textos para desarrollar su trabajo de creación y actualización de diccionarios. Este trabajo ha sido tradicionalmente lento y laborioso. Por ello se ha recibido con júbilo la disponibilidad de corpora en formato electrónico, así como las técnicas y herramientas que hacen posible su procesamiento (Pérez Hernández y otros 1999). La Real Academia de la Lengua ha comenzado a basar sus trabajos lexicográficos en los corpora CORDE y CREA (Sánchez-León 1999). Pero, además de la RAE, varias editoras de diccionarios de español también disponen de corpora: Vox Bibliograf posee uno de 10 millones de palabras, la editorial SGEL uno de 8 (corpus CUMBRE, Sánchez y Cantos 1997) y SM otro de 60.000 palabras (Pérez Hernández y otros 1999). En Cataluña , el Institut d'Estudis Catalans, así como TERMCAT e IULA; en el País Vasco Euskaltzaindia y UZEI; en Galicia la Academia de la Lengua y el Centro de Investigacións Ramón Piñeiro (Magán 1996), realizan labores de lexicografía y terminografía sobre la base de datos obtenidos de corpora.

Si los corpora monolingües contribuyen sustancialmente en el desarrollo de diccionarios monolingües, no menos útiles son los corpora multilingües (Álvarez 1999). Numerosos autores han contribuido en los últimos años a la creación y enriquecimiento de diccionarios y tesauros bilingües aprovechando los datos disponibles en corpora: Gale y Church 1991; Daille y otros 1994; Catizone y otros 1993; Kumano y Hirakawa 1994; Klavans y Tzoukermann 1995, Langlois 1996. Aplicando similares técnicas a textos de especialidad ha sido posible extraer glosarios terminológicos, o identificar términos compuestos y construcciones colocacionales: Eijk 1993; Kupiec 1993; Dagan y Church 1994; Samajda y otros 1996; Resnik y Melamed 1997.

Por otro lado, los trabajos de Briscoe y Carroll 1997, o Lapta 1999, han abierto nuevas vías de investigación en la lexicografía computacional al haber ensayado la extracción automática de patrones de subcategorización verbal a partir de corpora. Arriola 2000 ha realizado un experimento similar para euskara.



7. 4 Traducción automática

La disponibilidad del Hansard Corpus en formato electrónico despertó el interés de los investigadores del Watson Centre de la IBM (Brown y otros 1990) que lo aprovecharon para ensayar métodos alternativos de traducción automática. Los métodos basados en reglas (conocidos por el acrónimo inglés RBMT, Rule-based Machine Translation) habían llegado a finales de los ochenta a un punto de estancamiento y la comunidad investigadora comenzaba a buscar nuevos enfoques. Es el retorno de los métodos empíricos que ya habían sido probados en los albores de la disciplina (Weaver 1949) . El cambio de enfoque en los noventa se ve favorecido por el drástico abaratamiento de los microprocesadores y las unidades de almacenamiento. Con ello comienzan a proliferar las colecciones de textos en formato electrónico y su disponibilidad favorecida por Internet es una invitación a probar los métodos probabilísticos y conexionistas, que tan buenos resultados habían dado ya en el tratamiento de corpora orales. El número de sistemas diseñados se multiplica (Catizone y otros 1993, Kay y Röscheisen 1993; Vogel y otros 1996, Wu 1996 y Tillmann y otros 1997) de forma que puede decirse que el paradigma de la traducción por reglas ha perdido numerosos adeptos en beneficio de la traducción por analogías, ABMT, Analogy-based Machine Translation (Jones 1992).

Nagao 1984 ya había anticipado este cambio con su propuesta de traducción basada en ejemplos (EBMT, Example-based Machine Translation), técnica que ha tenido gran eco en la comunidad científica. Sadler 1989 se sirvió de un corpus alineado para crear una base de ejemplos bilingües, utilizada luego como recurso de traducción automática. Tsuji y otros 1991 y Sumita e Iida 1991 aplican enfoques híbridos. La traducción basada en ejemplos ha tenido su mayor aplicación en una tecnología conocida como "memoria de traducción" (MBMT, Memory-based Machine Translation). Consiste en el almacenamiento de traducciones realizadas manualmente y validadas por el traductor, de forma que puedan ser reutilizadas posteriormente para textos similares que se reconocen mediante umbrales de similitud basados generalmente en lógica difusa. Esta tecnología ha sido llevada al mercado con un considerable éxito: Déjà-Vu (ATRIL), Translator's Workbench (TRADOS), Transit (STAR), SDLX, son algunas de las herramientas de mayor difusión.

7. 5 Edición plurilingüe

Un enfoque alternativo a la traducción automática es la generación de textos multilingües (Kittredge 1989, Hartley y Paris 1997). Movidos por el éxito de los sistemas de escritura asistida por ordenador (Gómez Guinovart 1999, Gojenola y Oronoz 2000), varios proyectos han probado a simultanear los procesos de composición y traducción. Esta técnica ha resultado muy adecuada para textos cuyo esquema se ciñe a un guión preestablecido y recurrente. A partir de una muestra representativa de partes meteorológicos en varios idiomas, Chevreau y otros 1999 han desarrollado MultiMétéo, un sistema que permite generar automáticamente partes multilingües. Otro sistema de este tipo es TREE, que genera ofertas de empleo multilingües (Somers 1992). En nuestro entorno más cercano se debe reseñar GIST, proyecto europeo para la generación plurilingüe de textos instructivos (Lavid 1995 y 1996), así como LEGEBIDUN ( Abaitua y otros 1997, Casillas y otros 1999, 2000). A partir de un corpus paralelo alineado de documentos administrativos en euskara y castellano, Casillas 2000 ha diseñado un generador de nuevos documentos bilingües.



7. 6 Internacionalización de productos

Pero el sector de mayor crecimiento es la internacionalización de productos. Desde hace poco más de un lustro, la edición en CD-ROM, la producción de páginas web y, sobre todo, la industria de software han hecho que el enfoque de la traducción cambie radicalmente. La necesidad de actualizar cíclicamente los productos y su distribución en los mercados internacionales obliga a las empresas a realizar importantes esfuerzos para satisfacer las exigencias lingüísticas y culturales de esos mercados. Microsoft, por ejemplo, adapta a más de 25 idiomas sus principales productos, y tiene muy buenos motivos para hacerlo así. Según datos publicados por la propia empresa (Brooks 2000), más de la mitad de sus ingresos proceden del comercio exterior (unos 5.000 millones de dólares).

La adaptación de un programa de software no es un mero problema de traducción. Hay muchos factores que deben estar previstos en la propia fase de diseño. Además de traducir los títulos, los mensajes, las ayudas on-line, o los menús que interactúan con el usuario, para adaptar un programa de sofware hay que resolver otros aspectos que son difíciles de notar a simple vista. El cambio de alfabeto es una fuente obvia de dificultades, pero los problemas más delicados son los que tienen que ver con el código del programa. La traducción de las llamadas a función de los menús, por ejemplo, puede afectar al tamaño de los registros, o al código de las instrucciones que los ejecutan. Los enlaces de Internet y el tratamiento de cifras y fechas también deberán ser adaptados. Si el programa además dispone de herramientas de tratamiento propiamente lingüístico - relacionadas con los formatos, la corrección ortográfica, gramatical o de estilo, los diccionarios y glosarios- el proceso se complicará considerablemente.

La adaptación lingüística y cultural de software se conoce como "localización" (calco directo del término anglosajón localisation) y forma parte de lo que en el contexto empresarial se relaciona con la "internacionalización" de un producto. Es una actividad que está en expansión y que ha generado un importante nicho de mercado. Si se menciona aquí es porque la tecnología que se utiliza en la localización está relacionada con la lingüística de corpus. En el sector aeronáutico, por ejemplo, la documentación de cualquier producto es muy voluminosa y se distribuye en formato electrónico, generalmente en CD-ROM. Estos manuales y libros de referencia, cuando se traducen, se convierten en genuinos corpora bilingües. Para su traducción y actualización se utilizan los gestores de memorias de traducción.



7. 7 Búsquedas translingüísticas

Las redes internacionales y la difusión de bases documentales hace cada vez más relevante la cuestión del acceso y recuperación multilingüe de la información. Los proyectos de digitalización de bibliotecas que se iniciaron primero en países de habla inglesa, se han extendido ya a todas las regiones del mundo. Tanto Asia como Europa están experimentando un rápido desarrollo de infraestructuras para la distribución de sus fondos documentales, lo que significa que materiales en multitud de idiomas han comenzado a ser accesibles por red.

Unido al crecimiento de bibliotecas digitales monolingües en distintos idiomas, existen también bibliotecas multilingües en países con más de una lengua nacional, o en países donde el inglés es la lengua usada para la documentación técnica o científica, en instituciones paneuropeas o en empresas transnacionales. Todo esto ha despertado la conciencia de que deben diseñarse herramientas con capacidad translingüística para la recuperación y extracción de información. Es una de las áreas de investigación de la ingeniería lingüística que ha experimentado mayor crecimiento y en apenas unos años han proliferado los foros, reuniones internacionales y publicaciones sobre este tema. Algunas referencias obligadas son: Oard y Dorr 1996, Sheridan y Ballerini 1996, Picchi y Peters 1996, Gilarranza, Gonzalo y Verdejo 1997, Kando y Aizawa 1998, Grefenstette 1998, o Pazienza 1999; sobre bibliotecas digitales, Peters y Picchi 1997; sobre técnicas de categorización de documentos, Yang 1998.

8 Internet multilingüe

Internet se ha convertido en el principal campo de aplicación de las técnicas de tratamiento de corpora multilingües. Pese a un acusado desequilibrio inicial favorable al inglés, la tendencia actual es hacia la corrección de la balanza lingüística. En la medida en que la situación se vaya normalizando, aumentará la información en idiomas distintos del inglés, como cabe prever de la comparación del porcentaje de páginas web con el de publicaciones o traducciones en formato tradicional (Lockwood 1998). En la actualidad la proporción de páginas web en inglés casi triplica al de publicaciones en papel. Para otras lenguas con presencia internacional, sólo el japonés mantiene una relación equitativa entre lo que se publica en web y en papel. La desproporción es acusada para el resto, y particularmente grave en el caso del chino.



Unión Latina (UL) publicó en 1998 una encuesta basada en consultas para 57 palabras (del tipo "ambigüedad" o "rodilla") entre los principales buscadores de Internet. En 1999 se publicó una segunda encuesta realizada por Pedro Maestre para el Instituto Cervantes (IC), sobre los 180 millones de páginas indizadas en Altavista Magallanes. Los resultados de ambas encuestas se parecen y dan unas tasas de presencia similares. El español ocupa en ambos casos el quinto lugar, con 2,6 millones de páginas según el cálculo de Maestre, de las que más de la tercera parte corresponden a España. Se sitúa muy cerca del francés, pero bastante por debajo del japonés y el alemán. El inglés exhibe una supremacía absoluta, con índices entre el 70 y el 75%. La ubicuidad de la red y la condición del inglés como lingua franca son los dos factores a los que se atribuye esta desproporción. Un dato ilustrativo de la encuesta de Masetre es la significativa presencia de lenguas pequeñas como el neerlandés. Su presencia cuantitativa, en número de páginas, es equiparable a la del chino, con una tasa de páginas por habitante que resulta ser 657,18 veces más alta que la tasa de páginas en chino. (Los datos de la última columna de la tabla 7 corresponden a la proporción de páginas por cada 1.000 habitantes en los países de origen - España, Francia etc.- y se han extraído de la encuesta de Maestre, salvo las cifras entre paréntises, que se han calculado sobre el total de hablantes, y no sobre el de habitantes).
lenguas



en las que se publica

a las que se traduce

páginas web (UL)

páginas web (IC)

pág./hab.

inglés

28%

5%

75%

70,05%

(81,51)

chino

13%

0,5%

-

0,71%

0,86

alemán

12%

17%

4,02%

3,34%

51,77

francés

8%

6%

2,81%

1,96%

23,26

español

7%

16%

2,53%

1,51%

22,94

japonés

5%

5%

-

5,01%

(69,96)

ruso

5%

3%

-

-




portugués

5%

0%

0,82%

0,73%

(7,51)

neerlandés

2%

7%

-

0,71%

56,85

otras

15%

41%

14,82%

15.98%







100%

100%

100%

100%




Tabla 7. Comparativa de presencia internacional de las principales lenguas

No disponemos de datos sobre la presencia de páginas bilingües o multilingües en la red, aunque hay claros indicios de su rápido crecimiento. Una parte importante de las publicaciones en Internet proviene de los medios de comunicación, de las empresas transnacionales y de las instituciones internacionales. Todos ellos se afanan para que sus presencia en la red supere las barreras lingüísticas. Por ello, pese a la supremacía de los textos monolingües, la red se ha convertido también en un vasto corpus multilingüe que crece exponencialmente. Esto ha disparado la demanda de tecnologías con capacidad de procesamiento multilingüe: buscadores inteligentes, sistemas de indización y catalogación, extractores de información, gestores de conocimientos, generadores de textos, generadores de resúmenes, etc. La lingüística de corpus y las técnicas de alineación tienen el campo abonado en Internet.

9 Referencias

Joseba Abaitua, Arantza Casillas, Raquel Martínez. 1997. Segmentación de corpus paralelos para memorias de traducción. Procesamiento del Lenguaje Natural 21:17-30.

Joseba Abaitua, Arantza Casillas, Raquel Martínez. 1997. Tratamiento de textos administrativos bilingües: el proyecto LEGEBIDUN. Philologia Hispalensis 11-2:115-130.

Joseba Abaitua, Arantza Casillas, Raquel Martínez. 1998. Value added tagging for multilingual resource management. Proceedings of the 1st International Conference on Language Resources and Evaluation. Granada: 1003-1007.

Itziar Aduriz, Izaskun Aldezabal, Iñaki Alegría, Nerea Ezeiza, Ruben Urizar. 1996. Del analizador morfológico al etiquetador/lematizador: unidades léxicas complejas y desambiguación. Procesamiento del Lenguaje Natural.

Itziar Aduriz, Jose Maria Arriola, Xabier Artola, Arantza Díaz de Ilarraza, Koldo Gojenola, A. Maritxalar. 1997. Morphosyntactic disambiguation for Basque based on the Constraint Grammar formalism. Recent Advances in Natural Language Processing (RANLP'97).

Itziar Aduriz, Eneko Agirre, Izaskun Aldezabal, Iñaki Alegría, Jose Maria Arriola, Xabier Artola, Koldo Gojenola, A. Maritxalar, Kepa Sarasola, Miriam Urkia. 2000. A word-grammar based morphological analyzer for agglutinative languages. Proceedings of the 18th International Conference on Computational Linguistics (COLING'2000). Saarbrücken.

Salah Aït-Mokhtar y José Lázaro Rodrigo Mateos. 1995. Segmentación y análisis morfológico de textos en español utilizando el sistema SMORPH. Procesamiento del Lenguaje Natural 17: 29-41.

Iñaki Alegria. 1995. Euskal morfologiaren tratamendu automatirako tresnak. Tesis doctoral. Universidad del País Vasco.

Alberto Álvarez Lugrís. 1999. Técnicas de representación en la lexicografía plurilingüe. Revista española de lingüística aplicada. Volumen monográfico: 215-245.

Jose Maria Arriola. 2000. Euskal Hiztegia-ren azterketa eta egituratzea ezagutza lexikalaren eskurateze automatikoari begira.Tesis doctoral. Universidad del País Vasco.

S. Atkins, J. Clear, N. Ostler. 1992. Corpus design criteria. Literary and Linguistic Computing 7-1: 1-16.

Jordi Atserias, Irene Castellón, M. Civit. 1998. Syntactic parsing of unrestricted Spanish text. Proceedings of the 1st International Conference on Language Resources and Evaluation. Granada.

Carme Bach, Roser Saurí, Jordi Vivaldi, M. Teresa Cabré. 1997. El Corpus de l'IULA. IULA/INF017/97 Universitat Pompeu Fabra.

Toni Badía. 1997. CATMORF: multi two-level steps for Catalan morphology. Applied Natural Language Processing (ANLP'97). Washington.

Mona Baker. 1996. Corpus-based translation studies: the challenges that lie ahead. Harold Somers (comp.) Terminology, LSP and translation: studies in language engineering in honour of Juan C. Sager. John Benjamins.

Mona Baker. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4-2: 1-18.

Núria Bel, J. Marimón y J. Porta. 1996. Etiquetado morfosintáctico de corpus en el proyecto MULTEXT. Actas del XXVI Simposio de la Sociedad Española de Lingüística. Madrid.

Douglas Biber y Edward Finegan. 1986. An initial typology of English text types. Jan Aarts y Willen Meijs (comp.) Corpus Linguistics II: New Studies in the Analysis and Exploitation of Computer Corpora. Rodopi: 19-46.

D. Birdsong. 1989. Metalinguistic performance and interlinguistic competence. Sringer-Verlag.

P.F. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. L. Mercer y P. Roosin. 1990. A statistical approach to machine translation. Computational Linguistics 16-2.

1   2   3   4   5


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal