La ingeniería lingüística en la sociedad de la información



Descargar 174.93 Kb.
Página3/5
Fecha de conversión29.04.2018
Tamaño174.93 Kb.
1   2   3   4   5

Para euskara se ha utilizado el enfoque reduccionista de la gramática de restricciones de Karlsson (Aduriz y otros 1999, Gojenola 2000, Arriola 2000). No conocemos de momento ninguna evaluación que permita comparar el rendimiento de estas estrategias.

6 Alineación

El proceso que más valor añade a un corpus multilingüe es la alineación. Alinear es hacer explícitas las relaciones de correspondencia entre segmentos de una y otra lengua. La alineación no depende obligatoriamente del resto de los procesos de etiquetado, aunque una segmentación básica previa será siempre necesaria. Según Martínez 1999, existen tres enfoques principales:



  1. Enfoque estadístico: método de alineación que aprovecha la similitud de algunos rasgos cuantitativos identificados en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991).

  2. Enfoque lingüístico: la alineación se basa en el emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993).

  3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).

Las técnicas probabilísticas que se basan en anotaciones sintácticas requieren textos etiquetados de antemano (Black y otros 1993). El Corpus Brown o el Penn Treebank (Marcos y Santorini 1991) pueden servir de modelo para el inglés. Para otras lenguas también se conocen corpora con etiquetas sintácticas: en turco (Skut y otros 1997), en checo (Hajic y Hladká 1998), en alemán (Oflazer y otros 1999). En euskara se han etiquetado sintácticamente 10.000 palabras (Ezeiza y otros 1998). Estos procesos son muy costosos, algunas métricas (Voutilainen 1997) han concluido que es necesario el trabajo de una persona entrenada durante un año para etiquetar sintácticamente un corpus de 200.000 palabras.

Martínez 1998 y 1999 obtiene muy buenos resultados sobre un corpus bilingüe en español y euskara (tabla 4) que no dispone de etiquetas sintácticas, aplicando técnicas que aprovechan las etiquetas estructurales introducidas en el proceso de segmentación monolingüe.




Foru Agindua

Orden Foral

Foru Agindua, 767/1994 zk., urriaren 24ko. Aipatutako Foru Aginduaren bidez hurrengo hau xedatu da:

Lurzoru batzuk dentsitate txikiko lurzoru urbanizagai gisa birsailkatzeko Zallako Udalerriko Planeamenduari buruzko Sorospidezko Arauen aldarazpena ukatzea.

Erabaki honen aurka, haren jakinarazpenetik zenbatu beharreko hilabete biko epearen barruan, administraziozko liskarrauzi-errekurtsoa jarri ahal izango da, Euskal Herriko Justizia Auzitegi Nagusiko Administraziozko Liskarrauzietarako Salan, komeniesten diren beste defentsabideak erabil daitezkeelako kalterik gabe. Adierazi den epearen barruan, BHI-015/94-P05-A espedientea Bilbaoko Gran Vía, 19-21eko 5gn. solairuan egongo da ageriko, azter dadin. Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. Pedro Hernández González.


Orden Foral número 767/1994 de 24 octubre. Mediante la Orden Foral de referencia se ha dispuesto lo siguiente:

Denegar la Modificación de las Normas Subsidiarias de Planeamiento del municipio de Zalla para la reclasificación de unos terrenos como Suelo Apto para Urbanizar de Baja Densidad.



Contra dicha Orden Foral podrá interponerse, en el plazo de dos meses desde su notificación, recurso contencioso-administrativo ante la Sala de lo Contencioso-Administrativo del Tribunal Superior de Justicia del País Vasco, sin perjuicio de la utilización de otros medios de defensa que estime conveniente. Durante el referido plazo el expediente BHI-015/94-P05-A, quedará de manifiesto para su examen en las dependencias situadas en Bilbao calle Alameda Rekalde, 30, 5.a y 6.a plantas. Bilbao, 24 de octubre de 1994.-El Diputado Foral de Urbanismo.- Pedro Hernández González.

Tabla 4. Muestra del corpus paralelo LEGEBIDUN/BOB

Como resultado de la segmentación monolingüe Martínez 1998, 1999 identifica y categoriza unidades textuales - nombres propios, fórmulas y términos (tabla 5)- sobre los que posteriormente aplica técnicas de alineación.
<rs type=organization>Euskal Herriko Justizia Auzitegi Nagusiko Administraziozko Liskarrauzietarako Salanrs>



<rs type=organization>Sala de lo Contencioso-Administrativo del Tribunal Superior de Justicia del País Vascors>

<rs type=law>Zallako Udalerriko Planeamenduari buruzko Sorospidezko Arauen aldarazpenars>

<rs type=law>Modificación de las Normas Subsidiarias de Planeamiento del municipio de Zalla rs>

<term>Lurzoru batzuk dentsitate txikiko lurzoru urbanizagai gisa birsailkatzekoterm>

<term>para la reclasificación de unos terrenos como Suelo Apto para Urbanizar de Baja Densidadterm>

<seg type=9>Erabaki honen aurka, haren jakinarazpenetik zenbatu beharreko hilabete biko epearen barruan, administraziozko liskarrauzi-errekurtsoa jarri ahal izango da, Euskal Herriko Justizia Auzitegi Nagusiko Administraziozko Liskarrauzietarako Salan, komeniesten diren beste defentsabideak erabil daitezkeelako kalterik gabe. Adierazi den epearen barruan, BHI-015/94-P05-A espedientea Bilbaoko Gran Vía, 19-21eko 5gn. solairuan egongo da ageriko, azter dadin. Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. Pedro Hernández González. seg>

<seg type=9>Contra dicha Orden Foral podrá interponerse, en el plazo de dos meses desde su notificación, recurso contencioso-administrativo ante la Sala de lo Contencioso-Administrativo del Tribunal Superior de Justicia del País Vasco, sin perjuicio de la utilización de otros medios de defensa que estime conveniente. Durante el referido plazo el expediente BHI-015/94-P05-A, quedará de manifiesto para su examen en las dependencias situadas en Bilbao calle Alameda Rekalde, 30, 5.a y 6.a plantas. Bilbao, 24 de octubre de 1994.-El Diputado Foral de Urbanismo.- Pedro Hernández González. seg>

Tabla 5. Segmentación en unidades de traducción.

Como consecuencia de los procesos de segmentación y alineación, el corpus se enriquece con etiquetas que hacen explícita las relaciones de correspondencia entre las dos versiones. Un corpus etiquetado y alineado en todos los niveles de análisis es un recurso lingüístico de extraordinario valor (Abaitua y otros 1998).
...
Foru agindu horrek amaiera eman dio administrazio bideari; eta beraren aurka Administrazioarekiko auzibide-errekurtsoa jarri ahal izango zaio Euskal Herriko Justizi Auzitegi Nagusiko Administrazioarekiko Auzibideetarako Salari , bi hilabeteko epean; jakinarazpen hau egiten den egunaren biharamunetik zenbatuko da epe hori; hala eta guztiz ere, egokiesten diren beste defentsabideak ere erabil litezke.

Epe hori amaitu arte BHI- 100/94 -P05-A espedientea agerian egongo da, nahi duenak azter dezan, Bilboko Errekalde zumarkaleko 30.eko bulegoetan, 5 > eta 6. solairuetan.
Hirigintzako foru diputatua . _ Pedro Hernández González .



...
Contra dicha Orden Foral , que agota la vía administrativa podrá interponerse recurso contencioso-administrativo ante la Sala de lo Contencioso-Administrativo del Tribunal Superior de Justicia del País Vasco , en el plazo de dos meses, contado desde el día siguiente a esta notificación sin perjuicio de la utilización de otros medios de defensa que estime oportunos.

Durante el referido plazo el expediente BHI- 100/94 - P05-A quedará de manifiesto para su exámen en las dependencias de Bilbao calle Alameda Rekalde , 30 , 5.a y 6.a plantas.
El Diputado Foral de Urbanismo . - Pedro Hernández González

Tabla 6. Muestra de sección del corpus alineada (Martínez 1999)
1   2   3   4   5


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal