Redes neuronales con conexiones hacia adelante



Descargar 209.69 Kb.
Página1/4
Fecha de conversión18.12.2018
Tamaño209.69 Kb.
  1   2   3   4
REDES NEURONALES CON CONEXIONES

HACIA ADELANTE

En este capítulo examinaremos un grupo de redes neuronales que tienen una arquitectura similar. Este es el grupo de las redes con conexione hacia adelante, las cuales se caracterizan por arquitecturas en niveles y conexiones estrictamente hacia adelante entre las neuronas. Estas redes son todas buenas clasificadores de patrones y utilizan aprendizaje supervisado

Este grupo incluye el Perceptron. Las redes ADALINE y MADALINE y la red Back - Propagation. El Perceptron y las redes ADALINE y MADALINE tienen un importante interés histórico y han abierto el camino para el desarrollo de otras redes neuronales. Por otro lado, la red Back - Propagation es probablemente una de las más utilizadas hoy en día.


  1. EL PERCEPTRON

Este fue el primer modelo de red neuronal artificial desarrollado por Rosenblatt en 1958 [Rosenblatt 581. Despertó un enorme interés en los años 60. Debido a su capacidad para aprender a reconocer patrones sencillos: un Perceptron. Formado por varias neuronas lineales para recibir las entradas a la red y una neurona de salida, es capaz de decidir cuándo una entrada presentada a la red pertenece a una de las dos clases que es capaz de reconocer.

La única neurona de salida del Perceptron realiza la suma ponderada de las entradas. Resta el umbral y pasa el resultado a una función de trasferencia de tipo escalón. La regla de decisión es responder +1 si el patrón presentado pertenece a la clase A. o -1 si el patrón a la clase B (Fig. 4.1.). La salida dependerá de la entrada neta (suma de las entradas x ponderadas) y del valor umbral 0.


Una técnica utilizada para analizar el comportamiento de redes como el Perceptron es representar en un mapa las regiones de decisión creadas en el espacio multidimensional de entradas a la red. En estas regiones se visualiza qué patrones pertenecen a una clase y cuáles a otra. El Perceptron separa las regiones por un hiperplano cuya ecuación queda determinada por los pesos de las conexiones y el valor umbral de la función de activación de la neurona. En este caso, los valores de los pesos pueden fijarse o adaptarse utilizando diferentes algoritmos de entrenamiento de la red.
Sin embargo el Perceptron al constar sólo de una capa de entrada y otra de salida con una única neurona, tiene una capacidad de representación bastante limitada. Este modelo sólo es capaz de discriminar patrones muy sencillos linealmente separables. El caso más conocido es la imposibilidad del Perceptron de representar la función OR-EXCLUSIVA.
La separabilidad lineal limita a las redes con sólo dos capas a la resolución de problemas en los cuáles el conjunto de puntos (correspondientes a los valores de entradas sean separables geométricamente. En el caso de dos entradas, la separación se lleva a cabo mediante una línea recta. Para tres entradas la separación se realiza mediante un piano en el espacio tridimensional, y así sucesivamente hasta el caso de N entradas, en e! cuál el espacio N-dimensional es dividido en un hiperplano.



    1. Regla de aprendizaje del Perceptron

El algoritmo de aprendizaje del Perceptron es de tipo supervisado, la cual requiere que sus resultados sean evaluados y se realicen las oportunas modificaciones del sistema si fuera necesario. Los valores de los pesos pueden determinar, como se ha dicho, el funcionamiento de la red: estos valores se pueden fijar o adaptar utilizando diferentes algoritmos de entrenamiento de la red. El algoritmo original de convergencia del Perceptron fue desarrollado por Rosenblatt y lo veremos más adelante. Se pueden usar Perceptrones como máquinas universales de aprendizaje. Desgraciadamente, no puede aprender a realizar todo tipo de clasificaciones: en realidad, sólo se pueden aprender clasificaciones fáciles, (problemas de orden 1 en la terminología de Minsky y Papert (Minsky 69). Esa limitación se debe a que un Perceptron usa un separador lineal como célula de decisión, con lo cual no es posible realizar sino una sola separación lineal (por medio de un hiperplano.)
Como ejemplo de funcionamiento de una red neuronal de tipo Perceptron, veamos cómo resolver el problema de l función OR. Para está función, la red debe ser capaz de devolver, a partir de los cuatro patrones de entrada, a que clase pertenece cada uno. Es decir, para el patrón de entrada 00 debe devolver la clase 0 y para los restantes la clase O. Para este caso, las entradas serán dos valores binarios. La salida que produce sin tener en cuenta el valor umbral, es la siguiente:
Donde:
X1, X2 son las entradas a la neurona (en las neuronas de la capa de entrada, la salida es igual a su entrada)
W1, W2 son los pesos entre las neuronas de la capa de entrada y la de la capa de salida.
f: Función de salida o transferencia (la función de activación es la función identidad).
Si W1, W2 + W1, W2 , es mayor que 0, la salida será 1, y en caso contrario, será –1 (función de salida en escalón). Como puede observarse, el sumatorio que se le pasa como parámetro (entrada total) a la función f (función de salida o transferencia) es la expresión matemática de una recta, donde W1, W2 son sanables y x1 y x2 son las constantes. En la etapa de aprendizaje se irán variando los valores de los pesos obteniendo distintas rectas.
Lo que se pretende al modificar los pesos de las conexiones es encontrar una recta que divida el plano en dos espacios de la dos clases de valores de entrada. Concretamente, para la función OR se deben separar los valores 01. lO y 11 del valor 00. En este caso, al no existir término independiente en la ecuación porque el umbral 0 es cero, las posibles rectas pasarán por el origen de coordenadas, por lo que la entrada 00 quedará sobre la propia recta.
Si se pretende resolver el problema de la función AND de la misma manera, se llega a la conclusión de que es imposible si el umbral es cero. ya que no existe ninguna recta que pase por el origen de coordenadas y que separe los valores 00. 01 y 10 de entrada del valor II. por lo que es necesario introducir un término independiente para poder realizar esta tarea.
Para ello. como se dijo en el capítulo 2 se considera una entrada de valor fijo 1 a través de una conexión con peso w0 que representa el umbral (W0 = 0) y cuyo valor deberá ser ajustado durante la etapa de aprendizaje. Así el parámetro que se le pasa a la función de transferencia de la neurona queda:

donde w es el termino independiente que permitirá desplazar la recta del origen de coordenadas. Si aplicamos est solución para el caso de la red que calcula la función OR., aumentamos el número de soluciones, ya que, además de las rectas sin término independiente (W = 0) que dan solución al problema, existirán otras con término independiente que también lo harán.


En el proceso de entrenamiento, el Perceptron se expone a un conjunto de patrones de entradas, y los pesos de la red son ajustados de forma que al final del entrenamiento se obtengan las salidas esperadas para cada uno de esos patrones de entrada.
A continuación seremos el algoritmo de convergencia de ajuste de pesos para realizar el aprendizaje de un Perceptron (aprendizaje por corrección de error) con N elementos procesales de entrada y un único elemento procesal de salida.


  1. inicialización de los pesos y del umbral

Inicialmente se asignan salares aleatorios a cada uno de los pesos (w) de las conexiones y al umbral (-W = 0).


  1. Presentación de un nuevo para (Entrada, Salida esperada)

Presentar un nuevo patrón de entrada X = (x, x .... x) junto con la salida esperada d (t).




  1. Cálculo de la salida actual

Siendo f (x) la función de transferencia escalón




  1. Adaptación de los pesos

Donde d (t) representa la salida deseada, y será 1 si el patrón pertenece a la clase A, y –1 si es de la clase B. En estas ecuaciones, a es un factor de ganancia en el rango 0.0 a 1.0. Este factor debe ser ajustado de forma que satisfaga tanto los requerimientos de aprendizaje rápido como a estabilidad de las estimaciones de los pesos (en el ejemplo de la operación OR, se considera (x=1). Este proceso se repite hasta que el error que se produce para cada uno de los patrones (diferencia entre el valor de salida deseado y obtenido) es cero o bien menor que un valor preestablecido. Obsérvese que los pesos no se cambian si la red ha tomado la decisión correcta.




  1. Volver al paso 2.

Este algoritmo es extensible al caso de múltiples neuronas en la capa de salida. El Perceptron será capaz de aprender a clasificar todas sus entradas, en un número finito de pasos, siempre y cuando el conjunto de los patrones d entrada sea linealmente separable. En tal caso, puede demostrarse que el aprendizaje de la red se realiza en un número finito de pasos.
A continuación se muestra el ajuste de los pesos de las conexiones de una red que debe realizar la función OR utilizando el método expuesto. En ejemplo, se va a utilizar un umbral distinto de cero mediante la conocida conexión con entrada a l para aumentar el número de posibles soluciones del problema


  1. Sean inicialmente los valores elegidos aleatoriamente:

W = 1.5

W = 0.5


W = 1.5


  1. Se van tomando uno a uno los cuatro patrones de entrada y se aplica el método explicado.

b.1. Se toma el patrón de entrada 00

Entradas:

Pesos:


Net:

Salida que produce:

Salida que debe dar (deseada)

Error que se comete:

Pesos modificados:

Podemos realizar los mismos cálculos tomando una colocación en forma matricial:


Entrada Peso = net Salida = f (net)

Error = (Deseada - Obtenida) = -1

Pesos (1 +1) = Pesos (t) + Error . Entrada

Nuevos pesos

b.2.) Se toma el patrón de entrada 01

Entradas:

Pesos:

Net:


Salida que produce:

Salida que debe dar (deseada)

Error que se comete:

Pesos modificados:


b.3.) Puede comprobarse que para las entradas 10 y 11 la salida obtenida es igual que la deseada, por lo que no se varían los pesos. En el caso de que no fuese así, se aplicaría el mismo método que se ha aplicado antes.
Existe un patrón de entrada, 00 para la cual el error cometido no es cero, por tanto, se realiza de nuevo a partir del punto b.


  1. Se toman de nuevo los cuatro patrones de entrada:

c.1.) Se toma de nuevo el patrón de entrada (X)

Entradas:

Pesos:

Net:


Salida que produce:

Salida que debe dar (deseada)

Error que se comete:

Pesos modificados:

En forma matricial

Entrada . pesos = net Salida = f (net)


Error = (deseada – obtenida = 0.1 = 1)

c.2.) Se toma el patrón de entrada 01

Entradas:

Pesos:

Net:


Salida que produce:

Salida que debe dar (deseada)

Error que se comete:

Pesos modificados:

c.3.) Puede comprobarse que para el resto de las entradas 10 y 11 los pesos no varías
sigue habiendo una entrada cuyo error ha sido diferente de cero


  1. Se toman de nuevo los cuatro patrones de entrada

d.1.) Patrón (X)

Entradas:

Pesos:


Net:

Salida que produce:

Salida que debe dar (deseada)

Error que se comete:

Pesos modificados:

d.2.) Si no han variado los pesos, entonces para el resto de las entradas el error cometido es cero (ver apartado c.2 y c.3.)




    1. SOLUCION AL PROBLEMA DE LA SEPARABILIDAD LINEAL

El ejemplo expuesto de ajuste de pesos de una red para solucionar el problema de la función OR no es aplicable, corno se dijo anteriormente, a otro problema no trivial, corno es la función OR-EXCLUSIVA (XOR). En el caso de esta función se pretende que para los valores de entrada 00 y II se devuelva al clase 0. y para los patrones 01 y 10. la clase 1. Como puede comprobarse en la figura 4.3. el problema radica en que no existe ninguna recta que separe los patrones de una clase de los de la otra.


La solución podría darse si descompusiéramos el espacio en tres regiones: una región pertenecería a una de las clases de salida y las otras dos pertenecerían a la segunda clase. Si en lugar de utilizar únicamente una neurona de salida se utilizaran dos, se obtendrían dos rectas, por lo que podían delimitarse tres zonas. Para poder elegir entre una zona u otra de las tres, es necesario utilizar otra capa con una neurona cuyas entradas serán las salidas de las neuronas, anteriores. Las dos zonas o regiones que contienen los puntos (0,0) y (1,1) se asocian a una salida nula de la red, y la zona central se asocia a la salida con valor 1. De esta manera, es posible encontrar una solución al problema de la función XOR.

Por tanto, se ha de utilizar una red de tres neuronas distribuidas en dos capas, para solucionar el problema de la función XOR, como ejemplo , el lector puede comprobar que se obtienen los resultados mostrados en la figura 4.4. Tomando los siguientes valores:


Aplicando la expresión obtenida anteriormente para cada neurona.

Hay que indicar que para el caso de la XOR e tienen que ajustar seis pesos (sin incluir las conexiones que representan los umbrales). En el caso de los pesos de las conexiones de la capa de salida ( ) el ajuste de los pesos se realiza de forma idéntica a la estudiada anteriormente, pues conocemos la salida deseada. Sin embargo, no se tiene porqué conocer cuál debe ser la salida deseada de las células de la capa oculta, por lo que el método utilizado en la función OR no es aplicable en la función XOR. La solución para el aprendizaje en este tipo de redes, donde existen niveles ocultos, se estudia en los siguientes aparatos.




  1. EL PERCEPTRON MULTINIVEL

Un Perceptron multinivel o multicapa es una red de tipo Feed forward compuesta de varias capas de neuronas entre la entrada y la salida de la misma. Esta red permite establecer regiones de decisión mucho más complejas que las de dos semiplanos, como hacia el Perceptron de un solo nivel.

Las capacidades del Perceptron con dos, tres y cuatro niveles o capas y con una única neurona en le nivel de salida, se muestra en la figura 4.6. en la segunda columna se muestra el tipo de región de decisión que se puede formar con cada una de las configuraciones. En la siguiente columna se indica el tipo de región de decisión que se formaría para el problema de la XOR. En las dos últimas columnas se muestran las regiones formadas para resolver el problema de clases con regiones mezcladas y las formas de regiones más generales para cada uno de los casos.


El Perceptron básico de dos capas la de entrada con neuronas lineales y la de salida con función de activación de tipo escalón) sólo puede establecer dos regiones separadas por una frontera lineal en el espacio de patrones de entrada. Un Perceptron con tres niveles de neuronas puede formar cualquier región convexa en este espacio. Las regiones convexas se forman mediante la intersección entre las regiones formadas por cada neurona de la segunda capa. Cada uno de estos elementos se comporta como un Perceptron simple activándose su salida para los patones de un lado del hiperplano. Si el valor de los pesos de las conexiones entre las N neuronas de la segunda capa y una neurona del nivel de salida son todos I y el umbral de la de salida es (N - a) donde 0 < a < 1, entonces la salida de la red se activará sólo si las salidas de todos los nodos de la segunda capa están activos sólo si las salidas de todos los modos de la segunda capa están activos. Esto equivale a ejecutar la operación lógica AND en el modo de salida, resultando una región división intersección de todos los semiplanos formados en el nivel anterior. La región de decisión resultante de la intersección serán regiones convexas con un número de lados a lo sumo igual al número de neuronas de la segunda capa.
Este análisis nos introduce en el problema de la selección del número de neuronas ocultas de un Perceptron de tres capas. En general, este numero deberá ser lo suficientemente grande como para que se forme una región lo suficientemente compleja para la resolución del problema. Sin embargo. tampoco es conveniente que el número de nodos sea tan grande que la estimación de los pesos no sea fiable para el conjunto de patrones de entrada disponibles.
Un Perceptron con cuatro capas puede formar regiones de decisión arbitrariamente complejas. El proceso de separación en clases que se lleva a cabo Consiste en la partición de la región deseada en pequeños hipercubos (cuadrados para dos entradas de la red. Cada hipercubo requiere 2N neuronas en la segunda capa (siendo N el número de entradas a la red), una por cada lado del hipercubo. y otra en la 3’ capa. que lleva a cabo el AND lógico de las salidas de los nodos del nivel anterior. Las salidas de los nudos de este tercer nivel se activarán sólo para las entradas de cada hipercubo. Los hipercubos se asignan a la región de decisión adecuada mediante la conexión de la salida de cada nodo del tercer nivel sólo con la neurona de salida (cuarta capa) correspondiente a

la región de decisión en la que está comprendido el hipercubo. llevándose a cabo una operación lógica OR en cada nodo de salida. La operación lógica OR se llevará a cabo sólo si el valor de los pesos de las conexiones de los nodos del tercer nivel vale uno, y además el valor de los umbrales de los nodos de salida es 0.5. Este procedimiento se puede generalizar de manera que la forma de las regiones convexas sea arbitraria, en lugar de hipercubos.


En análisis anterior demuestra que no se requieren más de cuatro capas en una red de tipo Perceptron, pues, como se ha visto una red con cuatro niveles, puede generar regiones de decisión arbitrariamente compleja. Sólo en ciertos problemas se puede simplificar el aprendizaje mediante el aumento del número de neuronas ocultas. Sin embargo la tendencia es el aumento de la extensión de la función de activación, en lugar del aumento de la complejidad de la red. Esto de nuevo nos lleva al problema del número de neuronas que debemos seleccionar para Perceptron con cuatro capas.
El número de nodos de la 3° capa (N ) debe ser mayor que uno cuando las regiones de decisión están desconectadas o endentadas y no se pueden formar con una región convexa. Este número, en el peor de los casos, es igual al número de regiones desconectadas en las distribuciones de entrada. El número de neuronas en lar capa (N,) normalmente debe ser suficiente para proveer tres o más ángulos por cada área convexa generada por cada neurona de la 3° capa. Así, deberá de haber más de tres veces el número de neuronas de la 3° capa (N.>3N). En la práctica, un número de neuronas excesivo en cualquier capa puede generar ruido. Por Otro lado, si existe un número d neuronas redundantes se obtiene mayor tolerancia a fallos.


  1. LAS REDES ADALINE Y MADALINE

Las redes ADALINE (Adaptive Linear Elernent) y MADALINE (Múltiple ADALINE) fueron desarrolladas por Bernie Widrow [Widrosv 60] en la Universidad de Stanford poco después de que Rosenblatt desarrollara el Perceptron. Las arquitecturas de ADALINE > MADALINE son esencialmente las mismas que las del Perceptron. Ambas estructuras usan neuronas con funciones de transferencia escalón. La red ADALINE está limitada a una única neurona de salida, mientras que MADALINE puede tener varias. La diferencia fundamental respecto al Perceptron se refiere al mecanismo de aprendizaje.? ADALINE y MADALINE utilizan la denominada regla Delta de Hidrow – Hoff o regla del mínimo error cuadrado medio (LMS). basada en la búsqueda del mínimo de una expresión del error entre la salida deseada y la salida lineal; obtenida antes de aplicarle la función de activación escalón (frente a la salida binaria utilizada en el caso del Perceptron). Debido a esta nueva forma de evaluar el error, estas redes pueden procesar información analógica. tanto de entrada como de salida, utilizando una función de activación lineal o sigmoidal
En cuanto a la estructura de la red ADALINE. que es casi idéntica a la del Perceptron elemental, sus autores la consideran formada por un elemento denominado combinador adaptativo lineal (ALC), que obtiene una salida lineal (s) que puede ser aplicada a otro elemento de conmutación bipolar, de forma que si la salida del ALC es positiva, la salida de la red ADALINE es +1: si la salida del ALC es negativa, entonces la salida de la red ADALINE es —l (Figura 4.7.).


El ALC realiza el cálculo de la suma ponderada de las entradas

Como en el caso del Perceptron. el umbral de la función de transferencia se presenta a través de una conexión flicticia de peso Si tenemos en cuenta que para esta entrada se toma el valor de x = 1. se puede escribir la anterior ecuación de la forma:



Esta es la salida lineal que genera el ALC. La salida binar’ correspondiente de la red ADALINE es. por tanto:



La red ADALINE se puede utilizar para generar una salida analógica utilizando un conmutador sigmoidal, en lugar de binario; en tal caso, la salida y se obtendrá aplicando una función de tipo sigmoidal, como la tangente hiperbólica ( ) o la exponencial ( )




    1. APRENDIZAJE DE LA RED ADALINE

Las redes ADALINE y MADALINE utilizan un aprendizaje 0FF LINE con supervisión denominado LMS (Least Mean Squared) o regla del mínimo error cuadrado medio. También se conoce como regla delta porque trata de minimizar una delta o diferencia entre el valor observado y el deseado en la salida de la red: como ocurre con el Perceptron sólo que ahora la salida considerada es el valor presto a la aplicación de la función de acusación de la neurona o. si se prefiere, la salida obtenida al aplicar una función de activación lineal.
La regla de aprendizaje de mínimos cuadrados (Least Mean Square) es un método para hallar el vector de pesos W deseado, el cuál deberá ser único y asociar con éxito cada vector del conjunto de vectores o patrones de entrada (X X X .... X) con su Correspondiente valor de salida correcto ( o deseado d k = 1 .... L Nótese que el problema de hallar un conjunto de pesos W que para un único vector de entrada X de lugar a un valor de salida correcto resulta sencillo, lo que no ocurre cuando se dispone de un conjunto de vectores de entrada, cada uno con su propio valor de salida asociado. El entrenamiento de la red consiste en adaptar los pesos a medidas que se vayan presentado las patrones de entrenamiento y salidas deseadas para cada uno de ellos. Para cada combinación entrada – salida se realiza un proceso automático de pequeños ajustes en los valores de los pesos hasta que se obtienen las salidas correctas.
La primera cuestión que debemos resolver es la de definir qué significa obtener el mejor vector de pesos obtenido a partir unas parejas de valores ejemplo (X d) de forma que, una vez encontrado, desearemos que el aplicar todos los vectores de entrada se obtenga como resultado el valor de salida correcto. Como vimos en apartados anteriores, se trata de eliminar o por lo menos minimizar la diferencia entre salida deseada y salida real para todos los vectores de entrada.
Concretamente, la regla de aprendizaje LMS mínima el error cuadrado medio definido como:

Donde L es el número de vectores de entrada (patrones) que forman el conjunto de entrenamiento y la diferencia entre la salida deseada y la obtenida cuando se introduce el patrón ésimo, que en el caos de la red ADALINE, se expresa como = siendo s la salida del ALC es decir.



La función de error es una función matemática defienda en el espacio de pesos multidimensional para un conjunto de patrones dados. Es una superficie que tendrá muchos mínimos (global y locales) y la regla de aprendizaje va a buscar el punto en le espacio de pesos donde se encuentra el mínimo global de esta superficie. Aunque la superficie de error es desconocida, el método de gradiente decreciente consigue obtener información local de dicha superficie a través del gradiente. Con esta información se decide que dirección tomar para llegar hasta el mínimo global de dicha superficie.


Basándose en el método del gradiente decreciente, se obtiene una regla (regla delta o regla LMS) para modificar los pesos de tal manera que hallamos un nuevo punto en le espacio de pesos más próximos al punto mínimo. Es decir las modificaciones en los pesos son proporcionales al gradiente decreciente de la función error = . por tanto, se deriva la función error con respecto los pesos para ver cómo varía el error con el cambio de los pesos.
Aplicamos la regla de la cadena para el cálculo de dicha derivada:

Se calcula la primera derivada



Por tanto, queda:



Teniendo en cuenta que s es la salida lineal:



Calculamos la segunda derivada de la expresión de




Así pues, el valor del gradiente del error producido por un patrón dado (k)

Las modificaciones en los pesos son proporcionales al gradiente descendente de la función error





Siendo la constante de proporcionalidad o tasa de aprendizaje.

En notación matricial, quedaría:




Estas expresión representa la modificación de pesos obtenida al aplicar el algoritmo LMS y es parecida a la obtenida anteriormente para el caso del Perceptron es el parámetro que determina la estabilidad y la velocidad de convergencia del vector de pesos hacia el valor de error mínimo. Los cambios en dicho vector deben hacerse relativamente pequeños en cada iteración, sino podría ocurrir que no se encuentra se nunca un mínimo, o se encontrase sólo por accidente, en lugar de ser el resultado de una convergencia sostenida hacia él.
La diferencia entre esta expresión y la del Perceptron está el en valor del error , que en el caso del Perceptron se refería a la diferencia entre el valor deseado y la salida binaria, y no la salida lineal s, de la red ADALINE, en la figura 4.8. se representa gráficamente el mecanismo de aprendizaje de ambas redes.
Aunque a simple vista no parece que exista gran diferencia entre ambos tipos de mecanismos de aprendizaje, el caso de la red ADALINE mejora al del Perceptron, ya que va a ser más sencillo alcanzar el mínimo de error, facilitando la convergencia del proceso de entrenamiento. Esto se demuestra a través de la forma de función de error cuadrado medio que en le caso de calcularse a partir de la salida lineal tiene una forma semejante a la indicada en la figura 4.9. mientras que en el caso de utilizar la salida binaria (Perceptron) existe una gran cantidad de mínimos locales (Fig. 4.9 (b)

Existe una situación intermedia que consistiría en utilizar lo que se conoce como salida sigmoidal, en lugar de la salida lineal de ADALINE o la binaria del Perceptron. En tal caso, la función de activación sería de tipo sigmoidal (Figura 4.10 (a)) y la superficie de error tendrá la forma indicada en la figura 4.10 (b), con un gran mínimo global (como en le caso de ADALINE) y varios mínimos locales (aunque en menor medida que el Perceptron).



La aplicación del proceso iterativo de aprendizaje (algoritmo de aprendizaje de una red ADALINE) consta de los siguientes pasos:




  1. Se aplica un vector o patrón de entrada X en las entradas del ADALINE

  2. Se obtiene la salida linea

Diferencia con respecto a la deseada




  1. Se actualizan los pesos



  1. Se repiten los pasos del 1 al 3 con todos los vectores de entrada (L)

  2. Si el error cuadrado medio:

Es un valor reducido aceptable, termina el proceso de aprendizaje; sino, se repite otra vez desde el paso 1 con todos los patrones
Cuando se utiliza una red ADALINE para resolver un problema concreto, es necesario determinar una serie de aspectos prácticos. como el número de vectores de entrenamiento necesarios, hallar ¡a forma de generar la salida deseada para cada vector de entrenamiento, o la dimensión óptima del vector de pesos, o cuáles deberían ser los valores iniciales de los pesos, así como si es necesario o no un valor umbral O, o cuál debe ser el valor de a, o cuándo se debe finalizar el entrenamiento, etc. En general. la solución de estas Cuestiones depende del problema concreto que se pretenda resolver, por lo que no se pueden dar respuestas genéricas concretas.
Respecto al número de componentes del vector de pesos, si el número de entradas está bien definido, entonces habrá un peso por cada entrada. con la opción de añadir o no un peso para la entrada del umbral. Incluir este término puede ayudar a la convergencia de los pesos proporcionando un grado de libertad adicional.
La solución es diferente cuando sólo se dispone de una señal de entrada. En estos casos, la aplicación más común es el filtro adoptativo para. por ejemplo, eliminar el ruido de la señal de entrada. la cual se muestrea en varios instantes de tiempo. de forma que cada muestra representa un grado de libertad que se utiliza para ajustar la señal de entrada a la salida deseada (Fig. 4.11). La idea consiste en utilizar el menor número de muestras (así obtenemos una convergencia más rápida siempre que se obtengan resultados satisfactorios.

La dimensión del vector de pesos tiene una influencia directa en el tiempo necesario de entrenamiento (sobre todo cuando se realiza una simulación por ordenador). por lo que generalmente se debe tomar un Compromiso entre este aspecto y la aceptabilidad de la solución (normalmente se mejora el error aumentando el número de pesos).


El valor del parámetro a tiene una gran influencia sobre el entrenamiento. Si a es demasiado grande, la convergencia es posible que no se produzca. debido a que se darán saltos en torno al mínimo sin alcanzarlo. Si es demasiado pequeño. alcanzaremos la convergencia. pero a costa de una etapa de aprendizaje más larga.
En cuanto al momento en el que debemos detener el entrenamiento. este depende sobre todo de los requisitos de salida del sistema: se detiene el entrenamiento cuando el error observado es menor que el valor admisible en la señal de salida de forma sostenida. Se suele tomar el error cuadrático medio como la magnitud que determina el instante en el que un sistema ha convergido.

  1   2   3   4


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal