We show how to use “complementary priors” to eliminate the explaining-away effects that make inference difficult in densely connected belief nets that have many hidden layers. Using complementary priors, we derive a fast, greedy algorithm that can learn deep, directed belief networks one layer at a time, provided the top two layers form an undirected associative memory. The fast, greedy algorithm is used to initialize a slower learning procedure that fine-tunes the weights using a contrastive version of the wake-sleep algorithm. After fine-tuning, a network with three hidden layers forms a very good generative model of the joint distribution of handwritten digit images and their labels. This generative model gives better digit classification than the best discriminative learning algorithms. The low-dimensional manifolds on which the digits lie are modeled by long ravines in the free-energy landscape of the top-level associative memory, and it is easy to explore these ravines by using the directed connections to display what the associative memory has in mind.
Se puede decir que el "aprendizaje profundo" comenzó con este trabajo. Este artículo inicia una nueva era en las redes neuronales, al proponer nuevos métodos para la inicialización de los pesos que permiten el entrenamiento de redes con un gran número de niveles. La idea básica propuesta fue entrenar cada capa con un algoritmo de entrenamiento no supervisado, para luego terminar con una ronda supervisada. Se ha podido demostrar que, en general, los métodos de aprendizaje automático profundo son más robustos que los métodos superficiales (las redes neuronales de dos capas o las máquinas de vectores soporte) para problemas complejos.
Especificaciones
- Autor/es: Geoffrey E Hinton, Simon Osindero, Yee-Whye Teh.
- Fecha: 2006-07
- Publicado en: Neural Computation (2006) 18 (7): 1527-1554. July 01 2006.
- Idioma: Inglés
- Formato: PDF
- Contribución: Juan Ignacio Godino Llorente.
- Palabras clave: Inteligencia computacional y artificial, Ordenadores y tratamiento de la información, Proceso de señal