El artículo presenta una red neuronal convolucional profunda (CNN) con 60 millones de parámetros y 650 000 neuronas, diseñada para clasificar 1,2 millones de imágenes del concurso ImageNet LSVRC en 1 000 categorías. La arquitectura consta de cinco capas convolucionales (algunas seguidas de pooling y normalización local) y tres capas totalmente conectadas, terminando en una función softmax de 1 000 salidas. Para acelerar el entrenamiento y mejorar la generalización, se emplean unidades ReLU, entrenamiento distribuido en dos GPUs, normalización de respuesta local, pooling superpuesto, datos aumentados (recortes, reflejos e iluminación variada) y la técnica de “dropout” en las capas densas. Con este enfoque, la red alcanzó errores top-1 y top-5 de 37,5 % y 17,0 % en ILSVRC-2010, y ganó ILSVRC-2012 con un error top-5 de 15,3 % mediante la combinación de varios modelos semejantes.
Especificaciones
- Autor/es: Alex Krizhevsky, Ilya Sutskever y Geoffrey E. Hinton.
- Fecha de edición: 2012-00
- Publicado en : Web de NeurIPS
- Idioma: Inglés