¿Qué piensas sobre el refuerzo de aprendizaje? ¿Es la guinda del pastel, como lo dice Yann LeCun?

Creo que te estás refiriendo a esta publicación: Yann LeCun – Declaración de una publicación de Slashdot sobre …

Yann menciona: “Si la inteligencia fuera un pastel, el aprendizaje no supervisado sería la torta, el aprendizaje supervisado sería la guinda del pastel, y el aprendizaje de refuerzo sería la guinda del pastel”.

Es difícil decir si quiso decir “guinda del pastel” como lo define el Oxford Dictionary: ” Una característica deseable percibida como el toque final a algo que ya es muy bueno ” [la guinda del pastel] o simplemente estaba haciendo un punto que el aprendizaje no supervisado es THE cake, todo lo demás es add-on.

Ahora, puedo ver por qué el refuerzo de aprendizaje sería un gran complemento para resolver la inteligencia. Podemos enseñar computadoras a través del aprendizaje supervisado, de alguna manera podemos permitirles aprender por sí mismos utilizando (lo que tenemos) el aprendizaje sin supervisión. Resolver esos dos solos nos permitiría crear agentes súper inteligentes, pero aún tendremos que decirles qué aprender, qué resolver, etc. Resolver el reforzamiento El aprendizaje nos permite “desatar” a estos agentes inteligentes para descubrir sus propios deseos, seguir sus propios sueños, buscar su propia felicidad. Pero bueno, estamos lejos de eso. Hay mucho trabajo por delante.

Aunque no me gustan las cerezas, tal vez él tiene razón acerca de ser la cereza del pastel.

EDITAR:

Es bueno obtener el punto de vista de un experto en Aprendizaje de refuerzo. Aquí hay un video en el que Rich Sutton compara el Aprendizaje de refuerzo y Aprendizaje profundo:

Si solo usamos la señal de refuerzo para guiar el entrenamiento, entonces estoy de acuerdo con Yann LeCun en que es la guinda del pastel. Peor aún: cuando se utiliza una señal de refuerzo global que no es una función diferenciable conocida de las representaciones (que suele ser el caso), hay un problema grave de escalamiento en términos de la cantidad de unidades ocultas (o dimensiones de acción) que se pueden capacitar con respecto a esa señal. El número de ejemplos, muestras aleatorias o ensayos de acciones puede tener que crecer al menos linealmente con el número de unidades para proporcionar una asignación de créditos de calidad comparable a la obtenida con la retro-propagación. Si el espacio de acción es grande, esto es problemático. Sin embargo, como Demis Hassabis dijo cuando Yann habló sobre la analogía de la torta y la cereza, deberíamos * también * hacer un aprendizaje sin supervisión, junto con el aprendizaje de refuerzo. Entonces se vuelve más creíble que puede funcionar a gran escala.

Una de las ventajas inherentes de RL es que podría generar una gran cantidad de datos mediante autoaprendizaje: secuencias de , especialmente cuando tienes acceso a un simulador del entorno. Para tareas con muchas recompensas intermedias, como los juegos de Atari, los algoritmos puramente RL como DQN lo hicieron increíblemente bien. Incluso para tareas con solo una recompensa final después de una secuencia larga, como el juego AlphaGo, que hace que la asignación de créditos y el aprendizaje sea difícil, RL podría generar una gran cantidad de datos etiquetados mediante el autoaprendizaje. AlphaGo generó 30 millones de juegos autodidácticos para entrenar su red de valor, y también los utilizó para refinar su red de políticas.

Por lo tanto, incluso si las señales de recompensa para RL son cereza en la torta, una vez que los algoritmos de aprendizaje obtuvieron millones de esos pasteles, cada uno con cerezas de diferentes tamaños en la parte superior, podrían aprender cosas increíbles (por ejemplo, latidos humanos).