Creo que te estás refiriendo a esta publicación: Yann LeCun – Declaración de una publicación de Slashdot sobre …
Yann menciona: “Si la inteligencia fuera un pastel, el aprendizaje no supervisado sería la torta, el aprendizaje supervisado sería la guinda del pastel, y el aprendizaje de refuerzo sería la guinda del pastel”.
Es difícil decir si quiso decir “guinda del pastel” como lo define el Oxford Dictionary: ” Una característica deseable percibida como el toque final a algo que ya es muy bueno ” [la guinda del pastel] o simplemente estaba haciendo un punto que el aprendizaje no supervisado es THE cake, todo lo demás es add-on.
Ahora, puedo ver por qué el refuerzo de aprendizaje sería un gran complemento para resolver la inteligencia. Podemos enseñar computadoras a través del aprendizaje supervisado, de alguna manera podemos permitirles aprender por sí mismos utilizando (lo que tenemos) el aprendizaje sin supervisión. Resolver esos dos solos nos permitiría crear agentes súper inteligentes, pero aún tendremos que decirles qué aprender, qué resolver, etc. Resolver el reforzamiento El aprendizaje nos permite “desatar” a estos agentes inteligentes para descubrir sus propios deseos, seguir sus propios sueños, buscar su propia felicidad. Pero bueno, estamos lejos de eso. Hay mucho trabajo por delante.
Aunque no me gustan las cerezas, tal vez él tiene razón acerca de ser la cereza del pastel.
EDITAR:
Es bueno obtener el punto de vista de un experto en Aprendizaje de refuerzo. Aquí hay un video en el que Rich Sutton compara el Aprendizaje de refuerzo y Aprendizaje profundo: