¿Qué piensas sobre el refuerzo de aprendizaje? ¿Es la guinda del pastel, como lo dice Yann LeCun?

Creo que te estás refiriendo a esta publicación: Yann LeCun – Declaración de una publicación de Slashdot sobre …

Yann menciona: “Si la inteligencia fuera un pastel, el aprendizaje no supervisado sería la torta, el aprendizaje supervisado sería la guinda del pastel, y el aprendizaje de refuerzo sería la guinda del pastel”.

Es difícil decir si quiso decir “guinda del pastel” como lo define el Oxford Dictionary: ” Una característica deseable percibida como el toque final a algo que ya es muy bueno ” [la guinda del pastel] o simplemente estaba haciendo un punto que el aprendizaje no supervisado es THE cake, todo lo demás es add-on.

Ahora, puedo ver por qué el refuerzo de aprendizaje sería un gran complemento para resolver la inteligencia. Podemos enseñar computadoras a través del aprendizaje supervisado, de alguna manera podemos permitirles aprender por sí mismos utilizando (lo que tenemos) el aprendizaje sin supervisión. Resolver esos dos solos nos permitiría crear agentes súper inteligentes, pero aún tendremos que decirles qué aprender, qué resolver, etc. Resolver el reforzamiento El aprendizaje nos permite “desatar” a estos agentes inteligentes para descubrir sus propios deseos, seguir sus propios sueños, buscar su propia felicidad. Pero bueno, estamos lejos de eso. Hay mucho trabajo por delante.

Aunque no me gustan las cerezas, tal vez él tiene razón acerca de ser la cereza del pastel.

EDITAR:

¿Cómo le gustaría recibir su comida para llevar? ¿En un frasco, en una caja de papel o en una caja de plástico? ¿El contenedor debe ser transparente o estar cubierto?

¿Prefiere comida casera o restaurante o comida para llevar?

¿Por qué bebes Soju?

¿Cuál es la mejor receta que has hecho?

¿Cuáles son sus pensamientos sobre la idea de que las tradiciones alimentarias de los países están desapareciendo porque la preparación ahora está automatizada (le gusta el sushi)?

Es bueno obtener el punto de vista de un experto en Aprendizaje de refuerzo. Aquí hay un video en el que Rich Sutton compara el Aprendizaje de refuerzo y Aprendizaje profundo:

Supreme Content

¿Puedes usar una parrilla en el microondas?

¿Cuál es tu receta favorita de aebleskiver?

¿Cuál es tu receta de placer culpable de todos los tiempos?

¿Qué piensa de la idea de que cada electrodoméstico tenga memoria incorporada con un manual en PDF?

¿Utiliza recetas cada vez que cocina desde cero?

¿Los alimentos calentados en el microondas se enfrían más rápido que los calentados en el horno?

¿Cuántas piezas de dulces se pueden hacer con 1 kg de leche?

Si solo usamos la señal de refuerzo para guiar el entrenamiento, entonces estoy de acuerdo con Yann LeCun en que es la guinda del pastel. Peor aún: cuando se utiliza una señal de refuerzo global que no es una función diferenciable conocida de las representaciones (que suele ser el caso), hay un problema grave de escalamiento en términos de la cantidad de unidades ocultas (o dimensiones de acción) que se pueden capacitar con respecto a esa señal. El número de ejemplos, muestras aleatorias o ensayos de acciones puede tener que crecer al menos linealmente con el número de unidades para proporcionar una asignación de créditos de calidad comparable a la obtenida con la retro-propagación. Si el espacio de acción es grande, esto es problemático. Sin embargo, como Demis Hassabis dijo cuando Yann habló sobre la analogía de la torta y la cereza, deberíamos * también * hacer un aprendizaje sin supervisión, junto con el aprendizaje de refuerzo. Entonces se vuelve más creíble que puede funcionar a gran escala.

Miguel Morales

Una de las ventajas inherentes de RL es que podría generar una gran cantidad de datos mediante autoaprendizaje: secuencias de , especialmente cuando tienes acceso a un simulador del entorno. Para tareas con muchas recompensas intermedias, como los juegos de Atari, los algoritmos puramente RL como DQN lo hicieron increíblemente bien. Incluso para tareas con solo una recompensa final después de una secuencia larga, como el juego AlphaGo, que hace que la asignación de créditos y el aprendizaje sea difícil, RL podría generar una gran cantidad de datos etiquetados mediante el autoaprendizaje. AlphaGo generó 30 millones de juegos autodidácticos para entrenar su red de valor, y también los utilizó para refinar su red de políticas.

Por lo tanto, incluso si las señales de recompensa para RL son cereza en la torta, una vez que los algoritmos de aprendizaje obtuvieron millones de esos pasteles, cada uno con cerezas de diferentes tamaños en la parte superior, podrían aprender cosas increíbles (por ejemplo, latidos humanos).

Miguel Morales

More Interesting

¿De qué sitio web obtienes la mayoría de tus recetas?

Como chef, ¿disfruta del tiempo dedicado a la gestión de su personal o desea pasar más tiempo cocinando?

¿Has encontrado que el mensaje vegano es ineficaz, ofensivo, contradictorio o parcial? Si es así, de qué manera)?

Estás encogido hasta el tamaño de cinco centavos y lo dejas caer en una licuadora. ¿Qué haces?

¿Cuál es tu receta para un pastel sin gluten?

¿Alguno de ustedes tiene algunas antiguas recetas vegetarianas de recetas vegetarianas que la gente ha olvidado en estos días?

Cuando eras niño, ¿cómo escondías comida que no te gustaba en la mesa?

¿Preferirías tener un masajista residente o un chef residente?

Si pudieras dominar un ingrediente en la cocina, ¿cuál sería?

¿Quién es el mejor chef para ti?