Why did I wanted to watch it?

Un clasicazo culpable de una generación de programadores!

What did I get out of it?

No sabía que empezaba reemplazando a los human-in-the-loop en la decisión de disparar unos misiles, para sustituirlo por el War Operation Plan Response (WOPR). Qué actual todavía!

You are listening to a machine. Don’t act like one!

Hablan de reinforcement learning! Está guapísimo que el core de la resolución del conflicto sea aprender que no se puede ganar una guerra nuclear (a través de jugar muchas veces a las 3 en raya y aprender que no se puede ganar). Just like Foundational models:

I couldn’t teach Joshua the most important lesson: futility. Knowing when to give up. (…) They believe a nuclear war can be won (…) Extinction is part of the natural order.

Tras aprender, WOPR dice:

Strange game. The only way to win is to not play.

Habrá visitas en el mundo real a sitios tan clave como un centro desde el que se pueden lanzar misiles nuuucelares?

Super relevante lo del WOPR fakeando lo que ven los comandantes para conseguir su objetivo. Como lo que ha encontrado Anthropic del LLM fakeando alignment.