La nueva IA de Meta puede usar el engaño para conquistar un mundo de juegos de mesa

Las computadoras están obteniendo bastante bien en una línea de galería en expansión, así como el tablero juegos incluyendo ajedrez, Go, Pong y Pac-Man. Los fabricantes podrían incluso alterar cómo videojuegos se desarrollan en un futuro no muy lejano. Actualmente, tras desarrollar un bot de IA que supera a los humanos en póker , los investigadores de Meta AI han producido un programa con la capacidad de un juego mucho más complicado: uno que puede elaborar estrategias, comprender los objetivos de otros jugadores e interactuar o discutir planes con ellos a través de mensajes de conversación.

Este bot se llama CICERO, y puede jugar al juego de la Diplomacia mucho mejor que numerosos jugadores humanos. CICERO duplicó con creces la puntuación ordinaria de sus contrincantes humanos y se situó en el 10% de los mejores jugadores a lo largo de 40 partidas en una organización online.

El programa ha sido un trabajo en desarrollo durante los últimos 3 años entre los diseñadores de Meta, y también los investigadores de Columbia, MIT, Stanford, la Universidad Carnegie Mellon, UC Berkeley, y también Harvard. Un resumen de cómo se integró el CICERO se ha publicado hoy en un artículo en Science El equipo está abriendo el código y también el modelo, y también ciertamente estarán haciendo los datos utilizados en el proyecto accesible a varios otros científicos.

La diplomacia es inicialmente un juego de salón ambientado en una versión elegante de Europa. Los jugadores representan a diferentes naciones, y también su objetivo es conseguir el control de las áreas haciendo acuerdos calculados y también estrategias.

" Lo que diferencia a Diplomacy es que incluye el trabajo en equipo, implica la dependencia y, lo que es más importante, incluye la interacción lingüística totalmente natural, así como el acuerdo con varios otros jugadores", afirma Noam Brown, un científico de estudio en Meta AI y un escritor en el documento.

Aunque se ha utilizado una versión especial del juego sin la función de chat para probar la IA durante muchos años, la progresión con versiones lingüísticas a partir de 2019 hizo que el grupo se diera cuenta de que podría ser posible instruir a una IA sobre cómo jugar a la Diplomacia por completo.

Pero como Diplomacy tenía esta necesidad especial de asociación, "muchos de los métodos que se han utilizado realmente para los videojuegos anteriores simplemente ya no se aplican", analiza Brown.

Anteriormente, el equipo había realizado un experimento con la versión no lingüística del videojuego, en el que se notificaba especialmente a los jugadores que en cada partida habría un bot y 6 personas. "Lo que localizamos es que los jugadores intentaban proactivamente identificar quién era el bot, y luego se deshacían de ese jugador", dice Brown. "Afortunadamente, nuestro bot tenía la capacidad de hacerse pasar por un humano en esa configuración; en realidad tuvieron muchos problemas para averiguar quién era el rastreador, así que el robot consiguió realmente el punto de partida en la organización".

Pero con el videojuego completo de la Diplomacia, el grupo comprendió que el crawler no estaba preparado para pasar la prueba de Turing si había que realizar interrogatorios en lenguaje natural. Por eso, durante el experimento, no se informó a los jugadores de que se estaban divirtiendo con un bot, detalle que sólo se desveló al terminar el juego.

La creación de CICERO.

Para construir la IA que juega a la diplomacia, el grupo construyó 2 motores de manejo de información separados que se alimentaban mutuamente: un motor para la discusión (inspirado en diseños como el GPT-3, BlenderBot 3, LaMDA, y OPT -175 B ), y una adicional para el razonamiento calculado (inspirada en trabajos anteriores como AlphaGo y Pluribus ). Incorporado en conjunto, el modelo de discusión, que fue entrenado sobre un gran corpus de datos de mensajes de la red y 50.000 videojuegos humanos de webDiplomacy. web , puede interactuar y también transmitir intenciones que se mantienen en línea con su estrategia programada.

Meta’s new AI can use deceit to conquer a board game world

Esto funciona en la dirección inversa también. Cuando varios otros jugadores interactúan con el bot, el motor de discusión puede traducir eso en planes y también acciones en el juego, y también utilizar eso para educar al motor de estrategia sobre las próximas acciones. Las grandes estrategias de CICERO son desarrolladas por un motor de pensamiento estratégico que estima la mejor reubicación siguiente basada en el estado del tablero, el contenido de las discusiones más actuales, las reubicaciones que fueron hechas tradicionalmente por los jugadores en una situación similar, y los objetivos del rastreador.

" Los diseños lingüísticos son realmente excelentes hoy en día, pero sin duda tienen sus imperfecciones. Cuanta más técnica podamos descargar de la versión lingüística, mejor lo haremos", afirma Brown. "Por eso, tenemos este diseño de diálogo que condiciona los planes, pero la versión de discusión no es responsable de las estrategias". Así, la parte del programa que habla no es la misma que el componente que hace la preparación.

La fórmula de planificación que utiliza el bot se llama piKL. Realiza una predicción inicial de lo que probablemente hará cada persona y de lo que todos creen que hará el robot, además de mejorar esta predicción evaluando los valores de varios movimientos. "Al hacer este proceso repetitivo, está tratando de considerar lo que las personas han hecho históricamente ofreciendo el conjunto de datos que tenemos", afirma Brown. "También se trata de estabilizar eso con la comprensión de que los jugadores tienen objetivos particulares en este videojuego, están tratando de maximizar su puntuación, así como lo más probable es que no hagan errores realmente significativos como lo harían sin duda los pequeños errores. De hecho, hemos observado que esta versión de los humanos es mucho mejor que simplemente hacer la predicción inicial basada en la información humana".

Meta’s new AI can use deceit to conquer a board game world

" El engaño se alimenta de una gama".

Consideremos el principio del engaño, que es un elemento fascinante de la Diplomacia. En el juego, antes de cada turno, los jugadores ciertamente pasarán de 5 a 15 minutos hablando entre ellos así como discutiendo estrategias. Sin embargo, teniendo en cuenta que todo esto ocurre en secreto, la gente puede aumentar el regateo. Pueden hacer garantías a una persona, y también decirle a otra que harán otra cosa.

Pero el hecho de que los individuos puedan ser astutos no indica que ese sea el mejor método para abordar el concurso. "Muchos individuos cuando empiezan a jugar al juego de la Diplomacia lo ven como un juego relacionado con el engaño. Pero, de hecho, si hablas con jugadores experimentados de Diplomacia, creen con un enfoque realmente diferente del videojuego, y también afirman que es un juego sobre la dependencia", afirma Brown. "Es tener la capacidad de desarrollar la confianza con otros jugadores en una atmósfera que te motiva a no confiar en nadie. La diplomacia no es un juego en el que puedas ser eficaz por ti mismo. De hecho, necesitas tener aliados".

Las primeras versiones del bot eran más engañosas, pero lo cierto es que acabaron haciéndolo bastante mal. Los investigadores después de que entró en añadir filtros para hacer que existe mucho menos, causando a las actuaciones mucho mejor. Sin embargo, obviamente, CICERO no siempre es totalmente sincero con todos sus objetivos. Y, significativamente, reconoce que otros jugadores pueden ser igualmente engañosos. "El engaño existe en un rango, así como estamos eliminando los tipos más severos de engaño, ya que eso no es práctico", dice Brown. "Pero hay circunstancias en las que el robot omitirá detalles a propósito".

Por ejemplo, si se está preparando para asaltar a alguien, omitirá los componentes de su estrategia de asalto en sus comunicaciones. Si está colaborando con un aliado, sólo comunicará los detalles necesarios, ya que revelar un exceso de sus objetivos podría dejarle expuesto a ser traicionado.

" Estamos representando la verdad de que los jugadores no actúan como dispositivos, pueden comportarse de forma alocada, pueden actuar de forma subóptima. Si quieres que la IA actúe en el mundo real, es necesario que entienda que los humanos suelen actuar de forma humana, no como un robot", afirma Brown. "Tener un representante que tenga la capacidad de ver los puntos desde varios otros puntos de vista y también reconocer su perspectiva es un conjunto de habilidades bastante importante para avanzar en las comunicaciones entre humanos e IA".

Brown señala que las técnicas en las que se basa el bot son "bastante básicas", y puede pensar en que otros ingenieros se basen en este estudio de manera que se consigan mejores asistentes personales y chatbots.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)

Artículos Relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Subir

Este sitio web utiliza cookies para garantizar una mejor experiencia de navegación. Más información