Un programmatore di nome Peter Whidden ha fornito a un modello di intelligenza artificiale 50.000 ore di addestramento su come giocare a Pokemon Rosso, portando un algoritmo a essere in grado di esplorare il gioco e costruire una squadra per sconfiggere il primo capopalestra, ma non uno che riesca a farsi strada attraverso il Monte Luna o non fare niente meglio che continuare a comprare Magikarp.
Come sottolineato in un ampio video da Peter Whidden, l’IA è in grado di interagire con il gioco attraverso i consueti input di controllo su un emulatore. Preme un pulsante e guarda lo schermo per vedere cosa è successo, proprio come un giocatore umano. Whidden ha impostato le sessioni di apprendimento a due ore di gioco ciascuna, anche se con l’emulazione accelerata tali sessioni potrebbero essere completate in circa sei minuti di tempo reale e il processo è stato ulteriormente accelerato eseguendo 40 sessioni di test contemporaneamente.
Dato che l’algoritmo di una macchina non si preoccupa intrinsecamente di finire un videogioco, Whidden ha stabilito obiettivi particolari per cui l’IA viene ricompensata. Per incoraggiare l’esplorazione, l’intelligenza artificiale otteneva un punto ricompensa ogni volta che vedeva qualcosa di nuovo, misurato da pixel notevolmente diversi che apparivano sullo schermo. Ciò ha alcune conseguenze indesiderate ma è servito in generale a motivare il computer a spostarsi da Biancavilla attraverso il Bsosco Smeraldo e fino a Plumbeopoli, dove il ha luogo la prima battaglia in palestra contro Brock.
Anche l’IA ha bisogno di ulteriori ricompense e punizioni. Con le ricompense tutte legate al vedere cose nuove, l’IA voelva solo continuare ad andare avanti, il che significa che non le interessava combattere battaglie o catturare Pokemon, quindi inizialmente scappava da ogni incontro. Quindi Whidden ha aggiunto un sistema in cui l’IA viene premiata in base al livello totale del suo gruppo Pokemon attivo.
Ciò ha funzionato per far sì che l’IA continuasse a lottare per ottenere XP e catturare Pokemon, ma ha avuto anche una conseguenza non intenzionale. Quando l’IA si è recata in un Centro Pokemon, ha interagito con il PC lì e ha depositato alcuni Pokemon. Ciò ha abbassato drasticamente il livello totale del gruppo. Questo ha costretto a inserire un’opzione affinchè evitasse del tutto i Centri Pokemon, non potendo così curare il gruppo finché Whidden non avesse nuovamente modificato il sistema di ricompensa.
Dato che l’IA essenzialmente continua a fare cose a caso finché non riesce a trovare qualcosa che le faccia guadagnare punti ricompensa, la lotta contro Brock si è rivelata un problema particolare poiché per farlo è necessario sfruttare le debolezze elementali del suo Pokemon di tipo roccia. È solo in virtù di una particolare iterazione in cui Squirtle dell’IA era senza PP per ogni mossa tranne Bollaraggio che l’algoritmo è riuscito a capire come battere la palestra dopo 7000 ore.
Battere Brock rappresentava un obiettivo finale abbastanza naturale per il progetto, ma Whidden ha lasciato che l’IA funzionasse più a lungo per vedere cosa sarebbe successo, ed è riuscito ad arrivare in profondità nel Monte Luna, ma i passaggi umidi e monotoni del dungeon erano così scoraggianti all’IA che non è mai riuscita a trovare la strada per raggiungere l’altro lato, quindi non è mai riuscita a trovare la seconda palestra a Celestopoli
Una cosa che l’IA amava, tuttavia, era acquistare Magikarp. Il losco tizio che vende i Pokèmon carpa a un prezzo assurdo è praticamente uno scherzo a questo punto, ma per l’IA, acquistare quel Magikarp è sembrato un modo rapido per ottenere altri cinque livelli di Pokemon nel suo gruppo. A quanto pare, l’IA ha acquistato quel Magikarp più di 10.000 volte.