OpenAi, industria tra le più attive nell’ambito dell’intelligenza artificiale. Autrice dell’ormai celebre ChatGPT, negli utlimi mesi sta lavorando motlissimo per rivoluzionare il mondo. Negli ultimi giorni ha fatto un ulteriore passo in tal senso lanciando Sora, la prima I.A. in grado di generare video con testo. Leggendo sul loro sito ufficiale possiamo capire meglio di cosa si tratta:
Insegniamo all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di formare modelli che aiutino le persone a risolvere problemi che richiedono l’interazione nel mondo reale – scrive OpenAI. Ti presentiamo Sora, il nostro modello da testo a video. Sora può generare video della durata massima di un minuto mantenendo la qualità visiva e l’aderenza alla richiesta dell’utente.
Oggi, Sora sta diventando disponibile per i team rossi per valutare le aree critiche per danni o rischi – prosegue OpenAI. Stiamo inoltre garantendo l’accesso a una serie di artisti visivi, designer e registi per ottenere feedback su come far avanzare il modello per essere più utile per i professionisti creativi. Stiamo condividendo fin dall’inizio i progressi della nostra ricerca per iniziare a lavorare e ricevere feedback da persone esterne a OpenAI e per dare al pubblico un’idea di quali capacità di intelligenza artificiale sono all’orizzonte.
Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico. Il modello ha una profonda comprensione del linguaggio, che gli consente di interpretare accuratamente le istruzioni e generare personaggi avvincenti che esprimono emozioni vibranti. Sora può anche creare più riprese all’interno di un singolo video generato che persistano accuratamente i personaggi e lo stile visivo.
Il modello attuale presenta dei punti deboli. Potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non lasciare il segno del morso. Il modello può anche confondere i dettagli spaziali di un prompt, ad esempio confondendo sinistra e destra, e può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo, come seguire una specifica traiettoria della telecamera.
Adotteremo diverse importanti misure di sicurezza prima di rendere Sora disponibile nei prodotti OpenAI. Stiamo lavorando con i red teamer – esperti di dominio in aree come disinformazione, contenuti che incitano all’odio e pregiudizi – che testeranno il modello in modo contraddittorio. Stiamo anche creando strumenti per aiutare a rilevare contenuti fuorvianti, come un classificatore di rilevamento in grado di individuare quando un video è stato generato da Sora. Prevediamo di includere i metadati C2PA in futuro se distribuiremo il modello in un prodotto OpenAI.
Oltre a sviluppare nuove tecniche per prepararci all’implementazione, stiamo sfruttando i metodi di sicurezza esistenti che abbiamo creato per i nostri prodotti che utilizzano DALL·E 3, che sono applicabili anche a Sora. Ad esempio, una volta in un prodotto OpenAI, il nostro classificatore di testo controllerà e rifiuterà le richieste di immissione di testo che violano le nostre politiche di utilizzo, come quelle che richiedono violenza estrema, contenuti sessuali, immagini che incitano all’odio, somiglianza di celebrità o IP di altri – prosegue OpenAi. Abbiamo anche sviluppato robusti classificatori di immagini utilizzati per esaminare i fotogrammi di ogni video generato per garantire che aderisca alle nostre norme di utilizzo, prima che venga mostrato all’utente.
Sora è un modello di diffusione, che genera un video partendo da uno che sembra rumore statico e lo trasforma gradualmente rimuovendo il rumore in molti passaggi. Sora è in grado di generare interi video tutti in una volta o di estendere i video generati per renderli più lunghi. Fornendo al modello la previsione di molti fotogrammi alla volta, abbiamo risolto il problema impegnativo di garantire che un soggetto rimanesse lo stesso anche quando scompare temporaneamente dalla vista.
Similmente ai modelli GPT, Sora utilizza un’architettura a trasformatore, sbloccando prestazioni di scalabilità superiori. Rappresentiamo video e immagini come raccolte di unità di dati più piccole chiamate patch, ognuna delle quali è simile a un token in GPT. Unificando il modo in cui rappresentiamo i dati, possiamo addestrare i trasformatori di diffusione su una gamma più ampia di dati visivi rispetto a quanto fosse possibile prima, coprendo diverse durate, risoluzioni e proporzioni.
Sora si basa sulla ricerca passata sui modelli DALL·E e GPT. Utilizza la tecnica di ricapitolazione di DALL·E 3, che prevede la generazione di didascalie altamente descrittive per i dati di allenamento visivo. Di conseguenza, il modello è in grado di seguire più fedelmente le istruzioni testuali dell’utente nel video generato.
Oltre a poter generare un video esclusivamente a partire da istruzioni testuali, il modello è in grado di prendere un’immagine fissa esistente e generare da essa un video, animando i contenuti dell’immagine con precisione e attenzione ai piccoli dettagli. Il modello può anche prendere un video esistente ed estenderlo o riempire i fotogrammi mancanti. Sora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che riteniamo costituirà una pietra miliare importante per raggiungere l’AGI.