OpenAI lancia la funzionalità Vision per la modalità vocale avanzata in ChatGPT

L’entusiasmo nella comunità AI è aumentato quando OpenAI ha svelato l’Advanced Voice Mode a maggio. Durante il lancio del suo ultimo modello di punta, GPT-4o, l’azienda ha evidenziato le sue straordinarie funzioni multimodali.

Tuttavia, per diversi mesi, è stata solo una dimostrazione di potenziale. OpenAI aveva inizialmente assicurato agli utenti che l’Advanced Voice Mode sarebbe stata presto disponibile, ma ci è voluto molto più tempo del previsto e non tutti hanno ricevuto l’accesso immediatamente. Inoltre, le funzionalità di visione erano assenti in quel momento. Ora, OpenAI introduce finalmente Vision nell’Advanced Voice Mode.

Questo aggiornamento arriva nel sesto giorno dell’iniziativa di OpenAI, “12 Days of Shipping”, durante la quale Sam Altman e altri membri del team hanno svelato vari aggiornamenti, sia importanti che minori, per diffondere un po’ di allegria natalizia.

Tra i lanci più recenti di rilievo ci sono l’abbonamento a ChatGPT Pro, il lancio completo del loro modello di ragionamento o1, il lancio pubblico di Sora, il loro modello video e una versione migliorata di Canvas disponibile per tutti gli utenti.

L’annuncio di Vision segue da vicino la presentazione di Google di una versione aggiornata di Project Astra e di un nuovo prototipo, Project Mariner, con funzionalità avanzate. Tuttavia, OpenAI ha ancora una volta preso il comando, poiché Project Astra non è ancora disponibile al pubblico.

Con l’aggiunta di Vision in Advanced Voice Mode, gli utenti possono ora condividere direttamente un feed video live dalla loro telecamera o visualizzare lo schermo del loro telefono su ChatGPT. Questo aggiornamento è molto atteso, soprattutto per i suoi potenziali benefici per le persone ipovedenti.

In una semplice dimostrazione condivisa oggi, il team di OpenAI ha utilizzato il supporto di ChatGPT per preparare il caffè filtrato.

Fonte: OpenAI

Attualmente, la funzionalità Vision in Advanced Voice Mode è impostata per essere lanciata esclusivamente sull’applicazione mobile ChatGPT. Gli utenti sperano in una sua rapida introduzione nelle varianti desktop, poiché ciò ridurrà gli ostacoli quando si cerca l’assistenza di ChatGPT durante il multitasking o la codifica.

Questo lancio sarà accessibile a tutti gli utenti Teams, mentre gli utenti Plus e Pro a livello globale, esclusi quelli nell’UE, possono iniziare a usarlo oggi; si prevede che la distribuzione completa sarà completata entro la fine della settimana. Gli utenti Edu ed Enterprise dovranno aspettare più a lungo, con accesso previsto all’inizio dell’anno prossimo.

Sebbene la modalità vocale avanzata di ChatGPT fosse utile in precedenza, mancava della funzionalità di visione essenziale, impedendole di diventare un assistente veramente pratico. Con la versione di Vision, sono impaziente di assistere all’impatto trasformativo che potrebbe avere.

In una mossa festosa, OpenAI ha anche introdotto una nuova modalità Santa in ChatGPT, che sarà disponibile a livello globale su tutte le piattaforme: mobile, desktop e web. Questa modalità può essere attivata sia in modalità vocale avanzata che standard. Quando abiliti per la prima volta la modalità Santa, OpenAI aggiornerà il tuo limite di modalità vocale avanzata, il che significa che puoi comunque goderti i festeggiamenti anche se hai raggiunto il tuo limite. E se dovessi esaurire la tua quota di modalità vocale avanzata, la modalità standard di Santa sarà sempre lì per te.