A excitação na comunidade de IA aumentou quando a OpenAI revelou o Advanced Voice Mode em maio. Durante o lançamento de seu mais recente modelo principal, GPT-4o, a empresa destacou suas notáveis funções multimodais.
No entanto, por vários meses, foi apenas uma exibição de potencial. A OpenAI havia inicialmente garantido aos usuários que o Advanced Voice Mode estaria disponível em breve, mas demorou significativamente mais do que o esperado, e nem todos receberam acesso imediatamente. Além disso, os recursos de visão estavam ausentes naquela época. Agora, a OpenAI finalmente apresenta o Vision no Advanced Voice Mode.
Esta atualização chega no sexto dia da iniciativa da OpenAI, ’12 Dias de Envio’, durante a qual Sam Altman e outros membros da equipe revelaram várias atualizações, grandes e pequenas, para espalhar um pouco de alegria festiva.
Entre os lançamentos recentes de destaque estão a assinatura do ChatGPT Pro, o lançamento completo do modelo de raciocínio o1, o lançamento público do Sora, seu modelo de vídeo e um Canvas aprimorado disponível para todos os usuários.
O anúncio do Vision segue de perto a demonstração do Google de uma versão atualizada do Project Astra e um novo protótipo, o Project Mariner, apresentando capacidades avançadas. No entanto, a OpenAI mais uma vez assumiu a liderança, já que o Project Astra ainda não está disponível publicamente.
Com a adição do Vision no Advanced Voice Mode, os usuários agora podem compartilhar diretamente um feed de vídeo ao vivo de sua câmera ou exibir a tela do telefone no ChatGPT. Esta atualização é muito aguardada, especialmente por seus potenciais benefícios para indivíduos com deficiência visual.
Em uma demonstração simples compartilhada hoje, a equipe da OpenAI utilizou o suporte do ChatGPT para preparar café coado.
Atualmente, o recurso Vision no Advanced Voice Mode está definido para ser lançado exclusivamente no aplicativo móvel ChatGPT. Os usuários esperam sua rápida introdução em variantes de desktop, pois isso reduzirá obstáculos ao buscar a assistência do ChatGPT durante multitarefas ou codificação.
Este lançamento estará acessível a todos os usuários do Teams, enquanto usuários Plus e Pro globalmente, excluindo aqueles na UE, podem começar a usá-lo hoje; a implantação completa está prevista para ser concluída até o final da semana. Usuários Edu e Enterprise precisarão esperar mais, com acesso esperado para o início do ano que vem.
Embora o Advanced Voice Mode do ChatGPT fosse útil anteriormente, faltava-lhe a funcionalidade essencial de visão, impedindo-o de se tornar um assistente verdadeiramente prático. Com o lançamento da visão, estou ansioso para testemunhar o impacto transformador que ele pode ter.
Em um movimento festivo, a OpenAI também introduziu um novo Modo Papai Noel no ChatGPT, que estará disponível globalmente em todas as plataformas — celular, desktop e web. Este modo pode ser ativado nos Modos de Voz Avançado e Padrão. Quando você habilitar o Modo Papai Noel pela primeira vez, a OpenAI atualizará seu limite do Modo de Voz Avançado, o que significa que você ainda poderá aproveitar as festividades mesmo se tiver atingido seu limite. E se você esgotar sua cota do Modo de Voz Avançado, o Papai Noel Padrão sempre estará lá para você.
Deixe um comentário