OpenAI が 5 月に Advanced Voice Mode を発表したとき、AI コミュニティの興奮は高まりました。同社は最新の主力モデルである GPT-4o の発表時に、その優れたマルチモーダル機能を強調しました。
しかし、数か月間は、それは単なる可能性の披露に過ぎませんでした。OpenAI は当初、高度な音声モードが間もなく利用可能になるとユーザーに保証していましたが、予想よりも大幅に時間がかかり、誰もがすぐにアクセスできるわけではありませんでした。さらに、その時点ではビジョン機能はありませんでした。現在、OpenAI はついに高度な音声モードにビジョンを導入しています。
このアップデートは、OpenAI の取り組みである「12 Days of Shipping」の 6 日目にリリースされました。この取り組みでは、Sam Altman 氏と他のチーム メンバーが、祝祭の雰囲気を広めるために、メジャーとマイナーの両方を含むさまざまなアップデートを公開しました。
最近の主なリリースとしては、ChatGPT Pro サブスクリプション、o1 推論モデルの完全展開、ビデオ モデルである Sora の一般公開、すべてのユーザーが利用できる拡張 Canvas などがあります。
Visionの発表は、GoogleによるProject Astraのアップグレード版と、高度な機能を備えた新しいプロトタイプであるProject Marinerの発表に続いて行われた。しかし、Project Astraはまだ一般公開されていないため、OpenAIが再びリードしている。
高度な音声モードにビジョンが追加されたことで、ユーザーはカメラからのライブビデオフィードを直接共有したり、携帯電話の画面を ChatGPT に表示したりできるようになりました。このアップデートは、特に視覚障害者にとっての潜在的なメリットのため、大いに期待されています。
今日共有された簡単なデモンストレーションでは、OpenAI チームが ChatGPT のサポートを利用してドリップコーヒーを準備しました。
現在、高度な音声モードのビジョン機能は、ChatGPT モバイル アプリケーションでのみリリースされる予定です。ユーザーは、マルチタスクやコーディング中に ChatGPT の支援を求める際の障害が軽減されるため、デスクトップ バージョンへの迅速な導入を期待しています。
このロールアウトはすべての Teams ユーザーが利用できます。また、EU を除く世界中の Plus および Pro ユーザーは、本日から利用を開始できます。完全な展開は今週末までに完了する予定です。Edu および Enterprise ユーザーはさらに待つ必要がありますが、アクセスは来年初めに予定されています。
ChatGPT の高度な音声モードは以前から便利でしたが、必須のビジョン機能が欠けていたため、本当に実用的なアシスタントになることができませんでした。ビジョンのリリースにより、それがもたらす変革的な影響を目の当たりにするのが楽しみです。
OpenAI は、祝祭的な動きとして、ChatGPT に新しいサンタ モードも導入しました。これは、モバイル、デスクトップ、Web のすべてのプラットフォームでグローバルに利用可能になります。このモードは、高度な音声モードと標準の音声モードの両方で有効にできます。サンタ モードを初めて有効にすると、OpenAI によって高度な音声モードの制限が更新されるため、制限に達した場合でも祝祭を楽しむことができます。高度な音声モードの許容量を使い果たした場合でも、標準のサンタがいつでも対応します。
コメントを残す