透過深入研究比較 Gemini 1.5 Flash、2.0 Flash Experimental、1.5 Pro 和 1.5 Pro

谷歌Gemini AI模型全面解析

隨著Google人工智慧模型套件的加速發展,區分每個模型的各種功能對於使用者來說變得至關重要。 Gemini 系列涵蓋從免費的 1.5 Flash 到具有 Deep Research 功能的複雜且基於訂閱的 1.5 Pro 等一系列產品。透過推理、創造力和各種多模式應用的增強,Google正在為人工智慧效能設定新標準。本指南將深入研究Gemini 1.5 Flash、Gemini 2.0 Flash、Gemini 1.5 Pro和Gemini 1.5 Pro這四種操作型號之間的差異,並進行深入研究,提供基於嚴格測試的見解。

目錄

數學測驗

使用數學問題是評估人工智慧模型推理和邏輯的絕佳方法。

迅速的: If 1=3, 2=3, 3=5, 4=4, and 5=4, then what is 6?

說明:解決方案涉及計算拼寫出來的數字的字母數。預期答案是3,因為「六」有三個字母。然而,免費層中的兩種型號(1.5 Flash 和 2.0 Flash)都回傳了不正確的結果,且沒有任何理由。

數學測驗結果 1
數學測驗結果 2

相較之下,付費模式(1.5 Pro 和 Pro with Deep Research)成功找到了答案。 1.5 Pro 模型以項目符號格式簡潔地強調了其邏輯推理。

數學測驗結果 Pro 1
數學考試成績 Pro 2

具有 Deep Research 功能的 1.5 Pro 對模式進行了細緻的檢查,包括算術序列和幾何序列。儘管這個深度對於這個簡單的任務來說似乎是不必要的,但它證明了模型進行廣泛分析的能力。

總結測試

為了評估總結能力,我們用一篇詳細的 30 頁研究論文測試了每個模型,該論文重點關注詹姆斯·喬伊斯(James Joyce)的《年輕藝術家的肖像》的風格分析。

總結測試1
總結測試2

所有模型都設法將論文壓縮成大約 500 個單詞,但效果各異。 1.5 Flash 模型表現不佳,產生的​​只是表面的摘要,僅與副標題相呼應。相反,Gemini 2.0 提供了更細緻的理解,但缺乏明確的分類。

總結測試 Pro 1
總結測試 Pro 2

在付費模型中,雖然 1.5 Pro 和 Pro with Deep Research 都表現良好,但前者在沒有結構化標題的情況下,在有效總結而不丟失關鍵內容方面表現出色。 Pro with Deep Research 模型保留了結構性標題,但往往缺乏其下方的實質內容,這給摘要任務帶來了挑戰。

“以一句話結束”測試

該測試透過要求人工智慧根據給定的結尾詞編寫句子來衡量人工智慧理解指令的能力。

迅速的: Give 10 sentences that end with the word 'Camera'

有趣的是,儘管請求很簡單,但沒有一個模型產生完全正確的輸出。 1.5 Flash 模型表現最好,產生了六個符合標準的句子。與此形成鮮明對比的是,Gemini 2.0 Flash 實驗模型完全失敗,沒有產生任何合格的句子。

以單字測驗結束 1
以單字測驗結束 2

付費模型表現出不同的成功:1.5 Pro 只成功說出了兩個句子,而帶有 Deep Research 的 1.5 Pro 提供了三個句子,但有 13 次嘗試超出了句子限制。這說明了模型產生過多錯誤輸出的傾向,反映了其複雜的處理性質。

常識測試

常識知識測驗對於評估人工智慧對基本邏輯比較的理解至關重要。

迅速的: Which is heavier: 1kg of iron or 1kg of feathers?

常識測驗1
常識測驗2

所有四個模型都正確回答了這個問題。他們的回答格式各不相同,免費的 1.5 Flash 模型使用易於理解的要點,而 2.0 Flash Experimental 以段落形式提供了簡單的答案。

常識測驗 Pro 1
常識測驗 Pro 2

付費 1.5 Pro 型號表現良好,透過支援來源給出了相關且快速的答案。然而,具有 Deep Research 功能的 1.5 Pro 脫穎而出,對重量和所涉及的力學進行了深入研究的解釋,展示了其卓越的深度響應能力。

創造力測試

為了確定創造力,我們要求每個模型製作一個具有特定風格元素的短篇故事。

迅速的: Write a short story about Yamraj in the style of Shakespeare in 100 words.

創造力測驗1
創造力測驗2

出現了顯著的差異,特別是在兩種 Flash 模型之間。 1.5 Flash 版本傾向於詩歌,而 2.0 Flash 則選擇散文。然而,兩者都只使用了大約 65-70 個單詞,導致敘述不完整。同時,1.5 Pro 的嘗試感覺就像一個過度擴張的青少年的表達,儘管 2.0 Flash 提供了一個更有凝聚力的部分,專注於提示。

創造力測驗 Pro 1
創造力測驗專業版 2

付費模特兒都傾向於詩歌,在講故事方面表現出相似的起點,但視角上略有偏差。每個模型(包括付費版本)往往會產生平均約 79 個單字的故事,而「深度研究」版本則增加到 127 個單詞,偏離了指定的限制。

多模態生成測試

此測驗評估模型在合併視覺和文字元素以傳達連貫敘述方面的有效性。

迅速的: Write a short children's story about sportsmanship and add images wherever appropriate.

多模式測試 1
多模式測試2

值得注意的是,免費模型表現不佳,只能提供連貫的文本,但無法整合任何說明性圖像。相較之下,Gemini 1.5 Pro 是唯一能夠產生相關視覺元素的執行者,儘管它在文字元件方面仍然存在困難。相反,深度研究未能完全參與這項任務。

翻譯測試

不同人工智慧模型的翻譯能力各不相同,這使得這是一個簡單而有說服力的測試。

我們輸入 Premchand 的著名故事“Grih Daah”中的 365 個單字的印地語文字。

翻譯測試1
翻譯測驗2

翻譯總體上表現良好,但 Gemini 1.5 Flash 表現出了特定的缺陷——缺少關鍵角色名稱以及未能遵循對話格式。相比之下,Gemini 2.0 Flash Experimental 提供了優美的翻譯,具有顯著的上下文保真度。

翻譯測試專業版
翻譯測驗專業版2

付費的 1.5 Pro 與免費的 2.0 Flash 相當,僅有文法差異。具有 Deep Research 功能的 1.5 Pro 不符合測試資格,因為它僅提供英語版本。

編碼測試

與程式碼相關的任務通常揭示對演算法和邏輯結構的底層理解。

迅速的: Provide the Python code for the Travelling Salesman Problem.

編碼測試1
編碼測試2

Gemini 1.5 Flash模型透過背景上下文解開了問題並提供了程式碼解決方案,而2.0 Flash Experimental則直接從編碼開始,然後附加註解。

編碼測試 Pro 1
編碼測試 Pro 2

然而,最出色的是 1.5 Pro,它提供了準確的程式碼以及每個組件的全面解釋。這裡要注意的是,雖然深度研究變體解釋過度並且常常讓人感覺冗長,但其豐富的資訊可能會吸引尋求更多細節的用戶。

大海撈針測試

該測試涉及搜索大量數據以查明特定細節。

迅速的: Go through the text and tell me which bread did Mr. Jackson's son eat?

在本例中,我們要求 Gemini 從費奧多爾·陀思妥耶夫斯基的《白夜》中提取信息,嵌入“Mr.”這句台詞。傑克森的兒子吃黑麵包。

大海撈針測試 1
大海撈針測試 2

奇怪的是,所有四個版本都努力在敘述中分離出所需的信息,被周圍的故事分散了注意力,而不是專注於特定的查詢。

大海撈針 Test Pro 1
大海撈針 Test Pro 2

這項測試原本是為了澄清模型篩選關鍵資訊的能力,但它並沒有像預期的那樣成功。

猜電影

這個有趣的測試要求人工智慧根據靜態圖像識別一部電影。

猜猜電影還在
保羅達諾 (Paul Dano) 在《血色將至》 (2007)中飾演 Eli Sunday

迅速的: Which movie is this from?

猜電影結果1
猜電影結果2

1.5 Flash 模型正確地猜出了這部電影,儘管錯誤地命名了演員。 2.0 Flash 實驗最初很困難,直到第三次嘗試才成功辨識它。同時,1.5 Pro也早早陷入了猶豫,最終得出了正確的結論。

猜電影結果 Pro 1
猜電影結果 Pro 2

深度研究是純文字模型,無法處理此任務的圖像。

影像生成

Gemini 採用 Imagen3 模型來實現其影像生成功能,該任務可根據提示的詳細資訊產生不同的成功。

迅速的: Create an image showing a blue whale flying around a gothic clocktower with dark skies. Make it in the style of Edvard Munch.

對回應的審查表明,所有模型生成的圖像都符合基本標準。

影像生成快閃記憶體
影像生成2.0快閃記憶體
圖像生成專業版

1.5 Pro 模型表現出色,正確地體現了愛德華·蒙克的風格,特別是在描繪和建築元素方面。相較之下,雖然 1.5 Flash 模型展示了所要求風格的一些特徵,但 2.0 Flash Experimental 的圖像缺乏這種比較細節。

(不)令人驚訝的獲勝者

在所有測試中,付費版Gemini 1.5 Pro 型號成為最具競爭力的競爭者。儘管並非完美無缺,但它在各項任務中始終表現出色。免費的2.0 Flash 實驗模型也展示了卓越的功能,在摘要生成、創造力、翻譯等方面被證明是有效的,同時仍可透過網路和應用程式存取。作為 Google 搜尋中人工智慧概覽的支柱,其效能凸顯了其實用性。

看看 Deep Research 的 1.5 Pro,它很值得注意,但也有其限制。剝奪了圖像生成功能並且僅以英語提供,它仍然是一個不太通用的選擇 – 對於那些優先考慮廣泛研究見解的人來說,這是一個值得稱讚的選擇。同時,1.5 Flash 型號作為一款可靠的人工智慧產品,儘管被更先進的同類產品所掩蓋。

結論

比較同一類型的模型會帶來挑戰;然而,徹底的評估為使用者提供了明確的建議。對於需要進階功能的用戶,建議選擇 1.5 Pro 版本;對於免費效能,建議選擇 2.0 Flash Experimental。如果優先考慮綜合研究,並且不擔心缺乏多模式輸入,那麼具有 Deep Research 功能的 1.5 Pro 是您的最佳選擇。

這項調查旨在讓您獲得必要的見解,為不同的應用選擇合適的 Gemini 模型。

額外的見解

1. Gemini 1.5 Pro與其他機種相比有何特色?

Gemini 1.5 Pro 具有出色的邏輯推理、高效總結和強大的編碼能力,非常適合需要全面 AI 支援的高級用戶。

2. Gemini 2.0 Flash在創意任務中表現如何?

Gemini 2.0 Flash 展現了令人印象深刻的創造力,產生連貫的故事和引人入勝的摘要,同時透過網路和行動平台提供使用者友善的存取。

3. Gemini 1.5 Flash等免費型號有限制嗎?

是的,免費模型(例如 1.5 Flash)經常難以處理複雜的推理任務,並且可能產生比付費模型更細微的輸出,這使得它們不太適合複雜的專案。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *