Vergelijking van Gemini 1.5 Flash, 2.0 Flash Experimental, 1.5 Pro en 1.5 Pro met Deep Research

Uitgebreide analyse van Google Gemini AI-modellen

Naarmate de ontwikkeling van Google’s reeks AI-modellen versnelt, is het voor gebruikers van vitaal belang om onderscheid te maken tussen de verschillende mogelijkheden van elk model. De Gemini-familie omvat een reeks van de gratis 1.5 Flash tot de geavanceerde en op abonnementen gebaseerde 1.5 Pro met Deep Research. Met verbeteringen in redenering, creativiteit en verschillende multimodale toepassingen stelt Google nieuwe normen in AI-prestaties. Deze gids gaat dieper in op de verschillen tussen de vier operationele modellen: Gemini 1.5 Flash, Gemini 2.0 Flash, Gemini 1.5 Pro en Gemini 1.5 Pro met Deep Research, en biedt inzichten op basis van rigoureuze tests.

Wiskundetoets

Het gebruiken van wiskundige problemen is een uitstekende manier om de redenering en logica van een AI-model te beoordelen.

Snel: If 1=3, 2=3, 3=5, 4=4, and 5=4, then what is 6?

Uitleg: De oplossing houdt in dat de letters van de gespelde getallen worden geteld. Het verwachte antwoord is 3, aangezien “zes” drie letters heeft. Beide modellen in de gratis versie (1.5 Flash en 2.0 Flash) gaven echter onjuiste resultaten met minimale rechtvaardiging.

Daarentegen identificeerden de betaalde modellen (1.5 Pro en Pro met Deep Research) het antwoord succesvol. Het 1.5 Pro-model benadrukte bondig zijn logische redenering in opsommingstekens.

De 1.5 Pro met Deep Research gebruikte een uitgebreid onderzoek van patronen, inclusief rekenkundige en geometrische sequenties. Hoewel deze diepte onnodig leek voor deze simpele taak, illustreerde het de capaciteit van het model voor uitgebreide analyse.

Samenvattingstest

Om de samenvattingsmogelijkheden te evalueren, hebben we elk model getest met een gedetailleerd onderzoeksdocument van 30 pagina’s, gericht op de stilistische analyse van James Joyce’s ‘A Portrait of the Artist as a Young Man’.

Alle modellen slaagden erin om het artikel te condenseren tot ongeveer 500 woorden, hoewel met wisselende niveaus van effectiviteit. Het 1.5 Flash-model had moeite en produceerde oppervlakkige samenvattingen die de subkoppen slechts echoden. Gemini 2.0 leverde daarentegen een veel genuanceerder begrip, maar miste een duidelijke categorisering.

Onder de betaalde modellen presteerden zowel 1.5 Pro als Pro met Deep Research goed, maar de eerste blonk uit in efficiënt samenvatten zonder verlies van kritieke content, zij het zonder gestructureerde koppen. Het Pro met Deep Research-model behield structurele koppen, maar miste vaak substantiële content eronder, wat een uitdaging vormde in de samenvattingstaak.

De ‘Eindig met een woord’-test

Deze test meet het vermogen van een AI om instructies te begrijpen door zinnen te maken op basis van een bepaald eindwoord.

Snel: Give 10 sentences that end with the word 'Camera'

Interessant genoeg produceerde geen van de modellen, ondanks de eenvoud van het verzoek, volledig correcte uitkomsten. Het 1.5 Flash-model presteerde het beste en genereerde zes zinnen die voldeden aan de criteria. In schril contrast hiermee faalde het Gemini 2.0 Flash Experimental-model volledig en genereerde geen kwalificerende zinnen.

De betaalde modellen lieten wisselend succes zien: 1.5 Pro slaagde erin om slechts twee zinnen te verwerken, terwijl de 1.5 Pro met Deep Research er drie leverde, maar de zinslimiet met dertien pogingen overschreed. Dit illustreert de neiging van de modellen om outputs foutief te overproduceren, wat hun complexe verwerkingskarakter weerspiegelt.

Gezond verstand test

Tests van gezond verstand zijn cruciaal om te beoordelen in hoeverre een AI elementaire logische vergelijkingen begrijpt.

Snel: Which is heavier: 1kg of iron or 1kg of feathers?

Alle vier de modellen beantwoordden deze vraag correct. Hun antwoorden varieerden in formaat, waarbij het gratis 1.5 Flash-model gebruikmaakte van verteerbare bullet points, terwijl het 2.0 Flash Experimental een rechttoe rechtaan antwoord gaf in alineavorm.

Het betaalde 1.5 Pro-model presteerde goed en gaf een relevant en snel antwoord met ondersteunende bronnen. De 1.5 Pro met Deep Research viel echter op door een goed onderzochte uitleg te geven over gewicht en de betrokken mechanismen, wat zijn superieure vermogen voor diepgaande antwoorden liet zien.

Creativiteitstest

Om de creativiteit te testen, gaven we elk model de opdracht om een kort verhaal te schrijven met specifieke stijlelementen.

Snel: Write a short story about Yamraj in the style of Shakespeare in 100 words.

Er kwamen opvallende verschillen naar voren, met name tussen de twee Flash-modellen. De 1.5 Flash-versie neigde naar poëzie, terwijl de 2.0 Flash koos voor proza. Beide gebruikten echter slechts ongeveer 65-70 woorden, wat leidde tot onvolledige verhalen. Ondertussen voelde de poging van de 1.5 Pro aan als de expressie van een te vergaande tiener, hoewel de 2.0 Flash een samenhangender stuk bood dat zich richtte op de prompt.

De betaalde modellen neigden beide naar vers, met vergelijkbare starts in hun storytelling, met kleine afwijkingen in perspectief. Elk model, inclusief de betaalde versies, had de neiging om verhalen te produceren van gemiddeld 79 woorden, waarbij de Deep Research-variant opliep tot 127 woorden, wat afweek van de opgegeven limiet.

Multimodale generatieve test

Met deze test wordt beoordeeld in hoeverre de modellen visuele en tekstuele elementen effectief kunnen samenvoegen om een samenhangend verhaal over te brengen.

Snel: Write a short children's story about sportsmanship and add images wherever appropriate.

Opvallend is dat de gratis modellen haperden, coherente teksten leverden maar geen illustratieve afbeeldingen konden integreren. Gemini 1.5 Pro was daarentegen de enige die relevante visuele elementen kon genereren, hoewel het nog steeds moeite had met het tekstuele component. Deep Research daarentegen slaagde er niet in om de taak volledig uit te voeren.

Vertalingstest

De vertaalvaardigheid verschilt per AI-model, waardoor dit een eenvoudige maar veelzeggende test is.

We hebben een tekst van 365 woorden in het Hindi ingevoerd uit het bekende verhaal “Grih Daah” van Premchand.

De vertalingen hielden het over het algemeen goed vol, maar Gemini 1.5 Flash vertoonde specifieke tekortkomingen: het ontbrak namen van belangrijke personages en het niet respecteren van dialoogopmaak. Daarentegen leverde Gemini 2.0 Flash Experimental een gepolijste vertaling met aanzienlijke contextuele getrouwheid.

De betaalde 1.5 Pro was gelijkwaardig aan de gratis 2.0 Flash, met alleen syntactische variaties. De 1.5 Pro met Deep Research kwam niet in aanmerking voor de test vanwege de Engelstalige beschikbaarheid.

Coderingstest

Bij codegerelateerde taken wordt vaak het onderliggende begrip van algoritmen en logische structuren onthuld.

Snel: Provide the Python code for the Travelling Salesman Problem.

Het Gemini 1.5 Flash-model pakte het probleem aan met achtergrondcontext en bood codeoplossingen, terwijl Flash Experimental 2.0 direct begon met coderen en daarna notities toevoegde.

De uitschieter was echter de 1.5 Pro, die nauwkeurige code leverde samen met uitgebreide uitleg van elk onderdeel. Het punt om hier op te merken is dat hoewel de Deep Research-variant over-uitgelegd was en vaak langdradig aanvoelde, de overvloed aan informatie gebruikers die meer details zoeken, zou kunnen aanspreken.

Naald in een hooiberg-test

Bij deze test doorzoekt u een enorme hoeveelheid gegevens om een specifiek detail te identificeren.

Snel: Go through the text and tell me which bread did Mr. Jackson's son eat?

In dit geval gaven we Gemini de opdracht om informatie te extraheren uit Fjodor Dostojevski’s ‘Witte Nachten’, en voegden we de regel ‘De zoon van meneer Jackson at bruin brood’ toe.

Vreemd genoeg hadden alle vier de versies moeite om de gevraagde informatie te isoleren uit het verhaal. Ze werden afgeleid door de verhalen eromheen en konden zich niet concentreren op de specifieke vraag.

De bedoeling van deze test was om het vermogen van het model om cruciale informatie te doorzoeken te verduidelijken. Dat lukte echter niet zoals verwacht.

Raad de film

Bij deze speelse test werd de AI gevraagd om een film te identificeren op basis van een stilstaand beeld.

Paul Dano als Eli Sunday in There Will Be Blood (2007)

Snel: Which movie is this from?

Het 1.5 Flash-model raadde de film correct, hoewel de acteur verkeerd werd genoemd. De 2.0 Flash Experimental had er aanvankelijk moeite mee en identificeerde hem pas bij de derde poging. Ondertussen haperde 1.5 Pro ook al vroeg voordat het uiteindelijk de juiste conclusie bereikte.

Omdat Deep Research een model is dat alleen uit tekst bestaat, kon het de afbeelding niet voor deze taak verwerken.

Generatie van afbeeldingen

Gemini maakt gebruik van het Imagen3-model voor de mogelijkheden voor het genereren van afbeeldingen. Het succes van deze taak kan variëren, afhankelijk van de details van de opdracht.

Snel: Create an image showing a blue whale flying around a gothic clocktower with dark skies. Make it in the style of Edvard Munch.

Uit een analyse van de reacties blijkt dat alle modellen afbeeldingen genereerden die voldeden aan de basiscriteria.

Het 1.5 Pro-model excelleerde en paste de stijl van Edvard Munch correct toe, met name in de afbeelding en architecturale elementen. Ter vergelijking: terwijl het 1.5 Flash-model enkele kenmerken van de gevraagde stijl vertoonde, ontbrak het de 2.0 Flash Experimental-afbeelding aan dergelijke vergelijkende details.

De (niet)verrassende winnaar

In de breedte van de uitgevoerde tests kwam het betaalde Gemini 1.5 Pro-model naar voren als de meest competente kandidaat. Hoewel het niet foutloos was, blonk het consistent uit in alle taken. Het gratis 2.0 Flash Experimental-model toonde ook superieure mogelijkheden, en bleek effectief in het genereren van samenvattingen, creativiteit, vertaling en meer – en dat alles terwijl het toegankelijk bleef via zowel web als app. Als de ruggengraat voor AI Overviews in Google Search, onderstreept de prestatie ervan het nut ervan.

Kijkend naar de 1.5 Pro met Deep Research, is het opmerkelijk maar niet zonder beperkingen. Zonder de mogelijkheid om afbeeldingen te genereren en alleen beschikbaar in het Engels, blijft het een minder veelzijdige optie – een prijzenswaardige keuze voor degenen die prioriteit geven aan uitgebreide onderzoeksinzichten. Ondertussen staat het 1.5 Flash-model als een solide AI-aanbod, hoewel overschaduwd door zijn meer geavanceerde tegenhangers.

Conclusie

Het vergelijken van modellen binnen hetzelfde genre brengt uitdagingen met zich mee; een grondige evaluatie onthult echter duidelijke aanbevelingen voor gebruikers. Het is raadzaam om de 1.5 Pro-versie te gebruiken voor degenen die premiummogelijkheden nodig hebben en de 2.0 Flash Experimental voor free-tier-prestaties. Als uitgebreid onderzoek een prioriteit is en het gebrek aan multimodale invoer geen probleem is, is 1.5 Pro met Deep Research uw optimale keuze.

Met dit onderzoek willen we u de nodige inzichten verschaffen om het juiste Gemini-model te kiezen voor uiteenlopende toepassingen.

Extra inzichten

1. Welke kenmerken onderscheiden de Gemini 1.5 Pro van andere modellen?

De Gemini 1.5 Pro blinkt uit in logisch redeneren, efficiënte samenvattingen en robuuste coderingsmogelijkheden. Hierdoor is de Gemini 1.5 Pro ideaal voor gevorderde gebruikers die uitgebreide AI-ondersteuning nodig hebben.

2. Hoe presteert Gemini 2.0 Flash bij creatieve taken?

Gemini 2.0 Flash toont indrukwekkende creativiteit en genereert samenhangende verhalen en boeiende samenvattingen, en biedt bovendien gebruiksvriendelijke toegang via zowel web- als mobiele platforms.

3. Zijn er beperkingen voor gratis modellen zoals Gemini 1.5 Flash?

Ja, de gratis modellen, zoals 1.5 Flash, hebben vaak moeite met complexe redeneertaken en produceren mogelijk minder genuanceerde uitkomsten dan hun betaalde tegenhangers. Hierdoor zijn ze minder geschikt voor ingewikkelde projecten.

Bron & Afbeeldingen