Sammenligning av Gemini 1.5 Flash, 2.0 Flash Experimental, 1.5 Pro og 1.5 Pro med Deep Research

Omfattende analyse av Google Gemini AI-modeller

Ettersom Googles serie med AI-modeller akselererer utviklingen, har det blitt viktig for brukerne å skille mellom de ulike egenskapene til hver modell. Gemini-familien omfatter en rekke fra den gratis 1.5 Flash til den sofistikerte og abonnementsbaserte 1.5 Pro med Deep Research. Med forbedringer i resonnement, kreativitet og ulike multimodale applikasjoner setter Google nye standarder for AI-ytelse. Denne guiden vil fordype seg i forskjellene mellom de fire operasjonsmodellene: Gemini 1.5 Flash, Gemini 2.0 Flash, Gemini 1.5 Pro og Gemini 1.5 Pro med Deep Research, og gir innsikt basert på strenge tester.

Innholdsfortegnelse

Matematikkprøve

Å bruke matematiske problemer er en utmerket måte å vurdere en AI-modells resonnement og logikk.

Spørsmål: If 1=3, 2=3, 3=5, 4=4, and 5=4, then what is 6?

Forklaring: Løsningen innebærer å telle bokstavene i de utskrevne tallene. Det forventede svaret er 3 siden «seks» har tre bokstaver. Begge modellene i gratisnivået (1.5 Flash og 2.0 Flash) returnerte imidlertid feil resultater med minimal begrunnelse.

Matematikkprøveresultater 1
Matematikkprøveresultater 2

Derimot identifiserte de betalte modellene (1.5 Pro og Pro med Deep Research) svaret. 1.5 Pro-modellen fremhevet sin logiske begrunnelse i punktformat.

Math Test Results Pro 1
Math Test Results Pro 2

1.5 Pro med Deep Research brukte en forseggjort undersøkelse av mønstre, inkludert aritmetiske og geometriske sekvenser. Selv om denne dybden virket unødvendig for denne enkle oppgaven, eksemplifiserte den modellens evne til omfattende analyse.

Oppsummeringstest

For å evaluere evnen til å oppsummere, testet vi hver modell med en detaljert 30-siders forskningsartikkel med fokus på den stilistiske analysen av James Joyces «A Portrait of the Artist as a Young Man».

Oppsummeringstest 1
Oppsummeringstest 2

Alle modellene klarte å kondensere papiret til omtrent 500 ord, men med varierende effektivitetsnivåer. 1,5 Flash-modellen slet og produserte oppsummeringer på overflatenivå som bare gjentok underoverskriftene. Motsatt leverte Gemini 2.0 en mye mer nyansert forståelse, men manglet tydelig kategorisering.

Oppsummeringstest Pro 1
Oppsummeringstest Pro 2

Blant de betalte modellene, mens både 1.5 Pro og Pro med Deep Research presterte bra, utmerket førstnevnte seg i å effektivt oppsummere uten å miste kritisk innhold, om enn uten strukturerte overskrifter. Pro with Deep Research-modellen opprettholdt strukturelle overskrifter, men manglet ofte substansielt innhold under dem, noe som utgjør en utfordring i oppsummeringsoppgaven.

«Avslutt med et ord»-testen

Denne testen måler en AIs evne til å forstå instruksjoner ved å kreve at den lager setninger basert på et gitt sluttord.

Spørsmål: Give 10 sentences that end with the word 'Camera'

Interessant nok, til tross for enkelheten i forespørselen, ga ingen av modellene helt korrekte utganger. 1,5 Flash-modellen presterte best, og genererte seks setninger som overholdt kriteriene. I sterk kontrast mislyktes Gemini 2.0 Flash Experimental-modellen fullstendig, og genererte ingen kvalifiserende setninger.

Avslutt med en ordtest 1
Avslutt med en ordtest 2

De betalte modellene viste variert suksess: 1.5 Pro klarte bare to setninger mens 1.5 Pro med Deep Research ga tre, men overskred straffgrensen med tretten forsøk. Dette illustrerer modellenes tendens til å overprodusere utdata ved feil, noe som gjenspeiler deres komplekse prosesseringsnatur.

Sunn fornuft test

Kunnskapstester for sunn fornuft er avgjørende for å vurdere en AIs forståelse av grunnleggende logiske sammenligninger.

Spørsmål: Which is heavier: 1kg of iron or 1kg of feathers?

Sunn fornuftstest 1
Sunn fornuftstest 2

Alle fire modellene svarte riktig på dette spørsmålet. Svarene deres varierte i format, med den gratis 1.5 Flash-modellen som brukte fordøyelige punktpunkter, mens 2.0 Flash Experimental ga et enkelt svar i avsnittsform.

Common Sense Test Pro 1
Common Sense Test Pro 2

Den betalte 1.5 Pro-modellen presterte bra, og ga et relevant og raskt svar med støttekilder. Imidlertid skilte 1.5 Pro med Deep Research seg ut ved å gi en godt undersøkt forklaring av vekt og mekanikken som er involvert, og viser dens overlegne evne til dybderespons.

Kreativitetstest

For å fastslå kreativiteten ga vi hver modell i oppgave å lage en novelle med spesifikke stilelementer.

Spørsmål: Write a short story about Yamraj in the style of Shakespeare in 100 words.

Kreativitetstest 1
Kreativitetstest 2

Det dukket opp betydelige forskjeller, spesielt mellom de to Flash-modellene. 1.5 Flash-versjonen lente seg mot vers mens 2.0 Flash valgte prosa. Begge brukte imidlertid bare rundt 65-70 ord, noe som førte til ufullstendige fortellinger. I mellomtiden føltes forsøket til 1.5 Pro som et overveldende tenåringsuttrykk, selv om 2.0 Flash ga et mer sammenhengende stykke fokusert på spørsmålet.

Creativity Test Pro 1
Creativity Test Pro 2

De betalte modellene lente begge mot vers, og viste lignende start i historiefortellingen, med mindre avvik i perspektiv. Hver modell, inkludert de betalte versjonene, hadde en tendens til å produsere historier med et gjennomsnitt på rundt 79 ord, med Deep Research-varianten oppblåst til 127 ord, og avviket fra den angitte grensen.

Multimodal generativ test

Denne testen evaluerer modellenes effektivitet når det gjelder å slå sammen visuelle og tekstlige elementer for å formidle en sammenhengende fortelling.

Spørsmål: Write a short children's story about sportsmanship and add images wherever appropriate.

Multimodal test 1
Multimodal test 2

Spesielt vaklet de gratis modellene, og leverte sammenhengende tekster, men klarte ikke å integrere noen illustrative bilder. Derimot var Gemini 1.5 Pro den eneste utøveren som var i stand til å generere relevante visuelle elementer, selv om den fortsatt slet med tekstkomponenten. Motsatt klarte ikke Deep Research å engasjere seg i oppgaven helt.

Oversettelsestest

Oversettelsesevnen varierer på tvers av AI-modeller, noe som gjør dette til en enkel, men likevel talende test.

Vi legger inn en tekst på 365 ord på hindi fra den kjente historien «Grih Daah» av Premchand.

Oversettelsestest 1
Oversettelsestest 2

Oversettelsene holdt seg generelt bra, men Gemini 1.5 Flash viste spesifikke mangler – manglet navn på nøkkelkarakterer og mislyktes i å respektere dialogformatering. Derimot leverte Gemini 2.0 Flash Experimental en polert oversettelse med betydelig kontekstuell troskap.

Translation Test Pro
Translation Test Pro 2

Den betalte 1.5 Pro var på nivå med gratis 2.0 Flash, og viste bare syntaktiske varianser. 1.5 Pro med Deep Research var ikke kvalifisert for testen på grunn av tilgjengeligheten kun på engelsk.

Kodingstest

Koderelaterte oppgaver avslører ofte den underliggende forståelsen av algoritmer og logiske strukturer.

Spørsmål: Provide the Python code for the Travelling Salesman Problem.

Kodetest 1
Kodetest 2

Gemini 1.5 Flash-modellen pakket ut problemet med bakgrunnskontekst og ga kodeløsninger, mens 2.0 Flash Experimental begynte direkte med koding, og la til notater etterpå.

Coding Test Pro 1
Coding Test Pro 2

Utmerket var imidlertid 1.5 Pro, som leverer nøyaktig kode sammen med omfattende forklaringer av hver komponent. Tingen å merke seg her er at mens Deep Research-varianten overforklarte og ofte føltes utførlig, kan dens overflod av informasjon appellere til brukere som søker mer detaljer.

Nål i en høystakktest

Denne testen innebærer å søke gjennom overveldende data for å finne en spesifikk detalj.

Spørsmål: Go through the text and tell me which bread did Mr. Jackson's son eat?

I dette tilfellet ga vi Gemini i oppgave å trekke ut informasjon fra Fjodor Dostojevskijs «Hvite netter», ved å legge inn linjen «Mr. Jacksons sønn spiste brunt brød.»

Nål i en høystakktest 1
Nål i en høystakktest 2

Merkelig nok slet alle fire versjonene med å isolere den forespurte informasjonen midt i fortellingen, og ble distrahert av historiene rundt i stedet for å fokusere på den spesifikke spørringen.

Nål i en Haystack Test Pro 1
Nål i en Haystack Test Pro 2

Denne testen ble forventet å klargjøre modellens evne til å sile gjennom sentral informasjon – den lyktes ikke som forventet.

Gjett filmen

Denne lekne testen innebar å be AI om å identifisere en film basert på et stillbilde.

Gjett filmen fortsatt
Paul Dano som Eli Sunday i There Will Be Blood (2007)

Spørsmål: Which movie is this from?

Gjett filmresultatet 1
Gjett filmresultatet 2

1,5 Flash-modellen gjettet filmen riktig, om enn feil navn på skuespilleren. 2.0 Flash Experimental slet i begynnelsen, og identifiserte den først på tredje forsøk. I mellomtiden vaklet 1.5 Pro også tidlig før den endelig kom til riktig konklusjon.

Gjett filmresultatet Pro 1
Gjett Movie Result Pro 2

Deep Research, som kun var en tekstmodell, hadde ingen evne til å behandle bildet for denne oppgaven.

Bildegenerering

Gemini bruker Imagen3-modellen for sine bildegenereringsevner, en oppgave som kan gi varierende suksess avhengig av forespørselens detaljer.

Spørsmål: Create an image showing a blue whale flying around a gothic clocktower with dark skies. Make it in the style of Edvard Munch.

En gjennomgang av svar avslører at alle modellene genererte bilder som oppfylte de grunnleggende kriteriene.

Bildegenerering Flash
Image Generation 2.0 Flash
Image Generation Pro

1.5 Pro-modellen utmerket seg, og korrekt kanaliserte Edvard Munchs stil, spesielt i skildringen og arkitektoniske elementer. Til sammenligning, mens 1.5 Flash-modellen viste noen karakteristikker av den forespurte stilen, manglet bildet til 2.0 Flash Experimental slike sammenlignende detaljer.

Den (u)overraskende vinneren

På tvers av tester som ble administrert, dukket den betalte Gemini 1.5 Pro-modellen opp som den mest kompetente utfordreren. Selv om den ikke var feilfri, utmerket den seg konsekvent på tvers av oppgaver. Den gratis 2.0 Flash Experimental-modellen demonstrerte også overlegne evner, og viste seg å være effektiv i oppsummeringsgenerering, kreativitet, oversettelse og mer – alt samtidig som den forble tilgjengelig via både web og app. Som ryggraden for AI-oversikter i Google Søk, understreker ytelsen dens nytte.

Når vi ser på 1.5 Pro med Deep Research, er den bemerkelsesverdig, men ikke uten sine begrensninger. Fratatt bildegenereringsevnen og tilgjengeligheten utelukkende på engelsk, er det fortsatt et mindre allsidig alternativ – et prisverdig valg for de som prioriterer omfattende forskningsinnsikt. I mellomtiden står 1,5 Flash-modellen som et solid AI-tilbud, om enn overskygget av sine mer avanserte motstykker.

Konklusjon

Å sammenligne modeller innenfor samme sjanger byr på utfordringer; Men en grundig evaluering avslører klare anbefalinger til brukerne. Det anbefales å forfølge 1.5 Pro-versjonen for de som trenger premium-funksjoner og 2.0 Flash Experimental for free-tier-ytelse. Hvis omfattende forskning er en prioritet og mangelen på multimodal input ikke er en bekymring, er 1.5 Pro med Deep Research ditt optimale valg.

Denne undersøkelsen tar sikte på å utstyre deg med nødvendig innsikt i valg av passende Gemini-modell for varierte bruksområder.

Ytterligere innsikt

1. Hvilke funksjoner gjør at Gemini 1.5 Pro skiller seg ut sammenlignet med andre modeller?

Gemini 1.5 Pro utmerker seg i logisk resonnement, effektiv oppsummering og robuste kodefunksjoner, noe som gjør den ideell for avanserte brukere som trenger omfattende AI-støtte.

2. Hvordan fungerer Gemini 2.0 Flash i kreative oppgaver?

Gemini 2.0 Flash demonstrerer imponerende kreativitet, genererer sammenhengende historier og engasjerende oppsummeringer samtidig som den tilbyr brukervennlig tilgang gjennom både nett- og mobilplattformer.

3. Er det noen begrensninger for gratismodeller som Gemini 1.5 Flash?

Ja, gratismodellene, som 1.5 Flash, sliter ofte med komplekse resonneringsoppgaver og kan produsere mindre nyanserte utdata enn deres betalte motparter, noe som gjør dem mindre egnet for intrikate prosjekter.

Kilde og bilder

Legg att eit svar

Epostadressa di blir ikkje synleg. Påkravde felt er merka *