AI pokalbių robotų kraštovaizdis tobulėja neregėtu greičiu. Kai tik viena organizacija pristato savo naujausią modelį, konkurentai greitai paseka pavyzdžiu ir stengiasi aplenkti vieni kitus. Nepaisant to, kad OpenAI ChatGPT pirmavo šioje konkurencinėje arenoje, konkurentai, tokie kaip Gemini, greitai įgijo trauką ir rafinuotumą.
Tarp dabartinių AI pokalbių robotų kūrimo lyderių yra ChatGPT ir Gemini modeliai.Šiame palyginime daugiausia dėmesio skiriame ChatGPT 4o modeliui ir Gemini 1.5 Pro, kurie abu yra aukščiausios kokybės pasiūlymai, pritaikyti įvairioms užduotims atlikti.
Norint veiksmingai patenkinti unikalius poreikius, būtina pasirinkti vieną iš šių pirmaujančių modelių. Taigi atlikome daugybę griežtų našumo testų, kad išsiaiškintume, kuris modelis puikiai tinka atliekant daugybę užduočių. Pasinerkime į analizę!
1. Matematikos testas
Pirmasis mūsų iššūkis apima sudėtingą matematinę mįslę, skirtą įvertinti kiekvieno modelio mąstymo galimybes:
Raginimas: If 1=3, 2=3, 3=5, 4=4, and 5=4, what is 6?
Šią mįslę reikia išspręsti skaičiuojant skaitmenų pavadinimuose esančias raides: viena turi tris raides, tris – penkias, taigi, šešios – tris raides. Abiem modeliams pavyko rasti teisingą sprendimą, tačiau jų paaiškinimai skyrėsi:
Nors abu atsakymai buvo tikslūs, ChatGPT pateikė šiek tiek išsamesnį paaiškinimą, pažymėdamas, kad šis pratimas priklauso nuo kalbinio, o ne skaitmeninio supratimo. Tačiau šis niuansas yra subjektyvus ir nesumenkina Dvynių korektiškumo.
Nugalėtojas: kaklaraištis
2. Apibendrinimo testas
Šiame segmente buvo įvertintas kiekvieno modelio gebėjimas sutraukti ilgą 27 puslapių mokslinį darbą į trumpą, mažiau nei 100 žodžių santrauką. Dėmesys buvo skiriamas tam, kokį turinį kiekvienas modelis įtraukė arba praleido savo santraukose.
Štai kaip „ChatGPT 4o“ ir „Gemini 1.5 Pro“ išėjimai skyrėsi:
„ChatGPT“ demonstravo išskirtinius apibendrinimo įgūdžius, sudarydamas visą santrauką neviršijant 100 žodžių, apimančią visus svarbius dalykus. Tačiau ji pateikė informaciją kaip vieną teksto bloką be tiesioginių citatų iš popieriaus.
Priešingai, Dvyniai taip pat pasirodė puikiai, sukūrę 83 žodžių santrauką, paremtą nuorodomis į konkrečias teksto dalis. Nors „ChatGPT“ pasižymėjo visapusiškumu, „Gemini“ įtraukė citatas, jai suteikė svarbaus pranašumo.
Nugalėtojas: Dvyniai
3. Testas „Baigti žodžiu“.
Šiai nesudėtingai užduočiai atlikti reikėjo sudaryti 10 sakinių, kurie baigiasi žodžiu „kamuolys“.Dėl užduoties paprastumo pastebima, kad daugelis modelių su ja kovoja.
Raginimas: Provide 10 sentences ending with the word 'ball'.
„ChatGPT“ stebėtinai pateikė tik 3 tinkamus sakinius, o Dvyniai jį aplenkė 6 sakiniais, teisingai užbaigę „kamuolys“.Štai jų bandymų apžvalga:
Nepaisant to, kad abu modeliai nepasiekė 10 sakinių tikslo, Dvynių rezultatai puikiai suvokia pateiktą nurodymą.
Nugalėtojas: Dvyniai
4. Sveiko proto testas
Šie testai yra įdomus iššūkis, nes dirbtinis intelektas čia dažnai klysta. Mes uždavėme paprastą klausimą:
Raginimas: If a blue ball falls into the red sea, what color is it now?
Abu modeliai pateikė tikslius atsakymus ir nustatė, kad rutulio spalva išliks mėlyna. Tačiau jų paaiškinimų niuansai skyrėsi:
Dvyniai pasiūlė trumpą atsakymą, o „ChatGPT“ pateikė papildomą kontekstą. Ar toks gylis reikalingas – subjektyvu, tačiau abu modeliai puikiai atpažino kamuoliuko spalvą.
Nugalėtojas: kaklaraištis
5. Kūrybiškumo testas
AI panaudojimas kūrybiškam pasakojimui gali būti labai naudingas. Kiekvienam dirbtiniam intelektui pavedėme sukurti 100 žodžių trumpą istoriją su Kalėdų Seneliu, kurios stilius tarsi būtų parašytas gudraus Chaucerio.
Raginimas: Write a short story about Santa in the style of a drunken Chaucer in 100 words.
Štai jų kūrybiniai atvaizdai:
Subjektyvus kūrybiškumo pobūdis apsunkina aiškų nugalėtoją. Pažymėtina, kad Dvyniai kūrybines užduotis dažnai pradeda fraze „Hark“, kuri tapo mėgstamiausiu stilistiniu pasirinkimu. Nepaisant to, šiame ture „ChatGPT“ pasakojimas išsiskyrė.
Laimėtojas: ChatGPT
6. Vaizdo generavimo testas
Šis testas įvertino kiekvieno AI modelio vizualines generavimo galimybes. Mes pakvietėme juos sukurti vaizdą pagal šį raginimą:
Raginimas: Create an image of a black cat gazing out at fields of barley bathed in evening yellow light, in the style of Vincent Van Gogh.
„ChatGPT“ buvo sekunde ar dviem greitesnis, tačiau galutinis Gemini vaizdas sceną pavaizdavo sudėtingiau. Nors abu modeliai suvokė Van Gogho meninį stilių, subjektyvi vaizdų kokybė skyrėsi:
Verta paminėti, kad „ChatGPT“ leidžia redaguoti vaizdus po karto – šio pranašumo „Dvyniams“ šiuo metu trūksta. Kadangi abu vaizdai efektyviai įkūnijo Van Gogho stilių, pasirinkimas priklauso nuo žiūrovo pageidavimų, nors mes linkstame į Dvynius.
Nugalėtojas: Dvyniai
7. Multimodalinis generacinis testas
Dirbtinio intelekto įgūdžiai tikrinami integruotais režimais, nes jie dažnai puikiai atlieka atskiras užduotis, tačiau susiduria su sudėtingomis užduotimis. Abu modelius pavedėme parašyti vaikišką istoriją apie sportiškumą, pakeliui įterpdami tris iliustracijas.
Raginimas: parašykite trumpą vaikų istoriją apie sportinį meistriškumą ir pridėkite 3 paveikslėlius, jei reikia.
„ChatGPT“ sukūrė patrauklų pasakojimą, kuriame buvo moralinių apmąstymų ir sklandžiai integruotų vaizdų. Priešingai, nors Dvyniams pavyko sukurti istoriją, jai trūko aiškumo ir nuoseklumo ir nepavyko sukurti pasakojimo vaizdų.
Atsižvelgiant į įtikinamą ir lengvai vykdomą pristatymą, šis sprendimas buvo paprastas.
Laimėtojas: ChatGPT.
8. Vertimo testas
Norėdami įvertinti šių modelių vertimo galimybes, paprašėme kiekvieno išversti rinkinius iš Premchando hindi apysakos „Grih Daah“.
„ChatGPT“ sukūrė nepaprastai veiksmingus vertimus, išlikdami ištikimi pradinei reikšmei ir išlaikę autoriaus stilistinį vientisumą:
Priešingai, Dvyniai iš pradžių kovojo su vertimo užklausa ir pastebėjo pastebimą atsakymo laiko vėlavimą.Šis našumo nenuoseklumas yra dažniausiai Dvynių problema.
Laimėtojas: ChatGPT
9. Kodavimo testas
Norėdami įvertinti jų kodavimo įgūdžius, pateikėme standartinę optimizavimo problemą:
Raginimas: Provide the Python code for the Travelling Salesman Problem.
„ChatGPT“ reagavo efektyviai, naudodamas integruotą „Canvas“ režimą kodavimui, kuris leido nedelsiant vykdyti kodą ir derinti:
Kita vertus, Dvyniai pasižymėjo pateikdami patikimą kodą, tačiau jai trūko interaktyvios kodo sąsajos, tokios kaip „ChatGPT“ drobė:
Laimėtojas: ChatGPT
10. Adata šieno kupetoje
Šis testas verčia dirbtinio intelekto modelius surasti konkrečias informacijos dalis didesniame dokumente. Mes panaudojome pirmąjį Puškino apysakos „Kapitono dukra“ segmentą ir pateikėme tokį raginimą:
Raginimas: Identify which bread Mr. Joe's son ate from the following excerpt.
ChatGPT greitai rado atsakymą: ruda duona.
Visiškai priešingai, Dvyniams nepavyko gauti informacijos, stengėsi išanalizuoti pateiktą informaciją, o tai rodo, kad sudėtingų duomenų tvarkymas neveiksmingas.
Laimėtojas: ChatGPT
11. Atspėk filmo testą
Šiame linksmame ture įvertinome modelių vaizdo atpažinimo įgūdžius, nustatydami populiarų filmo kadrą:
Abu modeliai tiksliai pavadino filmą, tačiau „ChatGPT“ sugebėjo nurodyti vaizduojamus personažus (Coliną Farrellą ir jo asilą), o Dvyniai juokingai klaidingai identifikavo asilą kaip Colmą Doherty.
Laimėtojas: ChatGPT
Bendras nugalėtojas
Suskaičiavus balus, ChatGPT 4o modelis laimėjo 6 pergales ir 2 lygiąsias, pademonstruodamas savo tvirtą našumą įvairiuose testuose ir kompetencijose. Tuo tarpu „Gemini 1.5 Pro“ pateikė pagirtiną iššūkį, puikiai apibendrindamas, generuodamas vaizdą ir atlikdamas užduotį „baikite žodžiu“, taip pat pasiekdamas lygybę tiek matematikos, tiek sveiko proto vertinimuose.
Galiausiai ChatGPT aplenkė Dvynius tokiose svarbiose srityse kaip kodavimas, vertimas, kūrybiškumas, informacijos paieška ir vaizdų interpretavimas. Dėl nuolatinio „ChatGPT“ patikimumo jis išsiskiria kaip tinkamiausias AI partneris, net jei „Gemini“ rodo tobulėjimo potencialą optimizavus raginimus. Mūsų vertinimu, rezultatai palankūs ChatGPT tiems, kurie teikia pirmenybę patikimumui ir veiksmingumui.
Dažnai užduodami klausimai
1. Kokie yra pagrindiniai skirtumai tarp ChatGPT 4o ir Gemini 1.5 Pro?
Nors abu modeliai yra aukščiausios kokybės AI pokalbių robotai, ChatGPT 4o pademonstravo puikų kodavimo, vertimo ir kūrybinių užduočių našumą. Tačiau „Gemini 1.5 Pro“ pasižymi apibendrinimu ir vaizdo generavimu.
2. Kuris AI pokalbių robotas yra geresnis paprastiems vartotojams?
Paprastiems vartotojams, ieškantiems patikimumo atliekant įvairias užduotis, „ChatGPT 4o“ paprastai laikomas patikimesniu pasirinkimu dėl nuoseklaus veikimo ir plačių galimybių.
3. Ar galiu naudoti šiuos AI pokalbių robotus verslo tikslais?
absoliučiai! Tiek „ChatGPT 4o“, tiek „Gemini 1.5 Pro“ tinka verslo programoms, įskaitant klientų aptarnavimo automatizavimą, turinio kūrimą ir duomenų analizę, todėl jie yra vertingi įrankiai profesionalioje aplinkoje.
Parašykite komentarą