Claude Sonnet 3.5 versus ChatGPT-4o: welke is beter?

Onlangs heb ik Claude’s nieuwe 3.5 Sonnet-model uitgeprobeerd, wat het krachtigste AI-model van Anthropic tot nu toe is, en waarvan het bedrijf beweert dat het rivalen zoals OpenAI’s ChatGPT kan overtreffen. Dit is een gewaagde bewering, die Anthropic ondersteunt met een aantal behoorlijk indrukwekkende benchmarks.

Het nieuwe model beschikt ook over vision-mogelijkheden, waardoor u het kunt voorzien van afbeeldingen en documenten en er informatie uit kunt halen. En het kan emoties zoals humor beter begrijpen terwijl het veel sneller is. Al deze elementen maken Claude 3.5 een belangrijke concurrent voor de nieuwe GPT-40-aangedreven ChatGPT, die ook een multimodaal AI-model is.

Net als Sonnet kan ChatGPT-40 naast tekstgebaseerde ook op zicht gebaseerde inputs gebruiken om reacties te geven. Het is even goed in probleemoplossing en beschikt over vergelijkbare conversationele mogelijkheden. Aangezien beide nieuwe modellen qua mogelijkheden en prestaties zo dicht bij elkaar liggen, is de vraag die iedereen bezighoudt: welke van de twee is beter? Om die vraag te beantwoorden, besloot ik beide modellen in detail te vergelijken.

Informatie uit documenten halen

AI-tools worden vaak gebruikt om informatie uit documenten zoals PDF-bestanden te halen en deze vervolgens samen te vatten. Daarom besloot ik eerst te kijken welk van de twee modellen dit effectiever zou kunnen doen. Hiervoor heb ik een PDF-document over dakvierkanten voorbereid dat ik een tijdje geleden had geschreven en heb ik het geüpload naar ChatGPT en Claude.

Toen gaf ik ze de prompt, summarize this document and provide me with the most important points discussed in it.Dit is wat ik ontdekte. Het nieuwe Claude-model was veel sneller dan ChatGPT en begon direct zijn reactie te genereren nadat ik mijn verzoek had ingediend. Het volgde de prompt ook nauwkeuriger, door de belangrijke punten in een genummerde lijst op te sommen. Als je weinig tijd hebt en alleen snel wilt zien wat een document bevat, is dit wat je nodig hebt.

Testen van Claude’s vaardigheden op het gebied van het extraheren en samenvatten van informatie uit documenten.

Maar ondanks dat het langzamer was dan Claude, gaf ik in dit geval de voorkeur aan ChatGPT’s antwoord. Het gaf niet alleen de belangrijkste punten in het document weer, maar verdeelde ze ook in verschillende secties, zoals Definitie en Belangrijkheid, Berekening, etc.

Als u specifieke informatie nodig hebt over een bepaald aspect van het onderwerp dat in een document wordt besproken, lijkt de manier waarop ChatGPT werkt nuttiger. U hoeft niet alle punten door te nemen en kunt gewoon naar de benodigde sectie kijken. De informatie wordt op een manier verstrekt die gemakkelijker is om door te nemen en te verwerken.

ChatGPT geeft een overzicht van de belangrijke punten en verdeelt deze in verschillende secties.

Testen van visuele mogelijkheden

Omdat een van de belangrijkste hoogtepunten van zowel Claude 3.5 als ChatGPT-40 hun vermogen is om visuele input te gebruiken en informatie te verstrekken op basis daarvan, besloot ik dat vervolgens te testen door ze te vragen om handgeschreven instructies te volgen nadat ze deze hadden getranscribeerd. Ik vroeg de AI-modellen om een kort gedicht te schrijven dat leek op ‘The Ant and the Cricket’ van Aesopus.

Hoewel ik het niet schriftelijk heb gespecificeerd, wilde ik dat de output geïnspireerd zou zijn door het gedicht, maar met andere personages. Claude vroeg me eerst om mijn handgeschreven verzoek te bevestigen en ging er toen mee aan de slag. Het resultaat was vrij goed, heel dicht bij het originele gedicht, maar met dezelfde personages. De AI-chatbot vroeg me ook of ik een andere aanpak wilde of wijzigingen in het gedicht nadat hij klaar was met het schrijven van het gedicht.

Claude volgt de handgeschreven instructies nauwkeuriger op.

ChatGPT vroeg niet of ik mijn verzoek wilde bevestigen, maar ging er meteen mee aan de slag. Het gedicht dat ze schreven was ook erg indrukwekkend, en ze vervingen de mier en de krekel uit de originele creatie door een bij en een vlinder, iets wat Claude niet deed. Ik vond de versie van ChatGPT ook poëtischer.

ChatGPT begrijpt handgeschreven instructies, maar voegt er een eigen draai aan toe als u deze opvolgt.

Dus, bij transcriptie is er een klein verschil in de resultaten, maar beide kunnen handgeschreven en gedrukte tekst heel goed ontcijferen en begrijpen, zelfs als de afbeeldingen niet heel duidelijk zijn. Deze krachtige visuele mogelijkheden betekenen ook dat u deze tools kunt gebruiken om informatie uit grafieken en diagrammen te halen, waardoor ze geschikt zijn voor wiskundige taken.

Afbeeldingen beschrijven: Omdat beide modellen ook informatie uit afbeeldingen kunnen halen, moest ik het ook uitproberen. Ik gaf Claude en ChatGPT een afbeelding van een tropisch eiland en vroeg hen om deze te beschrijven. Zoals u kunt zien, geeft Claude een levendige beschrijving van de afbeelding, waarbij hij elk element op de voorgrond en achtergrond heel duidelijk beschrijft, zelfs die elementen die ik zelf niet had opgemerkt.

Claude’s keuze van zinnen en woorden om de afbeelding te beschrijven voelde ook impactvoller, en deed recht aan de afbeelding. Het doet een prima werk door de kleuren, belichting te beschrijven en het algehele gevoel van sereniteit en rust over te brengen dat de afbeelding genereert.

Claude 3.5 kan afbeeldingen nauwkeurig en zeer gedetailleerd beschrijven.

De resultaten waren ingewikkelder in het geval van ChatGPT, dat afbeeldingen kan beschrijven, maar niet zo goed als die van Claude. Het model van OpenAI maakt vaak fouten, voegt elementen toe die er niet zijn, wat aantoont dat het nog steeds kan hallucineren. Ook bleef het in eerste instantie proberen de afbeelding te beschrijven op basis van de titel in plaats van wat het afbeeldde, en na meerdere pogingen lukte het uiteindelijk.

Zelfs toen kon de beschrijving die ik ervan kreeg niet tippen aan Claude’s antwoord. Dat was nogal verrassend, aangezien de visiemogelijkheden van de GPT-40 een van de grootste hoogtepunten waren die OpenAI bij de lancering liet zien.

ChatGPT kan afbeeldingen beschrijven, maar kan fouten maken.

Content genereren en bewerken

Vervolgens probeerde ik te zien welk model het beter deed bij het genereren van content. Om een duidelijk beeld te krijgen van hoe ze presteren, besloot ik content te genereren die echte feiten en data vereist, evenals fictieve content die afhankelijk zou zijn van de creativiteit van het AI-model.

Eerst vroeg ik Claude en ChatGPT om mij een gedetailleerd artikel te geven over verschillende Android-skins, omdat het iets is waar veel mensen meer over willen weten, maar het is een heel subjectief onderwerp, waarbij ieder individu zijn eigen favoriet heeft. Ik gebruikte de prompt Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?Gezien hoeveel tijd we besteden met onze smartphones, wilde ik erachter komen hoe nauwkeurig de modellen waren en hoeveel informatie ze konden geven over elke skin.

Zoals gewoonlijk was Claude sneller met het geven van een antwoord. Hij gaf een overzicht van wat Android-skins zijn, wat leuk is, maar ging daarna gewoon door met het opsommen van de verschillende skins met de functies die ze bieden in een opsommingslijst. Houd er rekening mee dat het model dit resultaat gaf, ook al had ik specifiek een ‘gedetailleerd artikel’ in mijn prompt vermeld.

Claude 3.5 Sonnet geeft een kort overzicht en geeft vervolgens de kenmerken in opsommingstekens weer.

Daarentegen creëerde ChatGPT een indrukwekkendere titel voor het artikel en voegde een korte introductie toe. Daarna legde het elke skin uit in een eigen sectie, waarbij elk werd verdeeld in een Overzicht, Belangrijkste kenmerken, Voordelen en Nadelen.

Dit biedt niet alleen uitgebreidere informatie, maar laat je ook precies weten hoe de verschillende skins zich tot elkaar verhouden. Ten slotte eindigde het artikel met een goede conclusie. Hoewel het aantal skins dat ChatGPT noemde minder was dan die van Claude, is de kwaliteit hier belangrijker dan de kwantiteit.

ChatGPT-40 biedt een gedetailleerd artikel met verschillende secties voor elke skin.

Hoewel ChatGPT in dit geval beter presteerde dan Claude, kan de laatste ook goede content genereren, zoals ik heb ontdekt in mijn vorige tests. Het kan afhangen van het onderwerp of de manier waarop je je prompt formuleert. Daarom gaf ik beide modellen een andere prompt, dit keer met de prompt. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.Het gaf me ook de mogelijkheid om te zien hoe goed de modellen humor begrijpen en kunnen overbrengen.

Deze keer lagen de resultaten erg dicht bij elkaar, waarbij beide modellen echt hilarische verhalen creëerden. Beide verhalen hadden gemeenschappelijke elementen, zoals ironie en fysieke komedie. In fictie is persoonlijke voorkeur een krachtige factor, en over het algemeen vond ik Claude’s output iets beter, vooral de manier waarop hij met woorden speelde om humor te genereren.

Fictieve inhoud gegenereerd door Claude 3.5

Maar zoals ik al eerder zei, ChatGPT’s verhaal was ook leuk om te lezen en was iets langer dan dat van Claude. Het einde was ook gezonder. Dus, Claude en ChatGPT waren allebei in staat om goede fictieve content te genereren en tegelijkertijd humoristische elementen toe te voegen, zoals ik had gevraagd.

Content bewerken: Content genereren is slechts een onderdeel van het proces. Om echt te ontdekken wat een AI-model kan doen als het gaat om content, moet je ook de contentbewerkingsmogelijkheden testen, wat ik vervolgens deed. Hiervoor heb ik een tekststuk over social commerce aan Claude en ChatGPT verstrekt en hen de prompt gegeven,Can you expand this article while also proofreading and improving it?

Bij het verbeteren van het artikel begon Claude met een introductie, schreef vervolgens over de evolutie van Social Commerce en volgde ten slotte andere secties, waarbij hij elk uitbreidde zoals hij dat nodig achtte. Het model gebruikte ook genummerde lijsten en opsommingstekens waar het nodig achtte om de leesbaarheid te verbeteren.

Claude’s bewerkingsmogelijkheden zijn behoorlijk krachtig.

De reactie van ChatGPT was vergelijkbaar met de eerdere reacties, waarbij de content werd verdeeld in verschillende secties met verschillende subkoppen. Er werden geen lijsten gebruikt, maar de informatie werd in de vorm van paragrafen bewaard. Wat betreft de veranderingen en verbeteringen, merkte ik dat Claude drastischer veranderingen aanbracht in het artikel dan ChatGPT, maar het eindresultaat was ook veel beter. Uiteindelijk vond ik de bewerkingsmogelijkheden van Sonnet krachtiger en veel beter geschikt voor mijn workflow.

ChatGPT is ook bijzonder goed in het bewerken en verbeteren van content.

Codeervermogen

Geen enkele vergelijking van AI-modellen is compleet zonder hun coderingsvaardigheden mee te nemen. Hoewel Claude speciaal is ontwikkeld om programmeurs te helpen snel en eenvoudig betere code te schrijven, is de nieuwe GPT-40-aangedreven ChatGPT ook niet iets om op neer te kijken als het gaat om codering.

Om hun code-genererende vermogen te testen, vroeg ik zowel Claude als ChatGPT om Generate code for a simple game that can help beginners learn programming.Terwijl beiden de code in Python schreven, voltooide Claude de codegeneratie sneller, zoals verwacht. Het toonde de volledige code aan de rechterkant van het scherm, terwijl elementen zoals Functies en Variabelen aan de linkerkant werden uitgelegd.

Wat ik het leukste vond aan Claude’s antwoord is dat het ook een knop bevatte waarmee je direct naar de code kunt gaan, zodat je deze eenvoudig kunt bekijken. Bovendien informeerde de chatbot mij over de vereisten die nodig zijn om de code uit te voeren, compleet met instructies. Wat de code zelf betreft, was deze vrij eenvoudig te begrijpen en draaide ook perfect toen ik hem testte.

Wat betreft het antwoord van ChatGPT, het was ook in staat om een simpele maar functionele code te genereren, zoals ik had gevraagd. Onder de code gaf de chatbot de stappen die nodig zijn om het spel te draaien, evenals de concepten die de code omvat, waardoor het voor beginners gemakkelijk te begrijpen is. Over het algemeen waren de resultaten voor beide modellen in dit geval redelijk vergelijkbaar, hoewel Claude meer elementen uitlegde en een optie had waarmee je het kon vragen om elk deel van de code in detail uit te leggen.

ChatGPT’s code voor een eenvoudig spel geschreven in Python

Wiskundige vaardigheden

Ten slotte gaf ik Claude en ChatGPT allebei een wiskundige vraag om op te lossen, om te zien hoe goed ze het deden en welke sneller was. De vraag ging over algebraïsche vergelijkingen, maar was niet echt uitdagend. Beide modellen begonnen met het uitleggen wat je in de eerste stap moest doen, hoewel hun aanpak anders was. Claude breidde de vergelijking verder uit en vertelde me uiteindelijk dat het oplossen van het probleem volledig een grafische rekenmachine of een computeralgebrasysteem vereiste.

Claude 3.5 stelt dat er nul, één of twee mogelijke oplossingen voor de vraag kunnen zijn.

Dat gezegd hebbende, het gaf wel het aantal mogelijke oplossingen voor het probleem aan. Daarentegen loste ChatGPT het probleem in zijn geheel op en gaf het mij alle mogelijke oplossingen. Dit geeft aan dat ChatGPT-4o wat betreft wiskundige vaardigheden Sonnet voor is.

ChatGPT biedt alle mogelijke oplossingen voor het probleem.

Eindoordeel – Claude Sonnet 3.5 of ChatGPT-4o: Wie heeft gewonnen?

Kiezen tussen Claude 3.5 en ChatGPT-4o is niet makkelijk, maar uiteindelijk kan er maar één de winnaar zijn, en voor mij moet dat het nieuwe Sonnet-model zijn. Het is niet alleen aanzienlijk sneller dan ChatGPT, maar biedt ook nauwkeurigere antwoorden. Ik vond het vooral fijn hoe goed het afbeeldingen kon beschrijven en er acties op kon ondernemen.

Claude heeft ook niet één keer gehallucineerd tijdens mijn tijd ermee, wat nog een punt in zijn voordeel is, en zijn reacties kwamen over het algemeen dichter bij mijn instructies. Hoewel het niet presteerde zoals ik had verwacht in een geval waarin ik gedetailleerde content wilde, was het over het algemeen gemakkelijker en kostte het minder moeite om het te gebruiken om de informatie te krijgen die ik wilde.

Door zowel Claude 3.5 Sonnet als ChatGPT-40 uit te proberen, heb ik ontdekt dat beide uitzonderlijk goede AI-modellen zijn die qua prestaties erg dicht bij elkaar liggen. Hoewel Sonnet sommige taken beter uitvoert, levert ChatGPT betere resultaten in andere. U moet begrijpen dat het bepalen welke beter is, afhangt van uw individuele use case.

Bovendien zijn beide gratis modellen beperkt in wat ze kunnen doen. Dus als je een van beide AI’s regelmatig wilt gebruiken, raad ik je aan om een betaald abonnement te nemen voor de beste resultaten.