Vor Kurzem hat Anthropic Verbesserungen an seinem führenden Modell Claude 3.5 Sonnet eingeführt, die aufgrund anderer wichtiger Updates wie Computer Use und dem Analysetool möglicherweise unbemerkt geblieben sind. Das aktualisierte Claude 3.5 Sonnet führt jedoch mehrere bemerkenswerte Verbesserungen ein.
Obwohl Computer Use einen bedeutenden Fortschritt darstellt, ist seine Akzeptanz bei den Benutzern noch begrenzt. Dies liegt vor allem daran, dass es sich in der frühen Entwicklungsphase befindet und nicht vollständig zuverlässig ist. Darüber hinaus ist seine Zugänglichkeit auf die API-Nutzung beschränkt, was es für das breitere Publikum weniger zugänglich macht.
Im Gegensatz dazu ist das neue Claude 3.5 Sonnet sofort einsatzbereit und bietet eine deutlich verbesserte Leistung. Was also genau zeichnet dieses aktualisierte 3.5 Sonnet aus?
Ein Bericht von Anthropic hebt hervor, dass das neueste Claude 3.5 Sonnet im Vergleich zu früheren Modellen und vielen Konkurrenten bei Branchenbenchmarks deutliche Verbesserungen aufweist. Besonders beeindruckend sind die Fortschritte bei der agentischen Kodierung und der Tool-Nutzung. So konnte die Genauigkeit der agentischen Kodierung bei der SWE-Bench-Verifizierung von 33,4 % auf 49 % gesteigert werden, und bei der Verwendung agentischer Tools beim TAU-Bench-Test stieg sie im Einzelhandel von 51,0 % auf 69,2 % und im Flugsektor von 22,8 % auf 46,0 %. Bemerkenswert ist, dass diese Verbesserungen zu den gleichen Kosten und mit der gleichen Geschwindigkeit wie beim Vorgänger erreicht werden.
Bei der Auswertung zeigt das Claude 3.5 Sonnet (neu), das manche Benutzer aufgrund von Namensverwirrung als 3.6 Sonnet bezeichnen, bemerkenswerte Fortschritte, insbesondere bei den Fähigkeiten zur Kodierung, Argumentation und zum kreativen Schreiben.
Claude galt zuvor als einer der besten Programmierer und hat mit diesem Update große Fortschritte gemacht. Er ist jetzt in der Lage, sehr komplexe Probleme mit einer einzigen Antwort zu lösen. Außerdem wurde die Fähigkeit verbessert, vorherige Fehler zu korrigieren.
Die Benutzer werden feststellen, dass das neue Claude 3.5 Sonnet deutlich schneller reagiert, was die Frustrationen behebt, die bei der früheren Version auftraten, bei der die Leistung merklich nachgelassen hatte.
Claude hat auch seine Denkfähigkeiten verfeinert und einen Vergleich mit OpenAIs Modell o1 gezogen. Auch wenn es bei komplizierten Denkaufgaben nicht mit o1 mithalten kann, ist es bei einfacheren Denkaufgaben immer noch kompetent.
Um Claudes Argumentation auf spannende Weise zu testen, stellen Sie ihm die folgende Frage: How many words are in your response to this prompt?
. Insbesondere Transformer-Architekturmodelle haben mit solchen Eingabeaufforderungen oft Probleme, da sie nachfolgende Wörter vorhersagen müssen. Diese Eingabeaufforderung ermutigt das Modell jedoch, im Voraus eine Strategie zu entwickeln.
Das o1-Modell von OpenAI ist hervorragend darin, diese Eingabeaufforderung effektiv zu verarbeiten. Obwohl das neue Claude 3.5 Sonnet nicht ganz die Leistungsfähigkeit von o1 erreicht, übertrifft es die ältere Version von Claude deutlich. Früher hätte Claude vielleicht eine fundierte Schätzung abgegeben, aber jetzt versucht es, die Wörter genau zu zählen – allerdings ohne sie alle gleichermaßen zu berücksichtigen. Ob Claudes Antwort letztendlich als richtig angesehen wird, hängt von der persönlichen Interpretation ab.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Dem angeführten Beispiel zufolge könnten einige Benutzer argumentieren, dass Claude die Wörter, in denen er seine Antwort berücksichtigte, genau gezählt hat. Es stellt klar, dass alle nachfolgenden Wörter nicht Teil seiner Antwort sind, da sie lediglich seinen Denkprozess erläutern. Während einige das Weglassen des einleitenden Satzes „Lassen Sie mich die Wörter in meiner Antwort auf Ihre Frage zählen“ übersehen könnten, sehen andere dies möglicherweise anders. Letztendlich ist dies eine Frage des persönlichen Urteils.
Dennoch zeigt dieses Beispiel, dass das neue Claude 3.5 Sonett seine Denkfähigkeiten tatsächlich verbessert hat. Es kann jetzt seine Denkprozesse artikulieren oder sagen: „Ich denke darüber nach, warte“, wenn es mehr Zeit zum Nachdenken braucht – ähnlich wie o1. Gelegentlich korrigiert es sich sogar selbst und sagt: „Lass mich das noch einmal überdenken.“
Diese Fähigkeit, vorauszudenken, hat auch Claudes kreative Schreibfähigkeiten gestärkt. Mit der Fähigkeit, vorauszudenken, kann sie längere Erzählungen verfassen, die zusammenhängende Handlungsbögen, andeutende Elemente und fesselnde Charaktere aufweisen.
Darüber hinaus wurden bei der analytischen Leistung erhebliche Fortschritte erzielt. Claude konkurriert nun in Bezug auf die Analyse eng mit Anthropics umfangreichstem Modell, Claude 3 Opus, sowie mit OpenAIs o1 mini.
Zusammenfassend lässt sich sagen, dass die neuesten Updates in mehreren Dimensionen bemerkenswerte Fortschritte gebracht haben. Die neuen Codierungsfunktionen haben viel Aufmerksamkeit auf sich gezogen. Eine aktuelle Einschränkung für Claude sind jedoch die Nutzungsbeschränkungen, die selbst für Pro-Benutzer im Vergleich zu denen von ChatGPT erheblich restriktiver sind.
Schreibe einen Kommentar