Kürzlich habe ich Claudes neues 3.5-Sonnet-Modell ausprobiert, das bisher leistungsstärkste KI-Modell von Anthropic, das laut Angaben des Unternehmens Konkurrenten wie ChatGPT von OpenAI übertreffen kann. Dies ist eine mutige Behauptung, die Anthropic mit einigen ziemlich beeindruckenden Benchmarks untermauert.
Das neue Modell verfügt auch über Bildverarbeitungsfunktionen, mit denen Sie ihm Bilder und Dokumente bereitstellen und daraus Informationen extrahieren können. Außerdem kann es Emotionen wie Humor besser verstehen und ist dabei viel schneller. All diese Elemente machen Claude 3.5 zu einem wichtigen Konkurrenten des neuen, auf GPT-40 basierenden ChatGPT, das ebenfalls ein multimodales KI-Modell ist.
Wie Sonnet kann ChatGPT-40 neben textbasierten auch visuelle Eingaben verwenden, um Antworten zu geben. Es ist ebenso gut bei der Problemlösung und verfügt über ähnliche Konversationsfähigkeiten. Da sich beide neuen Modelle in Bezug auf Fähigkeiten und Leistung so nahe kommen, stellt sich allen die Frage, welches der beiden besser ist. Um diese Frage zu beantworten, habe ich beschlossen, beide Modelle im Detail zu vergleichen.
Extrahieren von Informationen aus Dokumenten
KI-Tools werden häufig verwendet, um Informationen aus Dokumenten wie PDF-Dateien zu extrahieren und sie dann zusammenzufassen. Daher beschloss ich, zunächst zu prüfen, welches der beiden Modelle dies effektiver tun könnte. Dazu bereitete ich ein PDF-Dokument über Dachdeckerquadrate vor, das ich vor einiger Zeit geschrieben hatte, und lud es auf ChatGPT und Claude hoch.
Dann gab ich ihnen die Eingabeaufforderung: „ summarize this document and provide me with the most important points discussed in it.
Das habe ich herausgefunden.“ Das neue Claude-Modell war viel schneller als ChatGPT und begann sofort mit der Generierung seiner Antwort, nachdem ich meine Anfrage übermittelt hatte. Es folgte der Eingabeaufforderung auch genauer und listete die wichtigen Punkte in einer nummerierten Liste auf. Wenn Sie wenig Zeit haben und nur einen Blick auf den Inhalt eines Dokuments werfen möchten, ist dies das Richtige für Sie.
Obwohl ChatGPT langsamer war als Claude, war mir die Antwort in diesem Fall lieber. Es listete nicht nur die wichtigsten Punkte des Dokuments auf, sondern unterteilte sie auch in verschiedene Abschnitte wie Definition und Bedeutung, Berechnung usw.
Wenn Sie spezifische Informationen zu einem bestimmten Aspekt des in einem Dokument behandelten Themas suchen, scheint die Vorgehensweise von ChatGPT nützlicher zu sein. Sie müssen nicht alle Punkte durchgehen und können sich nur den gewünschten Abschnitt ansehen. Die Informationen werden auf eine Weise bereitgestellt, die leichter durchzugehen und zu verarbeiten ist.
Testen der Bildverarbeitungsfunktionen
Da eine der wichtigsten Funktionen von Claude 3.5 und ChatGPT-40 die Fähigkeit ist, visuelle Eingaben zu verwenden und darauf basierend Informationen bereitzustellen, beschloss ich, dies als Nächstes zu testen, indem ich sie bat, handschriftliche Anweisungen zu befolgen, nachdem sie diese transkribiert hatten. Ich bat die KI-Modelle, ein kurzes Gedicht zu schreiben, das Äsops „Die Ameise und die Grille“ ähnelte.
Obwohl ich es nicht schriftlich festgelegt hatte, wollte ich, dass das Ergebnis vom Gedicht inspiriert ist, aber andere Charaktere hat. Claude bat mich zunächst, meine handschriftliche Anfrage zu bestätigen, und fuhr dann damit fort. Das Ergebnis war ziemlich gut, sehr nah am Originalgedicht, enthielt aber dieselben Charaktere. Der KI-Chatbot fragte mich auch, ob ich einen anderen Ansatz oder Änderungen am Gedicht wollte, nachdem er mit dem Schreiben des Gedichts fertig war.
ChatGPT verlangte von mir keine Bestätigung meiner Anfrage, sondern führte sie sofort aus. Das Gedicht, das es schrieb, war ebenfalls sehr beeindruckend und es ersetzte die Ameise und die Grille aus der ursprünglichen Kreation durch eine Biene und einen Schmetterling, was Claude nicht getan hatte. Ich fand die Version von ChatGPT auch poetischer.
Bei der Transkription gibt es also einen kleinen Unterschied in den Ergebnissen, aber beide können handgeschriebenen und gedruckten Text sehr gut entziffern und verstehen, selbst wenn die Bilder nicht sehr klar sind. Diese leistungsstarken Bildfunktionen bedeuten auch, dass Sie diese Tools verwenden können, um Informationen aus Grafiken und Diagrammen zu gewinnen, was sie für mathematische Aufgaben geeignet macht.
Bilder beschreiben: Da beide Modelle auch Informationen aus Bildern extrahieren können, musste ich das auch ausprobieren. Ich habe Claude und ChatGPT ein Bild einer tropischen Insel zur Verfügung gestellt und sie gebeten, es zu beschreiben. Wie Sie sehen, liefert Claude eine lebendige Beschreibung des Bildes und beschreibt jedes Element im Vordergrund und Hintergrund sehr deutlich, auch diejenigen, die mir selbst nicht aufgefallen sind.
Auch Claudes Auswahl von Sätzen und Worten zur Beschreibung des Bildes wirkte wirkungsvoller und wurde dem Bild gerecht. Sie beschreibt die Farben und die Beleuchtung hervorragend und vermittelt das allgemeine Gefühl von Gelassenheit und Ruhe, das das Bild erzeugt.
Die Ergebnisse waren im Fall von ChatGPT komplizierter, das Bilder beschreiben kann, wenn auch nicht so gut wie das von Claude. Das Modell von OpenAI neigt dazu, Fehler zu machen und Elemente hinzuzufügen, die nicht vorhanden sind, was zeigt, dass es immer noch halluzinieren kann. Außerdem versuchte es ursprünglich immer wieder, das Bild anhand seines Titels zu beschreiben, anstatt anhand dessen, was es darstellte, und schaffte es nach mehreren Versuchen schließlich richtig.
Selbst dann konnte die Beschreibung, die ich daraus erhielt, nicht mit Claudes Antwort mithalten. Das war ziemlich überraschend, da die Vision-Fähigkeiten von GPT-40 eines der größten Highlights waren, die OpenAI beim Start präsentierte.
Inhalte erstellen und bearbeiten
Als Nächstes wollte ich herausfinden, welches Modell bei der Inhaltserstellung besser abschneidet. Um mir ein klares Bild von der Leistung der Modelle zu machen, beschloss ich, Inhalte zu erstellen, die echte Fakten und Daten erfordern, sowie fiktive Inhalte, die auf der Kreativität des KI-Modells basieren.
Zuerst bat ich Claude und ChatGPT, mir einen ausführlichen Artikel über verschiedene Android-Skins zu liefern, da viele Leute etwas darüber wissen möchten, es sich aber um ein sehr subjektives Thema handelt und jeder seinen eigenen Favoriten hat. Ich verwendete die Aufforderung: Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Angesichts der Zeit, die wir mit unseren Smartphones verbringen, wollte ich herausfinden, wie genau die Modelle sind und wie viele Informationen sie über jeden Skin liefern können.
Wie üblich antwortete Claude schneller. Er lieferte einen Überblick, der erklärte, was Android-Skins sind, was nett ist, fuhr dann aber einfach mit einer Aufzählung der verschiedenen Skins mit den von ihnen angebotenen Funktionen fort. Bedenken Sie, dass das Modell dieses Ergebnis lieferte, obwohl ich in meiner Eingabeaufforderung ausdrücklich einen „ausführlichen Artikel“ angegeben hatte.
Im Gegensatz dazu hat ChatGPT einen eindrucksvolleren Titel für den Artikel erstellt und eine kurze Einführung hinzugefügt. Anschließend wurde jeder Skin in einem eigenen Abschnitt erläutert und in einen Überblick, Hauptfunktionen, Vor- und Nachteile unterteilt.
Dies liefert nicht nur umfassendere Informationen, sondern lässt Sie auch genau wissen, wie die verschiedenen Skins im Vergleich zueinander abschneiden. Schließlich endete der Artikel mit einer angemessenen Schlussfolgerung. Zwar war die Anzahl der von ChatGPT erwähnten Skins geringer als die von Claude aufgelisteten, aber hier zählt die Qualität mehr als die Quantität.
Obwohl ChatGPT in diesem Fall besser abgeschnitten hat als Claude, kann letzterer auch gute Inhalte generieren, wie ich bei meinen vorherigen Tests festgestellt habe. Es kann vom Thema oder der Art und Weise abhängen, wie Sie Ihre Eingabeaufforderung formulieren. Deshalb habe ich beiden Modellen eine weitere Eingabeaufforderung gegeben, diesmal mit der Eingabeaufforderung. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Es bot mir auch die Gelegenheit zu sehen, wie gut die Modelle Humor verstehen und vermitteln können.
Diesmal lagen die Ergebnisse sehr nahe beieinander, wobei beide Modelle wirklich witzige Geschichten hervorbrachten. Beide Geschichten hatten gemeinsame Elemente wie Ironie und körperliche Komik. In der Fiktion ist die persönliche Vorliebe ein wichtiger Faktor, und insgesamt fand ich Claudes Ergebnisse etwas besser, insbesondere die Art und Weise, wie er mit Worten spielte, um Humor zu erzeugen.
Aber wie ich bereits erwähnt habe, war ChatGPTs Geschichte auch unterhaltsam zu lesen und etwas länger als die von Claude. Das Ende war auch schöner. So konnten sowohl Claude als auch ChatGPT gute fiktionale Inhalte erstellen und dabei gemäß meiner Aufforderung humorvolle Elemente einbauen.
Inhalte bearbeiten: Das Erstellen von Inhalten ist nur ein Teil des Prozesses. Um wirklich herauszufinden, was ein KI-Modell in Bezug auf Inhalte leisten kann, müssen Sie auch seine Fähigkeiten zur Inhaltsbearbeitung testen, was ich dann auch getan habe. Zu diesem Zweck habe ich Claude und ChatGPT einen Text über Social Commerce zur Verfügung gestellt und ihnen die Aufforderung gegeben:Can you expand this article while also proofreading and improving it?
Bei der Verbesserung des Artikels begann Claude mit einer Einleitung, schrieb dann über die Entwicklung des Social Commerce und fügte schließlich weitere Abschnitte hinzu, die er nach eigenem Ermessen erweiterte. Das Modell verwendete auch nummerierte Listen und Aufzählungspunkte, wo es für notwendig erachtet wurde, um die Lesbarkeit zu verbessern.
Die Antwort von ChatGPT war ähnlich wie bei seinen Vorgängern, wo der Inhalt in verschiedene Abschnitte mit unterschiedlichen Unterüberschriften unterteilt wurde. Es wurden keine Listen verwendet, sondern die Informationen in Form von Absätzen beibehalten. Was die Änderungen und Verbesserungen angeht, fiel mir auf, dass Claude drastischere Änderungen am Artikel vornahm als ChatGPT, aber das Endergebnis war auch viel besser. Letztendlich fand ich die Bearbeitungsfunktionen von Sonnet leistungsfähiger und viel besser für meinen Arbeitsablauf geeignet.
Codierungsfähigkeiten
Kein Vergleich von KI-Modellen ist vollständig, ohne ihre Programmierfähigkeiten einzubeziehen. Während Claude speziell entwickelt wurde, um Programmierern zu helfen, schnell und einfach besseren Code zu schreiben, ist auch das neue, auf GPT-40 basierende ChatGPT in Sachen Programmierung nicht zu verachten.
Um ihre Fähigkeiten zur Codegenerierung zu testen, bat ich sowohl Claude als auch ChatGPT, … Generate code for a simple game that can help beginners learn programming.
Während beide den Code in Python schrieben, war Claude wie erwartet schneller mit der Codegenerierung. Er zeigte den gesamten Code auf der rechten Seite des Bildschirms an, während er auf der linken Seite Elemente wie Funktionen und Variablen erklärte.
Was mir an Claudes Antwort am besten gefiel, war, dass sie auch einen Button enthielt, mit dem man direkt zum Code gelangen konnte, sodass man ihn einfach überprüfen konnte. Darüber hinaus informierte mich der Chatbot über die Voraussetzungen, die zum Ausführen des Codes erforderlich sind, und lieferte Anweisungen. Was den Code selbst betrifft, war er recht einfach zu verstehen und lief auch bei meinen Tests einwandfrei.
Was die Antwort von ChatGPT betrifft, so konnte es, wie von mir gewünscht, auch einen einfachen, aber funktionsfähigen Code generieren. Unter dem Code lieferte der Chatbot die zum Ausführen des Spiels erforderlichen Schritte sowie die Konzepte, die der Code abdeckt, sodass es für Anfänger leicht verständlich war. Insgesamt waren die Ergebnisse für beide Modelle in diesem Fall ziemlich ähnlich, obwohl Claude mehr Elemente erklärte und eine Option bot, mit der man ihn bitten konnte, jeden Teil des Codes im Detail zu erklären.
Mathematische Fähigkeiten
Zum Schluss gab ich sowohl Claude als auch ChatGPT eine Matheaufgabe zum Lösen, um zu sehen, wie gut sie waren und wer schneller war. Die Aufgabe beinhaltete algebraische Gleichungen, war aber nicht besonders anspruchsvoll. Beide Modelle erklärten zunächst, was im ersten Schritt zu tun sei, obwohl ihr Ansatz unterschiedlich war. Claude erweiterte die Gleichung und erklärte mir schließlich, dass man zur vollständigen Lösung des Problems einen Grafikrechner oder ein Computeralgebrasystem verwenden müsse.
Allerdings wurde die Anzahl der möglichen Lösungen für das Problem angegeben. Im Gegensatz dazu löste ChatGPT das Problem vollständig und gab mir alle möglichen Lösungen dafür. Dies zeigt, dass ChatGPT-4o in Bezug auf mathematische Fähigkeiten Sonnet voraus ist.
Endgültiges Urteil – Claude Sonnet 3.5 oder ChatGPT-4o: Wer hat gewonnen?
Die Entscheidung zwischen Claude 3.5 und ChatGPT-4o ist nicht einfach, aber letztendlich kann nur einer gewinnen, und für mich ist das das neue Sonnet-Modell. Es ist nicht nur deutlich schneller als ChatGPT, sondern liefert auch genauere Antworten. Besonders gut gefiel mir, wie gut es Bilder beschreiben und entsprechende Aktionen ausführen konnte.
Claude hatte während der Zeit, die ich mit ihm verbrachte, kein einziges Mal Halluzinationen, was ein weiterer Pluspunkt ist, und seine Antworten waren insgesamt näher an meinen Anweisungen. Obwohl es in einem Fall, in dem ich detaillierte Inhalte wollte, nicht wie erwartet funktionierte, war es im Allgemeinen einfacher und erforderte weniger Aufwand, damit die gewünschten Informationen zu erhalten.
Beim Ausprobieren von Claude 3.5 Sonnet und ChatGPT-40 habe ich festgestellt, dass beides außergewöhnlich gute KI-Modelle sind, deren Leistung sehr nahe beieinander liegt. Während Sonnet einige Aufgaben besser erledigt, liefert ChatGPT bei anderen bessere Ergebnisse. Sie sollten verstehen, dass die Entscheidung, welches besser ist, von Ihrem individuellen Anwendungsfall abhängt.
Darüber hinaus sind die Möglichkeiten beider kostenlosen Modelle begrenzt. Wenn Sie also eine der beiden KI-Lösungen regelmäßig nutzen möchten, empfehle ich Ihnen, für optimale Ergebnisse ein kostenpflichtiges Abonnement abzuschließen.
Schreibe einen Kommentar