“Die KI-Leistung von ChatGPT: Jenseits des Turing-Tests oder noch nicht ganz da?”

Reading Time: ( Word Count: )

July 23, 2023

ChatGPT, ein Chatbot mit künstlicher Intelligenz von OpenAI, hat aufgrund seiner außergewöhnlichen Fähigkeiten große Wellen in der Technologielandschaft geschlagen. Dieses hochmoderne Tool hat die Aufmerksamkeit von Technologiegiganten und renommierten Schriftstellern auf sich gezogen, die es als revolutionäre Entwicklung in der KI loben.

Die bemerkenswerten Eigenschaften von ChatGPT haben einige Experten sogar zu Spekulationen veranlasst, dass es den lang ersehnten Meilenstein des Bestehens des Turing-Tests erreicht haben könnte, einer Messung, die die Fähigkeit einer Maschine zur Nachahmung menschlicher Intelligenz beurteilen soll. Das KI-Modell hat in einer Vielzahl von Bereichen außergewöhnliche Fähigkeiten bewiesen, darunter Mathematik (89. Perzentil), Recht (90. Perzentil) und GRE-Verbalfähigkeiten (99. Perzentil).

Eine interessante Studie, die Anfang dieses Monats von Forschern der medizinischen Fakultät der New York University durchgeführt wurde, lobt die Fähigkeit von ChatGPT, medizinische Ratschläge zu erteilen, die denen des menschlichen medizinischen Personals sehr ähnlich sind. Die Zuverlässigkeit von ChatGPT in kritischen Entscheidungssituationen wird jedoch von einigen Forschern weiterhin diskutiert.

Leistungsschwankungen von ChatGPT Ein Team bestehend aus Lingjiao Chen, Matei Zaharia und James Zhu von der Stanford University und der University of California, Berkeley, äußerte ähnliche Bedenken wie einige Nutzer hinsichtlich der Konsistenz und des möglichen Leistungsabfalls von ChatGPT, wie Science X Network berichtet .

Lesen Sie auch: “Verliert Threads seinen roten Faden? Ein genauerer Blick auf den Twitter-Rivalen von Instagram”

Ihre Untersuchung der Leistung und des Verhaltens von GPT-3.5 und GPT-4 ergab erhebliche Schwankungen, wobei ein deutlicher Rückgang der Antworten auf bestimmte Aufgaben zwischen März und Juni zu verzeichnen war.

Die Forscher konzentrierten sich auf die Bewertung der Fähigkeiten von ChatGPT bei der Lösung mathematischer Probleme und der Erstellung von Computercode. Sie stellten einen dramatischen Rückgang der GPT-4-Genauigkeitsrate bei Primzahlproblemen fest, von 97,6 % im März auf erschreckende 2,4 % im Juni.

Die Nützlichkeit von ChatGPT bei der Unterstützung von Programmierern bei Codierungs- und Debugging-Aufgaben wurde ebenfalls bemängelt. GPT-4 produzierte im März in mehr als 50 % der Fälle korrekte, einsatzbereite Skripte. Diese Zahl ging jedoch bis Juni drastisch auf nur noch 10 % zurück. Bei der GPT-3.5 war ein ähnlicher Rückgang zu verzeichnen: von 22 Prozent im März auf nur noch 2 Prozent im Juni.

Die Gründe für diese Abweichungen sind nach wie vor unklar, aber die Forscher vermuten, dass Änderungen und Aufrüstungen des Systems eine Rolle spielen könnten. Die Ursache für solche Leistungsschwankungen zu verstehen, erweist sich als schwierig, da diese Sprachmodelle von Natur aus komplex und intransparent sind.

Es überrascht nicht, dass diese Ungereimtheiten Theorien hervorgerufen haben, einschließlich der Behauptung, dass OpenAI mit kleineren Sprachlernmodellen (LLMs) experimentiert, um Kosten zu sparen. Einige haben sogar vermutet, dass OpenAI GPT-4 absichtlich beeinträchtigen könnte, um Nutzer dazu zu bewegen, sich für das LLM-Add-on von GitHub, CoPilot, zu entscheiden.

OpenAI hat diese Vorwürfe kategorisch zurückgewiesen. In einem Tweet bestätigte OpenAIs VP of Product, Peter Welinder, das kontinuierliche Engagement der Organisation zur Verbesserung von ChatGPT, um sicherzustellen, dass jede nachfolgende Version besser ist als die letzte.

Dennoch beunruhigt das mögliche “Abdriften” der Modellergebnisse einige Beobachter, was zu Forderungen nach mehr Transparenz bei OpenAI führt. Sie schlagen vor, dass die Offenlegung der Quellen von Trainingsdaten, des Codes und anderer grundlegender Aspekte von GPT-4 solche Bedenken ausräumen könnte.

Saher Mahmood

Author

Saher is a cybersecurity researcher with a passion for innovative technology and AI. She explores the intersection of AI and cybersecurity to stay ahead of evolving threats.