“De AI-prestaties van ChatGPT: Verder dan de Turingtest of nog niet helemaal?”

Reading Time: ( Word Count: )

July 23, 2023

ChatGPT, een kunstmatige intelligentie chatbot van OpenAI, heeft door zijn buitengewone capaciteiten veel stof doen opwaaien in het technologielandschap. Dit geavanceerde hulpmiddel heeft de aandacht getrokken van technologiereuzen en geprezen schrijvers, die het aanprijzen als een revolutionaire ontwikkeling op het gebied van AI.

De opmerkelijke eigenschappen van ChatGPT hebben er zelfs toe geleid dat sommige experts speculeren dat het misschien de lang begeerde mijlpaal heeft bereikt van het slagen voor de Turing Test, een maat die is ontworpen om te beoordelen of een machine in staat is om intelligentie op menselijk niveau na te bootsen. Het AI-model heeft laten zien uitzonderlijk bedreven te zijn in een groot aantal domeinen, waaronder wiskunde (89e percentiel), rechten (90e percentiel) en verbale vaardigheden voor de GRE (99e percentiel).

Een interessante studie die eerder deze maand werd uitgevoerd door onderzoekers van de medische faculteit van de New York University prees het vermogen van ChatGPT om medisch advies te geven, dat dicht in de buurt komt van dat van menselijk medisch personeel. De betrouwbaarheid van ChatGPT in kritieke besluitvormingssituaties wordt door sommige onderzoekers echter nog steeds betwist.

Inconsistente prestaties van ChatGPT Een team bestaande uit Lingjiao Chen, Matei Zaharia en James Zhu van de Universiteit van Stanford en de Universiteit van Californië, Berkeley, toonde zich net als sommige gebruikers bezorgd over de consistentie en potentiële achteruitgang van de prestaties van ChatGPT, zoals gerapporteerd door Science X Network.

Lees ook: “Verliest Threads zijn draad? De Twitter rivaal van Instagram nader bekeken”.

Hun onderzoek naar de prestaties en het gedrag van GPT-3.5 en GPT-4 onthulde aanzienlijke fluctuaties, met een opmerkelijke afname in reacties op bepaalde taken tussen maart en juni.

De onderzoekers richtten zich op het beoordelen van het vermogen van ChatGPT om wiskundige problemen op te lossen en computercode te genereren. Ze ontdekten een dramatische daling in de nauwkeurigheid van GPT-4 voor priemgetalproblemen, van 97,6% in maart naar een opzienbarende 2,4% in juni.

Het nut van ChatGPT bij het ondersteunen van programmeurs met codeer- en debuggingtaken was ook een struikelblok. GPT-4 produceerde nauwkeurige, kant-en-klare scripts in meer dan 50% van de gevallen in maart. Dit cijfer daalde echter scherp tot slechts 10% in juni. Ondertussen vertoonde de prestatie van GPT-3.5 een vergelijkbare daling, van 22 curacies in maart tot slechts 2% in juni.

De redenen achter deze verschillen blijven onduidelijk, maar de onderzoekers speculeren dat aanpassingen en upgrades van het systeem factoren zouden kunnen zijn. Het begrijpen van de oorzaak van zulke prestatiestijgingen blijkt een uitdaging vanwege de inherent complexe en ondoorzichtige aard van deze taalmodellen.

Het is dan ook niet verrassend dat deze inconsistenties tot theorieën hebben geleid, waaronder beweringen dat OpenAI experimenteert met kleinere Language Learning Models (LLM’s) om de kosten te drukken. Sommigen hebben zelfs gesuggereerd dat OpenAI GPT-4 opzettelijk zou benadelen om gebruikers aan te moedigen om te kiezen voor GitHub’s LLM add-on, CoPilot.

OpenAI heeft deze aantijgingen categorisch ontkend. In een tweet bevestigde Peter Welinder, VP of Product van OpenAI, dat de organisatie zich blijft inzetten om ChatGPT te verbeteren en ervoor te zorgen dat elke volgende versie beter is dan de vorige.

Toch blijft de mogelijke “drift” in de modelresultaten sommige waarnemers zorgen baren, wat leidt tot oproepen aan OpenAI om de transparantie te vergroten. Ze suggereren dat het onthullen van bronnen van trainingsgegevens, code en andere fundamentele aspecten van GPT-4 dergelijke zorgen zou kunnen wegnemen.

Saher Mahmood

Author

Saher is a cybersecurity researcher with a passion for innovative technology and AI. She explores the intersection of AI and cybersecurity to stay ahead of evolving threats.