Bis vor wenigen Tagen war folgender Satz noch korrekt: »KI-Modelle zu trainieren ist teuer, da hierfür eine Unmenge an Rechenleistung benötigt wird.« Dann kam das chinesische Unternehmen DeepSeek um die Ecke und zeigte, dass sich auch mit wesentlich weniger Rechenleistung und damit zu wesentlich geringeren Kosten ein ernsthafter Wettbewerber zu Open AI’s und Googles KI-Sprachmodellen auf den Markt bringen lässt.
Wie lässt sich jedoch beurteilen, welches Sprachmodell das Beste ist?
Das Center for AI Safety (CAIS), eine gemeinnützige Organisation, die sich auf KI-Sicherheit fokussiert hat und Scale AI, ein Start-up, spezialisiert auf Trainingsdaten für KI, haben ein bahnbrechendes Projekt ins Leben gerufen, das die Grenzen der künstlichen Intelligenz auf die Probe stellt: Humanity‘s Last Exam.
Dieser neue Benchmark soll die Fähigkeiten von KI-Systemen an der Grenze menschlichen Expertenwissens messen und zeigen, wie weit wir noch von einer künstlichen allgemeinen Intelligenz (AGI) entfernt sind.
Das Projekt im Überblick
Humanity‘s Last Exam ist ein globales Unterfangen, an dem fast 1.000 Mitwirkende aus über 500 Institutionen in 50 Ländern beteiligt waren. Das Ziel war es, einen Katalog von mindestens 1.000 Fragen zu erstellen, die KI-Modelle stark herausfordern und ihre Fähigkeiten zum abstrakten Denken, zur Planung und zum Erkennen von Metaebenen testen.

Dan Hendrycks, Mitbegründer und Geschäftsführer des Center for AI Safety sagt, AI sei nicht vergleichbar mit den technologischen Fortschritten der Vergangenheit. Wir befinden uns in einem Übergang vom biologischen zum digitalen Leben, mit großen Chancen, aber auch großen Risiken.
Das gesamte Interview mit ihm finden Sie auf YouTube (Awakening the Machine: Dan Hendrycks, https://www.youtube.com/watch?v=1NV2hRh0-QU)
Entwicklung und Methodik
Der Entwicklungsprozess war äußerst umfangreich:
1. Sammlung von über 70.000 Testfragen
2. Auswahl von 13.000 Fragen für die Überprüfung durch menschliche Experten
3. Finale Zusammenstellung von 3.000 Fragen für die öffentliche Version des Tests
Die Fragen decken ein breites Spektrum ab, von Mathematik und Naturwissenschaften bis hin zu Geisteswissenschaften, und umfassen sowohl reine Textaufgaben als auch multimodale Herausforderungen mit Bildern und Diagrammen.
Beispielfrage
Die Fragen in Humanity‘s Last Exam sind bewusst komplex und erfordern Expertenwissen. Sie sind größtenteils nicht öffentlich, um zu verhindern, dass KI-Systeme die Antworten auswendig lernen.
Eine der wenigen veröffentlichten Beispielfragen lautet: »Kolibris innerhalb der Apodiformes haben ein einzigartiges, beidseitig gepaartes ovales Knochenstück, ein Sesamoid, das in den kaudolateralen Teil der erweiterten, kreuzförmigen Aponeurose des Ansatzes des M. depressor caudae eingebettet ist. Wie viele gepaarte Sehnen werden von diesem Sesambein gestützt?«
Fragen dieser Art sollen die Grenzen des KI-Verständnisses in spezifischen Fachgebieten ausloten.
Ergebnisse und Bedeutung
Die ersten Ergebnisse des Tests sind bemerkenswert: Selbst die fortschrittlichsten KI-Modelle wie OpenAI‘s o1, GPT-4o, Anthropic‘s Claude 3.5 Sonnet und Google‘s Gemini 1.5 Pro konnten nur weniger als 10 % der Fragen korrekt beantworten. Das beste Ergebnis erzielte OpenAI‘s o1 mit lediglich 8,3 %. Diese Resultate zeigen deutlich, dass trotz der rasanten Fortschritte in der KI-Entwicklung noch eine erhebliche Lücke zwischen den aktuellen Modellen und menschlichem Expertenwissen besteht. Dan Hendrycks, Mitbegründer und Geschäftsführer des Center for AI Safety, betont jedoch, dass sich dies schnell ändern könnte. Er prognostiziert, dass die Modelle möglicherweise schon Ende 2025 über 50 % der Fragen korrekt beantworten werden.
Humanity‘s Last Exam wird zweifellos ein wichtiger Indikator für die zukünftige Entwicklung der künstlichen Intelligenz bleiben und entscheidende Einblicke in den Weg zur allgemeinen künstlichen Intelligenz (AGI) liefern.
Sie haben eine Frage, die sich der Allgemeinbildung entzieht oder aufgrund Ihrer Komplexität kaum beantwortbar ist (z.B. wann wurde die Frankfurter Eintracht zuletzt Deutscher Fußballmeister)? Dann können Sie diese unter https://agi.safe.ai/submit einreichen. |
Comments