top of page
Lösungen
Branchen
Insights
Warum arago?

MENÜ

AutorenbildDaniel Stöckel

Wie ein deutscher KI-Forscher ChatGPT »vom Markt fegen« möchte!

Es ist nicht so einfach mit dem Thema KI in Deutschland.


Als Land der Tüftler und Ingenieure liefert Deutschland mit wissenschaftlicher Exzellenzforschung oftmals die Grundlage für neue Technologien, kommerziell erfolgreich umgesetzt werden diese dann aber häufig anderswo, oftmals in Übersee.


Das Fraunhofer-Institut entwickelte in den 1980er Jahren das MP3-Audioformat, Konrad Zuse in den 1930er und 40er Jahren den ersten programmierbaren Computer der Welt und auch die Grundlagen der Brennstoffzellentechnologie sind auf einen deutschen Forscher zurückzuführen, den Chemiker Christian Friedrich Schönbein.


Das LSTM-Modell und seine Bedeutung für die Spracherkennung.

In diese Liste einreihen darf sich auch der in Deutschland geborene und in Österreich forschende Pionier der Künstlichen Intelligenz, Sepp Hochreiter.  Er stellte in seiner Diplomarbeit im Jahr 1997 den Long-Short-Term-Memory-Algorithmus (LSTM-Modell) vor, der von Google für die Spracherkennung auf Smartphones, von Apples Siri und von Amazons Alexa eingesetzt wird.


Dieses Modell war revolutionär, löste es damals doch ein wichtiges Problem.



Sepp Hochreiter, einer der KI-Superstars in Europa, leitet an der Johannes Kepler Univer-

sität in Linz das Institute for Machine Learningund das Labor für Artificial Intelligence.




Das Grundproblem


Stellen Sie sich vor, Sie lesen ein langes Buch. Normale Computer-Gehirne (RNNs, rekurrente neuronale Netze) haben Schwierigkeiten, sich an wichtige Informationen vom Anfang des Buches zu erinnern, wenn sie am Ende ankommen. Sie vergessen sozusagen den Kontext.


Die Lösung


LSTM-Modelle sind wie ein verbessertes Computer-Gehirn. Sie können:


1. Wichtige Informationen länger behalten

2. Unwichtige Dinge vergessen

3. Neue Informationen aufnehmen und mit alten verknüpfen


Das ist die Architektur des LSTM-Modells. Falls Sie nun noch Lust verspüren, ein eigenes LSTM-Modell zu bauen, lohnt sich ein Blick in den Blog https://www.projectpro.io/article/lstm-model/832.



Ein Beispiel


Nehmen wir den Satz: »Ich komme aus Deutschland. Ich spreche fließend...« Ein normales Computer-Gehirn könnte vergessen haben, dass die Person aus Deutschland kommt und kann das letzte Wort nicht gut »erraten«. Ein LSTM-Modell erinnert sich an »Deutschland« und kann besser vorhersagen, dass das letzte Wort wahrscheinlich »Deutsch« sein wird.


LSTM-Modelle helfen Computern dabei, sich besser zu »erinnern« und »zu verstehen«, was für viele Aufgaben wie Spracherkennung oder Textverständnis sehr wichtig ist.


Bild links: Das Transformer-Modell, mit dem sich der Autor dieser Zeilen intensiver auseinandergesetzt hat. https://pixabay.com/photos/small-toy-figurine-cartoon-3871893/

Bild rechts: Das Transformer-Modell, mit dem sich die Mitarbeiter bei Google beschäftigt haben. https://de.wikipedia.org/wiki/Transformer_%28Maschinelles_Lernen%29#/media/Datei:The-Transformer-model-architecture.png


Wie funktioniert ein LSTM-Modell?


Stellen Sie sich ein LSTM-Modell als einen sehr cleveren Notizblock vor. Dieser Notizblock hat einige besondere Eigenschaften:


1. Langzeitgedächtnis (Zellzustand)


  • Dies ist wie die Hauptseite des Notizblocks, auf der wichtige Informationen über lange Zeit behalten werden.


2. Drei spezielle Stifte (Gates)


  • Radiergummi (Forget Gate): Löscht unwichtige Informationen.

  • Schreibstift (Input Gate): Fügt neue wichtige Informationen hinzu.

  • Textmarker (Output Gate): Hebt Informationen hervor, die gerade wichtig sind.


3. Denkzentrum (Innere Zelle)


  • Hier werden neue Informationen verarbeitet und entschieden, was wichtig ist.


Wie es funktioniert


1. Eine neue Information kommt an.

2. Der »Radiergummi« entscheidet, was von den alten Notizen gelöscht werden kann.

3. Der »Schreibstift« fügt neue wichtige Informationen hinzu.

4. Das »Denkzentrum« verarbeitet alles und aktualisiert die Hauptseite.

5. Der »Textmarker« hebt die wichtigsten Informationen für die aktuelle Aufgabe hervor.


So kann das LSTM-Modell wichtige Informationen lange behalten, unwichtige vergessen und immer die relevantesten Daten für die aktuelle Aufgabe bereitstellen.


Das Bessere ist des guten Feind: Das Transformer-Modell.

So bahnbrechend und wichtig das LSTM-Modell auch war, basiert ChatGPT auf einer anderen Architektur mit dem wunderbaren Namen Transformer. Sie wurde im Jahr 2017 von Forschern bei Google entwickelt und hat sich als leistungsfähiger erwiesen.


Der Hauptvorteil des Transformer-Modells ist, dass es alle Wörter gleichzeitig betrachtet und die Beziehungen der Wörter zueinander versteht, unabhängig von ihrer Position im Satz.


Ein Beispiel


Stellen Sie sich vor, wir haben einen Satz: »Der Hund jagt die Katze.« Das Transformer-Modell verarbeitet diesen Satz wie folgt:


1. Tokenisierung:


Der Satz wird in einzelne Wörter (Tokens) zerlegt: [»Der«, »Hund«, »jagt«, »die«, »Katze«]


2. Embedding:


Jedes Token wird in einen numerischen Vektor umgewandelt.


3. Positionskodierung:


Information über die Position jedes Wortes im Satz wird hinzugefügt.


4. Self-Attention:


Hier kommt der Kern des Transformer-Modells zum Einsatz:


  • Jedes Wort »fragt« alle anderen Wörter: »Wie wichtig bist du für mich?«


  • Zum Beispiel für »jagt«:


• »Hund« ist sehr wichtig (Wer jagt?)

• »Katze« ist sehr wichtig (Was wird gejagt?)

• »Der« und »die« sind weniger wichtig


5. Informationssammlung:


Jedes Wort sammelt Informationen von allen anderen Wörtern, gewichtet nach ihrer Wichtigkeit.


6. Verarbeitung:


Die gesammelten Informationen werden durch mehrere Schichten des Modells verarbeitet.


7. Ausgabe:


Das Modell erzeugt eine kontextbezogene Repräsentation jedes Wortes.


Am Ende versteht das Modell:


• »Hund« ist das Subjekt (der Jäger)


• »jagt« ist die Handlung


• »Katze« ist das Objekt (das Gejagte)


Dieses Verständnis ermöglicht es dem Transformer-Modell, komplexe Aufgaben wie Übersetzungen, Zusammenfassungen oder Frage-Antwort-Systeme zu bewältigen.


Das Perfekte ist der Feind des Besseren: Das xLSTM-Modell.

Sepp Hochreiter, Sie erinnern sich, der deutsche KI-Forscher, der das LSTM-Modell entwickelt hat, möchte es mit dem Transformer aufnehmen (dem rechten aus unserem Bild, nicht dem linken!). Er stellte im Mai 2024 ein Modell vor, das dem Transformer-Modell überlegen sein soll: das xLSTM-Modell.


Denn nichts ist so gut, dass man es nicht auch ein wenig besser machen könnte: Ein großes Problem von ChatGPT und Co. ist der gigantische Hunger nach Rechenleistung. Transformer-Modelle benötigen mit zunehmender Textlänge eine quadratisch steigende Rechenleistung. Dieses Problem verspricht xLSTM zu lösen: In diesem Modell steigt die Rechenleistung nur linear mit der Textlänge, d.h. das Modell ist besonders effizient.


Ein weiterer Vorteil liegt in einem höheren Verständnis der Semantik, was zu einem besseren Textverständnis und damit einer höheren Qualität in der Generierung auch komplizierter Texte führt.


Derzeit gibt es noch keine frei zugänglichen Anwendungen, die auf dem xLSTM-Modell basieren. Sepp Hochreiter möchte sich aber dieses Mal nicht von Apple, Google, Amazon und OpenAI die Butter vom Brot nehmen lassen. Er hat zusammen mit Partnern aus der Industrie das Unternehmen NXAI gegründet, um xLSTM weiterzuentwickeln und Anwendungen selbst an den Markt zu bringen. Wir sind gespannt, welche Lösungen entstehen.


INFO

Wie herausfordernd es ist, gegen die Schwergewichte aus den USA anzukommen, erlebt derzeit ein anderes deutsches Vorzeige KI-Startup aus Heidelberg, Aleph Alpha. Unterfüttert mit Investment-Geldern von über 100 Mio. EUR, unter anderem von SAP und der Schwarz-Gruppe, können die entwickelten Sprachmodelle qualitativ nicht mit der Konkurrenz aus Übersee mithalten. Auch Mistral, ein europäisches KI-Vorzeige-Unternehmen mit Sitz in Frankreich, scheint enteilt. Inzwischen wurde ein Strategiewechsel vollzogen. Aleph Alpha stellte vor wenigen Tagen mit PhariaAI ein KI-Betriebssystem vor, welches es Unternehmen und Behörden ermöglichen soll, eigene KISysteme zu entwickeln, zu steuern und zu trainieren. Ein erster Kunde ist das Land Baden-Württemberg, das seine Mitarbeiter mit der KI-Lösung beim Analysieren von Dokumenten und der Verarbeitung von Anträgen unterstützen möchte.




7 Ansichten0 Kommentare

Comments


bottom of page