ChatGPT ist möglicherweise das bekannteste LLM (Large Language Model) und basiert auf GPT-Grundmodellen, die für den dialogorientierten Einsatz feinabgestimmt wurden.[1] GPT bedeutet Generative Pre-trained Transformer und bezeichnet eine Klasse von Modellen zur Verarbeitung natürlicher Sprache, die von OpenAI entwickelt wurden und darauf ausgelegt sind, menschenähnlichen Text zu verstehen und zu erzeugen. GPT-Modelle werden auf riesigen Datensätzen vortrainiert; die „Vortrainingsphase umfasst das Erlernen der Struktur und Nuancen der Sprache, einschließlich Grammatik, Semantik und Kontext.“[2]
Was ist ein LLM?
LLM ist ein allgemeiner Begriff für eine Reihe großskaliger Sprachmodelle, die für Aufgaben der Sprachverarbeitung entwickelt wurden; GPT-Modelle sind ein Untertyp davon. LLMs sind nicht auf eine einzige Architektur wie den Transformer beschränkt. LLMs können verschiedene Architekturen haben, darunter rekurrente neuronale Netze (RNNs) und Convolutional Neural Networks (CNNs). LLMs gelten als eine Form generativer KI und sind sehr große Deep-Learning-Modelle, die vortrainiert werden und anschließend für bestimmte Aufgaben oder Domänen feinabgestimmt werden können. Dieser Feinabstimmungsprozess „passt die Fähigkeiten des Modells an bestimmte Anwendungen an, wie etwa Sprachübersetzung, Textvervollständigung oder Beantwortung von Fragen“.[2][3]
„Vortraining und Feinabstimmung sind zentrale Schritte bei der Entwicklung großer Sprachmodelle. Das Vortraining beinhaltet das allgemeine Training eines großen Sprachmodells mit einem großen Datensatz, während die Feinabstimmung das Training des Modells für spezifische Ziele mit einem deutlich kleineren Datensatz umfasst.“[2]
Es gibt 3 Arten von LLMs: 1. Generische (oder RAW) Sprachmodelle, die das nächste Token (Wort) vorhersagen, ähnlich wie eine Autovervollständigung in einer Suche. 2. Instruierte Modelle (instruction-tuned), die darauf trainiert werden, eine Antwort auf die gegebenen Anweisungen in der Eingabe vorherzusagen. 3. Dialog-abgestimmte Modelle, die darauf trainiert werden, einen Dialog zu führen, indem sie die nächste Antwort vorhersagen. Diese Modelle erfordern unterschiedliche Prompt-Gestaltung; „Chain-of-Thought-Reasoning“ ist eine Methode zur Verbesserung der Antworten: „Modelle erzielen eher die richtige Antwort, wenn sie zunächst einen Text ausgeben, der die Begründung für die Antwort erklärt.“[2]
Prompt-Design & Prompt-Engineering
„Prompt-Design beinhaltet die Erstellung eines klaren, präzisen und informativen Prompts für die gewünschte Aufgabe, während sich Prompt-Engineering auf die Leistungsverbesserung konzentriert. Dies kann die Verwendung domänenspezifischen Wissens, das Bereitstellen von Beispielen für das gewünschte Ergebnis oder die Nutzung von Schlüsselwörtern umfassen, von denen bekannt ist, dass sie für das spezifische System wirksam sind“[3] sowie die Anpassung von Parametern und Gewichten zur Verbesserung der Leistung. Es ist die Aufgabe, Prompts zu entwickeln, die Modelle zu spezialisierten Aufgaben anleiten – ein Prozess der Strukturierung der Eingabe, um Genauigkeit und Effektivität in der Antwort zu erzeugen.
[1] ChatGPT Wikipedia
[2] Empfohlenes Video ansehen "Introduction to large language models" von Google Cloud Tech
[3] Understanding the Difference Between GPT and LLM blog.stackademic.com