Large Language Models, kurz LLMs, sind eine Form Künstlicher Intelligenz, die auf neuronalen Netzen basiert. Im alltäglichen Sprachgebrauch werden sie häufiger fälschlich mit KI schlechthin gleichgesetzt. Typische Anwendungen sind etwa Dialogsysteme für die Beantwortung von Kundenanfragen, Übersetzungen, Datenanalysen oder Recherchen. Einige dieser Systeme besitzen auch die Fähigkeit, Computerprogramme in Form von Quellcode zu schreiben oder Audiodateien, Bilder und Videos zu erzeugen. In solchen Fällen werden sie als Multimodale LLMs (MLLM) bezeichnet. Die Modelle sind nicht alle gleich gut in der Lösung von Aufgaben. Das liegt daran, dass sie nach Größe, Umfang und Art ihrer Tainingsdaten variieren, zudem gibt es Abweichungen in den zugrunde liegenden Lernmodellen. LLMs sind die Grundlage von generativen KI-Chatbots, wie etwa die von OpenAI, Aleph Alpha, Baidu, Mistral, Moonshot oder Google. LLMs werden unter Einsatz von Deep Learning-Methoden mit sehr großen Textmengen trainiert, die viele Milliarden Wörter enthalten. Das Tückische an ihnen ist, dass ihre Ergebnisse aufgrund ihrer ebenfalls nach Milliarden zählenden Parameter (lernfähige, konfigurierbare, mathematische Variablen) und der Tatsache, dass das System selbst seine finalen Ergebnisse noch nicht kennt, nicht vorhersagbar und daher auch nicht ohne weiteres überprüfbar sind. Niemand kann sagen, welche Parameter z.B. für unterschiedliche Antworten auf dieselbe Frage verantwortlich sind. Die Anzahl dieser Parameter fließt häufig in die Bezeichnung der Modelle ein. So bedeutet etwa GPT-3 = 175 Milliarden Parameter, GPT-4 = 1.760 Milliarden.
Die Knoten des neuronalen Netzes sind nicht dasselbe, wie die Parameter. Knoten sind Verarbeitungseinheiten, die u.a. für die Ein- und Ausgabefunktionen des LLM zuständig sind und die Parameter “beherbergen”.