Falsche Antworten auf einfache Fragen
Wer Googles Bard, ChatGPT oder etwa dessen Ableger Microsoft Bing benutzt, muss sich manchmal wundern. Da kommen auf sehr einfache Fragen erstaunlich falsche Antworten. Im September 2023 gab Bard mir auf die Frage, was ein Petabyte ist, folgende Antwort: "1 Petabyte = 1.000 Gigabyte". Damit hat er sich "nur" um den Faktor 1.000 vertan. Als ich ihm die Frage zwei Monate später nochmal stellte, war die Antwort richtig (= 1.000.000 GB). Als ich Bard dann aufgab, mir weitere Beispiele falscher Antworten auf meine Fragen zu geben, wurde es lustig. Auf der Datenbasis vom 29. November 2023 lautete die Antwort:
- I once claimed that the capital of France is Paris, which is incorrect. The capital of France is actually Marseille.
- I also mistakenly stated that the largest country in the world is Russia. In fact, the largest country in the world is China.
- Additionally, I once incorrectly asserted that the United States is the only country in the world that has won a FIFA World Cup. Brazil has actually won five FIFA World Cups, the most of any country.
Diese Beispiele stellen offensichtlich falschen Aussagen dar, die Bard mir als "Korrekturen" für früher Antworten geliefert hat. Die Antwort zum Thema Fußball könnte auch ein gutes Beispiel für einen "Bias" sein. Damit gemeint ist eine Voreingenommenheit aufgrund der Datenauswahl und / oder des Algorithmus. Schließlich sind die US Frauen mit viermaligem Gewinn der Fußball-Weltmeisterschaft im Gegensatz zu ihren männlichen Pendants sehr erfolgreich. Sie sollten explizit erwähnt werden, statt sie implizit mit Brasiliens Männer-Team zu vergleichen. Wenn man Fußball als Männersport klassifiziert, dann kommen die Frauen eben nicht vor. Schlimmer wird es, wenn Google’s KI-Search Engine laut einem Bericht der Tech-Webseite Gizmodo vom 22. August 2023 auf die Frage nach den Vorteilen der Sklaverei eine ernstgemeinte, entsprechende Liste erstellt oder auf Anfrage ein Kochrezept für einen hochgiftigen Pilz produziert, dessen nicht wasserlösliche Toxine man – angeblich und fälschlich – durch vorheriges Einwässern beseitigen könne. Für die Konkurrenz habe ich ebenfalls Beispiele für falsche Antworten gefunden, allerdings nicht so krasse. "Time to Market", d.h. das Produkt möglichst rasch auf den Markt zu bringen, statt die Besetzung von Marktanteilen dem Wettbewerb zu überlassen, dürfte auch hier eine wesentliche Triebfeder für die Publikation unreifer Software sein. Google wurde von ChatGPT "kalt erwischt", sah und sieht sein gewinnträchtiges Suchmaschinengeschäft in Gefahr und ist jetzt mitten in der Aufholjagd. Das Unternehmen muss abwägen zwischen dem Verlust von Marktanteilen und dem Verlust an Reputation durch ein noch experimentelles Produkt. Letzteres kann man im vorliegenden Fall in vertretbarer Zeit wieder rückgängig machen, ersteres ist teuer und langwierig. Ein Vorteil solcher Frühvermarktung ist, dass man eine sehr breite Basis von Testern (= Nutzer) gewinnt und somit durch deren Rückmeldungen auch größere Chancen hat, Fehler in der Software zu entdecken, als dies in Laborsituationen der Fall ist. Aus diesem Grund fragen die ChatBots nach jeder Antwort nach Feedback in Form von Icons wie etwa "Daumen rauf" oder "Daumen runter". Wer ChatBots schon benutzt hat, wird das Verfahren kennen. Diese Vorgehensweise heißt im Branchenjargon Reinforcement Learning from Human Feedback (RLHF) und stellt eine der Standardmethoden für die Verbesserung von KI-ChatBots dar.
Falsche Antworten belegen nicht, dass KI grundsätzlich suspekt ist, aber doch, dass die Ingenieure und Ethiker der Branche noch sehr viel Arbeit vor sich haben. – Und zumindest den Antworten der öffentlichen "Publikums-ChatBots" ist jetzt und in Zukunft nicht bedingungslos zu trauen ist. Es verhält sich ähnlich wie mit autonomem Fahren. Auch dort stecken wir noch in den Anfängen der Technik und wir beobachten entsprechende Fehlleistungen.
Ethische KI
Doch die Konkurrenz zu den Mainstream KI-Modellen ist schon aus den Startlöschern. Ein Beispiel dafür ist die kalifornische Software-Schmiede Anthropic. Amazon hat am 23. September 2023 angekündigt, sich mit bis zu 4 Milliarden US Dollar an dem Unternehmen zu beteiligen. Damit steht hinter Anthropic ein Riese, der es durchaus mit Microsoft, dem Hauptinvestor von ChatGPT, aufnehmen und Anthropics Kunden ebenso ausgefeilte Cloud-Lösungen anbieten kann. Die Firma firmiert als "public benefit Corporation", eine gemeinnützige Kapitalgesellschaft, d.h. sie verfolgt neben kommerziellen Zielen auch solche, die am Gemeinwohl orientiert sind.
Anthropic positioniert ihren KI-Engine Claude als ethisches Gegenstück zu den Großen im Markt. Als "KI der nächsten Generation" für den Bau hilfreicher, ehrlicher und unschädlicher KI Systeme ("helpful, honest and harmless") verzichtet Claude auf Datensuche im Internet. Logischerweise steigt das Risiko problematischer KI-Aussagen mit dem Umfang der durchsuchten Datenbasis. Warum ist da so? Da im Internet eine Menge Unsinn und absurdes Zeug kursieren, fließt auch dieses in ihre Antworten mit ein. KI-Chatbots basieren im Kern eben auf einer statistischen Methode, sie können per se nicht zwischen Sinn und Unsinn unterscheiden. Der Verzicht auf Internetsuche verkleinert daher schädliche Risiken, bedingt aber auch erhebliche Nachteile, deren Erörterung hier zu weit führen würde. Anthropic bezeichnet die Methodik, die ihrem Grundmodell zugrunde liegt, als "constitutional". Gemeint ist damit, dass die KI sich bei der Ermittlung ihrer Ergebnisse an Regeln und Prinzipien orientiert, die "menschlichen Werten" (was auch immer damit konkret gemeint ist) entsprechen und ihrem Datenmodell als einer Art Verfassung zugrunde liegen. Claude ist ein weiteres Beispiel dafür, wie sich in der IT zeitnah Gegenmodelle herausbilden, wenn existierende Produkte bestimmten Wertvorstellungen zuwiderlaufen. Die Defizite des einen sind das Geschäft des anderen.
Vom richtigen "Prompten"
Jeder von uns nutzt Prompts. Das sind unsere Eingaben, die wir formulieren, wenn wir z.B. eine Suchmaschine interaktiv nutzen. "Prompt Engineering" verfolgt mehrere Zwecke und spielt u.a. eine wichtige Rolle bei der Optimierung von Qualität und Relevanz der Antworten eines KI-Engines und der Vermeidung von Mehrdeutigkeit und falschen Aussagen. Prompt Engineers verstehen die Logik und Funktionsweise einer KI und wissen daher, wie sie ihre Anfragen (Prompts) für beste Antworten gestalten müssen. Das ist insbesondere für das Training von KI-Modellen und die Anwendungsentwicklung von Bedeutung. Ein entsprechendes Basiswissen kann aber auch auf einem sehr viel einfacheren Niveau nützlich sein, wenn nicht-professionelle User von Bing, Bard oder ChatGPT einfach nur gute Ergebnisse erhalten wollen. Zu den Grundregeln gehören: Fragen sollten so spezifisch und präzise wie möglich formuliert werden. Allgemein gehaltene Fragen erzeugen allgemein gehaltene (manchmal falsche) Antworten. Die KI arbeitet am besten, wenn ihr Kontext geliefert wird, d.h. wenn sie Fragen in einen größeren Zusammenhang einordnen kann. Dazu gebraucht man am besten mehrere vollständige Sätze und keine Bruchstücke, wie wir sie gelegentlich bei Suchmaschinen benutzen. Je mehr Kontext, desto besser die Antwort. Aus diesen kleinen Regeln wird schon deutlich, dass nicht mehrere Fragen in einen Prompt gepackt werden sollten. Für das Optimieren von Eingaben und Ergebnissen existieren inzwischen Kursangebote von Startups, YouTube Kanälen und allerlei sonstigen Quellen im Web. Die meisten Basiskurse kommen ohne technische Vorkenntnisse bei den Teilnehmern aus.