Confidence, Fahrlässigkeit, Mangel

Wer ein Large Language Model trainiert, gibt Daten ein, die der Beantwortung von künftigen Fragen an die KI nutzen sollen. Die Software erkennt Strukturen und bietet Lösungen an. Klar ist, dass nicht alle Antworten zutreffend sind.

Wer also eine Software, die zur Interaktion mit dem Kunden eingesetzt werden soll, trainiert, wird damit konfrontiert, entscheiden zu müssen welche Ergebnisse angezeigt werden sollen und welche zu schlecht sind, um sie dem Nutzer der KI zu präsentieren. Bei Bilderkennungs-Software z.B., kann die Maschine einschätzen, wie weit sie von den trainierten, also bekannten und sicher zugeordneten, Bildern entfernt ist, wenn sie ein unbekanntes Bild präsentiert bekommt. Der Grad der Übereinstimmung des einzustufenden Bilds mit bekennten Bildern wird als Confidence-Wert z.B. mit Prozentangabe ermittelt. Je höher die eigene Confidence-Bewertung der Software ist, desto höher ist die erwartete Wahrscheinlichkeit, dass die Einsortierung richtig ist.

Die Einstellung der erkennenden Software kann üblicherweise eine bestimmte Höhe der Confidence als Schwellenwert festlegen, die notwendigerweise zu erreichen ist, um ein Ergebnis dem Nutzer – als zur Beantwortung hinreichend – anzeigen zu lassen.

Aus juristische Sicht ist diese technische Einstellung durchaus bedeutsam. Dies betrifft insbesondere die Einschätzung eines interagierenden KI-Software-Produkts als vertragskonform oder mangelhaft, denn: Überlässt man eine Software zur Nutzung, die mit zu geringen Confidence-Werten eingerichtet ist, so ist zu erwarten, dass diese in einer Vielzahl von Fällen nicht zutreffende Ergebnisse präsentiert, also vom vertraglich vorausgesetzten Einsatzzweck abweicht.

Im Streit zwischen Developer/Trainer und Auftraggeber (über die Software-Erstellung und Funktion einer LLM-basierten Software) ist die Einstellung der Confidence für die Bewertung als fahrlässige oder vorsätzliche Vertragsverletzung zu berücksichtigen. Bei nur geringen Confidence-Werten, die zur Anzeige zugelassen werden, kann von einem Mangel des Produkts ausgegangen werden.

Außerdem ist aus Sicht eines Verbrauchers eine Mindestsicherheit der künstlichen Intelligenz, die ihm gegenüber vom Unternehmen verwendet wird, vorauszusetzen. Die vertragliche Nebenpflicht des Unternehmers aus dem BGB zum Schutz der Rechtsgüter des Vertragspartners erfordert eine Aufklärung über nicht erwartbare Risiken z.B. bei Verwendung des Unternehmens-Chatbots. Ist die Confidence-Einstellung zu gering oder wurden zu wenige Trainingsdaten verwendet, so hat der Unternehmer den Verbraucher darüber aufzuklären, wenn er Chatbots im Kontakt mit dem Verbraucher einsetzt. Der Unternehmer muss für eine Fehlberatung seiner KI mit falschen Confidence-Werten einstehen, da der Verbraucher ein Mindestmaß an Training und Antwort-Sicherheit voraussetzen kann, wenn er einem solchen Modul im Web des Unternehmers begegnet. Freizeichnungsversuche wie „ich lerne noch“-Hinweise neben dem Chatbot oder ähnliches, können den Unternehmer nicht von einer Haftung für fehlerhafte Einstellungen der Confidence-Schwellenwerte befreien.

Für Unternehmer ist es daher ratsam, die Schwellenwerte für Confidence eher hoch anzusetzen und unterhalb dieser Schwelle Vorgänge auf eine „menschliche Bearbeitung“ umzuleiten. Statt „KI-Einsatz um jeden Preis“, sollte „lieber nichts als falsch“ das Ergebnis bestimmen. So, und jetzt ist die Diskussion eröffnet, ab welcher Confidence-Schwelle sich das Unternehmen sich noch compliant verhält.