Confidence, Fahrlässigkeit, Mangel

Wer ein Large Language Model trainiert, gibt Daten ein, die der Beantwortung von künftigen Fragen an die KI nutzen sollen. Die Software erkennt Strukturen und bietet Lösungen an. Klar ist, dass nicht alle Antworten zutreffend sind.

Wer also eine Software, die zur Interaktion mit dem Kunden eingesetzt werden soll, trainiert, wird damit konfrontiert, entscheiden zu müssen welche Ergebnisse angezeigt werden sollen und welche zu schlecht sind, um sie dem Nutzer der KI zu präsentieren. Bei Bilderkennungs-Software z.B., kann die Maschine einschätzen, wie weit sie von den trainierten, also bekannten und sicher zugeordneten, Bildern entfernt ist, wenn sie ein unbekanntes Bild präsentiert bekommt. Der Grad der Übereinstimmung des einzustufenden Bilds mit bekennten Bildern wird als Confidence-Wert z.B. mit Prozentangabe ermittelt. Je höher die eigene Confidence-Bewertung der Software ist, desto höher ist die erwartete Wahrscheinlichkeit, dass die Einsortierung richtig ist.

Die Einstellung der erkennenden Software kann üblicherweise eine bestimmte Höhe der Confidence als Schwellenwert festlegen, die notwendigerweise zu erreichen ist, um ein Ergebnis dem Nutzer – als zur Beantwortung hinreichend – anzeigen zu lassen.

Aus juristische Sicht ist diese technische Einstellung durchaus bedeutsam. Dies betrifft insbesondere die Einschätzung eines interagierenden KI-Software-Produkts als vertragskonform oder mangelhaft, denn: Überlässt man eine Software zur Nutzung, die mit zu geringen Confidence-Werten eingerichtet ist, so ist zu erwarten, dass diese in einer Vielzahl von Fällen nicht zutreffende Ergebnisse präsentiert, also vom vertraglich vorausgesetzten Einsatzzweck abweicht.

Im Streit zwischen Developer/Trainer und Auftraggeber (über die Software-Erstellung und Funktion einer LLM-basierten Software) ist die Einstellung der Confidence für die Bewertung als fahrlässige oder vorsätzliche Vertragsverletzung zu berücksichtigen. Bei nur geringen Confidence-Werten, die zur Anzeige zugelassen werden, kann von einem Mangel des Produkts ausgegangen werden.

Außerdem ist aus Sicht eines Verbrauchers eine Mindestsicherheit der künstlichen Intelligenz, die ihm gegenüber vom Unternehmen verwendet wird, vorauszusetzen. Die vertragliche Nebenpflicht des Unternehmers aus dem BGB zum Schutz der Rechtsgüter des Vertragspartners erfordert eine Aufklärung über nicht erwartbare Risiken z.B. bei Verwendung des Unternehmens-Chatbots. Ist die Confidence-Einstellung zu gering oder wurden zu wenige Trainingsdaten verwendet, so hat der Unternehmer den Verbraucher darüber aufzuklären, wenn er Chatbots im Kontakt mit dem Verbraucher einsetzt. Der Unternehmer muss für eine Fehlberatung seiner KI mit falschen Confidence-Werten einstehen, da der Verbraucher ein Mindestmaß an Training und Antwort-Sicherheit voraussetzen kann, wenn er einem solchen Modul im Web des Unternehmers begegnet. Freizeichnungsversuche wie „ich lerne noch“-Hinweise neben dem Chatbot oder ähnliches, können den Unternehmer nicht von einer Haftung für fehlerhafte Einstellungen der Confidence-Schwellenwerte befreien.

Für Unternehmer ist es daher ratsam, die Schwellenwerte für Confidence eher hoch anzusetzen und unterhalb dieser Schwelle Vorgänge auf eine „menschliche Bearbeitung“ umzuleiten. Statt „KI-Einsatz um jeden Preis“, sollte „lieber nichts als falsch“ das Ergebnis bestimmen. So, und jetzt ist die Diskussion eröffnet, ab welcher Confidence-Schwelle sich das Unternehmen sich noch compliant verhält.

Revival der robots.txt?

Über Sinn oder Unsinn der robots.txt gibt es verschiedene Ansichten, mitunter weil sie von manchen Web-Crawlern ignoriert wird. Wenn Sie in der Pflicht sind, als Verantwortlicher eines Unternehmens bestimmte Inhalte im Web vor Ausbeutung durch Suchmaschinen mit künstlicher Intelligenz zu schützen, kann die Verwendung der robots.txt ein Baustein sein:

Im Rechtsstreit über Urheberrechtsverletzungen wegen Inhalten, die ein Large Language Model zusammenstellt und ausgibt, kann es hilfreich sein, zu belegen, dass bestimmte Seiten von der Indexierung ausgenommen waren, weil man diese Inhalte nicht im Web an anderer Stelle wiederfinden wollte, gerade weil man ihnen besonderen urheberrechtlichen Wert beimisst.

Will ein fertigendes technisches Unternehmen zum Beispiel besonders detaillierte technische Beschreibungen nicht in Antworten einer fremden KI sehen, so ist es zu raten, eine inhaltlich einfacher gestaltete Web-Seite zu generieren, über die der Nutzer zu einer komplexen Seite der Webpräsenz des Unternehmens gelangt. Dem suchenden Roboter kann dann vorgeschrieben werden, die einfache – nicht aber die komplexe Seite zu crawlen. Sinnvoller wäre es noch, alle urheberrechtlich geschützte Inhalte von besonders hohem Wert in einem Verzeichnis zusammenzufassen und in der robots.txt z.B. so auszuschließen:

User-agent: *
Disallow: /diesesverzeichnis/

Die Kopie der einschlägigen Vermerke in der robots.txt helfen dem Rechtsanwalt im Verletzer-Prozess gegen KI-Anwendungs-Anbieter. Hier könnte dem Urheber eines kopierten Texts auch helfen, dass er mit der entsprechend formulierten robots.txt eine maschinenlesbare Einschränkung nach § 44 III UrhG einsetzen will.

einsetzt.Und – ja der Anwalt weiß: Die Begeisterung bei den für SEO Verantwortlichen wird nicht steigen, wenn besonders „unique“ Inhalte vom crawlen ausgenommen werden sollen. Wer gegen diese Ausnahmen ist, sollte dann aber wenigstens die KI-Suchmaschinen-Ergebnisse dahingehend überwachen, ob Zitate über die Herkunft der Inhalte (richtig) aufgeführt werden.

AI changes SEO

Die Entwicklung künstlicher Intelligenz, insbesondere Verbraucher-freundlicher Programme mit Sprach-Inferfaces, bringt Herausforderungen für Marketing- und Rechtsabteilungen.

Einerseits kann generative KI dazu verwendet, werden, Artikel (und anderen „Content“ in Textform) schnell schreiben zu lassen, die ein gesteigertes Ranking nach Einbindung in die eigenen Webpräsenz ermöglichen. Es ist aber davon auszugehen, dass Suchmaschinen künstlich generierte Artikel künftig an der Art der Zusammensetzung erkennen und geringer ranken. Selbst geschriebene Artikel sind aus rechtlicher Sicht vorzugsweise zu empfehlen, weil Urheber und Lizenz z.B. für den Arbeitgeber nachvollziehbar sind. Momentan gibt es bei den verbreiteten, kostenlos zugänglichen Sprachmodellen keine Garantie, dass der Bot bei der Formulierung keine Urheberrechte verletzt (Sprachwerke im Sinne des § 2 I Nr. 1 UrhG sind z.B. betroffen).

Aus rechtlicher Sicht ist außerdem wichtig, dass die Verantwortlichkeit des Inhalts der Artikel besteht, wenn man diese in die Webpräsenz einbindet. Daher müssen generierte Artikel daraufhin untersucht werden, ob sie über das eigene Unternehmen nicht wettbewerbswidrige Aussagen machen, wie zum Beispiel über die Unternehmensgröße, Marktmacht oder Produkte. Im Sinne des § 5 UWG muss überprüft werden, ob der Artikel irreführend ist. Es gibt Belege, dass künstliche Intelligenz halluziniert, also falsche „Fakten“ darstellt.

Hinsichtlich der Optimierung von Suchmaschinen (SEO) ist eine Änderung zu erwarten: Die Suche über Texteingabe dürfte teilweise abgelöst werden und durch eine Suche der Nutzer über Sprach-Interfaces mit Large Language Modellen ersetzt werden. Nutzer werden sich etwa daran gewöhnen, GPT zu fragen, statt in Google Search einzutippen. Google hat dies erkannt und arbeitet an eigenen Softwares wie Gemini – stets mit dem Ziel den Nutzer nicht an KI der Konkurrenz zu verlieren.

Coding mit dem Pen

„Einer ist immer der Dev“ heißt es – und man weiß nicht sofort wer. Das zeigt sich auch bei der Arbeit mit Codepen (externer Link hier), der Community-Spielwiese für Entwickler und solche, die es werden wollen. Auf Codepen kann u.a. nach HTML/CSS/PHP/JS-Lösungen gesucht werden und das Gefundene in lauffähiger Umgebung ausprobiert und verändert, siehe den leeren Testbereich hier.

Wer die Rechte am in den einzelnen „Unterseiten“ bereitgehaltenen Code hält, ist nicht einfach zu erkennen. Kürzlich erreichte Rechtsanwalt Fink die Frage nach der Behandlung von Programmen auf Codepen durch den Entwickler. Ein Teil der Antwort ist in den Vertragswerken zu finden:

Codepen erlaubt die Darstellung von Software (oder Teilen) in einem geschützten Nutzerbereich (Private Pen) oder in öffentlich zugänglichen Modulen, sogenannten Public Pens.

Private Pens können die Verwendung der dargestellten Programme in eigenen Lizenzbedingungswerken wesentlich einschränken. Also ist es ratsam einzelfallspezifisch zu klären, was der Einstellende zur Bedingung macht.

Öffentliche Pens werden gut über Suchmaschinen gefunden und können als Software-Lösungen kopiert und in eigene Projekte integriert werden. Solche Inhalte in öffentlichen Pens stehen gemäß den Codepen-Bedingungen bei Einstellung unter der MIT Lizenz, also einer Open Source-Lizenz. Das ist positiv, da diese Lizenz im Wesentlichen die Pflicht zur Einbindung des Urhebervermerks bedeutet:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

Textauszug der MIT License

Sollte aber derjenige, der die Software bei Codepen eingestellt hat, nicht die Rechte zu Lizenzierung nach MIT haben, wird es unter Umständen für den implementierenden Entwickler problematisch. Dem tatsächlichen Software-Entwickler stehen die üblichen Rechte zu, die ihm z.B. das deutsche Urhebergesetz in § 2 UrhG gibt. Die (MIT-)Lizenzbedingungen entfalten als Einschränkung durch den Unberechtigten keine Wirkung gegen den Rechteinhaber.