Oktober 2024 – Rechtsanwalt Thorsten Fink, LL.M.

Über Sinn oder Unsinn der robots.txt gibt es verschiedene Ansichten, mitunter weil sie von manchen Web-Crawlern ignoriert wird. Wenn Sie in der Pflicht sind, als Verantwortlicher eines Unternehmens bestimmte Inhalte im Web vor Ausbeutung durch Suchmaschinen mit künstlicher Intelligenz zu schützen, kann die Verwendung der robots.txt ein Baustein sein:

Im Rechtsstreit über Urheberrechtsverletzungen wegen Inhalten, die ein Large Language Model zusammenstellt und ausgibt, kann es hilfreich sein, zu belegen, dass bestimmte Seiten von der Indexierung ausgenommen waren, weil man diese Inhalte nicht im Web an anderer Stelle wiederfinden wollte, gerade weil man ihnen besonderen urheberrechtlichen Wert beimisst.

Will ein fertigendes technisches Unternehmen zum Beispiel besonders detaillierte technische Beschreibungen nicht in Antworten einer fremden KI sehen, so ist es zu raten, eine inhaltlich einfacher gestaltete Web-Seite zu generieren, über die der Nutzer zu einer komplexen Seite der Webpräsenz des Unternehmens gelangt. Dem suchenden Roboter kann dann vorgeschrieben werden, die einfache – nicht aber die komplexe Seite zu crawlen. Sinnvoller wäre es noch, alle urheberrechtlich geschützte Inhalte von besonders hohem Wert in einem Verzeichnis zusammenzufassen und in der robots.txt z.B. so auszuschließen:

User-agent: *
Disallow: /diesesverzeichnis/

Die Kopie der einschlägigen Vermerke in der robots.txt helfen dem Rechtsanwalt im Verletzer-Prozess gegen KI-Anwendungs-Anbieter. Hier könnte dem Urheber eines kopierten Texts auch helfen, dass er mit der entsprechend formulierten robots.txt eine maschinenlesbare Einschränkung nach § 44 III UrhG einsetzen will.

einsetzt.Und – ja der Anwalt weiß: Die Begeisterung bei den für SEO Verantwortlichen wird nicht steigen, wenn besonders „unique“ Inhalte vom crawlen ausgenommen werden sollen. Wer gegen diese Ausnahmen ist, sollte dann aber wenigstens die KI-Suchmaschinen-Ergebnisse dahingehend überwachen, ob Zitate über die Herkunft der Inhalte (richtig) aufgeführt werden.

Name	Domain	Purpose	Expiry	Type
wpl_user_preference	finklaw.de	Cookie acceptance (Annahme-Einstellungen bezüglich der Cookies)	1 year	HTTP
wpl_viewed	finklaw.de	Cookie-Zustimmung dargestellt (ja/nein)	1 year	HTTP
wp-postpass	finklaw.de	Mandantenbereich: Zum Login und folgender Bereitstellung der Inhalts-Sichtbarkeit notwendiger Cookie	10 days	HTTP
wordpress_test_cookie	finklaw.de	WordPress setzt ihn wenn zur Login-Seite navigiert wird und prüft so, ob Ihr Web Browser eigestellt ist, Cookies zu akzeptieren.	0 days	HTTP

Name	Domain	Purpose	Expiry	Type
wp-settings-1	finklaw.de	Browser (Browsereinstellung bei erfolgten WordPress-Logins - die Zahl am Ende erlaubt verschiedene Nutzerprofile zu erkennen)	25 days	HTTP
wp-settings-time-1	finklaw.de	Time (Zeiteinstellung bei erfolgten WordPress-Logins - die Zahl am Ende erlaubt verschiedene Nutzerprofile zu erkennen)	25 days	HTTP

Monat: Oktober 2024

Revival der robots.txt?

Diese Webpräsenz der Rechtsanwaltskanzlei und Gütestelle Fink verwendet Cookies.