
Immer mehr KI-Bots durchsuchen das Internet, um Websites zu crawlen und öffentlich zugängliche Inhalte zu erfassen. Teilweise werden diese Daten genutzt, um KI-Modelle zu trainieren oder bestehende Systeme mit aktuellen Informationen zu versorgen.
Wer nicht möchte, dass die Inhalte der eigenen Website auf diese Weise verwendet werden, kann versuchen, den Zugriff entsprechender Bots technisch einzuschränken oder vollständig zu blockieren. In der Praxis ist dies jedoch oft schwieriger, als es zunächst erscheint.
Viele KI-Crawler ändern ihre Infrastruktur regelmäßig, nutzen unterschiedliche IP-Adressen oder geben sich nicht immer eindeutig zu erkennen. Zudem kann die Umsetzung wirksamer Schutzmaßnahmen zusätzlichen Verwaltungsaufwand und Kosten verursachen.
Im Folgenden stelle ich einige gängige Methoden vor, mit denen sich KI-Bots erkennen und blockieren lassen. Gleichzeitig werde ich die jeweiligen Vor- und Nachteile sowie die Wirksamkeit der einzelnen Maßnahmen in der Praxis erläutern.
Methode 1: robots.txt
Der erste Schritt führt natürlich gleich zur robots.txt-Datei, die im Root-Verzeichnis jeder Website liegen sollte. In dieser Datei sind Regeln festgelegt, wie sich Bots auf der Website verhalten sollen und welche Inhalte oder Bereiche für sie gesperrt sind.
Die großen Bots von Google, Bing und vielen anderen lesen die robots.txt vor dem Crawlen und prüfen, was ihnen nicht gestattet ist.
Aber funktioniert das auch für KI-Bots?
Zunächst einmal kann es nicht schaden, den Inhalt der robots.txt um die folgenden Inhalte zu erweitern, um den großen KI-Bots schon einmal den Zugriff auf die Website einzuschränken:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Amazonbot
Disallow: /
Es ist einfach, aber wie wirkungsvoll ist es?
Auf einen großen Erfolg sollte man sich nicht verlassen, da die Regeln in der robots.txt freiwillig sind. Bots sind nicht verpflichtet, diese Vorgaben zu beachten, und können sie ignorieren.
Diese Methode ist in der Praxis weitgehend wirkungslos, da ein Großteil der KI-Bots freiwillige Regeln wie die "robots.txt" ignoriert. Zudem existieren zahlreiche Bots, für die derartige Vorgaben keinerlei Relevanz haben.
Methode 2: Meta-Tags
Weiterhin besteht die Möglichkeit, eine Seitenregel durch Meta Tags umzusetzen. Dazu muss in die entsprechenden Seiten oder in jede Seite der Website ein Meta Tag eingefügt werden, das sich speziell an die KI-Bots richtet und ungefähr so aussehen kann:
<meta name="robots" content="noai, noimageai, nosnippet">
Dies verbietet die Nutzung der Seite ausdrücklich für KI-Zwecke, für die Bildgenerierung und auch für die Erstellung von Snippets. An dieser Stelle muss ich darauf hinweisen, dass Googlebot und andere diese Regelung dahingehend verstehen, dass sie keine Snippets von der Seite in den Suchergebnissen anzeigen dürfen.
Es sollte sich um diese Art von Snippets handeln, die beispielsweise bei Google eingeblendet werden, um schnelle Antworten zu geben und dabei die Quellseite zu verlinken:
Das bedeutet, dass die Website dadurch an Sichtbarkeit verlieren könnte. Wer die maximale Auffindbarkeit bei Google und anderen Suchmaschinen sicherstellen möchte, sollte das zuvor genannte Meta-Tag daher besser nicht einsetzen.
Methode 3: CDN und CAPTCHA
Die letzte Methode, die am effektivsten bei der Beseitigung von Bot-Traffic auf der Website ist, besteht darin, die Bots auf DNS-Level oder durch CAPTCHA auszusperren.
Anbieter wie Cloudflare, Fastly oder Akamai verfügen über Technologien, die auf Grundlage bekannter Bot-IP-Adressen entscheiden können, ob ein Besucher auf der Website eher ein Mensch oder ein Bot ist.
Wenn es sich um einen Bot handelt, wird zusätzlich geprüft, ob es sich um einen guten oder eher bösen Bot handelt. Das bedeutet, dass Bots einer Suchmaschine in der Regel passieren können. Alle anderen werden entweder ganz geblockt oder müssen ein CAPTCHA lösen, das für Bots schwer zu lösen ist.
Fazit
Bot-Traffic stellt seit jeher ein erhebliches Problem dar. Bots durchsuchen das Internet, kopieren Inhalte und sammeln personenbezogene Daten wie E-Mail-Adressen, Postadressen oder Namen, um daraus Listen zu erstellen, die anschließend auf dem Schwarzmarkt gehandelt werden.
Hinzu kommen zunehmend KI-Bots, die das Internet durchsuchen, um Textinhalte und Bilder zu sammeln, welche anschließend zur Verbesserung von KI-Technologien genutzt werden. Dies kann bei vielen Websitebetreibern zu Bedenken führen.
Es besteht die Möglichkeit, die zuvor beschriebenen Maßnahmen umzusetzen, um automatisierten Zugriff einzuschränken. Als besonders wirksam gelten dabei Lösungen auf DNS-Ebene sowie CAPTCHA-Systeme. Diese Funktionen sind jedoch häufig nur im Rahmen kostenpflichtiger Dienste verfügbar.
Bei Cloudflare beginnen entsprechende Funktionen bei etwa 10 USD pro Monat, während vergleichbare Lösungen bei anderen Anbietern teilweise deutlich höhere Kosten verursachen können.
Indem man die Bots gezielt aussperrt, hilft man, den Schaden durch KI-generierte Texte im Internet einzudämmen, auch wenn hierfür monatliche Kosten anfallen.
Der Komplettservice für deine bestehende Website
Ob technische Betreuung, Sicherheitsupdates, neue Inhalte, Fehlerbehebungen oder Weiterentwicklungen — ich übernehme alle laufenden Aufgaben rund um deine Website. Du hast einen festen Ansprechpartner und musst dich weder um Technik noch um Wartung kümmern.