ChatGPT User Agent blockieren: Schützen Sie Ihre Website vor KI Missbrauch

ChatGPT User Agent blockieren: Schützen Sie Ihre Website vor KI Missbrauch

Schützen Sie Ihren Content und Wissen

Warum sollte man ChatGPT oder auch andere KI Bots von der eigen Webseite blockieren

KI Bots wie ChatGPT oder auch die Google Ki sind in der Lage, automatisiert Inhalte von Websites abzurufen und diese für verschiedene Zwecke zu nutzen. Diese Bots können ohne Erlaubnis auf Inhalte zugreifen und sie für unerwünschte Zwecke nutzen, was zu Urheberrechtsverletzungen und anderen rechtlichen Problemen führen kann. Das Blockieren von ChatGPT User Agents ist wichtig, um die Sicherheit und Integrität Ihrer Website zu gewährleisten, Ressourcen zu schonen und mögliche Cyber-Angriffe abzuwehren.  Die unerlaubter Verwendung von Ihren Inhalten. Dies kann sich negativ auf die Reputation und den Erfolg Ihrer  eigenen Website auswirken.

Ressourcenverschwendung und Cyber-Sicherheitsbedrohungen durch KI

Da ChatGPT User Agents automatisierte Anfragen an Ihre Website stellen, können sie Bandbreite und Server-Ressourcen in Anspruch nehmen. Dies kann dazu führen, dass Ihre Website langsamer lädt und die Benutzererfahrung von Realen Besuchern beeinträchtigt wird, insbesondere wenn mehrere Bots gleichzeitig auf Ihre Website zugreifen oder der Server nicht optimal ausgestattet ist für hohen Traffic. Wird der Bot Traffic oder auch Künstliche Traffic durch DeDos Attacken zu hoch, kann es auch zu Ausfällen in der Server Sicherheit führen, da durch die hohe Auslastung in bestimmten fällen der Server nicht mehr odrnungsgemäß funktionierten kann. Das Blockieren dieser Bots ist daher ein wichtiger Schritt, um Ihre Website vor Content Missbrauch oder Hackern und anderen Cyber-Bedrohungen zu schützen.

Was sind die Grundlagen von der Datensätze ChatGPT

Was wir noch wissen sollten: AI Bots wie ChatGPT sind Sprachmodelle. Diese müssen erst einmal trainiert werden. Dazu gehören Portale und Webseiten, die Datensätze anbieten, die eine Fülle von Informationen preisgeben, wie Wikipedia, Bücher usw…, die im Internet frei verfügbar sind. Dazu gehört auch WebText2. WebText2 ist ein privater OpenAI-Datensatz. Er wurde durch das Crawlen von Links auf Reddit erstellt. Grundlage für die Erstellung dieses Datensatzes war, dass nur qualitativ hochwertige Inhalte Gegenstand der Links waren. Der Bot der dies gecrawlt hat ist CCBot. Dieser sollte ebenfalls geblockt werden, damit er beim nächsten Crawlen der Datensätze nicht mit aufgenommen wird.

Aus diesem Grund ist es nun wichtig auf intelligente Weise die Daten vor KI Bots zu schützen.

Wir haben folgende Möglichkeiten:

  • Robots.txt
  • .htaccess Datei
  • IP-Sperre

ChatGPT User Agent sperren über Robots.txt

Der ChatGPT-Benutzer wird von den Plugins innerhalb von ChatGPT verwendet. Dieser User-Agent wird nur verwendet, um direkte Aktionen im Namen von ChatGPT-Benutzern durchzuführen. Er wird nicht verwendet, um das Web automatisch zu durchsuchen. Es ist trotzdem sinnvoll, den User zu sperren, da wir dann weniger Ressourcen verbrauchen.

ChatGPT-Agent identifiziert sich wie folgt

User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Sie können den ChatGPT-Benutzer zur robots.txt-Datei Ihrer Website hinzufügen, um Plugins den Zugriff auf Ihre Website zu verweigern:

User-agent: ChatGPT-User
Disallow: /

CCBot User Agent sperren über Robots.txt

Das Blockieren von Common Crawl verhindert jedoch, dass Ihre Website-Inhalte in neuere Common Crawl-Datensätze aufgenommen werden, wenn der Robot die Website erneut durchsucht. Fügen Sie den folgenden Eintrag zu Ihrer robots.txt-Datei hinzu, um den Common Crawl Bot zu blockieren. Es gibt jedoch keine Garantie dafür, dass der Bot zurückkehrt und der Datensatz gelöscht wird.

User-agent: CCBot
Disallow: /

ChatGPT User Agent blockieren über .htaccess-Datei

Eine der einfachsten Methoden zum Blockieren von ChatGPT User Agents ist das Editieren der .htaccess Datei auf Ihrem Webserver. Sie können Regeln hinzufügen, die den Zugriff auf Ihre Website für bestimmte User Agent Strings verbieten. Hier ist ein Beispiel für eine solche Regel, die von openai selbst definiert wurde 🙂

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ChatGPT|GPT-4|OpenAI [NC]
RewriteRule .* - [F,L]

Sicher effektiv schüten über Content Delivery Network gegen KI und ChatGPT

Web Application Firewalls bieten eine zusätzliche Sicherheitsebene für Ihre Website. Sie analysieren den Datenverkehr und blockieren verdächtige Anfragen. Bei einigen WAFs können Sie benutzerdefinierte Regeln zum Blockieren von ChatGPT-Benutzern erstellen. Hier kann man einfach die IP Adresse nehmen,

23.98.142.176/28

ChatGPT User Agent blockieren – sie haben Fragen dazu

Sie benötigen ein Angebot oder brauchen Hilfe

1 + 3 = ?

Quellen

https://platform.openai.com/docs/plugins/bot
https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/#close