Facendo seguito all’articolo di Ethan Marcotte su come poter fare opt-out dalla pesca a strascico dei contenuti web da parte dei vari bot dei servizi di “intelligenza artificiale” sinora conosciuti ho adottato queste due contromisure.
Specifico che il mio CMS per pubblicare online è WordPress, quindi se usi altro, il codice proposto potrebbe essere da adattare.
Primo. Modificare il file robots.txt del dominio, sperando che la direttiva venga letta / rispettata dai bot:s:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: *
Disallow:
User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: Seekr
User-agent: YouBot
Disallow: /
Sitemap: https://mywebsite.domanin/sitemap.xml
Secondo. Applicare la seguente modifica al file .htaccess del dominio aggiungendo la seguente sezione:
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /
# block “AI” bots
RewriteCond %{HTTP_USER_AGENT} (AdsBot-Google|Amazonbot|anthropic-ai|Applebot|AwarioRssBot|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|DataForSeoBot|Diffbot|FacebookBot|FacebookBot|Google-Extended|GPTBot|ImagesiftBot|magpie-crawler|omgili|Omgilibot|peer39_crawler|PerplexityBot|YouBot) [NC]
RewriteRule ^ – [F]
</IfModule>
In questo modo di forza la procedura. Diciamo senza dire “per favore”.
Non so se questo basti a risolvere la questione, e si ha un po’ la sensazione che ormai I buoi siano scappati dalla stalla (I primi servizi nascono diversi anni fa). Ancora, non so dire se con lo ‘pseudonimo’ $GenericBot si possa nascondere un nuovo servizio non annunciato al pubblico, o uno dei soliti noti sotto copertura.
Ad ogni modo sono interessato all’argomento. Quindi se ne sai di più fammi sapere.