Facendo seguito all’articolo di Ethan Marcotte su come poter fare opt-out dalla pesca a strascico dei contenuti web da parte dei vari bot dei servizi di “intelligenza artificiale” sinora conosciuti ho adottato queste due contromisure.
Specifico che il mio CMS per pubblicare online è WordPress, quindi se usi altro, il codice proposto potrebbe essere da adattare.
Primo. Modificare il file robots.txt del dominio, sperando che la direttiva venga letta / rispettata dai bot:s:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: *
Disallow:
User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: Seekr
User-agent: YouBot
Disallow: /
Sitemap: https://mywebsite.domanin/sitemap.xml
Secondo. Applicare la seguente modifica al file .htaccess del dominio aggiungendo la seguente sezione:
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /
# block “AI” bots
RewriteCond %{HTTP_USER_AGENT} (AdsBot-Google|Amazonbot|anthropic-ai|Applebot|AwarioRssBot|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|DataForSeoBot|Diffbot|FacebookBot|FacebookBot|Google-Extended|GPTBot|ImagesiftBot|magpie-crawler|omgili|Omgilibot|peer39_crawler|PerplexityBot|YouBot) [NC]
RewriteRule ^ – [F]
</IfModule>
In questo modo di forza la procedura. Diciamo senza dire “per favore”.
Non so se questo basti a risolvere la questione, e si ha un po’ la sensazione che ormai I buoi siano scappati dalla stalla (I primi servizi nascono diversi anni fa). Ancora, non so dire se con lo ‘pseudonimo’ $GenericBot si possa nascondere un nuovo servizio non annunciato al pubblico, o uno dei soliti noti sotto copertura.
Ad ogni modo sono interessato all’argomento. Quindi se ne sai di più fammi sapere.
Sono genuinamente curioso sul perché si senta la necessità di bloccare i bot di intelligenza artificiale? Fosse per me, anzi sarei contento che un bot imparasse chi sono da quello che ho scritto in questi anni, e diventasse il mio alter ego virtuale ad imperitura memoria 🙂
Io da anni rilascio i miei contenuti con una licenza di attribuzione ed uso non commerciale. Mi piacerebbe che questo desiderio venga rispettato.