letture suggerite del 12 maggio 2024

Bloccando Bot

Facendo seguito all’articolo di Ethan Marcotte su come poter fare opt-out dalla pesca a strascico dei contenuti web da parte dei vari bot dei servizi di “intelligenza artificiale” sinora conosciuti ho adottato queste due contromisure.
Specifico che il mio CMS per pubblicare online è WordPress, quindi se usi altro, il codice proposto potrebbe essere da adattare.

Primo. Modificare il file robots.txt del dominio, sperando che la direttiva venga letta / rispettata dai bot:s:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: *
Disallow:

User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: Seekr
User-agent: YouBot
Disallow: /

Sitemap: https://mywebsite.domanin/sitemap.xml

Secondo. Applicare la seguente modifica al file .htaccess del dominio aggiungendo la seguente sezione:

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /

# block “AI” bots
RewriteCond %{HTTP_USER_AGENT} (AdsBot-Google|Amazonbot|anthropic-ai|Applebot|AwarioRssBot|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|DataForSeoBot|Diffbot|FacebookBot|FacebookBot|Google-Extended|GPTBot|ImagesiftBot|magpie-crawler|omgili|Omgilibot|peer39_crawler|PerplexityBot|YouBot) [NC]
RewriteRule ^ – [F]
</IfModule>

In questo modo di forza la procedura. Diciamo senza dire “per favore”.

Non so se questo basti a risolvere la questione, e si ha un po’ la sensazione che ormai I buoi siano scappati dalla stalla (I primi servizi nascono diversi anni fa). Ancora, non so dire se con lo ‘pseudonimo’ $GenericBot si possa nascondere un nuovo servizio non annunciato al pubblico, o uno dei soliti noti sotto copertura.

Ad ogni modo sono interessato all’argomento. Quindi se ne sai di più fammi sapere.

Letture suggerite dell’11 febbraio 2024

letture suggerite del 3 settembre 2023

letture suggerite del 30 aprile 2023

Letture suggerite del 17 aprile 2023


Le ‘belle’ giornate cominciano, e tra impegni vari salta l’impegno domenicale di scrittura dei post. Sorry for the delay

letture suggerite del 26 marzo 2023

Letture suggerite del 5 febbraio 2023