letture suggerite del 25 agosto 2024

letture suggerite del 7 luglio 2024

letture suggerite del 30 giugno 2024

opporsi al training delle AI

Come se nella vita uno non avesse niente da fare, tre le nuove attività che si sono aggiunte per chi vive il mondo digitale con una certa consapevolezza è quella di dover ‘rincorrere’ la varie software house e gruppi tecnologici in modo da cercare di NON contribuire gratuitamente al training dei loro sistemi di “intelligenza artificiale”.

Questi gli ultimi due link / task da eseguire in cui mi sono imbattuto:

letture suggerite del 12 maggio 2024

Bloccando Bot

Facendo seguito all’articolo di Ethan Marcotte su come poter fare opt-out dalla pesca a strascico dei contenuti web da parte dei vari bot dei servizi di “intelligenza artificiale” sinora conosciuti ho adottato queste due contromisure.
Specifico che il mio CMS per pubblicare online è WordPress, quindi se usi altro, il codice proposto potrebbe essere da adattare.

Primo. Modificare il file robots.txt del dominio, sperando che la direttiva venga letta / rispettata dai bot:s:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: *
Disallow:

User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: Seekr
User-agent: YouBot
Disallow: /

Sitemap: https://mywebsite.domanin/sitemap.xml

Secondo. Applicare la seguente modifica al file .htaccess del dominio aggiungendo la seguente sezione:

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /

# block “AI” bots
RewriteCond %{HTTP_USER_AGENT} (AdsBot-Google|Amazonbot|anthropic-ai|Applebot|AwarioRssBot|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|DataForSeoBot|Diffbot|FacebookBot|FacebookBot|Google-Extended|GPTBot|ImagesiftBot|magpie-crawler|omgili|Omgilibot|peer39_crawler|PerplexityBot|YouBot) [NC]
RewriteRule ^ – [F]
</IfModule>

In questo modo di forza la procedura. Diciamo senza dire “per favore”.

Non so se questo basti a risolvere la questione, e si ha un po’ la sensazione che ormai I buoi siano scappati dalla stalla (I primi servizi nascono diversi anni fa). Ancora, non so dire se con lo ‘pseudonimo’ $GenericBot si possa nascondere un nuovo servizio non annunciato al pubblico, o uno dei soliti noti sotto copertura.

Ad ogni modo sono interessato all’argomento. Quindi se ne sai di più fammi sapere.

Letture suggerite dell’11 febbraio 2024

letture suggerite del 3 settembre 2023