Cloudflare lança bloqueio contra robôs que leem sites para treinar IA

Cloudflare lança bloqueio contra robôs que leem sites para treinar IA

Cloudflare diz que robôs de IA podem prejudicar audiência dos sites (Imagem: Vitor Pádua / Tecnoblog)

A Cloudflare apresentou um novo serviço para sites: com um clique, administradores poderão bloquear robôs que raspam dados e usam as informações coletadas no treinamento de inteligência artificial.

A barreira faz parte de um conjunto de ferramentas direcionados à proteção contra IA, que recebeu o nome de AI Audit. Segundo a empresa, também será possível identificar quais são os robôs que mais raspam conteúdo de um site.

AI Audit aponta quais robôs mais visitaram o site (Imagem: Divulgação / Cloudflare)

As ferramentas eram esperadas desde julho, quando a Cloudflare fez o primeiro anúncio sobre o assunto. Os planos da empresa não param por aí. Ela revelou que pretende criar um marketplace voltado a este tipo de tecnologia.

Na plataforma, sites poderão colocar um preço em seu conteúdo e negociar com empresas de tecnologia que queiram usar estes dados, liberando os bots que fazem a coleta das informações.

Sites jornalísticos dizem que robôs desrespeitam instruções

As ferramentas de bloqueio são o mais novo capítulo na conturbada relação entre empresas de conteúdo, como sites jornalísticos, e desenvolvedoras de modelos de linguagem em larga escala (LLMs, na sigla em inglês).

Em junho, a Perplexity AI foi acusada por Forbes e Condé Nast (dona de Wired, Ars Technica e outras publicações) de ignorar as configurações do arquivo robots.txt e escanear os sites sem autorização. Segundo as empresas, reportagens exclusivas estavam sendo plagiadas pelo chatbot da startup, sem que os devidos créditos fossem dados.

O arquivo robots.txt indica se um site quer ou não ser lido por bots. Ele não representa uma barreira técnica e não é capaz de bloquear um robô, servindo apenas uma recomendação. Até pouco tempo atrás, este pedido costumava ser atendido pelas companhias de tecnologia.

A nova ferramenta da Cloudflare vai tentar solucionar este problema. “Muitos sites permitiram que estes crawlers de IA escaneassem seu conteúdo porque, em grande parte, eles pareciam ‘bons’ robôs — mas o resultado foi menos audiência, já que o conteúdo foi reembalado e usado nas respostas escritas por IA”, comenta a empresa em seu blog.

Com informações: Cloudflare, TechCrunch, Ars Technica
Cloudflare lança bloqueio contra robôs que leem sites para treinar IA

Cloudflare lança bloqueio contra robôs que leem sites para treinar IA
Fonte: Tecnoblog