Logo E-Commerce Brasil

Como bloquear o ChatGPT de usar o conteúdo do seu site?

Por: Paulo Moreira

Mestre em Administração de Empresas, pós-graduado em Marketing pela FGV e Bacharel em Comunicação Social pela PUC. Professor e Pesquisador-Acadêmico, possui mais de 09 anos de experiência em Comércio Eletrônico, tendo especializado-se em projetos de implantação. Já atuou em diversas empresas de todos os portes pelo Brasil, tais como: Novo Mundo, Tend Tudo, Casa Show, Pontal Calçados, SurfCo e World Comexx. Conta com Certificação Google Advertising Professional (GAP) & Google Analytics Individual Qualification (GAIQ). Atualmente atende projetos de e-commerce pela sua empresa, a Ecommerce Jump.

Graças à explosão das tecnologias de modelos de grande linguagem (LLMs) nos últimos meses em todo mundo, capitaneado pelo famoso ChatGPT, há também a preocupação por muitos com a falta de uma maneira prática de optar por não ter o conteúdo do próprio site usado para treinar esses modelos.

O ChatGPT acessa conteúdos de qualquer tipo de site, seja ele um blog, site de notícias ou e-commerce, para aprender a partir disso. Veja uma forma de impedir que o conteúdo do seu site se torne fonte de treinamento da inteligência artificial.

Neste artigo, irei apresentar uma maneira de se buscar esse objetivo. Mas atenção: esteja ciente de que não há garantias de resultados 100% eficazes através desse método. Continue a ler para entender a razão disso e descobrir como o método funciona.

Como as IAs aprendem a partir do seu conteúdo?

Os modelos de grande linguagem (LLMs) são treinados sobre dados que têm múltiplas origens. Muitos desses bancos de dados são open source (código aberto) e são livremente utilizados para treinar IAs.

Alguns exemplos de tipos de fontes utilizados:
– Wikipedia
– Registros governamentais
– Livros
– E-mails
– Websites rastreados

Existem atualmente portais e websites oferecendo bancos de dados que disponibilizam grandes quantidades de informação. Um desses portais é hospedado pela Amazon, ofertando milhares de dados no Registro de Dados Abertos da AWS. Só a Wikipedia aponta ao menos 28 portais para download de milhares de conjuntos de dados, incluindo o Google Dataset.

Sobre conjuntos de dados utilizados para treinar o ChatGPT

O ChatGPT é baseado no GPT-3.5, tecnologia também conhecida como InstructGPT. Os conjuntos de dados utilizados para treinar o GPT-3.5 são os mesmos utilizados no GPT-3. A maior diferença entre os dois é que o GPT-3.5 utiliza a técnica conhecida como Aprendizagem de Reforço com Feedback Humano (RLHF).

Caso queira entender mais sobre o ChatGPT, sugiro que leia este artigo que escrevi a respeito desse tema. De acordo com o artigo científico “Language Models are Few-Shot Learners”, os cinco bancos de dados utilizados para treinar o GPT-3 e o GPT-3.5 estão descritos abaixo:

– Rastreamento comum filtrado (Common Crawl);
– WebText2;
– Books1;
– Books2;
– Wikipedia.

Desses cinco conjuntos de dados, dois são baseados no rastreio da internet – o Common Crawl e o WebText2.

Sobre o conjunto de dados WebText2

O WebText2 é um conjunto de dados privado da OpenAI (empresa dona do ChatGPT) criado a partir links publicados no Reddit que tiveram pelo menos três avaliações positivas. A premissa da lógica que utilizaram é simples: links a partir de três votos positivos tendem a ser confiáveis e fornecem conteúdo de boa qualidade.

Apesar de o WebText2 não estar disponível publicamente, existe uma versão de código aberto chamada OpenWebText2. Esse é um conjunto de dados públicos que utiliza os mesmos padrões de rastreio, que presume oferecer um conjunto de dados de URLs similar, se não for igual, ao do WebText2 da OpenAI.

Até onde pesquisei, não foi possível identificar user-agent desses para bloqueio nos rastreadores. Contudo, pode-se afirmar com bom grau de certeza de que websites vinculados ao Reddit com ao menos três avaliações positivas provavelmente estarão incluídos no conjunto de dados WebText2 da OpenAI de código fechado, assim como na versão de código aberto.

Caso seja de interesse de alguém, existe uma versão limpa do OpenWebText2 que pode ser baixada aqui, assim como a versão bruta, disponível aqui para ser analisada.

Sobre o Common Crawl (rastreamento comum)

Um dos conjuntos de dados mais comumente utilizados que é constituído de conteúdos da internet é o Common Crawl, criado por uma organização sem fins lucrativos de mesmo nome.

Os dados do Common Crawl têm origem no bot “CCBot”, que rastreia toda a internet. Os dados são baixados por organizações que desejam utilizá-los, limpos de sites com spam etc.

O CCBot obedece ao protocolo robots.txt, muito utilizado por profissionais de SEO. Assim sendo, é possível solicitar o bloqueio do Common Crawl através do robots.txt, evitando que conteúdos de seu site – seja ele blog, site de notícias, e-commerce ou outro – faça parte de outro conjunto de dados.

Caso seu website já tenha sido rastreado, é provável que ele já esteja presente em múltiplos conjuntos de dados. Todavia, ao bloquear o Common Crawl, é possível impedir que o conteúdo de seu website seja incluído em novos conjuntos de dados que tenham origem nos dados mais recentes do Common Crawl. E é exatamente por essa razão que o processo a ser apresentado a seguir não tem garantia de plena eficácia, ok?

A string do CCBot User-Agent é:

CCBot/2.0

(Atenção: não execute as instruções a seguir sem antes ler as considerações).

Dessa forma, adicione as instruções a seguir no arquivo robots.txt do seu website para bloquear o CCBot do Common Crawl:

User-agent: CCBot
Disallow: /

Lembrando que o CCBot também segue as diretrizes da meta tag nofollow. Para isso, utilize em seu robots meta tag:

<meta name=”CCBot” content=”nofollow”>

Considerações antes que você decida prosseguir

Muitos conjuntos de dados, incluindo o Common Crawl, podem ser utilizados por empresas que filtram e categorizam URLs objetivando a criação de listas de websites para publicidade segmentada.

O conjunto de dados é útil para, por exemplo, AdTechs e para uso de publicidade contextual. Para citar um caso, a Alpha Quantum é uma empresa que oferece um conjunto de dados de URLs categorizados usando Taxonomia do Interactive Advertising Bureau. Nesse sentido, a exclusão de conjuntos de dados como esse poderia causar ao website uma perda potencial com anunciantes.
Os mecanismos de busca (tais como Google, Bing e outros) permitem que websites optem por não serem rastreados, assim também faz o Common Crawl. Contudo, atualmente não existe forma simples de remover o conteúdo de um website de conjuntos de dados já existentes.

Hoje, há discussões a respeito do uso de dados de sites sem permissão por tecnologias de IA como o ChatGPT, mas se os editores de conteúdo terão voz para decidir como seus conteúdos são utilizados é algo que ainda não sabemos como ou se irá acontecer.

Para construir este artigo, além das fontes previamente citadas, realizei a tradução do conteúdo publicado aqui, que pode ser lido na íntegra para quem tiver interesse (em inglês).