Cultura livre na era da IA generativa: o que resta dos comuns digitais?

15 de abril de 2026

Cultura livre na era da IA generativa: o que resta dos comuns digitais?

Texto base para a participação no seminário “IA e Capitalismo de Vigilância no, pelo e a partir do Sul Global“, 15 de abril de 2026

“Não quero ter que defender o copyright para ir contra a OpenAI.” Essa é uma frase que já repeti diversas vezes em eventos, aulas e conversas com amigos quando quero expressar minha opinião sobre direitos autorais e IAs generativas, assunto que tem sido um dos mais comentados dos últimos anos na cultura digital. Quem conhece o BaixaCultura sabe que sempre fomos contra o copyright, usamos e endossamos o copyleft, porque acreditamos que a propriedade intelectual favorece muito mais, e desde seus princípios (como escrevi em A Cultura é Livre), os intermediários e não quem cria. Na prática, propriedade intelectual foi, e continua sendo, mais um mecanismo de captura e escassez artificial operado por quem distribui do que um instrumento de proteção de quem cria.

Como também é bastante sabido por aqui, denunciamos os abusos das plataformas e o “engolimento” completo da internet pelos sistemas de IA generativa – não só o ChatGPT, mas Claude, Gemini, DeepSeek e tantos outros – sem nenhum tipo de favorecimento, e às vezes nem menção, às pessoas criadoras. Já dissemos também que, sem os dados produzidos por todas as pessoas nesses cerca de 30 anos de internet comercial, não haveria IA generativa como a conhecemos hoje. Nada desse maravilhamento ingênuo que quer enfiar IA em qualquer processo digital seria possível sem a produção coletiva, sistemática e massiva de “conteúdos” (textos, imagens, sons, vídeos) pelas pessoas. Estamos falando de conhecimento humano capturado em dígitos, datificado em plataformas, e agora também tokenizado ad infinitum nos sistemas complexos de aprendizado de máquina dos grandes modelos de linguagem.

Mas, diante desse cenário, o que fazer? É possível denunciar e agir contra as big techs de IA generativa sem precisar defender a propriedade intelectual? Sem ter que criar mecanismos que, a pretexto de proteger autores, acabam fortalecendo justamente quem sempre os explorou?

O copyright não é mais o inimigo principal – nem a solução

Não há respostas fáceis. Mas tenho trabalhado com a ideia de que sim, é possível ir contra a OpenAI e as outras big techs de IA sem ter que defender o copyright. Por diversos motivos: primeiro, e principalmente, porque o copyright não é mais o inimigo principal; portanto, também não é mais solução para o entrave colocado entre autores e empresas de tecnologia – se é que algum dia foi. Não é o inimigo principal porque, num cenário em que o poder real está concentrado em meia dúzia de empresas que controlam infraestrutura computacional, dados e modelos, as batalhas de propriedade intelectual se tornaram uma frente secundária da disputa: importante, mas insuficiente para enfrentar o que efetivamente está em jogo.

Um exemplo. Há diversas iniciativas legislativas e jurisprudenciais bastante restritivas em relação ao uso de obras protegidas para treinamento de IA em vigor hoje no mundo. A União Europeia, por meio do AI Act (2024) somado à Diretiva de Copyright no Mercado Único Digital (2019), passou a obrigar que os provedores de IA generativa de propósito geral (GPAI) respeitem as reservas de direitos expressas pelos titulares – o chamado mecanismo de opt-out do text and data mining – além de tornar pública uma síntese detalhada do conteúdo usado no treinamento. O Reino Unido, em 2025, propôs um modelo similar ao europeu. Nos Estados Unidos, sem legislação específica, a disputa migrou para os tribunais, onde dezenas de processos contra Anthropic, OpenAI, Microsoft, Meta, Google e Perplexity tramitam simultaneamente.

Mesmo assim, nenhum desses arranjos jurídicos serviu para impedir a extração massiva de dados pelos principais sistemas de LLMs hoje, que, como se sabe, “engoliram” toda a internet e não vão vomitar mais aquilo que já digeriram, transformaram, copiaram, remixaram. O caso recente da Anthropic é emblemático: a empresa aceitou pagar US$ 1,5 bilhão para encerrar um processo coletivo movido por autoras nos EUA – cerca de US$ 3 mil por cada um dos aproximadamente 500 mil livros que baixou de bibliotecas-sombra como a LibGen para treinar seus modelos. Mas, fora desses litígios, o que tem ocorrido majoritariamente são acordos diretos entre empresas de mídia e empresas de IA.

É o caso do The New York Times, que processou a OpenAI e a Microsoft em dezembro de 2023 por uso indevido de seu acervo, mas em maio de 2025 firmou um acordo de licenciamento com a Amazon, estimado em US$ 20 a 25 milhões anuais, para que sua produção, incluindo NYT Cooking e The Athletic, alimente os modelos de IA da empresa de Bezos. É também o caso da Folha de S.Paulo, que fechou recentemente um acordo com o Google para que sua produção informativa treine o Gemini, com acesso ao acervo histórico e a um feed de textos em tempo real. Ambos engrossam uma fila que já inclui News Corp (Wall Street Journal, NY Post), Le Monde, Financial Times, Reuters, Associated Press, El País, The Guardian, Estadão, entre tantos outros que firmaram contratos similares com OpenAI, Google, Meta ou Amazon nos últimos dois anos.

E há ainda o caso das grandes editoras acadêmicas, que vêm vendendo o acervo de seus autores como matéria-prima para modelos de IA. A Wiley anunciou em junho de 2024 dois contratos de licenciamento somando US$ 44 milhões. No mesmo ano, a Taylor & Francis firmou acordo de US$ 10 milhões com a Microsoft sem consultar os autores envolvidos, gerando revolta na comunidade acadêmica britânica. E a HarperCollins tornou-se a primeira das chamadas Big Five a fechar um acordo de licenciamento de IA para seu catálogo de não-ficção, oferecendo aos autores a opção de aceitar ou recusar e pagando cerca de US$ 2.500 por título – valor que a Authors Guild considera muito abaixo do justo, recomendando uma divisão de 75% a 85% para o autor, enquanto na prática os contratos têm oferecido divisão 50/50.

É possível dizer, portanto, que o direito autoral acaba sendo instrumentalizado pelas próprias big techs e pelos grandes intermediários, que têm recursos jurídicos e poder de mercado para negociar licenças entre si. Enquanto autoras e autores individuais ficam à margem, sem advogados, sem poder de barganha, recebendo muito pouco dos acordos firmados em seu nome.

Do lado deles, mas não no nosso lado

O copyright não é a solução, em segundo lugar, porque fechar tudo nele seria entregar o terreno a quem já tem poder de negociação – que, novamente, não serão os artistas, mas as grandes gravadoras, editoras, estúdios, agências. Como escreveu Cory Doctorow num texto que traduzimos aqui no BaixaCultura, “só porque você está do lado deles, não significa que eles estejam do seu lado”. E ele segue: “Os trabalhadores criativos — escritores, cineastas, fotógrafos, ilustradores, pintores e músicos — não estão do mesmo lado que as gravadoras, agências, estúdios e editoras que colocam nosso trabalho no mercado. Essas empresas não são instituições de caridade; elas são motivadas a maximizar os lucros, e uma maneira importante de fazer isso é reduzir os custos, inclusive e principalmente o custo de nos pagar pelo nosso trabalho.”

Toda vez que a discussão sobre IA generativa é reduzida a “treinamento viola copyright, logo é preciso ampliar o copyright”, quem sai ganhando não são os criadores. São os mesmos intermediários que criticamos há mais de uma década, agora travestidos de defensores da autoria para negociar acordos bilionários de licenciamento de catálogo com as big techs – acordos dos quais, vale repetir, os artistas dificilmente vão receber um valor justo. O resultado é o pior dos dois mundos: cultura mais fechada, criadores igualmente precarizados, e o poder concentrado nas mesmas mãos de sempre, agora com mais uma camada de captura no topo.

Recusar o copyright como resposta não significa, porém, fingir que não há problema. Não podemos ignorar o fato de que a IA está ferindo gravemente a infraestrutura que produz o conhecimento aberto. A Wikimedia, por exemplo, já sente o peso: bots de IA impõem cargas massivas em sua infraestrutura, consomem o trabalho editorial coletivo sem atribuição, sem encaminhar usuários de volta, sem contribuir financeiramente. É uma relação vampírica – usando a imagem de Molly White no texto Wait, not like that – em que o extrator compromete sua própria fonte de sustento no médio prazo e, de quebra, corrói o trabalho voluntário que torna os comuns possíveis.

A reação imediata que o copyright e seus defensores propõem é fechar licenças, erguer paywalls, migrar para plataformas muradas, ou simplesmente parar de publicar (na rede). O problema é que esse movimento defensivo corre o risco de destruir os próprios comuns que se quer proteger, enquanto as big techs continuam raspando tudo de qualquer jeito, inclusive conteúdo com todos os direitos reservados. Fechar a porta da frente não impede quem entra pela janela; apenas impede quem vinha pela porta com boas intenções: professores, pesquisadores, estudantes, jornalistas, movimentos sociais.

A falsa escolha: extração ou exclusão

Essa encruzilhada revela aquilo que a Mozilla Foundation e outras iniciativas têm chamado de “falsa escolha” imposta às comunidades: abrir seus dados e correr o risco de exploração extrativa, ou fechá-los e ser excluídas da possibilidade de moldar os sistemas de IA que já as afetam de qualquer forma. É uma armadilha cuidadosamente construída e historicamente familiar para quem vem da tradição da cultura livre latino-americana e do Sul Global. A mesma lógica que privatizou sementes, saberes tradicionais e patrimônio genético se reapresenta agora sob o nome de “dados de treinamento”. Ou você partilha (e vira matéria-prima extraída sem compensação), ou você fecha (e assiste a disputa sobre o próprio conhecimento ser decidida por outros, longe de você).

O que penso ser preciso entender é que o copyright não foi, e cada vez menos será, o instrumento adequado para resolver esse problema. Como argumenta Sarah Pearson em texto recente no blog do Creative Commons, a fraqueza do direito autoral diante da reutilização por máquinas é estrutural e, em certa medida, por design: as licenças CC foram pensadas justamente para não restringir usos que o copyright já permitia. Apertar a licença, portanto, não só não resolve como fortalece a lógica de que apenas quem tem poder de negociação individual – grandes editoras, estúdios, detentores de catálogos – pode sentar à mesa. O pequeno criador, o coletivo, a biblioteca comunitária, a universidade pública do Sul Global continuam de fora. Ao transformar o debate numa disputa de propriedade intelectual, abandonamos o terreno ético e político mais amplo, aquele em que a cultura livre sempre se moveu melhor, e entregamos a discussão a advogados corporativos.

Uma saída possível, então, não está em fechar os comuns, mas em reconstruí-los com guardrails que protejam sua reciprocidade. Vale dizer desde já: nenhuma das ideias que apresento a seguir é a solução. São experimentações em curso, tentativas situadas, com tensões internas e contradições próprias — menos modelos a replicar e mais pontos de partida para pensar o problema.

Primeira saída: reciprocidade infraestrutural e compromisso mútuo

A primeira ideia é a aposta mais visível hoje: reciprocidade infraestrutural e compromisso mútuo. Está representada por iniciativas como o Wikimedia Enterprise, programa pelo qual a Wikimedia Foundation passou a cobrar das big techs por acesso estruturado, via API, ao conteúdo da Wikipédia. Em janeiro de 2026, no aniversário de 25 anos do projeto, a fundação formalizou acordos com Amazon, Meta, Microsoft, Mistral AI e Perplexity, somando-se ao Google, parceiro desde 2022. A lógica é direta: se essas empresas dependem estruturalmente do trabalho voluntário de cerca de 250 mil editoras e editores para treinar seus modelos, que ao menos sustentem financeiramente a infraestrutura que torna esse trabalho possível.

Na mesma direção caminham outras experimentações. O CC Signals, do Creative Commons, busca um mecanismo para comunicar preferências de uso fora do aparato do copyright, funcionando como um “contrato social” legível por máquinas em que criadores podem sinalizar termos de reciprocidade – atribuição, contribuição financeira, reinvestimento nos comuns – sem precisar restringir licenças. O Mozilla Data Collective, lançado em novembro de 2025 como evolução do projeto Common Voice (hoje o maior conjunto público de dados de fala do mundo, com mais de 30 mil horas em 300 línguas), funciona como uma plataforma onde comunidades mantêm a propriedade dos seus datasets, definem termos de uso, podem exigir compensação (recebendo 100%) ou restringir o uso a fins específicos como pesquisa, educação ou projetos alinhados com seus valores, com contratos legalmente vinculantes sobre quem pode acessar o quê.

O modelo de acesso diferenciado proposto pela Europeana e pela Open Future Foundation para patrimônio cultural, apresentado em dezembro de 2025, desenha camadas distintas de acesso para instituições culturais europeias: uso livre para pesquisa e fins não-comerciais, uso pago e contratualizado para grandes desenvolvedores comerciais de IA, o que cria um mecanismo para que o setor cultural público seja agente ativo na produção de modelos. O também europeu NGI Commons elabora estratégias de longo prazo para a soberania digital dos comuns. E a licença NOODL (Nwulite Obodo Open Data License), desenvolvida por pesquisadoras das universidades de Strathmore (Quênia) e Pretória (África do Sul) em diálogo com o coletivo Masakhane de processamento de linguagem natural para línguas africanas, articula reciprocidade como obrigação contratual por meio de um sistema de licenciamento em camadas: acesso amplo e gratuito para pesquisadores africanos e do Sul Global, termos de negociação e compensação, monetária ou via colaboração, para atores comerciais do Norte.

No Brasil, apesar de um cenário hostil, poderíamos pensar, por exemplo, em exigir que o financiamento estatal do Plano Brasileiro de Inteligência Artificial priorize infraestrutura de comuns digitais (universidades, institutos federais, bibliotecas) em vez de apenas subsidiar parcerias com provedores privados de nuvem.

O limite desse caminho, porém, é nítido: trata-se de uma forma de negociar com a assimetria de poder existente, e não de confrontá-la. Depende, no fim das contas, da boa vontade, ou do cálculo de longo prazo, das mesmas empresas que vinham raspando tudo de graça. O Wikimedia Enterprise, afinal, só existe porque o Google, a Meta e a Amazon aceitaram pagar. Quem garante que eles não vão deixar de pagar amanhã?

Segunda saída: soberania desde abajo, infraestrutura comunitária

A segunda ideia de saída é menos visível, mais radical, e me parece particularmente potente do ponto de vista da tradição da cultura livre brasileira. Consiste em investir deliberadamente na construção de redes, servidores, arquivos e plataformas fora da lógica extrativista para produzir comuns que simplesmente não estejam disponíveis às big techs da mesma forma.

O Fediverso é um dos laboratórios mais vivos dessa aposta hoje: milhares de instâncias autônomas de Mastodon, Pixelfed, PeerTube, Funkwhale, Lemmy, cada uma governada pela sua própria comunidade, com seus próprios termos de uso e regras de federação. Não é que o Fediverso seja imune à raspagem; como sabemos, a Meta aparentemente ignora robots.txt e coleta dados de instâncias independentes. Mas a arquitetura federada torna a extração estruturalmente mais difícil, cara e politicamente custosa. Em 2025, a instância mastodon.social passou a proibir explicitamente o scraping para treinamento de IA em seus termos de uso, e muitas outras seguiram o mesmo caminho. No Brasil, experiências como ursal.zone, bolha.us e organica.social mostram que é possível construir esses espaços desde o Sul, com governança situada e vínculos orgânicos com movimentos sociais.

A experiência do professor J.J. Sylvia IV nos Estados Unidos aponta, porém, alguns desafios. Ao ensinar Mastodon num curso de ética de mídias sociais na Fitchburg State University, em Massachusetts, criando uma instância específica para a turma, ele e seus alunos notaram que as promessas éticas do Mastodon (maior agência do usuário, redução da exploração de dados, governança descentralizada) são inseparáveis do trabalho que exigem: aprender normas de federação, construir redes significativas sem assistência algorítmica, participar de atividades de governança e moderação. O experimento revelou que essas redes exigem um nível de participação cívica similar ao necessário para viver numa democracia. Ou seja: elas demandam contribuição ativa dos usuários, não apenas o consumo passivo a que estamos acostumados nas redes proprietárias mediadas por algoritmos.

Nessa mesma direção comunitária e descentralizada há iniciativas fora do Fediverso que convergem. Bibliotecas-sombra como a Anna’s Archive, que centralizam acesso livre a milhões de obras científicas e literárias contra a lógica de paywall das grandes editoras. O Acervo Bajubá, arquivo comunitário LGBTQIAPN+ criado em 2010 e hoje hospedado pelo Grupo de Incentivo à Vida (GIV), que reúne mais de 20 mil itens de memória dissidente (revistas, zines, panfletos, audiovisuais, literatura) sob lógica de cuidado coletivo e não de propriedade institucional. O Museu da Pessoa e a rede de Pontos de Memória articulada pelo Ibram, que apostam em narrativas comunitárias de história oral. E a Tainacan, software livre brasileiro desenvolvido na UFG e UFMG para repositórios digitais comunitários, hoje usado por dezenas de instituições culturais públicas e coletivos para hospedar seus próprios acervos sem dependência de plataformas proprietárias.

A força dessa aposta está exatamente em não esperar permissão: em vez de pedir às big techs que respeitem, a estratégia é construir infraestrutura onde a lógica das big techs simplesmente não opera. O limite, claro, também é óbvio: é um caminho de formiga, sustentado por trabalho voluntário, com financiamento intermitente, sem a escala nem a visibilidade da primeira aposta. E corre o risco permanente de virar enclave, uma espécie de jardim murado pelos próprios jardineiros.

Soberania de dados às margens

A aposta ganha contornos ainda mais radicais quando olhamos para arquivos e iniciativas de soberania de dados liderados por comunidades historicamente violentadas pela lógica extrativa. O caso mais elaborado é o da Te Hiku Media, rádio comunitária maori da Nova Zelândia, que desde 2013 constrói sua própria plataforma de distribuição de conteúdo – a Whare Kōrero (“casa da fala”) —, hoje hospedando mais de 30 anos de material arquivístico e cerca de 1.000 horas de falantes nativos de te reo māori, muitos nascidos no final do século XIX. A organização desenvolveu seus próprios modelos de reconhecimento de fala para o idioma, recusando-se a entregar o material para Google ou OpenAI, e criou a Kaitiakitanga License, que rompe com a lógica de “propriedade” e opera sob o princípio de guardiania (kaitiakitanga): os dados não são posse, são cuidados, e qualquer benefício deles derivado deve retornar à fonte que os originou.

A experiência inspirou projetos similares entre havaianos nativos e o povo Mohawk no sudeste do Canadá. Na mesma direção, o Local Contexts, iniciativa fundada em 2010 por Jane Anderson e Kim Christen, desenvolveu os Traditional Knowledge (TK) Labels e os Biocultural (BC) Labels – etiquetas digitais que permitem a comunidades indígenas embutir seus próprios protocolos de acesso (incluindo restrições sazonais, de gênero, de sacralidade) diretamente nos metadados de materiais arquivísticos mantidos por museus, bibliotecas e repositórios. Operam como camada paralela e complementar ao direito autoral — e já foram adotados, por exemplo, pela Library of Congress para coleções do povo Passamaquoddy.

Na Europa, arquivos como o Pad.ma (arquivo comunitário de vídeo do coletivo CAMP, com origem indiana) e infraestruturas como a Framasoft, na França, oferecem dezenas de serviços federados como alternativa explícita às big techs, sustentados por doações e trabalho voluntário. São experiências heterogêneas, de escala modesta, mas que partilham o princípio de que a infraestrutura não é neutra, e a única forma de garantir que comuns digitais sejam realmente comuns é construí-los com governança situada, desde baixo.

Articular as duas saídas, sem capturar nenhuma

As duas saídas trazidas aqui não são excludentes, e talvez o interessante esteja justamente na tensão entre elas. A primeira opera na frente da disputa institucional e tenta impor regras aos atores que já dominam o terreno; a segunda constrói terreno novo, em paralelo, onde outras regras podem existir. Para quem vem da cultura livre como eu, a tentação histórica é sempre a segunda: há algo consistente e engajador nessa tradição mesclada com a cultura hacker, o copyleft, o software livre, as redes autônomas. Mas seria ingenuidade pensar que se pode abrir mão da primeira num momento em que o poder das big techs se consolida em escala planetária.

A pergunta política real, acredito, é como articular as duas: como fazer com que experimentações comunitárias alimentem disputas institucionais, e como fazer com que conquistas institucionais não capturem nem esvaziem as experimentações comunitárias. Nada disso elimina a assimetria brutal de poder que caracteriza o momento, mas reposiciona o problema. A pergunta não é mais “como impedir que minha obra seja usada”, e sim “como garantir que a produção de comuns digitais continue sendo possível, sustentável e plural”.

[Leonardo Foletto]

BaixaCultura