BaixaCharla ao vivo #8: Racismo Algorítmico

A oitava BaixaCharla ao vivo, quinta de 2021, vai falar sobre racismo algorítmico a partir de  “Comunidades, Algoritmos e Ativismos Digitais: Olhares Afrodiaspóricos“, organizado pelo nosso convidado da conversa, Tarcízio Silva, que é pesquisador, produtor cultural e mestre em Comunicação e Cultura Contemporâneas pela UFBA, doutorando em Ciências Humanas e Sociais na UFABC, onde estuda imaginários sociotécnicos de resistência, e Tech + Society Fellow pela Fundação Mozilla, atuando em promoção de segurança digital e defesa contra danos algorítmicos. Também atua como curador na Desvelar, entre outras atividades que podem ser conferidas em seu currículo.

Editado em 2020 pela Literarua, “Comunidades, Algoritmos e Ativismos Digitais: Olhares Afrodiaspóricos” busca relacionar raça, racismo, negritude e branquitude com os estudos de tecnologias digitais, especialmente algoritmos, mídias sociais e comunidades online. Reúne 14 artigos de pesquisadores/as provenientes do Brasil, países da Afrodiáspora e África, como Congo, Etiópia, Gana, Nigéria, Colômbia, Estados Unidos e Reino Unido. É uma publicação que, com sua diversidade de perspectivas, tenta suprir uma lacuna nos estudos acadêmicos brasileiros na área. 

No prefácio, Emicida escreve que “se a essência das redes sociais é a conectividade, está para nascer uma que cumpra seu papel com mais eficácia do que um tambor”. É importante  desnaturalizar a ideia de que “tecnologia, storytelling, minimalismo e ideias que visam ampliar a percepção do que significa ser humano sejam apenas invenções do vale do silício”, diz o rapper, que cita Paulina Chiziane, “às vezes sinto que nos oferecem algo que já era nosso antes deles chegarem”. 

O capítulo de abertura é de Ruha Benjamin, autora de “Race After Technology: Abolitionist Tools for the New Jim Code” (2019), ativista e professora da Universidade de Princeton, nos Estados Unidos. Nesse texto, Ruha incentiva um compromisso de incorporar abordagens raciais críticas no campoos Estudos de Ciência e Tecnologia – Science and Technology Studies (STS), no inglês.  Como ela escreve: “seja na arquitetura de máquinas (…) ou na arquitetura de  tecnologias legais, os pesquisadores de STS devem treinar nossas ferramentas analíticas sobre as diferentes formas de “correção racial” que sustentam uma forma perniciosa de construção do conhecimento”. A tecnologia é um dos muitos meios pelos quais as formas anteriores de desigualdade são atualizadas, por isso, ela explica, a necessidade vital de se fazer um balanço rotineiro também das ferramentas conceituais que são usadas para entender a dominação racial.

Nos outros 12 textos, o livro colabora com a crescente complexificação do pensamento sobre a comunicação digital e internet resultante da diversificação dos olhares e falas nos espaços acadêmicos. “Da matemática na divinação Ifá ao ativismo político, os temas e objetos dos capítulos passam por transição capilar, blackfishing, afroempreendedorismo, Black Twitter, contra-narrativas ao racismo e métodos digitais de pesquisa apropriados à complexidade das plataformas, algoritmos e relações de poder incorporadas nas materialidades digitais racializadas”, como escreve Tarcízio na apresentação.

É do nosso convidado da BaixaCharla o artigo no livro que complexifica o tema em voga no debate: “Racismo Algorítmico em plataformas digitais: microagressões e discriminações em código”. Para ele, o racismo online é um “sistema de práticas contra pessoas racializadas que privilegiam e mantém poder político, econômico e cultural para os brancos no espaço digital” (citando Tynes, Lozada, Smith & Stewart, 2019). Nos ambientes digitais, especialmente plataformas de publicidade (Facebook), de nuvem e computação (Amazon Web Services, Microsoft Azure, etc), de produto (como Zipcar etc), plataformas lean (Uber, AirBnB), o desafio se torna mais profundo na medida em que o racismo adentra os processos automatizados “invisíveis” como recomendação de conteúdo, reconhecimento facial e processamento de imagens. 

Nesse cenário em que a tecnologia cada vez mais é tanto mediação das atividades humanas quanto interação interpessoal e negociação de serviços e comércio, os casos de identificação de racismo algorítmico passam a ser somados por diversas pesquisadoras, ativistas e desenvolvedores – entre eles o próprio Tarcízio, com sua Linha do tempo do racismo algorítmico, projeto paralelo de sua pesquisa no doutorado (intitulado provisoriamente de “Dados, Algoritmos e Racialização em Plataformas Digitais”) que incorpora casos de 2010 a partir da pergunta: “Como as plataformas digitais, mídias sociais, aplicativos e inteligência artificial reproduzem (e intensificam) o racismo nas sociedades?”

O artigo também fala de chamadas “microagressões”,  “ofensas verbais, comportamentais e ambientais comuns, sejam intencionais ou não intencionais, que comunicam desrespeito e insultos hostis, depreciativos ou negativos contra pessoas de cor” (Sue, 2010a, p. 29). São expressões, consciente ou não, usadas para manter “aqueles à margem racial em seus lugares” e que mostram como o racismo é sistemático em nossa sociedade. No texto, o pesquisador identifica sete tipos dessas microagressões: Suposição de Criminalidade; Negação de Realidades Raciais/Democracia Racial; Suposição de Inferioridade Intelectual; Patologização de Valores Culturais; Exotização; Estrangeiro na Própria Terra / Negação de Cidadania; Exclusão ou Isolamento.

Outro tema em voga na discussão sobre racismo e plataformas digitais são as tecnologias baseadas em inteligência artificial para ordenação e vigilância de cidadãos no espaço público. Conhecidas como “tecnologias de reconhecimento facial”, elas ganharam mercado nos últimos anos tanto a partir do lobby das big techs quanto pelo avanço de ideologias de extrema-direita. Por conta disso, têm sido usadas (ou contratadas para serem) em polícias de diversos lugares, entre eles o Brasil; um estudo do Intervozes afirma que “dentre os 26 prefeitos de capitais empossados em janeiro de 2021, 17 apresentaram propostas que, de algum modo, preveem o uso das tecnologias de informação e comunicação na segurança pública”. Publicamos em nossas redes uma notícia da Folha de S. Paulo nesta semana que conta que 20 estados brasileiros, das cinco regiões do Brasil, utilizam ou estão implementando a tecnologia de reconhecimento facial na segurança pública local. 

Na Linha do Tempo citada há diversos casos de erros dessas tecnologias. Há, por exemplo, situações em que os sistemas de reconhecimento facial da Amazon e da IBM erram mais em imagens de mulheres negras, assim como sistemas de biometria visual costumam falhar de 10 a 100 vezes mais com imagens de pessoas negras ou asiáticas. Por conta dessas falhas que ajudam a perpetuar o racismo algorítmico, pesquisadores têm defendido o seu banimento; nos Estados Unidos, há decisões como a de Minneapolis, cidade onde Geroge Floy foi morto, onde Câmara Municipal vetou o uso da tecnologia pela polícia, por sinais de que a I.A. é tendenciosa contra negros e outros grupos raciais. Na Europa, o Comitê Europeu de Proteção de Dados (EDPB) e a Autoridade Europeia para a Proteção de Dados (EDPS), apresentaram opinião conjunta que sugere o banimento do reconhecimento de pessoas em espaços públicos.

Tarcízio recentemente participou do podcast Tecnopolítica em que conversou com Sueli Carneiro (e Sérgio Amadeu, âncora do podcast) sobre o tema, resgatando inclusive o questionamento à neutralidade da ciência moderna – Sueli lembrou de como a ciência tem origem racista, tendo por base um pensamento universal europeu colonizador que excluía os povos africanos e as diversas cosmologias ameríndias e asiáticas. 

O pesquisador também escreveu em seu blog sobre 10 razões para as tecnologias de reconhecimento facial serem banidas. Estão entre eles o reconhecimento facial e visão computacional são técnicas altamente imprecisas, em especial sobre pessoas racializadas; de como as tecnologias digitais vistas como “neutras” ou “objetivas” favorecem ainda mais excessos de policiais, e no espaço público pressupõe e fortalecem uma sociedade vigilantista. Também é fator para defender o banimento o fato de que não podemos pressupor boa-fé de corporações de tecnologia, como exemplifica casos como o impacto do Facebook no Brexit e nas eleições americanas, do extremismo digital no YouTube e do lobby da Google no Conselho Administrativo de Defesa Econômica, entre muitos outros. 

No aspecto econômico, mesmo o custo-benefício para captura de condenados não justifica a coleta massiva, como exemplifica a milionária implementação de reconhecimento facial em Londres, onde bases reuniam fotos de mais de 2.400 suspeitos que geraram apenas 8 prisões. Dados proporcionais ainda piores foram reportados no Brasil, onde gigantesca infraestrutura de reconhecimento facial foi implementada na Micareta de Feira de Santana, Bahia, coletando e vulnerabilizando 1,3 milhões de rostos para o cumprimento de apenas 18 mandados.

Para debater o livro e os temas citados, Leonardo Foletto e Tatiana Balistieri, do BaixaCultura, conversam com Tarcízio Silva no dia 22 de julho, às 19h, no canal do Youtube do BaixaCultura, onde as outras charlas já estão disponíveis. Nas próximas semanas ela também vira podcast, que pode ser escutado aqui e nas principais plataformas de streaming. Essa é a última charla do ciclo de 2021 que discutiu diferentes perspectivas dos estudos das tecnologias de comunicação no Brasil e no mundo. 

Diálogos Abertos #4: internet livre e segura

 

A quarta edição do Diálogos Abertos, nosso “programa” de debates mensal que realizamos em parceria com a Casa da Cultura Digital Porto Alegre, discutiu, neste último sábado, a busca por uma internet livre e segura para tod@s. É possível?

Nos reunimos na sede da Amigos da Terra Brasil, núcleo brasileiro de uma organização internacional dedicada à proteção do meio ambiente e à promoção do desenvolvimento com sustentabilidade e justiça social, co-organizadora desta edição ao lado de integrantes da Marcha Mundial das Mulheres, que luta pelos direitos reprodutivos das mulheres.

Participaram da conversa integrantes do BaixaCultura, CCD POA, Amigos da Terra, Marcha Mundial das Mulheres e outras organizações e projetos, como a EITCHA, Escola Itinerante de Tecnologia Cidadã Hacker. Falamos sobre a garantia de direitos como a privacidade, a liberdade de expressão, o acesso à informação, a participação social e o direito à manifestação, nos contextos do Marco Civil da Internet e da Lei Geral da Proteção de Dados, e sobre formas de defesa – ou que pelo menos dificultem – a vigilância na rede por governos e grandes empresas.

Os slides guia da apresentação de algumas ferramentas, criada por Fabrício Solagna, está aqui. Também tem uma apresentação de Leonardo Foletto, editor do BaixaCultura, usada em sala de aula (PUCRS) sobre privacidade e antivigilância.

Algumas das ferramentas mostradas no Diálogos estão listadas aqui abaixo:

_ TOR, navegador anônimo da web;
_ Checa se o servidor do email é seguro, StarTTLS;
_ Algumas excelentes extensões para tornar seu navegador Firefox mais seguro;
_ Safer Nudes, guia para mandar seus nudes de maneira segura, produzido pela Coding Rights;
_ Fuzzyfyme, extensão para firefox e Chrome que ajuda a impedir anúncios direcionados no Facebook;
_ Safer Manas, dicas de segurança digital em GIFS;
_ MailVelope, plugin para criptografar seu email (Gmail, Yahoo, Hotmail e vários outros);
_ Você na Mira, extensão (Firefox e Chrome) que ajuda a saber qual “caixinha” você é direcionado nos anúncios políticos do Facebook;
_ Alternativas aos serviços do Google;
_ Clue, aplicativo menstrual com uma boa política de dados pessoais;

E o vídeo do evento, na íntegra (3h de duração):

 

Tecnologias essenciais para a cultura livre (1): tratamento automatizado de textos

Para socializar a cultura é imprescindível democratizar certas tecnologias essenciais. Quando falamos de cultura livre, não falamos somente de acesso à materiais culturais, mas também da liberdade de reutilizar e transformá-los, o que necessita de acesso às ferramentas. Pensando nisso, iniciamos esta série de textos para falar em detalhes de algumas tecnologias que consideramos fundamentais para a cultura livre. Para começar, nos inspiramos num post do centro cultural 2.0 Artica, do Uruguay, para falar de ferramentas para o tratamento do texto escrito. Este texto, então, é uma tradução/adaptação da postagem publicada em Artica no dia 30/09/2017.

Desde tradutores automáticos até bots que escrevem textos a partir de dados brutos, as tecnologias para tratamento de texto escrito são utilizadas para realizar tarefas cada vez mais necessárias para organizar a grande quantidade de informação que a digitalização da cultura tem gerado. Consomem bastante energia e tempo para ajudar na realização da tarefa de tornar essa informação conhecimento que seja útil, relevante e contextualizado, e a partir daí gerar novas produções, com novos significados para novos contextos.

As ciências da computação tem gerado ferramentas que simplificam e automatizam processos complexos realizados com texto. Em algumas destas aplicações há um papel importante da inteligência artificial e, dentro dela, do processamento de linguagens naturais, uma área que trata da conversão de informação de bancos de dados de computadores em linguagem compreensível ao ser humano. Por serem bastante complexos, muitos destes projetos devem ser abordados de forma coletiva e multidisciplinar – e seus resultados não deveria ficar em mãos exclusivamente privadas, como muitas vezes acaba acontecendo. Como usuários, deveríamos pode distinguir estas tecnologias da pura e simples “mágica”, para então entender como elas podem e devem estar como um bem comum (procomún), onde qualquer um pode ter acesso para usar. Abaixo mencionamos algumas destas tecnologias que, em nossa opinião, são essenciais para socializar a cultura escrita em tempos digitais:

_ TRADUÇÃO AUTOMÁTICA

O procedimento mágico que o Google Tradutor faz por nós é resultado de décadas de avanços da linguística computacional que hoje permitem não apenas a tradução de palavras soltas, mas também de expressões e textos completos. Ainda que as traduções automáticas não sejam perfeitas, cada dia melhoram mais – veja isso especialmente quando você traduz de alguma língua para o inglês. O uso do Tradutor do Google é gratuito, mas seu código não é aberto, o que significa que para usá-la dependemos do que o Google, uma empresa privada, decide sobre sua ferramenta. Pior ainda: o valor que os usuários aportam para melhorar a ferramenta através de suas correções é ótimo para a empresa, que, por sua vez, não coloca à disposição estes dados de correções adicionados pelos usuários.

É por isso que são importantes projetos como Apertium, um sistema de código aberto para a tradução automática. Ele é utilizado, por exemplo, como motor de tradução automática pela Wikipedia, permitindo que os usuários obtenham versões de um artigo em um idioma diferente, o que facilita a tradução inicial de um verbete na enciclopédia. É um software desenvolvido por diversas instituições públicas e privadas da Espanha, Inglaterra, Catalunha e Romênia.

 

_ RECONHECIMENTO ÓTICO DE CARACTERES (OCR)

Quando abrimos um texto escaneado e somos capazes de fazer seleções e buscas em seu interior, inclusive copiar e colar conteúdo, estamos a aproveitar as capacidades de uma tecnologia chamada “reconhecimento ótico de caracteres”, conhecida como OCR por sua sigla em inglês. Esta tecnologia nos poupa a transcrição de grandes massas de texto, que, ao ser digitalizado e reconhecido, pode ser tratado e manipulado. É particularmente útil em projetos de digitalização de publicações originalmente impressas. O OCR opera mediante algoritmos que, a partir de certos padrões, se encarregam de contrastar as imagens com os caracteres de um alfabeto. Estes algoritmos podem ser propriedade de uma corporação, mas também existem projectos livres e cada vez melhores que realizam esta tarefa com eficácia. Um deles é Tesseract, um motor de OCR desenvolvido pelo Google mas de licença livre, que pode ser utilizado através de programas livres, como gImageReader ou OCRFeeder, suíte de reconhecimento de caracteres padrão do GNOME disponível em quase todas as distros Linux e outras baseadas em Unix.

 

_ RECONHECIMENTO AUTOMÁTICO DE VOZ (transcrição de voz à texto)

A inteligência artificial aplicada neste campo permite processar as vozes e reconhecer a informação emitida por elas para as converter em texto, interactuar com um dispositivo mediante a voz (por exemplo, através de assistentes pessoais nos telefones móveis) ou automatizar serviços de ajuda, entre outras possibilidades. As aplicações que transformam a fala em texto são usadas para transcrição, mas também são uma forma de comunicação para pessoas com surdez ou dificuldades para captar a linguagem falada. Para que estas ferramentas funcionem, é necessário uma gramática (que é um “modelo linguístico”) e a informação acústica, ou seja, um corpus de vozes suficientemente grande no idioma desejado para obter um reconhecimento eficaz. Neste último ponto é que ainda não há um projeto de software livre tão bom como os proprietários, já que não se gerou um grande corpus de voz livre em todos os idiomas. Para diminuir esse problema, alguns projetos tem trabalhado nesse ponto fraco, em especial o Vosforge, que nesse texto traz em detalhes os desafios atuais para criar um sistema livre de transcrição/reconhecimento automático de voz, como o fato de as licenças restritivas impedirem o acesso a informação de possíveis colaboradores, os modelos acústicos não serem intercambiáveis, a necessidade de melhoria dos modelos linguísticos, entre outros pontos.

_ SÍNTESE DE VOZ (transcrição de texto para voz)

Para que possamos escutar o texto, as tecnologias TTS (text to speech) traduzem os caracteres escritos para sons inteligíveis por humanos. Estas ferramentas podem ser utilizadas no sistema operacional do computador, no navegador, num smartphone, e seu principal uso é a acessibilidade para pessoas cegas ou com dificuldades para ler. Portanto, contar no acervo comum da humanidade com motores e aplicações de transcrição de texto para voz, bem como com um repertório de vozes livres variado em idiomas e acentos locais, é fundamental para garantir o acesso à cultura a esses usuários.
As tecnologias TTS também podem ser usados para a criação de conteúdos audiovisuais em que se necessita produzir automaticamente áudio a partir de texto – como, por exemplo, para narração de um vídeo em um idioma que não dominamos, partindo de um texto traduzido. O Centro de investigações de Tecnologias da Linguagem da Universidade de Edimburgo, Universidade de Carnegia Mellon e outras universidades desenvolveram o Festival, um sistema de síntese de voz de uso geral para múltiplos idiomas bastante interessante. Existem outras diversas ferramentas livres para usar sistemas TTS por aí, desde aplicações web gratuitas até leitores de tela para Firefox e softwares para diversos sistemas operacionais. Uma dica: gravações de áudio a partir de sínteses de voz podem ser realizadas facilmente com Audacity.

_ EXTRAÇÃO DE DADOS

Extrair informação que originalmente não está estruturada na forma em que precisamos ler ou usar pode ser uma tarefa muito tediosa quando se realiza copiando e colando, um a um, os dados. Para superar este desafio existem diversos procedimentos automáticos que extraem a informação. São processos, por exemplo, para arquivar e examinar lugares de algum site (crawling), ou para reunir informação específica dos mesmos (scrapping), ou de qualquer tipo de documentos de texto. Esta tarefa pode ser útil para diferentes propósitos, como reunir dados sobre um tema (preços, clima, etc.), ou como forma de preservar versões de sites, como faz o Internet Archive.

O que faz o scrapping é, basicamente, a transformação de dados sem estrutura em dados estruturados, que vão ser armazenados e analisados em uma base de dados central ou em uma planilha. Um exemplo claro da aplicação deste tipo de ferramenta é o que explica a argentina Scann no blog “Taller de digitalización“, onde detalha como foi possível extrair dados de 1500 escritores argentinos a partir de um livro previamente escaneado e processado com OCR, e obter daí uma planilha bem estruturada.

A extração de dados geralmente é feita programando um script de busca e extração. Uma ferramenta livre para isso é o Scrapy, que pode ser usada também a partir da interface do Portia. Para tarefas de extração de dados menos complexas, também se pode utilizar extensões para Chrome e Firefox, assim como aplicações para extração de dados desde um PDF.

_ GERAÇÃO DE LINGUAGEM NATURAL (Natural Language Generation – NLG)

Talvez vocês já tenham escutado algo a respeito de notícias ou artigos criados automaticamente por software. Pode ser algo que soa ficção científica – e com frequência a temática é tratada dessa maneira, com grandes títulos falando de robôs que substituem a jornalistas e escritores, tema que inclusive já escrevemos por aqui, em 2014. Mas trata-se simplesmente de uma tecnologia que gera um texto escrito bem estruturado e inteligível a partir de dados. O conceito chave é “data to text”, dados a texto. Por exemplo, a partir de dados do clima ou de resultados esportivos, ou a partir de obras literárias, os softwares podem escrever um texto por sua própria conta, seguindo padrões de linguagem natural que incorporam através de léxicos, regras gramaticais e algoritmos que permitem ao software tomar decisões.

Mais do que substituir redatores humanos, estas ferramentas podem ser um apoio, facilitando a interpretação de dados brutos e acelerando a construção de um texto a partir de uma estrutura que depois vai ser checada e completada. Um exemplo bastante popular são os bots que escrevem (ou melhoram) artigos da Wikipedia, hoje imprescindíveis para manter a qualidade da enciclopédia. Além de realizar tarefas de manutenção, também são usados em alguns idiomas da Wikipedia para a criação de artigos a partir de informação organizada em dados brutos, como por exemplo artigos sobre asteróides, produzidos a partir de dados da NASA. Programados por colaboradores, estes bots devem estar dentro da política de bots e serem aprovados por votação da comunidade de wikipedistas.

Algumas corporações oferecem serviços de geração de texto em linguagem natural, mas ainda não existem muitos projetos de software livre que façam isso, ainda que no futuro isso poderia (e deveria) mudar, como explica esse texto (em inglês). Uma ferramenta livre aplicada à literatura computacional que parece muito interessante é a RiTa, software criado a partir de Java e JavaScript e que roda em ambientes Android, Processing, Node, and P5.js.

_ DEMOCRATIZAR AS FERRAMENTAS

Assim como é inegável que a alfabetização e o acesso a leitura e a escrita sejam direitos fundamentais, estas ferramentas aqui mostradas, cada vez mais avançandas, sofisticadas e generalizadas, deveriam estar ao alcance de qualquer pessoa que as necessite. Convém lembrar que, assim como não se faz inclusão digital somente dando computadores, democratizar a cultura também não é somente dar acesso, mas sim ampliar capacidades de uso e transformação destes materiais/softwares/computadores. As ferramentas em software livre são fundamentais para esta democratização porque, sendo abertas, possibilitam o compartilhamento das melhorias e correções para ampliar os idiomas, léxicos e vocabulários, o que por sua vez atende a diversidade cultural e a as necessidades de distintos coletivos com relação ao texto escrito. Nas próximas postagens desta série falaremos de outras ferramentas livres relacionadas à imagem e ao som. Hasta!