{"id":12079,"date":"2017-11-20T11:38:54","date_gmt":"2017-11-20T11:38:54","guid":{"rendered":"https:\/\/baixacultura.org\/?p=12079"},"modified":"2017-11-20T11:38:54","modified_gmt":"2017-11-20T11:38:54","slug":"tecnologias-essenciais-para-a-cultura-livre-1-tratamento-automatizado-de-textos","status":"publish","type":"post","link":"https:\/\/baixacultura.org\/2017\/11\/20\/tecnologias-essenciais-para-a-cultura-livre-1-tratamento-automatizado-de-textos\/","title":{"rendered":"Tecnologias essenciais para a cultura livre (1): tratamento automatizado de textos"},"content":{"rendered":"

\"\"<\/a><\/p>\n

Para socializar a cultura \u00e9 imprescind\u00edvel democratizar certas tecnologias essenciais. Quando falamos de cultura livre<\/a>, n\u00e3o falamos somente de acesso \u00e0 materiais culturais, mas tamb\u00e9m da liberdade de reutilizar e transform\u00e1-los, o que necessita de acesso \u00e0s ferramentas. Pensando nisso, iniciamos esta s\u00e9rie de textos para falar em detalhes de algumas tecnologias que consideramos fundamentais para a cultura livre. Para come\u00e7ar, nos inspiramos num post do centro cultural 2.0 Artica<\/a>, do Uruguay, para falar de ferramentas para o tratamento do texto escrito<\/strong>. Este texto, ent\u00e3o, \u00e9 uma tradu\u00e7\u00e3o\/adapta\u00e7\u00e3o da postagem publicada em Artica no dia 30\/09\/2017.<\/p>\n

Desde tradutores autom\u00e1ticos at\u00e9 bots que escrevem textos a partir de dados brutos, as tecnologias para tratamento de texto escrito s\u00e3o utilizadas para realizar tarefas cada vez mais necess\u00e1rias para organizar a grande quantidade de informa\u00e7\u00e3o que a digitaliza\u00e7\u00e3o da cultura<\/a> tem gerado. Consomem bastante energia e tempo para ajudar na realiza\u00e7\u00e3o da tarefa de tornar essa informa\u00e7\u00e3o conhecimento que seja \u00fatil, relevante e contextualizado, e a partir da\u00ed gerar novas produ\u00e7\u00f5es, com novos significados para novos contextos.<\/p>\n

As ci\u00eancias da computa\u00e7\u00e3o tem gerado ferramentas que simplificam e automatizam processos complexos realizados com texto. Em algumas destas aplica\u00e7\u00f5es h\u00e1 um papel importante da intelig\u00eancia artificial e, dentro dela, do processamento de linguagens naturais, uma \u00e1rea que trata da convers\u00e3o de informa\u00e7\u00e3o de bancos de dados<\/a> de computadores em linguagem compreens\u00edvel ao ser humano. Por serem bastante complexos, muitos destes projetos devem ser abordados de forma coletiva e multidisciplinar – e seus resultados n\u00e3o deveria ficar em m\u00e3os exclusivamente privadas, como muitas vezes acaba acontecendo. Como usu\u00e1rios, dever\u00edamos pode distinguir estas tecnologias da pura e simples “m\u00e1gica”, para ent\u00e3o entender como elas podem e devem estar como um bem comum (procom\u00fan<\/em>), onde qualquer um pode ter acesso para usar. Abaixo mencionamos algumas destas tecnologias que, em nossa opini\u00e3o, s\u00e3o essenciais para socializar a cultura escrita em tempos digitais:<\/p>\n

<\/p>\n

_ TRADU\u00c7\u00c3O AUTOM\u00c1TICA<\/strong><\/p>\n

O procedimento m\u00e1gico que o Google Tradutor faz por n\u00f3s \u00e9 resultado de d\u00e9cadas de avan\u00e7os da lingu\u00edstica computacional que hoje permitem n\u00e3o apenas a tradu\u00e7\u00e3o de palavras soltas, mas tamb\u00e9m de express\u00f5es e textos completos. Ainda que as tradu\u00e7\u00f5es autom\u00e1ticas n\u00e3o sejam perfeitas, cada dia melhoram mais – veja isso especialmente quando voc\u00ea traduz de alguma l\u00edngua para o ingl\u00eas. O uso do Tradutor do Google \u00e9 gratuito, mas seu c\u00f3digo n\u00e3o \u00e9 aberto, o que significa que para us\u00e1-la dependemos do que o Google, uma empresa privada, decide sobre sua ferramenta. Pior ainda: o valor que os usu\u00e1rios aportam para melhorar a ferramenta atrav\u00e9s de suas corre\u00e7\u00f5es \u00e9 \u00f3timo para a empresa, que, por sua vez, n\u00e3o coloca \u00e0 disposi\u00e7\u00e3o estes dados de corre\u00e7\u00f5es adicionados pelos usu\u00e1rios.<\/p>\n

\u00c9 por isso que s\u00e3o importantes projetos como Apertium<\/a>, <\/strong> um sistema de c\u00f3digo aberto para a tradu\u00e7\u00e3o autom\u00e1tica. Ele \u00e9 utilizado, por exemplo, como motor de tradu\u00e7\u00e3o autom\u00e1tica pela Wikipedia, permitindo que os usu\u00e1rios obtenham vers\u00f5es de um artigo em um idioma diferente, o que facilita a tradu\u00e7\u00e3o inicial de um verbete na enciclop\u00e9dia. \u00c9 um software desenvolvido por diversas institui\u00e7\u00f5es p\u00fablicas e privadas da Espanha, Inglaterra, Catalunha e Rom\u00eania.<\/p>\n

 <\/p>\n

\"\"<\/p>\n

_ RECONHECIMENTO \u00d3TICO DE CARACTERES (OCR)<\/strong><\/p>\n

Quando abrimos um texto escaneado e somos capazes de fazer sele\u00e7\u00f5es e buscas em seu interior, inclusive copiar e colar conte\u00fado, estamos a aproveitar as capacidades de uma tecnologia chamada \u201creconhecimento \u00f3tico de caracteres\u201d, conhecida como OCR por sua sigla em ingl\u00eas. Esta tecnologia nos poupa a transcri\u00e7\u00e3o de grandes massas de texto, que, ao ser digitalizado e reconhecido, pode ser tratado e manipulado. \u00c9 particularmente \u00fatil em projetos de digitaliza\u00e7\u00e3o de publica\u00e7\u00f5es originalmente impressas<\/a>. O OCR opera mediante algoritmos que, a partir de certos padr\u00f5es, se encarregam de contrastar as imagens com os caracteres de um alfabeto. Estes algoritmos podem ser propriedade de uma corpora\u00e7\u00e3o, mas tamb\u00e9m existem projectos livres e cada vez melhores que realizam esta tarefa com efic\u00e1cia. Um deles \u00e9 Tesseract<\/a>, um motor de OCR desenvolvido pelo Google mas de licen\u00e7a livre, que pode ser utilizado atrav\u00e9s de programas livres, como gImageReader<\/a> ou OCRFeeder<\/a>, su\u00edte de reconhecimento de caracteres padr\u00e3o do GNOME dispon\u00edvel em quase todas as distros Linux e outras baseadas em Unix.<\/p>\n

 <\/p>\n

\"\"<\/p>\n

_ RECONHECIMENTO AUTOM\u00c1TICO DE VOZ (transcri\u00e7\u00e3o de voz \u00e0 texto)<\/strong><\/p>\n

A intelig\u00eancia artificial aplicada neste campo permite processar as vozes e reconhecer a informa\u00e7\u00e3o emitida por elas para as converter em texto, interactuar com um dispositivo mediante a voz (por exemplo, atrav\u00e9s de assistentes pessoais nos telefones m\u00f3veis) ou automatizar servi\u00e7os de ajuda, entre outras possibilidades. As aplica\u00e7\u00f5es que transformam a fala em texto s\u00e3o usadas para transcri\u00e7\u00e3o, mas tamb\u00e9m s\u00e3o uma forma de comunica\u00e7\u00e3o para pessoas com surdez ou dificuldades para captar a linguagem falada. Para que estas ferramentas funcionem, \u00e9 necess\u00e1rio uma gram\u00e1tica (que \u00e9 um “modelo lingu\u00edstico”) e a informa\u00e7\u00e3o ac\u00fastica, ou seja, um corpus de vozes suficientemente grande no idioma desejado para obter um reconhecimento eficaz. Neste \u00faltimo ponto \u00e9 que ainda n\u00e3o h\u00e1 um projeto de software livre t\u00e3o bom como os propriet\u00e1rios, j\u00e1 que n\u00e3o se gerou um grande corpus de voz livre em todos os idiomas. Para diminuir esse problema, alguns projetos tem trabalhado nesse ponto fraco, em especial o Vosforge<\/a>, que nesse texto traz em detalhes os desafios<\/a> atuais para criar um sistema livre de transcri\u00e7\u00e3o\/reconhecimento autom\u00e1tico de voz, como o fato de as licen\u00e7as restritivas impedirem o acesso a informa\u00e7\u00e3o de poss\u00edveis colaboradores, os modelos ac\u00fasticos n\u00e3o serem intercambi\u00e1veis, a necessidade de melhoria dos modelos lingu\u00edsticos, entre outros pontos.<\/p>\n

\"\" \"\"<\/p>\n

_ S\u00cdNTESE DE VOZ (transcri\u00e7\u00e3o de texto para voz)<\/strong><\/p>\n

Para que possamos escutar o texto, as tecnologias TTS<\/a> (text to speech<\/em>) traduzem os caracteres escritos para sons intelig\u00edveis por humanos. Estas ferramentas podem ser utilizadas no sistema operacional do computador, no navegador, num smartphone, e seu principal uso \u00e9 a acessibilidade para pessoas cegas ou com dificuldades para ler. Portanto, contar no acervo comum da humanidade com motores e aplica\u00e7\u00f5es de transcri\u00e7\u00e3o de texto para voz, bem como com um repert\u00f3rio de vozes livres variado em idiomas e acentos locais, \u00e9 fundamental para garantir o acesso \u00e0 cultura a esses usu\u00e1rios.
\nAs tecnologias TTS tamb\u00e9m podem ser usados para a cria\u00e7\u00e3o de conte\u00fados audiovisuais em que se necessita produzir automaticamente \u00e1udio a partir de texto – como, por exemplo, para narra\u00e7\u00e3o de um v\u00eddeo em um idioma que n\u00e3o dominamos, partindo de um texto traduzido. O Centro de investiga\u00e7\u00f5es de Tecnologias da Linguagem da Universidade de Edimburgo, Universidade de Carnegia Mellon e outras universidades desenvolveram o
Festival<\/a><\/strong>, um sistema de s\u00edntese de voz de uso geral para m\u00faltiplos idiomas bastante interessante. Existem outras diversas ferramentas livres para usar sistemas TTS por a\u00ed, desde aplica\u00e7\u00f5es web gratuitas at\u00e9 leitores de tela para Firefox<\/a> e softwares para diversos sistemas operacionais<\/a>. Uma dica: grava\u00e7\u00f5es de \u00e1udio a partir de s\u00ednteses de voz podem ser realizadas facilmente com Audacity<\/a>.<\/p>\n

\"\"<\/p>\n

_ EXTRA\u00c7\u00c3O DE DADOS<\/strong><\/p>\n

Extrair informa\u00e7\u00e3o que originalmente n\u00e3o est\u00e1 estruturada na forma em que precisamos ler ou usar pode ser uma tarefa muito tediosa quando se realiza copiando e colando, um a um, os dados. Para superar este desafio existem diversos procedimentos autom\u00e1ticos que extraem a informa\u00e7\u00e3o. S\u00e3o processos, por exemplo, para arquivar e examinar lugares de algum site (crawling<\/em>), ou para reunir informa\u00e7\u00e3o espec\u00edfica dos mesmos (scrapping<\/em>), ou de qualquer tipo de documentos de texto. Esta tarefa pode ser \u00fatil para diferentes prop\u00f3sitos, como reunir dados sobre um tema (pre\u00e7os, clima, etc.), ou como forma de preservar vers\u00f5es de sites<\/a>, como faz o Internet Archive<\/a>.<\/p>\n

O que faz o scrapping<\/em> \u00e9, basicamente, a transforma\u00e7\u00e3o de dados sem estrutura em dados estruturados, que v\u00e3o ser armazenados e analisados em uma base de dados central ou em uma planilha. Um exemplo claro da aplica\u00e7\u00e3o deste tipo de ferramenta \u00e9 o que explica a argentina Scann no blog “Taller de digitalizaci\u00f3n<\/a>“, onde detalha como foi poss\u00edvel extrair dados de 1500 escritores argentinos a partir de um livro previamente escaneado e processado com OCR, e obter da\u00ed uma planilha bem estruturada.<\/p>\n

A extra\u00e7\u00e3o de dados geralmente \u00e9 feita programando um script de busca e extra\u00e7\u00e3o. Uma ferramenta livre para isso \u00e9 o Scrapy<\/a>, que pode ser usada tamb\u00e9m a partir da interface do Portia<\/a>. Para tarefas de extra\u00e7\u00e3o de dados menos complexas, tamb\u00e9m se pode utilizar extens\u00f5es para Chrome<\/a> e Firefox<\/a>, assim como aplica\u00e7\u00f5es para extra\u00e7\u00e3o de dados desde um PDF<\/a>.<\/p>\n

\"\"<\/p>\n

_ GERA\u00c7\u00c3O DE LINGUAGEM NATURAL (Natural Language Generation \u2013 NLG<\/em>)<\/strong><\/p>\n

Talvez voc\u00eas j\u00e1 tenham escutado algo a respeito de not\u00edcias ou artigos criados automaticamente por software<\/a>. Pode ser algo que soa fic\u00e7\u00e3o cient\u00edfica – e com frequ\u00eancia a tem\u00e1tica \u00e9 tratada dessa maneira, com grandes t\u00edtulos falando de rob\u00f4s que substituem a jornalistas e escritores, tema que inclusive j\u00e1 escrevemos por aqui, em 2014<\/a>.\u00a0Mas trata-se simplesmente de uma tecnologia que gera um texto escrito bem estruturado e intelig\u00edvel a partir de dados. O conceito chave \u00e9 \u201cdata to text<\/em>\u201d, dados a texto. Por exemplo, a partir de dados do clima ou de resultados esportivos, ou a partir de obras liter\u00e1rias,<\/a> os softwares podem escrever um texto por sua pr\u00f3pria conta, seguindo padr\u00f5es de linguagem natural que incorporam atrav\u00e9s de l\u00e9xicos, regras gramaticais e algoritmos que permitem ao software tomar decis\u00f5es.<\/p>\n

Mais do que substituir redatores humanos, estas ferramentas podem ser um apoio, facilitando a interpreta\u00e7\u00e3o de dados brutos e acelerando a constru\u00e7\u00e3o de um texto a partir de uma estrutura que depois vai ser checada e completada. Um exemplo bastante popular s\u00e3o os bots<\/em> que escrevem (ou melhoram) artigos da Wikipedia, hoje imprescind\u00edveis para manter a qualidade da enciclop\u00e9dia. Al\u00e9m de realizar tarefas de manuten\u00e7\u00e3o, tamb\u00e9m s\u00e3o usados em alguns idiomas da Wikipedia para a cria\u00e7\u00e3o de artigos a partir de informa\u00e7\u00e3o organizada em dados brutos, como por exemplo artigos sobre aster\u00f3ides, produzidos a partir de dados da NASA. Programados por colaboradores, estes bots devem estar dentro da pol\u00edtica de bots<\/a> e serem aprovados por vota\u00e7\u00e3o da comunidade de wikipedistas.<\/p>\n

Algumas corpora\u00e7\u00f5es oferecem servi\u00e7os de gera\u00e7\u00e3o de texto em linguagem natural, mas ainda n\u00e3o existem muitos projetos de software livre que fa\u00e7am isso, ainda que no futuro isso poderia (e deveria) mudar, como explica esse texto<\/a> (em ingl\u00eas). Uma ferramenta livre aplicada \u00e0 literatura computacional que parece muito interessante \u00e9 a RiTa<\/a><\/strong>, software criado a partir de Java e JavaScript e que roda em ambientes Android, Processing, Node, and P5.js.<\/p>\n

_ DEMOCRATIZAR AS FERRAMENTAS<\/strong><\/p>\n

Assim como \u00e9 ineg\u00e1vel que a alfabetiza\u00e7\u00e3o e o acesso a leitura e a escrita sejam direitos fundamentais, estas ferramentas aqui mostradas, cada vez mais avan\u00e7andas, sofisticadas e generalizadas, deveriam estar ao alcance de qualquer pessoa que as necessite. Conv\u00e9m lembrar que, assim como n\u00e3o se faz inclus\u00e3o digital somente dando computadores, democratizar a cultura tamb\u00e9m n\u00e3o \u00e9 somente dar acesso, mas sim ampliar capacidades de uso e transforma\u00e7\u00e3o destes materiais\/softwares\/computadores. As ferramentas em software livre s\u00e3o fundamentais para esta democratiza\u00e7\u00e3o porque, sendo abertas, possibilitam o compartilhamento das melhorias e corre\u00e7\u00f5es para ampliar os idiomas, l\u00e9xicos e vocabul\u00e1rios, o que por sua vez atende a diversidade cultural e a as necessidades de distintos coletivos com rela\u00e7\u00e3o ao texto escrito. Nas pr\u00f3ximas postagens desta s\u00e9rie falaremos de outras ferramentas livres relacionadas \u00e0 imagem e ao som. Hasta!<\/p>\n

 
\n<\/p>\n

<\/div>\n","protected":false},"excerpt":{"rendered":"

Para socializar a cultura \u00e9 imprescind\u00edvel democratizar certas tecnologias essenciais. Quando falamos de cultura livre, n\u00e3o falamos somente de acesso \u00e0 materiais culturais, mas tamb\u00e9m da liberdade de reutilizar e transform\u00e1-los, o que necessita de acesso \u00e0s ferramentas. Pensando nisso, iniciamos esta s\u00e9rie de textos para falar em detalhes de algumas tecnologias que consideramos fundamentais […]<\/p>\n","protected":false},"author":2,"featured_media":12090,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[122],"tags":[1963,147,1766,1964,1965,107,303,1966],"post_folder":[],"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/posts\/12079"}],"collection":[{"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/comments?post=12079"}],"version-history":[{"count":0,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/posts\/12079\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/"}],"wp:attachment":[{"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/media?parent=12079"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/categories?post=12079"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/tags?post=12079"},{"taxonomy":"post_folder","embeddable":true,"href":"https:\/\/baixacultura.org\/wp-json\/wp\/v2\/post_folder?post=12079"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}