Teógenes Moura*
A importância da urna eletrônica para o processo eleitoral é inestimável: Todos os políticos dependem dela para receberem votos, e de modo análogo, todos os eleitores são dependentes da urna para escolher seus representantes. É natural então, que haja o debate em torno da segurança envolvida em todo o processo: São de fato garantidas as características básicas para uma votação robusta - integridade e transparência - ou não? A urna eletrônica é melhor que o voto em papel?
Essas questões não possuem respostas triviais ou mesmo simples. Num ambiente complexo que envolve interesses conflitantes, as discussões envolvendo o método de votação têm recebido atenção da mídia e da sociedade em geral, fruto da crescente desconfiança em torno da capacidade do equipamento de prover eleições seguras para os mais de 100 milhões de eleitores brasileiros.
Nesse contexto, se torna interessante observar quem são os principais atores que publicam suas opiniões ao redor do tema e o motivo pelo qual o fazem. Para tanto, analisamos o conteúdo de 19742 comentários feitos por usuários da plataforma de vídeos Youtube, que detém 76.78% de domínio de mercado no Brasil, além do conteúdo falado nos vídeos e transcritos pela funcionalidade de geração de legendas automáticas do próprio Youtube. [1]
Análise de Conteúdo dos Vídeos
O trabalho de análise de vídeos no Youtube nos leva para um novo desafio: Como capturar o conteúdo de cada vídeo? O Google (empresa dona do Youtube) disponibiliza uma API aberta a desenvolvedores que permite a captura das legendas geradas automaticamente pelo serviço para cada vídeo. Desse modo, podemos ter acesso ao conteúdo falado em cada um dos vídeos individualmente. Cabe, neste ponto ressaltar que, apesar de avançada, a tradução automática ainda não é perfeita e, por isso, utilizamos 106 palavras de parada [2] (stop words), que são descartadas durante a análise por não adicionarem valor ao resultado final.
Capturamos, então, o conteúdo em texto de todas as falas dos 50 primeiros vídeos que aparecem como resultado para a busca ‘urna eletrônica’. Em seguida, fizemos uma análise das palavras mais frequentes no conjunto de todos os vídeos. Os termos mais frequentes são os seguintes:
Como podemos ver, as 15 primeiras palavras mais citadas nos primeiros 50 vídeos se relacionam ao tema , citando atores como o TSE e a ex-presidente Dilma, e temas recentes como "segurança"e "fraude". A análise de palavras mais frequentes, nesse caso, cumpriu o seu papel de dar uma noção geral de quais são os temas mais relevantes, mas falha em prover um entendimento mais profundo da discussão, em que possamos entender como a população (ou uma fração significativa dela) lida com esse tipo de questionamento e como debatem entre si.
Para isso, prosseguimos à segunda fase, em que analisamos os conteúdos dos comentários desses vídeos para entender como as pessoas estão percebendo a questão da urna eletrônica no dia a dia e como se posicionam diante do cenário de questionamento da segurança do processo eleitoral e das eleições que se aproximam rapidamente.
Segunda fase: Análise de comentários
Para entender melhor como se dá a discussão em torno da segurança da urna eletrônica no Youtube, o mesmo procedimento da fase anterior foi mantido: Capturamos todos os comentários - incluindo réplicas - dos primeiros 50 vídeos [3]. No entanto, diferentemente do passo anterior, não repetiremos a análise de palavras mais frequentes, dado que ela fornece apenas uma visão superficial do conteúdo discutido na seção de comentários dos vídeos.
Para esta análise, utilizaremos o algoritmo Word2Vec para entender quais discursos predominam nos comentários e como eles se relacionam. O Algoritmo Word2Vec (MIKOLOV et al., 2013) permite que cada palavra num texto seja vetorizada, de modo que podemos calcular as distâncias entre palavras e saber quais palavras são mais prováveis de aparecer perto umas das outras.
O Word2Vec é uma rede neural de duas camadas que tem como entrada um corpo de texto e produz como saída um espaço vetorial em que cada palavra é transformada num vetor de características [4]. Essa caracterização matemática de um bloco de texto permite agrupar palavras por similaridade, dado um contexto, sem que seja necessária a preocupação em modelar aspectos semânticos e sintáticos da linguagem computacionalmente. Um exemplo da comparação de distância entre palavras é a similaridade de cossenos para um determinado texto. Um ângulo ortogonal entre duas palavras significa que não existe qualquer similaridade entre ambas, enquanto um resultado igual a um indica que ambas as palavras são iguais.
Fizemos essa análise para o nosso corpo de texto, composto por 19742 comentários feitos por usuários nos primeiros 50 vídeos relacionados a ‘urna eletrônica’ no Youtube.
Para determinar quais são as palavras mais frequentemente associadas a “urna eletrônica” nos comentários, calculamos a similaridade de cosseno da palavra ‘urna’ e algumas palavras frequentes na análise anterior de conteúdo. O resultado está na tabela abaixo:
Como podemos ver, o termo "urna"está muito fortemente ligado aos termos "fraude", "aranha"e "lula". O termo fraude é citado 61 vezes nos comentários, sendo apenas o 12º (décimo segundo) mais frequente. Ao mesmo tempo, é o termo mais fortemente associado à palavra ’urna’, sugerindo que entre a população, a discussão sobre a possibilidade de fraude na urna eletrônica é muito presente.
Vemos também que a discussão sobre a urna é mais relacionada a alguns candidatos presidenciais do que a outros. Marina Silva possui um coeficiente de apenas 0.477174, enquanto Bolsonaro, que adota a discussão da urna em sua campanha, possui um coeficiente de 0.88672. Enquanto essa forte correlação de Bolsonaro com a discussão sobre a urna já seja esperada, a surpresa vem na relação entre o ex-presidente Lula e o termo ’urna’, cuja similaridade de cossenos só perde para "Aranha", professor referência no tema, e "fraude".
Para entender um pouco melhor o motivo de Lula ser citado numa discussão que a priori nunca foi adotada por ele em suas campanhas nem por seu partido, temos de entender quais termos são mais próximos de "urna" genericamente (sem compará-lo a um outro termo) e quais são os termos mais próximos aos nossos termos de interesse para a nossa pergunta [5]. Deste modo, produzimos as seguintes tabelas:
Nas tabelas mostradas, alguns termos foram deixados de fora por se tratarem de repetições (como por exemplo, ’votos’ e ’votar’) ou não serem termos relevantes que poderiam ter sido incluídos na lista de stopwords. A partir delas, conseguimos ver algumas informações interessantes. Claramente vemos que os termos relacionados a ’bolsonaro’ diferem quase que completamente dos termos das outras tabelas. Termos como ’presidente’, ’100%’ e ’conseguir’, demonstram um mapa de palavras positivas associadas ao candidato nos comentários do Youtube, ao mesmo tempo que outros termos frequentes não aparecem na listagem para o candidato, como ’voto’, ’tse’ e ’aranha’. Esse último tem ainda mais importância, pois dado que Diego Aranha é um dos especialistas da academia de maior relevância quando se trata de votação eletrônica e Bolsonaro o candidato que "adotou" essa questão em sua campanha, causa estranheza que ’aranha’ não apareça na lista dos termos mais relacionados a Bolsonaro. Do mesmo modo, ’bolsonaro’ também não aparece nos termos mais relacionados a ’aranha’, confirmando que ambos não estão intimamente relacionados no espaço vetorial que representa o corpus de texto dos comentários.
Além disso, o fato de ’lula’ ter uma proximidade maior com ’urna’ do que ’bolsonaro’ também causa estranheza. Uma possível causa para tal é a presença de ’PT’, partido do ex-presidente, estar muito associado a ’urna’, assim como a palavra ’processo’, que pode estar se referindo aos processos judiciais envolvendo o ex-presidente . Temos um cenário, então, em que a maioria das palavras associadas a ’bolsonaro’ é positiva e, mesmo sem ter envolvimento na discussão, Lula e seu partido são majoritariamente citados. Tal fator causa ainda mais estranheza se considerarmos que ’Dilma’ é um dos termos mais citados no conteúdo dos vídeos mas nem aparece nas listagens das palavras mais frequentes dos comentários, indicando que Lula é um personagem muito mais presente na discussão do que Dilma.
Vemos também que Diego Aranha é associado a termos razoavelmente neutros e esperados dada a sua atuação nesse contexto, como ’TSE’, tribunal ao qual Diego exerce ferrenha oposição, ’fraude’, ’urna’ e ’software’, por exemplo.
O mesmo cenário ocorre na análise relativa a ’tse’: Temos a presença de ’eleições’, ’fraude’ e ’aranha’, por exemplo. Esse último, assim como anteriormente, é o agente a quem o TSE faz oposição clara na discussão sobre a urna eletrônica.
Essa contraposição nos faz voltar ao passo anterior: Como era esperado, TSE e Aranha de fato estão relacionados e participam ativamente do debate, o que reflete no grau de engajamento entre ambos no espaço vetorial gerado pelo Word2Vec. A questão que fica em aberto é então a não existência de um link claro entre Bolsonaro e quaisquer um desses atores.
Expandimos, então, a listagem dos termos mais frequentes relacionados a ’Bolsonaro’ para os primeiros 50 termos ao invés dos 15 que foram suficientes para os outros atores.
Nessa nova listagem, aparecem ’professor’ e ’diego’ respectivamente em quadragésimo e quadragésimo primeiro lugares, e ’impresso’ como o quadragésimo termo. Apesar de ainda terem um grau de proximidade relativamente alto, acima de 0.88, vemos que é uma relação mais fraca do que entre TSE e Diego Aranha, por exemplo, indicando que Bolsonaro não participa do mesmo debate, ou pelo menos não da mesma maneira, quanto os outros atores.
Vemos então, que existe enorme interesse tanto do público quanto dos atores mencionados no debate - não inédito - sobre a segurança da urna eletrônica. Percebemos que existe uma preocupação genuína com a melhoria do sistema brasileiro de votação, mas que não necessariamente todos os atores se envolvem profundamente nessa discussão. Descobrir se é por falta de conhecimento técnico ou estratégia política é tema para uma possível futura expansão deste texto, assim como explorar as tecnologias que possuem potencial de assegurar a segurança das eleições brasileiras.
O código utilizado nesta análise está disponível aqui: https://github.com/teogenesmoura/youtubeUrnaEletronica
* Graduando em Engenharia de Computação na Universidade de Brasília.
mourateogenes@gmail.com
[1] https://www.datanyze.com/market-share/online-video
[2] As stop words utilizadas estão listadas aqui: https://bit.ly/2KsueMe 3 A lista com todas as palavras se encontra no seguinte link: https://bit.ly/2IRyGOP
[3] Os comentários, tanto individualmente para cada vídeo, quanto unificados em um único arquivo para facilitar a análise estão no repositório https://github.com/teogenesmoura/youtubeUrnaEletronica
[4] Como posto em https://deeplearning4j.org/word2vec.html
[5] É importante que o processo utilizado para gerar a tabela 2 e 3 seja explicitamente diferenciado. A tabela 2 foi gerada através da comparação forçada pelo autor da palavra 'urna' com alguns termos de interesse, como 'Marina' e 'Ciro Gomes'. Na tabela 3, essa limitação não foi colocada, gerando uma tabela com os primeiros 50 termos mais próximos de 'urna'.
Referências
MIKOLOV, T. et al. Distributed representations of words and phrases and their compositionality. In: Advances in neural information processing systems. [S.l.: s.n.], 2013. p. 3111–3119. Citado na página 4.
7
Comments