O impacto da má interpretação de dados correlacionais na opinião pública e na disseminação de fake-news

No outono de 1973 na Universidade da Califórnia, em Berkeley foram analisados os números de admissão nos cursos de pós graduação. Tais números mostraram que os homens que se candidatavam eram mais propensos do que as mulheres a serem admitidos e a diferença era tão grande que era improvável que fosse devido ao acaso.

No entanto, quando examinados individualmente, 6 dos 85 departamentos mostraram um viés estatisticamente significativo contra a admissão de homens, enquanto apenas 4 apresentaram um viés contra as mulheres. Na verdade, os dados agrupados e corrigidos revelaram um “pequeno, mas estatisticamente significativo viés em favor das mulheres”.

Os dados dos seis maiores departamentos estão listados abaixo, com os dois principais departamentos por número de candidatos para cada gênero destacados em itálico.

De acordo com o estudo realizado por Bickel et al., foi constatado que, nessa situação, as mulheres tem uma tendência maior a se candidatar em departamentos competitivos com baixas taxas de admissão, mesmo quando qualificadas (como no caso do Departamento de Inglês), enquanto os homens tendem a se candidatar em departamentos menos competitivos, com altas taxas de admissão para candidatos qualificados (como em engenharia e química).

Esse evento ficou popularmente conhecido como o “Paradoxo de Simpson” um fenômeno em probabilidade e estatística em que uma tendência aparece em vários grupos de dados, mas desaparece ou reverte quando os grupos são combinados. Este resultado é frequentemente encontrado em estatísticas de ciências sociais e ciências médicas.

Observando os dados da primeira tabela que estão agregados, temos praticamente uma manchete de jornal pronta para ser veiculada pelos principais jornais de agenda liberal e fazer um grande estrago na reputação da faculdade, afinal temos dados que comprovam essa preferência à favor dos homens e contra as mulheres, certo? Vejamos mais pra frente….

Correlações

“Você é um cientista social com um palpite: a economia dos EUA é afetada pelo fato de republicanos ou democratas estarem no cargo. Tente mostrar que existe uma conexão, usando dados reais que remontam a 1948. Para que seus resultados possam ser publicados em uma revista acadêmica, você precisará provar que eles são “estatisticamente significativos” alcançando um valor p baixo o suficiente.”

Essa é a proposta da ferramenta “Hack Your Way To Scientific Glory” criada fivethirtyeight.com, com um claro tom de ironia e sarcasmo mas com um único objetivo: demonstrar que através de uma massa de dados não tratados que se confundem, é possível estabelecer uma correlação entre praticamente qualquer indicador econômico aleatório e algum partido americano.

imagem: fivethirtyeight

Nesta ferramenta ao selecionar as variáveis ele calcula automaticamente sua reta de regressão linear e dependendo da sua escolha você consegue atingir um p-value de menos de 0.01 o que torna sua correlação extremamente significante estatisticamente falando. Ao atingir uma significância estatística você recebe uma mensagem de sucesso, dizendo que “Você alcançou um valor p inferior a 0,01 e mostrou que os democratas têm um efeito negativo na economia. Prepare-se para ter seus resultados publicados!”.

Em 18 de Outubro de 2012, foi publicado um artigo na NEJM (New England Journal of Medicine) que correlaciona o consumo de chocolates, funções cognitivas e o número de prêmios Nobel que um país possui.

enter image description here
imagem: nejm

Neste estudo, Messerli sugere que, como alguns flavinóides encontrados no chocolate foram associados à melhora da cognição, pode-se esperar que um país que coma mais chocolate em média produza mais prêmios Nobel em média. De fato, Messerli encontra uma correlação linear entre as duas variáveis.

Sabemos é claro que isso é completamente falso, mas porque? Afinal, se existe uma correlação tão forte entre as variáveis o que mais falta para tomar uma decisão política de publicar esses resultados nos jornais e ganhar a atenção da mídia?

É improvável que essas correlações sejam causais, então por que elas são robustas? Os fenômenos culturais se difundem de maneira que levam a correlações ilegítimas entre variáveis independentes.

Embora haja correlação entre duas variáveis distintas, há poucas evidências que sugiram que exista uma ligação isomórfica entre os efeitos em nível individual e os efeitos generalizados em nível populacional.

Coeficiente de correlação de Pearson e regressões lineares

Uma vez que você tem um conjunto de dados e deseja avaliar se existe uma tendência ou correlação estatística entre as variáveis das suas amostras, você deve utilizar alguma regressão ou algum coeficiente de correlação.

O coeficiente de correlação de Pearson (também conhecido como “coeficiente de correlação produto-momento”) é uma medida da associação linear entre duas variáveis X e Y. Tem um valor entre -1 e 1 onde:

Através da seguinte fórmula para encontrar o coeficiente de correlação de Pearson, denotado como r, para uma amostra de dados:

Você poderá utilizar a fórmula para traçar uma reta de regressão, a qual irá te dar um vetor que poderá ser atravessado pelas suas variáveis da seguinte forma:

Uma vez tendo o vetor, plotamos tudo isso num gráfico de dispersão:

E dessa forma obtemos um valor de p que podemos testar com o teste T de Student e obter uma significância estatística para nossa correlação.

O que o coeficiente de Pearson nos diz é que existe uma correlação que pode ser forte ou fraca, positiva ou negativa entre um conjunto de pontos de uma amostra, ou que esses pontos seguem uma tendência.

É a partir de uma sequência como essas que você consegue alcançar os jornais científicos, ter seu artigo publicado e desenvolver uma narrativa Post Hoc (“Depois disso”, em Latim) que convença as pessoas, porque a comprovação dos dados você já tem “Temos uma correlação muito forte e estatisticamente significante de A com B”.

O papel da inferência estatística na determinação de relações causais em dados

Você já deve ter se deparado com a frase “correlação não implica causalidade”. Correlação e causalidade são duas ideias relacionadas, mas entender suas diferenças ajudará você a avaliar criticamente as fontes e interpretar a pesquisa científica.

A correlação descreve uma associação entre tipos de variáveis: quando uma variável muda, a outra também muda. Uma correlação é um indicador estatístico da relação entre variáveis. Essas variáveis mudam juntas: elas covariam. Mas essa covariação não se deve necessariamente a um vínculo causal direto ou indireto.

Causalidade significa que mudanças em uma variável provocam mudanças na outra; existe uma relação de causa e efeito entre as variáveis. As duas variáveis estão correlacionadas entre si e também existe um nexo causal entre elas.

Correlação significa que existe uma associação estatística entre as variáveis. Causalidade significa que uma mudança em uma variável causa uma mudança em outra variável.

Correlation
imagem: https://xkcd.com/552/

A falácia é antiga. Porém, tem uma poderosa tendência de surgir em assuntos estatísticos, onde está disfarçada por diversos números que chamam a atenção e ninguém no mundo corrido e dinâmico que vivemos hoje tem tempo de fazer diligência.

Quando se diz que “se B segue-se a A, então A foi a causa de B.” Não poderia ser o contrário? Pode ser bem mais provável que nenhum desses fatos tenha produzido o outro, mas ambos sejam produto de algum terceiro fator. Quando há muitas explicações razoáveis, você dificilmente tem o direito de escolher aquela que serve ao seu intuito, e insistir nela. Mas muitos fazem exatamente isso.

Uma correlação pode ser devida ao acaso, você pode juntar um grupo de números e com eles provar alguma coisa inesperada, mas se tentar de novo, seu próximo grupo de números pode absolutamente não provar mais nada…

Com uma amostra pequena, é provável de se encontrar alguma correlação substancial entre qualquer par de características ou eventos que você imagine.

Uma espécie comum de correlação é aquela na qual a relação é real, mas não é possível se estar seguro de qual das variáveis seja a causa e qual o efeito. Em alguns desses casos, causa e efeito podem se alternar de hora em hora, ou ambos podem, sem dúvida, ser causa e efeito ao mesmo tempo.

Uma correlação entre a renda de uma pessoa e a sua propriedade de ações segue a mesma lógica. Quanto mais dinheiro você ganha, mais ações compra, e quanto mais ações compra mais dinheiro ganha; não é correto dizer simplesmente que uma produziu a outra.

Pode acontecer também que nenhuma das variáveis tenha qualquer efeito sobre a outra, e ainda assim haja uma correlação real. Apesar da relação mostrar-se real, a natureza de causa-e-efeito é somente uma questão de especulação.

Conclusão

Para evitar cair no engano do Post Hoc e dai acreditar em muitas coisas que não são verdadeiras, é necessário inspecionar minuciosamente qualquer afirmativa de relação entre as coisas.

A correlação, aquele número convincentemente preciso, que parece provar que uma coisa ocorre em função de outra coisa, é somente o resultado de uma função estatística, a qual vai aceitar qualquer tipo de número que for introduzido ali. Isso só significa que a função funciona e não que aqueles dados representam um fato inerente à realidade.

Não importa o quão forte seja a significância estatística de uma regressão linear em estabelecer correlação entre suas variáveis, se o comportamento prático e empírico delas não for diretamente afetado pela alteração da outra, muito dificilmente ou até impossível será afirmar uma relação de causalidade.

Se os pesquisadores declaram que esta é uma abordagem robusta, e tais estudos são divulgados amplamente nas mídias, então é uma ladeira escorregadia para que jornalistas e detentores de canais de mídia não familiarizados com uma correta interpretação de dados e que não façam uma correta diligência das fontes causem impactos danosos na opinião pública e contribuam para a disseminação de fake-news.

Referências:

Compartilhe nas redes sociais:
Alexandre Polselli
Alexandre Polselli

Escrevo artigos e desenvolvo projetos nas minhas áreas de maior interesse: Data Science, Data Analytics, Estatística e Probabilidade, Inteligência Artificial e Machine Learning.

Artigos: 34

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *