A importância de diferenciar correlação de causalidade
Identificar causalidade é provavelmente a tarefa mais difícil na análise de dados e, exatamente por esta dificuldade, que muitas vezes assumimos conclusões precipitadas que podem levar a decisões equivocadas ou muitas vezes sem efeito para a melhoria de resultado da organização. Uma das fontes de diagnósticos equivocados é assumir que uma correlação – grau de associação entre duas variáveis – implique necessariamente em uma relação de causalidade, ou seja, que um dos eventos tenha causado a ocorrência do outro.
Como já bem abordado por Daniel Kahneman, prêmio Nobel de Economia 2002, nosso cérebro parece estar sempre em busca de reconhecer padrões, fazendo com que tenhamos dificuldades em lidar com problemas probabilísticos. Em outras palavras, tendemos a procurar correlações entre eventos e, imediatamente interpretar uma relação de causalidade entre eles. Esta intepretação equivocada é geradora de duas conhecidas falácias lógicas: “cum hoc ergo propter hoc” (do latim “com isto, logo por causa disto”) e “post hoc ergo propter hoc” (do latim “depois disto, logo causado por isso”).
O que constitui a falácia no primeiro caso é concluir que somente porque um evento ocorre juntamente com outro, um deles seria causa do outro. Já a segunda falácia deriva de acreditar que se dois eventos ocorrem em sequência, o primeiro seria a causa do segundo. Nas duas situações pode existir a relação de causa e efeito, mas o equívoco constitui em imediatamente inferir esta relação sem avaliar outros fatores que podem descartar esta relação de causalidade.
Ao identificar uma correlação entre dois eventos, cinco situações podem ocorrer. Pode-se ter que de fato o evento X causa Y, o contrário em que na verdade Y que causa X ou mesmo que se tenha um efeito de causa bidirecional em que tanto X causa Y como Y causa X. Outra situação é que nem X causa Y e nem Y causa X, mas uma outra variável influencia X e Y. Por fim, uma forte associação entre variáveis pode ser simplesmente fruto do acaso ou uma mera coincidência.
A forma mais tradicional de identificar o efeito de causalidade entre variáveis é a partir de alguma teoria ou de premissas de senso comum, porém, muitas vezes, julgamentos a partir do senso comum ou mesmo teorias podem estar errados. Análises de dados mais robustas podem ajudar na investigação mais detalhada destas situações, evitando erros de tomada de decisões e consequentemente perda de resultados.
Uma das formas mais utilizada para verificar causalidade épor meio de experimentos randomizados controlados. Basicamente, atribui-se diferentes condições a grupos aleatórios e mensura-se as diferenças de resultados entre os grupos. O teste A / B é um exemplo deste tipo de experimento, testa-se o que acontece ao mudar uma das variáveis em grupo versus outro grupo que em que não se muda a variável. Embora bastante efetivo na análise de causalidade, muitas vezes este tipo de estudo é complexo de ser implementado no ambiente de negócio.
Uma alternativa é a utilização de histórico de dados para avaliar relações de causa e efeito. Embora derivar causalidade a partir de dados observados, em geral, não seja conclusivo, há algumas técnicas que podem minimizar esta deficiência. A principal razão para a dificuldade de ter análises conclusivas a partir de dados observados é que a seleção dos dados não é aleatória, ou seja, os eventos podem ter ocorrido por influência de outras variáveis não observadas. Existem algumas alternativas de análise que auxiliam na depuração de causalidade a partir de dados observados, como modelos de Dados em Painel, estrutura de controle simulado a partir de algoritmos como vizinho mais próximo ou outros modelos econométricos.
Isso significa que sempre temos que ficar inertes até de fato compreender todos os fatores? Não! Temos diversas situações em que mesmo que não se tenha um diagnóstico preciso de que uma correlação signifique causalidade, o melhor a se fazer é atuar sobre o problema, pois o custo ou o impacto de atuar, mesmo estando errado, é pequeno diante do seu potencial efeito. Ou seja, para um grande número de situações, correlações simples já são suficientes e capazes de responder a necessidade de tomada de decisão um negócio. Porém, há situações que exigem uma análise mais robusta e este é o ponto central desta reflexão. Em algumas decisões estratégicas ou em alguns problemas mais complexos da organização deve-se investigar diversos ângulos antes de se tomar uma decisão, evitando confundir correlação com causalidade.
*Sócio-gerente da DMEP
Ouça a rádio de Minas