Misturar alhos com bugalhos: a conjunta não é necessariamente o produto das marginais
Pode parecer simples ou até mesmo um tanto óbvio, mas em várias areas é bastante comum o uso da análise das distribuições marginais para inferir o comportamento do cruzamento de 2 categorias. Só que essa técnica produz resultados falhos.
Nesse post eu discuto o problema e a abordagem correta e eficiente para se inferir o comportamento procurado. Você me acompanha?
Imagine a seguinte tabela, originária de tabulação de uma base de dados de questionários, onde se tenha as duas variáveis Faixa Etária e Grau de Escolaridade:
Ao se buscar a caracterização do perfil do cliente, ou seja, qual o grupo/grupos mais representativos dentro da amostra, a abordagem mais comum é, olhando para as marginais (números em negrito e itálico), buscar os maiores valores.
Vou me fixar em um perfil pra tornar o material mais explicativo. O que obtive foi o seguinte:
Faixa Etária representativa: “20-29 anos” - 19.73%
Grau de Escolaridade representativo: “secundário completo” - 18,69%
Portanto, na descrição do perfil representativo, teríamos:
“20-29 ano” e “secundário completo”
Mas esse não é um perfil representativo!!!
Analisando esse perfil com cuidado, veremos que a distribuição conjunta das duas variáveis para os valores “20-29 anos” e “secundário completo” apresenta um valor de 2,93%. Esse valor é inferior à distribuição conjunta nos seguintes níveis (os 4 maiores valores da tabela da distribuição conjunta, valores em amarelo na tabela):
“40-49 anos” e “ médio incompleto” - 4,93%
“60 anos ou +” e “primário incompleto” - 4,81%
“50-59 anos” e “médio incompleto” - 4,67%
”15-19 anos” e “secundário incompleto” - 4,67%
Mesmo utilizando o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, em conjunto com o maior valor da distribuição marginal da Faixa Etária, ainda assim o valor da distribuição conjunta para esses níveis é 3,74%, inferior aos valores em amarelo.
Utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o maior valor da distribuição marginal do Grau de Escolaridade, ainda assim o valor da distribuição conjunta para esses níveis é 4,08%, inferior aos valores em amarelo.
Finalmente, utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, ainda assim o valor da distribuição conjunta para esses níveis é 3,69%, inferior aos valores em amarelo.
Conclusão
O uso das distribuições marginais para se caracterizar o perfil de uma população, as características de um produto, os atributos de uma marca (entre outras coisas), é enganoso. Nem sempre a combinação dos maiores valores em cada distribuição marginal resulta em um valor na distribuição conjunta (que é a probabilidade que essa combinação apareceu na amostra) que seja o máximo.
Para uma análise correta de qual perfil é o mais representativo dentro da amostra, o uso da distribuição conjunta é imprescindível. ;)
Analytics é resolver problemas, seja eles quais forem e de onde venham.
Perguntamos de novo:
Você já usa Analytics para a tomada de decisão na sua empresa?
Originalmente publicado em 07/06/2016