Misturar alhos com bugalhos: a conjunta não é necessariamente o produto das marginais

Pode parecer simples ou até mesmo um tanto óbvio, mas em várias areas é bastante comum o uso da análise das distribuições marginais para inferir o comportamento do cruzamento de 2 categorias. Só que essa técnica produz resultados falhos.

Nesse post eu discuto o problema e a abordagem correta e eficiente para se inferir o comportamento procurado. Você me acompanha?

Imagine a seguinte tabela, originária de tabulação de uma base de dados de questionários, onde se tenha as duas variáveis Faixa Etária e Grau de Escolaridade:

Ao se buscar a caracterização do perfil do cliente, ou seja, qual o grupo/grupos mais representativos dentro da amostra, a abordagem mais comum é, olhando para as marginais (números em negrito e itálico), buscar os maiores valores.

Vou me fixar em um perfil pra tornar o material mais explicativo. O que obtive foi o seguinte:

  • Faixa Etária representativa: “20-29 anos” - 19.73%

  • Grau de Escolaridade representativo: “secundário completo” - 18,69%

Portanto, na descrição do perfil representativo, teríamos:

  • “20-29 ano” e “secundário completo”

Mas esse não é um perfil representativo!!!

Analisando esse perfil com cuidado, veremos que a distribuição conjunta das duas variáveis para os valores “20-29 anos” e “secundário completo” apresenta um valor de 2,93%. Esse valor é inferior à distribuição conjunta nos seguintes níveis (os 4 maiores valores da tabela da distribuição conjunta, valores em amarelo na tabela):

  • “40-49 anos” e “ médio incompleto” - 4,93%

  • “60 anos ou +” e “primário incompleto” - 4,81%

  • “50-59 anos” e “médio incompleto” - 4,67%

  • ”15-19 anos” e “secundário incompleto” - 4,67%

Mesmo utilizando o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, em conjunto com o maior valor da distribuição marginal da Faixa Etária, ainda assim o valor da distribuição conjunta para esses níveis é 3,74%, inferior aos valores em amarelo.

Utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o maior valor da distribuição marginal do Grau de Escolaridade, ainda assim o valor da distribuição conjunta para esses níveis é 4,08%, inferior aos valores em amarelo.

Finalmente, utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, ainda assim o valor da distribuição conjunta para esses níveis é 3,69%, inferior aos valores em amarelo.


Conclusão

O uso das distribuições marginais para se caracterizar o perfil de uma população, as características de um produto, os atributos de uma marca (entre outras coisas), é enganoso. Nem sempre a combinação dos maiores valores em cada distribuição marginal resulta em um valor na distribuição conjunta (que é a probabilidade que essa combinação apareceu na amostra) que seja o máximo.

Para uma análise correta de qual perfil é o mais representativo dentro da amostra, o uso da distribuição conjunta é imprescindível. ;)

Analytics é resolver problemas, seja eles quais forem e de onde venham.

Perguntamos de novo:

Você já usa Analytics para a tomada de decisão na sua empresa?

Originalmente publicado em 07/06/2016