Vamos conversar sobre Analytics 

Let's talk about Analytics

Misturar alhos com bugalhos: a conjunta não é necessariamente o produto das marginais

Pode parecer simples ou até mesmo um tanto óbvio, mas em várias areas é bastante comum o uso da análise das distribuições marginais para inferir o comportamento do cruzamento de 2 categorias. Só que essa técnica produz resultados falhos.

Nesse post eu discuto o problema e a abordagem correta e eficiente para se inferir o comportamento procurado. Você me acompanha?

Imagine a seguinte tabela, originária de tabulação de uma base de dados de questionários, onde se tenha as duas variáveis Faixa Etária e Grau de Escolaridade:

Ao se buscar a caracterização do perfil do cliente, ou seja, qual o grupo/grupos mais representativos dentro da amostra, a abordagem mais comum é, olhando para as marginais (números em negrito e itálico), buscar os maiores valores.

Vou me fixar em um perfil pra tornar o material mais explicativo. O que obtive foi o seguinte:

• Faixa Etária representativa: “20-29 anos” - 19.73% • Grau de Escolaridade representativo: “secundário completo” - 18,69%

Portanto, na descrição do perfil representativo, teríamos:

• “20-29 ano” e “secundário completo”

Mas esse não é um perfil representativo!!!

Analisando esse perfil com cuidado, veremos que a distribuição conjunta das duas variáveis para os valores “20-29 anos” e “secundário completo” apresenta um valor de 2,93%. Esse valor é inferior à distribuição conjunta nos seguintes níveis (os 4 maiores valores da tabela da distribuição conjunta, valores em amarelo na tabela):

• “40-49 anos” e “ médio incompleto” - 4,93% • “60 anos ou +” e “primário incompleto” - 4,81% • “50-59 anos” e “médio incompleto” - 4,67% • ”15-19 anos” e “secundário incompleto” - 4,67%

Mesmo utilizando o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, em conjunto com o maior valor da distribuição marginal da Faixa Etária, ainda assim o valor da distribuição conjunta para esses níveis é 3,74%, inferior aos valores em amarelo.

Utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o maior valor da distribuição marginal do Grau de Escolaridade, ainda assim o valor da distribuição conjunta para esses níveis é 4,08%, inferior aos valores em amarelo.

Finalmente, utilizando o 2º maior valor da distribuição marginal do Faixa Etária, o “30-39 anos”, em conjunto com o 2º maior valor da distribuição marginal do Grau de Escolaridade, o “não alfabetizado”, ainda assim o valor da distribuição conjunta para esses níveis é 3,69%, inferior aos valores em amarelo.

Conclusão

O uso das distribuições marginais para se caracterizar o perfil de uma população, as características de um produto, os atributos de uma marca (entre outras coisas), é enganoso. Nem sempre a combinação dos maiores valores em cada distribuição marginal resulta em um valor na distribuição conjunta (que é a probabilidade que essa combinação apareceu na amostra) que seja o máximo.

Para uma análise correta de qual perfil é o mais representativo dentro da amostra, o uso da distribuição conjunta é imprescindível. ;)

Voltar para o site da 

Back to the website of

Featured Posts
Recent Posts
Archive
Search By Tags
Follow Us
  • Facebook Basic Square
  • Google+ Basic Square
  • LinkedIn Social Icon

2frame Analytics - Todos os direitos reservados / All rights reserved -  2005-2020 - São Paulo - SP - BRASIL | Rochester - NY - USA