Acesso rápido

Guia de estatística — Regressão linear

por Juliana Sorrentino Sexta-feira, 19 de abril de 2019   Tempo de leitura: 8 minutos

A Regressão Linear é um modelo que tem por objetivo resumir o relacionamento entre duas ou mais variáveis por meio de uma linha, e assim usar o resultado da função dessa linha para estimar valores, quando conhecendo as variáveis que a afetam.

Fonte:http://recologia.com.br/2012/12/uma-primeira-olhada-em-estatistica-bayesiana-e-linguagem-bugs/

A variável que estaríamos tentando descobrir, o Y() da função, chamamos de variável dependente. E as variáveis que exercem influência sobre a dependente, chamamos de variáveis independentes.

Em que casos utilizar?

A definição de um Marketing Mix Model, uma estratégia para medir o impacto de diferentes estratégias de marketing no resultado de uma empresa, é um problema que pode ser resolvido através de regressão. Utilizando dados históricos de investimento em diversos canais e o resultado realizado no mesmo período, é possível prever o peso de cada um dos canais para o resultado final, além de estimar qual será o resultado futuro com base nas alterações de investimento planejadas.

Como fazer?

Antes de partir para a execução da regressão linear de fato, um passo essencial para o bom resultado do modelo é a seleção de variáveis que de fato exerçam impacto na variável que estamos tentando estimar. Normalmente criamos algumas hipóteses quanto aos fatos que acreditamos afetar o fenômeno que estamos tentando analisar, mas nem sempre estas hipóteses são confirmadas.

Neste momento é interessante fazer uma análise exploratória dos dados, e testar a correlação das variáveis independentes com a variável independente.

Uma vez definidas as variáveis, o próprio excel tem uma extensão que calcula a regressão linear a partir das variáveis imputadas. Quando estamos falando de big data, o excel normalmente não dá conta do processamento, e são mais indicadas ferramentas mais robustas, como R, Python ou SAS.

Se a sua base de dados ainda roda no excel, vamos deixar aqui um exemplo para começar a fazer regressões em um aplicativo que independe de programação e provavelmente você já possui. Deixo aqui alguns links com guias para fazer a mesma análise na linguagem R e Python, mas não é difícil achar na internet referências e outras formas de fazer a mesma análise.

No excel, para instalar a extensão de análises estatísticas:

1- Vá em Arquivo > Opções

2- Clique em Suplementos > Ir

3- Selecione Ferramentas de Análise e clique em OK

4- Vá na aba Dados e clique em Análise de Dados

5- Selecione Regressão e clique em OK

6- Selecione somente as colunas com as variáveis dependentes e independentes. Valores de datas podem ser desconsiderados.

Como ler os resultados?

A análise de regressão vai retornar uma tabela como a de baixo. Cheia de valores com nomes desconhecidos e confusos, mas não tenha medo! As variáveis que precisamos analisar para os problemas de marketing não são muitas, e são mais simples do que parecem. Vou listá-las e explicá-las abaixo:

R múltiplo: Mede a “força” ou “grau” de relacionamento linear entre a variável dependente e o conjunto das variáveis independentes. Ou seja, mede o quanto elas estão correlacionadas. Quanto maior o valor, melhor o modelo.

Mas cuidado com valores muito próximos de 1, pois pode ser um caso de Overfitting.

O Overfitting acontece quando um modelo se ajusta muito bem à base de treino, e então só funciona quando roda em cima da base que foi utilizada para sua construção. Quando chegam novos dados, o modelo não é capaz de prever o resultado neste novo cenário.

R-Quadrado: É o valor que representa quanto o seu modelo se ajusta aos dados da população. Neste caso, apenas 32% dos dados são representados pelo modelo. No caso abaixo, o R² da primeira imagem deve ser superior ao da segunda imagem.

Erro padrão: É a variação da média obtida pelo modelo em relação à média da população. Esse valor pode ser utilizado para calcular o intervalo de confiança do modelo. Ou seja, é esperado que o modelo erre em até 1.765 para mais ou para menos, com 95% de confiança.

Interseção: É o valor em que a curva cruza o eixo Y. Pode ser interpretado como o valor da variável dependente caso todas as outras variáveis sejam zeradas. No nosso universo, se estamos tentando estimar o valor de vendas com base em investimentos de mídia, a interseção seria o valor de vendas caso eu zerasse todo o investimento.

Coeficientes: São os valores que serão multiplicados pelas variáveis dependentes para obter o valor esperado da variável dependente. Em um exemplo simples, se um modelo de regressão linear simples tiver os valores Interseção = 2 e Coeficiente = 3, a função para obter a variável dependente será Y()= 2 + 3x. Ou seja, para cada unidade da variável x, a variável y vai ter um acréscimo de 3 unidades. Caso eu tenha x=2, o resultado será:

y= 2 + (3*2)

y= 8 .

Podemos considerar os coeficientes como pesos de cada uma das variáveis. A cada real investido em um canal de marketing, qual o retorno em vendas? Este parâmetro responde esta pergunta e no exemplo fictício acima, seriam 3 reais ganhos para cada real investido.

valor-P: É a probabilidade de que o valor apresentado seja igual a zero, dado um teste de hipótese. Este valor pode ser interpretado da seguinte forma:

Se o valor-P foi maior que 0,1 (com 90% de significância) ou maior que 0,05 (com 95% de significância) está comprovado que o valor do coeficiente ou interseção pode ser reduzido a zero. Ou seja, podemos desconsiderar a variável no modelo.

Após realizar a regressão pela primeira vez, devemos observar se o modelo retorna valores-P acima para alguma das variáveis. Se sim, devemos retirar a variável com maior valor-P e reprocessar a regressão, pois outras variáveis que estão com valores acima podem ter o valor-P melhorado sem uma variável que pode estar atrapalhando o modelo.

Este processo deve ser refeito até que todas as variáveis selecionadas estejam com valores-P válidos.

Caso o valor-P esteja alto para a Interseção, o modelo deve ser reprocessado com a opção “Constante é zero” selecionada.

PS: Como escolher o percentual de significância para o valor-P?

Depende do seu problema. Problemas médicos normalmente utilizam 99% pois tem uma tolerância praticamente nula para erro, embora ele deva existir quando falamos de estatística.

Problemas como pesquisas políticas que não podem tolerar muito erro, mas são menos críticas, utilizam 95%. Problemas de marketing podem utilizar 90%, pois a tolerância a erro é um pouco maior.

Agora que você já processou sua Regressão Linear até obter um modelo com bons valores R-múltiplo e valores-P para todas as variáveis, é só montar uma fórmula para obter os valores da variável dependente com base nas variáveis independentes.

Artigo republicado com autorização da autora. Texto original disponível aqui.

Você recomendaria esse artigo para um amigo?

Nunca

 

Com certeza

 

Deixe seu comentário

0 comentário

Comentários

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Comentando como Anônimo

This site uses Akismet to reduce spam. Learn how your comment data is processed.

  Assine nossa Newsletter

Fique por dentro de todas as novidades, eventos, cursos, conteúdos exclusivos e muito mais.

Obrigado!

Você está inscrito em nossa Newsletter. Enviaremos, periodicamente, novidades e conteúdos relevantes para o seu negócio.

Não se preocupe, também detestamos spam.