Member-only story
Modelagem Estatística — Guia Pragmático
Modelos Lineares — A base da ciência no século XX
Continuando Nossa série de posts de como interpretar algoritmos e previsões de Machine Learning.

- Parte 0 — O que é Ciência de Dados e o Cientista de dados
- Parte1 — Introdução a Interpretabilidade
- Parte 2 — (este post) Interpretando modelos de alto viés e baixa variância. Regressões Lineares.
- Parte 3 — Interpretando modelos de baixo viés e alta variância.
- Parte 4 — É possível resolver o trade-off entre viés e variância?
- Parte 5 — Métodos Locais de interpretabilidade.
- Parte 6 — Métodos Globais de interpretabilidade. Shapley Value e teoria dos jogos.
Nessa postagem focaremos na interpretação de modelos de alto viés e baixa variância, como explicamos na postagem anterior, esses algoritmos são os mais fáceis de interpretar para isso assumem diversos pré-requisitos nos dados. Vamos escolher as regressões Lineares para representar esse grupo de algoritmos. Se você não tem ideia do que são os Modelos Lineares, talvez vale a pena dar uma olhada no artigo Uma Breve História da Estatística.
Todos os códigos dessa postagem estão disponíveis no notebook do Kaggle.
O objetivo aqui não é explicar o que são ou como funcionam esses modelos lineares, mas como interpretar seus parâmetros e estimações, mas uma breve introdução pode ser útil.
Modelos Lineares podem ser regressões simples como OLS, pode ser Regressões com regularização como Lasso e Ridge, pode ser modelos para classificação como as Regressões Logísticas e até para séries de tempo como os filtros ARIMA. Todos eles têm em comum o fato de terem parâmetros lineares, ou seja, quando estimamos os “pesos” das variáveis elas são constantes para qualquer nível. Uma curiosidade é que uma rede neural também pode ser um modelo linear se suas camadas de ativação forem lineares (f(x)=x), e uma rede assim com apenas uma camada será semelhante à nossa regressão linear simples que usaremos aqui, mas incrivelmente menos eficiente.