Aprenda o que são Métodos de Estimação

Conheça algumas técnicas para ter um resultado mais preciso em suas amostras

Maria Helena
Data Hackers
6 min readJul 4, 2019

--

Credits: Tim Healey

Introdução

Todas as informações obtidas através de dados amostrais, ou seja, que não abrangem o todo da população de interesse, são baseadas em estimativas.

Por exemplo, não é possível calcular a média populacional da altura dos seres humanos adultos, já que seria necessário medir todos os adultos existentes. O que é possível é estimar essa média (parâmetro desconhecido) através de um Estimador (função) que gera uma estimativa (valor observado).

Toda estimativa possui um erro associado, uma variância relacionada à mudanças que podem ocorrer no valor da estimativa ao obtê-la a partir de amostras diferentes da mesma população.

Existem diferentes métodos que podem ser utilizados para estimar parâmetros desconhecidos. Vamos conhecer e comparar 2 deles, os mais comuns e implementados de alguma forma na maioria dos algoritmos.

Método de Mínimos Quadrados Ordinários

o Método de Mínimos Quadrados busca obter estimativas que minimizam a soma dos quadrados das distâncias entre os dados observados e a estimativa obtida.

Ou seja, se quisermos estimar a média de um conjunto de dados, devemos procurar o valor cuja soma dos quadrados das distâncias deste valor para todos os dados observados seja mínima.

Vamos definir a função que desejamos minimizar:

Em que X_i são os dados observados e X barra a média que procuramos.

Para minimizar essa função, precisamos derivá-la em relação à X barra e igualar o resultado a zero.

Expandindo o somatório, temos:

E derivando cada termo em relação a X barra:

Finalmente, igualando a expressão a zero:

Ou seja, encontramos a expressão para X barra que minimiza a soma dos quadrados das diferenças entre este valor e os valores observados. A expressão já conhecida da média amostral coincide com o estimador de
mínimos quadrados
para a média.

Método da Máxima Verossimilhança

A função de verossimilhança de um parâmetro θ é definida como a probabilidade de observação de uma amostra X, dados os vários valores possíveis de θ.

Ao procurar uma estimativa para o parâmetro θ, considerando a função de verossimilhança, nosso interesse está em encontrar o valor que maximiza a função, ou seja, o θ que fornece a maior probabilidade para o X observado.

Diferente do que acontece com o método dos Mínimos Quadrados, o método da Máxima Verossimilhança terá uma função diferente para cada situação, dependendo da distribuição de probabilidades atribuída ao fenômeno.

Vamos exemplificar com a distribuição Poisson, uma distribuição de probabilidades usualmente aplicada a contagens em intervalos contínuos. Por exemplo, o número de carros que passa por uma rua em determinado intervalo de tempo. Essa distribuição possui apenas um parâmetro, λ, que representa o valor esperado, ou o número médio real de carros que passa por essa rua a cada intervalo de tempo.

A expressão:

representa a probabilidade de passarem x carros pela rua em dado intervalo de tempo, considerando que a média real é igual a λ.

Para estimarmos λ pelo método da máxima verossimilhança, é preciso encontrar a função de verossimilhança associada. Considere X um vetor de observações amostrais do número de carros que passam pela rua. Para cada intervalo de tempo i temos um valor de x_i. A verossimilhança, como vimos anteriormente, é definida pela probabilidade de observação do vetor X, para os possíveis valores de λ.

Assumindo que o número de carros que passa pela rua no intervalo i é sempre independente dos demais, a probabilidade conjunta de cada observação do vetor X é, simplesmente, o produto das probabilidades de cada observação individualmente. Portanto, a função de verossimilhança L(λ;X) da Poisson fica dada por:

E o estimador de máxima verossimilhança é o valor de λ que maximiza o resultado dessa função.

O máximo da função pode ser encontrado da mesma forma que fizemos para o estimador de mínimos quadrados, derivando a função e igualando a zero. Algumas vezes, é preciso realizar esse processo numericamente, através
de algoritmos de aproximação como Newton-Raphson.

É comum, para facilitar os cálculos, aplicar o logaritmo na função, e utilizar a log-verossimilhança, representada por l(λ,X):

Derivando a função de log-verossimilhança:

E igualando o resultado a zero:

Ou seja, o estimador de máxima verossimilhança para λ também coincide com o estimador de média já conhecido, e com o estimador de mínimos quadrados.

Estimadores para a Distribuição Normal

Os métodos apresentados podem ser utilizados para estimar outros parâmetros, além da média. Por exemplo, em uma distribuição de dois parâmetros como a Normal, seria necessário estimar tanto a média como a
variância.
Novamente, os estimadores de mínimos quadrados e de máxima verossimilhança para a média da distribuição Normal coincidem e são iguais a Σx_i /n, mas nem sempre esses métodos terão resultados coincidentes.

Vamos encontrar o estimador de Máxima Verossimilhança para a variância de uma distribuição normal.

Primeiro, a função de verossimilhança, que corresponde ao produto da função densidade da distribuição:

Aplicando o logarítmo:

E igualando a zero, temos o estimador de máxima verossimilhança para a variância da distribuição normal:

Esse estimador é a razão para a maioria dos algoritmos de ajuste de modelos ter o método de mínimos quadrados implementado para a estimação dos parâmetros. O estimador de máxima verossimilhança para a variância é viesado, ou seja, sua esperança não é igual ao parâmetro.

O estimador usual que conhecemos:

é o estimador que resulta do método de mínimos quadrados ordinários. Este sim, possui esperança igual ao parâmetro.

Outros Métodos

Diferentes situações podem requerer outros métodos de estimação, que incluem:

Método de Momentos
Método da Máxima Verossimilhança Restrita
Método dos Mínimos Quadrados Ponderados
Método dos Mínimos Quadrados Generalizados
Método Bayesiano

A escolha do método deve se adequar à estrutura dos dados utilizados, levando em conta a homogeneidade de variância, quantidade e natureza das variáveis, etc. Além disso, quando mais de um método pode ser utilizado, como no exemplo da variância da distribuição normal, é interessante buscar um estimador não viesado e de variância mínima. No caso da distribuição Normal, o melhor estimador seria o de mínimos quadrados, que não possui viés.

A escolha ou implementação de um método de estimação diferente pode ser o motivo pelo qual resultados de um mesmo modelo mudam quando esse modelo é ajustado em softwares diferentes ou com funções diferentes de um mesmo software. É interessante saber qual método está implementado na função que você pretende utilizar, se ele é adequado para o tipo de dado que você tem, e como esses métodos podem ser estendidos para outras situações.

Muito obrigada pela leitura! Se você tem curiosidade sobre outros métodos de estimação, pode passar no meu linkedin ou deixar um comentário sugerindo uma nova postagem.

--

--