Índice de Estabilidade Populacional e Monitoramento de Modelos

Lennon Jcruz
itau-data
Published in
7 min readSep 1, 2022

autores: Luciana Trento Raineri e Kelver

Quando um modelo é colocado em produção, sua performance e estabilidade podem ser afetadas com o passar do tempo. Vários fatores podem causar mudanças no comportamento do modelo e vão depender do fenômeno modelado. Podem ocorrer desvios nas distribuições dos dados de entrada (data drift), erros de ETL, ou até mesmo mudanças na relação estatística entre as variáveis de entrada e a variável resposta (concept drift)[1], entre outros.

Assim, monitorar regularmente o modelo em produção e estar preparado para atuar quando essas mudanças ocorrerem, é fundamental para ter confiabilidade e robustez nos resultados. O monitoramento do modelo deve fazer parte do ciclo de vida de um projeto de aprendizado de máquina (Figura 1).

Figura 1. Ciclo de vida de um projeto de aprendizado de máquina (Adaptada de [1]).

Monitoramento do modelo

O monitoramento de performance de um modelo pode ser feito com métricas comuns, como precisão, recall, F1-score, acurácia, MAE, etc.

Também é importante monitorar a estabilidade das variáveis explicativas e da variável alvo do modelo. Nesse caso, métricas comuns para detectar desvios na distribuição das features, são as geradas pelos testes estatísticos como Kolmogorov-Smirnov (KS)[2] e Qui-quadrado (X²)[3]. Em publicações futuras podemos trazer mais detalhes sobre esses testes.

Outra métrica utilizada para detectar desvios entre a população de modelagem e a população atual, é o Índice de estabilidade populacional (IEP), muito difundido nos processos de modelagem de crédito[4]. Assim como as métricas geradas pelos testes KS e X², o IEP pode ser utilizado para validar a integridade dos dados e identificar possíveis causas nas variações de performance do modelo. Uma grande vantagem do IEP é que ele é simples, de fácil entendimento e interpretação.

O foco desse artigo é estabelecer critérios que permitam o monitoramento de modelos abordando principalmente o IEP. No próximo tópico serão apresentados mais detalhes sobre essa métrica.

Índice de estabilidade populacional — IEP

Como dito anteriormente, o IEP é uma métrica utilizada para medir variações na distribuição de duas amostras/populações. Essa métrica consiste em uma medida simétrica da diferença entre duas distribuições de probabilidade de acordo com a divergência de Kullback-Leibler[5]. Ela é definida como[4]:

onde ri e mi são as porcentagens de observações na categoria i, nas amostras de interesse r e m. Em aprendizado de máquina, geralmente a amostra r se refere ao conjunto utilizado para treinamento do modelo, e a amostra m ao conjunto de teste. Vale observar que o IEP é definido no intervalo [0,+∞], diferentemente do KS e X², que são definidos no intervalo [0,1].

Na literatura, são considerados os seguintes limiares obtidos empiricamente[6]:

IEP < 0.1 : Desvio não significativo.

0.1 <= IEP < 0.25 : Desvio baixo, sinal de alerta.

IEP >=0.25 : Desvio significativo. Deve-se investigar a causa da divergência e recalibrar/retreinar o modelo, caso necessário.

Mais discussões sobre esses valores podem ser encontradas em [7].

Como exemplo, vamos considerar a UF como uma variável explicativa de um modelo de ciência de dados. A porcentagem de observações em cada estado nos conjuntos de treinamento (mi) e teste/validação (ri)) (out-of-time) pode ser vista na figura abaixo (por simplicidade, apenas alguns estados foram considerados).

Figura 2. Exemplo de mudança da distribuição variável UF (números fictícios).

Como pode ser visto, houve uma mudança significante do percentual de observações de algumas UFs. Isso pode ser constatado com o cálculo do IEP na tabela abaixo.

Tabela 1. Cálculo do IEP para o exemplo das UFs.

O IEP nesse caso é de 0,29 (maior que o limiar de 0,25) e indica, portanto, um desvio significativo da variável UF.

Todavia, se a variável for contínua, é necessário dividi-la em bins, contar o número de observações em cada bin e então calcular a sua respectiva porcentagem, como no exemplo abaixo, considerando distribuições geradas aleatoriamente.

Figura 3. Exemplo para variável contínua.

Vale destacar que o número de bins resultante da categorização escolhida impacta o valor calculado para o IEP. Quanto menor o número de bins, torna-se necessário perturbações cada vez maiores para que tenhamos uma sinalização de tal perturbação.

Nesse caso, escolheu-se o número de bins igual a 10, por ser um valor comumente utilizado na prática. Podemos também analisar o gráfico da Figura 4 quanto à evolução do IEP para escolher um valor de convergência (vale a ressalva de que esse valor de convergência pode ser alto, e um número grande de bins pode resultar em um critério excessivamente rigoroso).

Uma outra opção é gerar perturbações controladas e de interesse nos dados e avaliar o número de bins necessário para detectá-las.

Figura 4. Gráfico da evolução do IEP x Número de Bins.
Figura 5. Distribuição da variável contínua agrupada.
Tabela 2. Cálculo do IEP para o exemplo de variável contínua separada em bins.

O IEP nesse caso é de 0,83 (maior que o limiar de 0,25) e indica, portanto, um desvio significativo da variável, evidenciando o deslocamento da média da distribuição da variável aleatória em análise.

Exemplo Comparativo entre IEP, Qui-quadrado e KS

Suponha uma variável aleatória X que será monitorada em termos de sua estabilidade. Para efeito de exemplificação, serão gerados dados aleatórios de uma Distribuição Beta.

A Beta é definida no intervalo de [0, 1] e de acordo com a parametrização especificada (“a” e “b”) sua distribuição pode assumir diferentes formatos.

Agora, suponha que a distribuição de X no dataset de treino seja como a mostrada na Figura 6. Uma vez que o IEP requer dados de natureza categórica, é feito um agrupamento da nossa variável aleatória em intervalos de 0.1.

Figura 6. Exemplo de distribuição da variável aleatória X

Vamos comparar essa distribuição de referência com outras distribuições simuladas, como mostrado na figura abaixo.

Figura 7. Comparativos da distribuição da variável aleatória X de referência com outras distribuições simuladas.

No primeiro caso, onde os dados foram gerados de distribuições com mesmo parâmetro, os três testes (IEP, KS e X2) apontam para igualdade das distribuições, como era esperado.

No segundo caso, com uma alteração moderada no formato da distribuição, o IEP indica possível alteração, enquanto os demais testes foram mais rigorosos nessa mesma comparação.

Já no terceiro caso, todos os testes foram concordantes com relação a alteração na distribuição dos dados, o que de certa forma era esperado, dado que a parametrização adotada ocasionava em uma maior assimetria dos dados.

O tamanho da amostra também é um fator relevante, tendo em vista que em amostras pequenas as métricas calculadas estão mais sujeitas a variações amostrais. Na figura abaixo pode ser vista a comparação com tamanhos de amostras diferentes.

Figura 8. Comparativos da distribuição da variável aleatória X de referência com outras distribuições simuladas (variando apenas o tamanho da amostra).

Obs.: os exemplos com variáveis contínuas foram meramente ilustrativos e podem apresentar resultados diferentes dependendo da seed fixada para a geração dos números aleatórios.

Verifica-se que nesse exemplo, para dados obtidos com a mesma parametrização da distribuição de referência, no caso da amostra de 100 observações, o IEP sinaliza possíveis alterações nos dados, enquanto os testes Qui-quadrado e KS sinalizam divergência entre as distribuições. Todavia, para amostras maiores (n=1000 e n=10000), todos os testes são concordantes de que os novos dados são oriundos da mesma população.

Conclusões

· As métricas discutidas nesse artigo podem ser utilizadas para monitoramento de aplicações de ciência de dados. Elas ajudam a identificar mudanças nas distribuições dos dados preventivamente, sinalizando a necessidade de ajustes no modelo e evitando a utilização de resultados inconsistentes.

· O IEP é mais moderado do que o Qui-quadrado e o KS, o que pode ser útil em problemas sabiamente conhecidos nos quais há uma variação natural dos dados em decorrência de sazonalidades ou outros fatores. No exemplo da Figura 8, as distribuições têm a mesma parametrização, apenas o número de observações foi reduzido. Nesse caso, o IEP foi mais moderado em relação à conclusão, evitando falsos positivos em virtude de variações amostrais.

· As três métricas apresentadas neste artigo têm as suas particularidades, e podem ser utilizadas de forma conjunta na avaliação de fenômenos que possam alterar a distribuição dos dados.

Referências

[1] Burkov, A. (2020). Machine learning engineering (Vol. 1). True Positive Incorporated.

[2] Berger, V. W., & Zhou, Y. (2014). Kolmogorov–smirnov test: Overview. Wiley statsref: Statistics reference online.

[3] Pearson, Karl (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5. 50 (302): 157–175.

[4] SICSU, A. L. (2010). Credit Scoring. Desenvolvimento Implantação Acompanhamento. Blucher.

[5] Kullback, S., & Leibler, R. A. (1951). On Information and Sufficiency. The Annals of Mathematical Statistics, 22 (1), 79–86.

[6] Thomas, L. C., Edelman, D. B., & Crook, J. N. (2002). Credit Scoring and its Applications: SIAM monographs on mathematical modeling and computation. Philadelphia: University City Science Center, SIAM.

[7] Yurdakul, B. (2018). Statistical properties of population stability index. Western Michigan University.

--

--