Data Science em Python: Scikit Learn Cheat Sheet — Model Selection
Continuando nossa série de hands on em Python para Data Science, vamos verificar os itens relacionados a seleção de modelos de aprendizagem de máquina.
sklearn.model_selection.KFold: validador cruzado de k-fold
sklearn.model_selection.StratifiedKFold: validador cruzado estratificado de k-fold
“A validação cruzada é uma técnica para avaliar a capacidade de generalização de um modelo, a partir de um conjunto de dados [1]. Esta técnica é amplamente empregada em problemas onde o objetivo da modelagem é a predição. Busca-se então estimar o quão preciso é este modelo na prática, ou seja, o seu desempenho para um novo conjunto de dados.”
sklearn.model_selection.TimeSeriesSplit: validador cruzado de séries temporais.
sklearn.model_selection.train_test_split: Arrays ou matrizes divididos em subconjuntos aleatórios para testar e treinar os modelos.
sklearn.model_selection.GridSearchCV: Pesquisa exaustiva sobre valores de parâmetros especificados para um estimador. Os membros importantes estão aptos, prevêem. GridSearchCV implementa um “ajuste” e um método de “pontuação”. Ele também implementa “prever”, “predict_proba”, “decision_function”, “transform” e “inversor_transform” se eles forem implementados no estimador usado. Os parâmetros do estimador utilizados para aplicar esses métodos são otimizados por pesquisa de grade validada através de uma grade de parâmetros.
sklearn.model_selection.RandomizedSearchCV: Pesquisa aleatória em hiper
Parâmetros.
sklearn.model_selection.cross_val_score: Avalia uma pontuação por validação cruzada

