Machine Learning

O pipeline de Machine Learning é dividido em várias etapas. Para que não tenhamos sempre que reescrever este código, podemos automatizá-lo em um Pipeline no scikit-learn. Mas você sabe Quais são as diferenças entre fit, transform, fit_transform e predict no sklearn ? Se não sabe, venha descobrir aqui !

Se você receber alguns dados, como cientista de dados, você deveria ser capaz de fazer um pré-processamento e gerar um modelo. Mas como saber se o seu modelo é bom ? Por exemplo, se escolhermos a métrica errada, podemos achar que nosso modelo é muito bom, quando na verdade ele não é. Um dos problemas é quando ocorre o overfitting do modelo. Para explicar isso de forma simples, suponha que um aluno tenha decorado todos os exercícios que o professor deu, achando que eles irão cair na prova. Caso os exercícios realmente caiam na prova, o aluno vai se sair bem, pois decorou a todos. Mas, suponha que na prova tenham outros exercícios sobre a matéria que o aluno ainda não tinha visto. Ele é capaz de fazer a prova apenas com o que aprendeu em sala de aula e tirar uma boa nota. Mas, se ele não tirar uma boa nota, é sinal que ele não aprendeu nada, e apenas decorou os exercícios do livro. Isto é o chamado overfitting. Mas, Como podemos detectar se o modelo gerado tem overfitting ?