Porto Seguro Data Challenge 2021

Emerson Aguiar
Porto
Published in
5 min readNov 3, 2021

Tudo o que rolou e algumas análises da segunda edição do desafio da Porto Seguro no Kaggle

Na segunda edição da competição na Kaggle, a Porto Seguro desafiou profissionais e entusiastas de ciência de dados a construir um modelo que prediz a probabilidade de aquisição de um produto.

A base com informações reais, porém anonimizadas, tem como unidade amostral indivíduos que receberam ligações de telemarketing. A variável resposta indica se o indivíduo fechou ou não negócio e as variáveis explicativas indicam as características relevantes do evento.

Motivação do problema: Você provavelmente já recebeu uma ligação de telemarketing oferecendo um produto que você não precisa. Essa situação de estresse é minimizada quando você oferece um produto que o cliente realmente precisa.

A Porto Seguro usa Aprendizado de Máquina há mais de 20 anos, então resolver o problema não era o nosso objetivo. Nossas motivações como empresa eram, na verdade:

  1. nos aproximar dos profissionais e estudantes da área;
  2. apoiar a ampliação dos horizontes científicos dos participantes;
  3. dar visibilidade as melhores práticas na utilização de algoritmos já conhecidos.

Etapa 1 — A competição na Kaggle

A competição aconteceu entre os dias 2 de agosto e 4 de outubro de 2021 na Kaggle. Nesse período, 204 competidores divididos em 174 times submeteram 3.123 soluções ao desafio.

Uma novidade da competição foi a distinção de divisões. Adicionamos uma divisão chamada Universitária, onde apenas indivíduos devidamente matriculados em cursos de graduação e pós-graduação de instituições de ensino superior poderiam competir. Os demais indivíduos participaram da competição na divisão Público Geral. A distribuição dos competidores nas divisões foi de 34% Universitária e 66% Público geral.

Figura 1 — Distribuição das divisões da competição

O público universitário foi majoritariamente de graduandos, porém percebemos um grande interesse de alunos de curso stricto sensu. O interesse de alunos de mestrado e doutorado reflete o próprio mercado que tem abraçado esses profissionais, uma vez que análise e modelagem fazem parte do escopo do estudo de boa parte das teses e dissertações de exatas. No meu time, na Porto Seguro, por exemplo, 55% dos indivíduos possuem diplomas de mestrado e/ou doutorado.

Figura 2 — Distribuição do nível acadêmico da divisão universitária

A área de conhecimento acadêmico com mais representatividade está ligada à computação (ciência da computação, engenharia de computação e tecnologia da informação), seguido, não tão de perto, por estatística. Esse resultado já era esperado dada a relação desses cursos com disciplinas de machine learning e inteligência artifical.

Figura 3— Distribuição das áreas acadêmicas da divisão universitária

O principal motivo de criar as duas divisões foi para impedir que a presença de kagglers experientes intimidasse estudantes na competição. Ao avaliarmos o número de submissões por categorias, percebemos que para que esse objetivo seja mais efetivo, nas próximas edições será preciso dar visibilidade aos rankings das divisões. Em média os participantes do público geral submeteram 40% mais soluções. Essa relação cresce conforme chegamos aos decis mais altos (Figura 4). A falta de visibilidade das divisões no Public Leaderboard pode ter desistimulado os universitários a continuarem submetendo soluções.

Figura 4 — Distribuição do número de submissões por divisão

Em relação ao resultado do F1-Score noPrivate Leaderboard (Figura 5), os resultados do Público Geral têm menos amplitude e também atingem valores maiores. Analisando apenas a curva dos Universitários, percebemos que existe pouca diferença entre os scores a partir do terceiro quartil (Q3). Isso mostra que a diferença para decidir os campeões pode ser mínima e reforça o quanto a experiência é determinante.

Existe uma diferença entre as divisões que se reduz até o terceiro quartil (Q3), mas que volta a crescer em seguida, porém com menor intensidade próximo ao decil 95 (Figura 5). A intensidade da diferença é causada pela inclinação no limite à direita da curva da categoria Público Geral causada pelos os vencedores. Isso que mostra o impacto de kagglers experientes na competição.

Figura 5 — Distribuição do F1-Score no ranking privado para cada uma das divisões

A colocação final de um participante no desafio está inversamente relacionada ao número de entradas dos competidores. Ou seja, os primeiros colocados na competição publicaram mais soluções que os últimos colocados. Essa relação é persistente para ambas as divisões.

Figura 6 — Relação entre a colocação no private leaderboard e o número de submissões na competição para cada uma das divisões

Considerando a capacidade de generalização das soluções finais. De forma geral, os competidores da divisão Público Geral conseguiram criar algoritmos que conseguem generalizar mais que os competidores da divisão público Universitário. Porém, para os melhores colocados no ranking final, não há diferença perceptível.

Figura 7 — Distribuição da variação percentual do f1-score nos rankings privado e público do desafio para cada uma das divisões

Por curiosidade, no questionário de inscrição perguntamos como a notícia do desafio chegou aos indivíduos. Percebemos que o contato direto, seja ele por e-mail ou aplicativo de mensagens, e o LinkedIn são os meios mais efetivos de divulgação para este tipo de desafio.

Figura 8 — Distribuição de como foi a chegada dos competidores

Fase 2 — Apresentações e resultado

Depois de 2 meses de estudo e codificação, os finalistas de cada uma das divisões foram convidados para apresentarem os seus respectivos trabalhos para um time de profissionais da Porto Seguro. Afinal de contas, a comunidade de ciência de dados é conhecida pelo seu genuíno interesse em compartilhar.

Além disso, essa etapa era uma oportunidade para profissionais menos experientes e universitários entenderem como são as discussões técnicas sobre modelos numa área de ciência de dados.

Antes do fim… Mais uma vez, gostaríamos de agradecer a todos que despenderam algumas horas nesse desafio e de parabenizar os vencedores!

Ladies and Gentleman It’s TIIIIIIIIME!!!! 🔊

A seguir apresentamos os grandes vencedores do Porto Seguro Data Challenge 2021 para as divisões Público Geral e Universitária.

Figura 9 — Vencedores das categorias Público Geral e Universitária

Você pode acessar o ranking completo da competição neste link. Porém, se você participou do desafio na categoria Universitária, acho que você está curioso para saber o ranking desta categoria (confira na figura 10).

Figura 10 — Ranking final da categoria Universitária

Nos vemos em 2022!

Agradecimentos

Ao João Guilherme Araújo, Luiz Eduardo Estanislau do Amaral e Michele Sene pela parceria no desenvolvimento e condução do evento; e a Fernanda Ribeiro e Barbara Venegas pelas dicas e correções no texto!

--

--

Emerson Aguiar
Porto
Writer for

Engenheiro de Produção, Mestre em Pesquisa Operacional e Cientista de Dados na Porto Seguro