Esse repositório contém todas as informações e diretrizes necessárias para que você possa realizar o nosso desafio, como parte integrante do nosso processo de avaliação dos potenciais candidatos as vagas de cientista de dados.
Sugerimos que você leia com bastante atenção todos as etapas, critérios e requisitos a serem cumpridos no desafio.
Avaliar de forma qualitativa quais são os seus pontos fortes e gaps no desenvolvimento de um projeto de dados do começo ao fim. O desafio tem o intuito de prover mais informações para o RH e os líderes da ihm stefanini sobre a experiência que você já tem na área.
O desafio se divide nas seguintes etapas:
- Recebimento do link de acesso ao repositório, com as instruções necessárias para sua realização
- Desenvolvimento da solução do desafio (analisar, explorar e modelar o problema)
- Criar uma apresentação em formato de slides
- Submeter o código e o arquivo da apresentação
- Informar pelos emails [email protected], [email protected] e [email protected] que você concluiu o desafio
- Iremos combinar uma data da sua apresentação (a ser realizada remotamente via Microsoft Teams)
- Realizar a apresentação final para os stakeholders da ihm stefanini
Atenção! Pois os critérios são bem mais voltados para as soft skills do que as hard skills. Além disso, iremos avaliar o "tamanho" do seu portfólio de experiências em projetos de desenvolvimento de modelos preditivos.
Iremos avaliar, principalmente, os seguintes pontos:
- Maturidade na codificação (organização do código, estilos e qualidade dos comentários)
- Maturidade no versionamento do seu código
- Nível de organização e sequência lógica de exploração dos dados
- Maturidade no correto entendimento dos conceitos fundamentais em ciência de dados e o julgamento apropriado de como você emprega as técnicas de exploração e modelagem de dados
- Skills de comunicação e apresentação (quando for apresentar o trabalho para os stakeholders)
- Tamanho e a qualidade do seu "repertório" em algoritmos de exploração de dados (data mining) bem como, na construção dos modelos (regressão, modelos de árvore, séries temporais, etc).
Desempenho do modelo
É isso mesmo que você está lendo! Parece contraintuitivo, mas não estamos preocupado em você conseguir fazer um super modelo com mega performance, até porque esse modelo não será colocado em produção, então, não há necessidade de se preocupar demais com isso e gastar todo o tempo do desafio com isso.
Mais importante do que o desempenho do modelo é a sua interpretação de seus resultados, bem como sua própria avaliação dos modelos desenvolvidos.
Para realizar o desafio, você precisa cumprir os seguintes requisitos:
- Linguagem de programação 100% Python
- Apresentação em formato de slides
- Escolha do git: github
- Baixar os dados pelo link enviado no seu email e que também estão contidos na seção 2.2
- Submeter via github a versão final do(s) seu(s) código(s) em formato *.py e/ou *.ipynb via github;
- Utilizar o git também para enviar o arquivo da sua apresentação;
- Prazo inicial de até 2 semanas, a contar a partir da data em que você recebeu o email de convocação para o desafio;
- A data final da apresentação será combinada via email com o time ihm stefanini.
- Pode usar Google, Kaggle, Stackoverflow à vontade, pois é assim que funciona na vida real! Não se esqueça, porém de atribuir os créditos de maneira justa quando o trabalho apresentado não for seu.
- Será permitido tirar dúvidas com as pessoas da ihm stefanini, apenas no que concerne ao entendimento da dinâmica do desafio. Não é permitido tirar dúvidas técnicas. O contato será via email, com [email protected], [email protected] e [email protected]
Nessa seção iremos trazer mais informações sobre o problema de negócio que você resolverá, os objetivos de negócio, bem como o que os tomadores de decisão estão esperando dessa solução.
Imagine que você trabalha numa empresa que fornece serviços de ciência de dados para indústria e que você é o principal cientista de dados desse time. Considere também que é a primeira vez que você e sua empresa estão encarando o desafio proposto por esse cliente.
Ou seja, você conhece pouco do processo produtivo dele, de como ele toma as decisões acerca do problema atualmente e tudo mais. Porém, por sua "sorte" o cliente é bem camarada e está topando um certo risco de o projeto dar errado, ou seja, você até não conseguir fazer um bom modelo, mas ele precisa acreditar que vale a pena explorar mais o problema e até mesmo explorar outras demandas caso essa não dê certo.
Pois então, veja que você tem a oportunidade em mãos de mostrar para esse cliente que a ciência de dados é potencialmente viável para o negócio dele.
Dito tudo isso, te damos uma dica: preocupe em avaliar bem os dados que você tem em mãos, explicar bem as escolhas das aplicações das técnicas de exploração dos dados e capriche numa apresentação impactante, de forma que o seu cliente, que é leigo, possa entender os gráficos e o contexto que você quer vender: há um bom potencial preditivo nesses dados!
Mais detalhes sobre o cliente: é uma mineradora e o seu cliente de contato direto, e quem está comprando o projeto piloto da sua empresa, tem uma leve noção de análise de dados.
O dataset do problema a ser analisado se encontra na plataforma Kaggle, nesse link.
Lá você já encontrará toda a explicação mínima necessária para executar o desafio.
Busque trazer diferenciais para o seu desafio:
- Formular suas hipóteses de exploração dos dados e documentá-las (livre escolha de onde achar melhor)
- Fazer a análise descritiva das séries temporais
- Descrever minimamente por que está técnica A ou B para explorar os dados. Exemplo, usei o PCA porque acredito ser interessante por causa de xxxx e esperava ver yyyyy
- Descreva porquê e como escolheu as features
- Comente porque está aplicando o modelo/algoritmo x e como está representando os dados para o modelo.
- Comente como chegou na performance final do modelo e porque acredita que há potencial de explorarmos mais esses dados?
Agradecemos o seu interesse de participar no desafio e qualquer dúvida, entre em contato pelo email com [email protected], [email protected] e [email protected]