Projeto de Data Science: 5 fases para realizar o trabalho

10 de janeiro de 2022
fcnuvem
Tutoriais

Por minha experiência anterior, eu descreveria um projeto de Data Science, em termos de alocação de esforço, em 5 fases envolvidas para realizar o trabalho. A maior parte do esforço concentra-se nas fases iniciais. Esses percentuais podem variar, dependendo do caso.

1ª fase – cerca de 10% do esforço envolvendo o mapeamento das fontes de dados.

2ª fase – cerca de 60% do esforço com Data Quality, que envolve a limpeza e organização dos dados, para que possam ser padronizados e usados em algoritmos de Machine Learning.

3ª fase – modelagem propriamente dita, com cerca de 10% do esforço, que envolve entender bem as variáveis que afetam o problema a ser resolvido, a busca pela melhor solução possível e o desenvolvimento dos modelos de Machine Learning.

4ª fase – cerca de 15% do esforço com o processo de mineração de dados, governança de dados (exemplo, mitigação de viés nos resultados gerados) e melhoria dos algoritmos de Machine Learning, em um processo evolutivo.

5ª fase – os 5% restantes do esforço envolvem a parte de visualização de dados, geração de insights e Data Storytelling com apresentação dos resultados aos stakeholders e patrocinadores envolvidos, como Diretoria da empresa e clientes externos, por exemplo.

Obs .: A respeito da 2ª Fase de um projeto de Data Science, algumas fontes na Internet apontam que o percentual de esforço real pode chegar a 80% para a limpeza dos dados, mas como regra geral eu seria mais cauteloso com isso, devido aos avanços contínuos das novas tecnologias, no que diz respeito a automação de tarefas repetitivas usando inteligência artificial que pode ajudar a resolver diversos problemas nesta área.

fcnuvem

Outros posts