Muitas vezes falamos por aqui sobre as competências e as habilidades desejáveis para um cientista de dados, esse tipo de profissional que vem se consolidando no mercado de trabalho nos últimos anos é essencial para o sucesso de qualquer projeto sério envolvendo dados.
Por ser uma função relativamente nova nas empresas, ainda existem muitas dúvidas a respeito do perfil e do papel que o cientista de dados deve desempenhar. Aliás, já escrevi no passado sobre as diferenças que esse profissional tem de outras funções que também analisam dados, vale conferir aqui.
Recentemente, a Forbes publicou um artigo em que Simon Asplen-Taylor, Chief Data Officer (CDO) interino e fundador da empresa inglesa de data analytics advisory Datatick, compartilha quais são, em sua opinião, os principais atributos de um bom cientista de dados. E concordo muito com ele. Então, trago abaixo os pontos que ele abordou no artigo.
1 – Não existe homogeneidade
A primeira coisa que precisamos perceber é que o papel de um cientista de dados nunca é homogêneo. É preciso diferentes habilidades para diferentes tarefas em cada indústria e mercado regional.
2 – Dados têm a ver com negócios
A estratégia de dados de uma empresa tem que ser alinhada aos objetivos de negócios dela. Portanto, essa estratégia deve ser traçado por um CDO que tenha visão de negócios e que possa alinhar as capacidades dos dados a esses objetivos – aumentar faturamento, reduzir custos, aumentar a satisfação dos clientes e colaboradores etc.
3 – Caráter experimental
Para Simon, o trabalho de um cientista de dados é, por definição, experimental. Então, eles devem ter permissão para experimentar. Os resultados podem ou não ser bem sucedidos, mas, se você experimentar consistentemente nas áreas certas, encontrará valor. Ele acredita que os cientistas de dados devem “seguir” e não “liderar”.
Eles têm que receber um problema para consertar, o que significa que eles precisam que os analistas de negócios definam o problema e, depois da fase de experimentação, que alguém valide os resultados. Os profissionais de TI então colocam em produção e dão suporte aos modelos propostos e os documentam, o que é essencial do ponto de vista de privacidade de dados (garantindo a transparência).
4 – Jeito de cowboy
Os cientistas de dados chamam o processo de reunir os diferentes conjuntos de dados de “data wrangling”, em homenagem aos cowboys (wrangling significa algo como “juntar gado ao rebanho”). Os conjuntos de dados precisam ser construídos, automatizados e implantados em um ambiente no qual os cientistas de dados possam acessá-los.
A grande maioria das fontes de dados que têm capacidade de gerar valor nas empresas já existem dentro dos seus sistemas estruturados. Então, os cientistas de dados deveriam focar sua atenção primeiro em usar essas fontes. Conforme o trabalho vai amadurecendo, eles podem ir atrás de outros conjuntos de dados mais complicados. Mas não se deve começar por eles.
5 – O fator “governança”
Não é surpresa que governança e qualidade de dados estão entre os principais traços que um profissional da área deve ter. É uma espécie de disciplina complementar à ciência de dados. Uma empresa com um departamento desenvolvido de TI deveria ter também uma equipe separada de qualidade de dados, mas o cientista de dados deve saber quem eles são e quão competentemente eles serão capazes de agir.
“Não é mágica, é tudo processo”
6 – Processos presentes e claros
É preciso que haja um processo claro na ciência de dados para que as pessoas de negócios saibam como os projetos funcionam. Já existe um processo padrão na indústria – ele é chamado de ciclo de vida CRISP-DM (Chapman, Clinton, Kerber, et al, 1999). Ele foi estruturado primeiro para data mining, um dos aspectos da ciência de dados, mas pode ser aplicado a tudo. Assim, todo mundo sabe os estágios do ciclo de vida, as escalas de tempo e os recursos que podem ser aplicados. Não tem mágica, é tudo processo.
7 – Visão da empresa como um todo
Os cientistas de dados precisam trabalhar com uma arquitetura que considera toda a empresa. Se os cientistas de dados definem sua própria arquitetura e ela não está totalmente integrada com os negócios, então ela vai acabar duplicando muito do que já foi feito. Por isso, o time de engenharia de software (como programadores e desenvolvedores) deve construir rápido e automatizar, trabalhando bem próximo à equipe de ciência de dados.
Caso contrário, diz Simon, os cientistas de dados podem acabar indo pelo caminho mais fácil, competindo com as equipes já estabelecidas de Business Intelligence (BI), construindo seus próprios relatórios e dashboards e fazendo muito pouco no quesito ciência, efetivamente. As empresas já sabem como fazer BI e relatórios, e isso não é algo no qual os cientistas de dados devem se envolver.
Ainda estamos no começo
O que mais gosto deste artigo, e que poucos levam em consideração, é sobre a função em si de um cientista de dados, que é relativamente nova. Logo, não temos hoje no mercado profissionais com um volume de experiência muito grande, não como temos em diversas outras funções que existem a mais de 20/30 anos.
Portanto, precisamos ter muita cautela, cuidado e uma excelente gestão sobre esses profissionais que precisam de apoio, direcionamento, cuidado, tempo, para que possam se desenvolver e também fazer um bom trabalho, que de fato tenha um impacto positivo no negócio.
Não se contrata um cientista de dados e coloca ele para dar ROI em 2 ou 3 meses. Não é esse o caminho natural dessa disciplina. Mas muitas empresas ainda olham dessa forma. É um processo de médio e longo prazo, com resultados que podem sim ser exponenciais, mas precisam de tempo de maturação, assim como os profissionais a frente dessa função.