“Temos realizado um grande trabalho na Tail para diminuir armazenamento e reduzir o impacto da engenharia de dados. Caímos de 7 toneladas de CO2 para 4 toneladas de energia que usamos. Ou a absorvição de CO2 de 144 árvores por um ano. Além de fazer engenharia de dados, ajudamos o planeta”. A revelação foi de Fabiane Nardon, CTO da Tail Target, no palco Tecnologia durante o terceiro dia do Fórum E-Commerce Brasil 2023.

“Hoje, mais de 396 exabytes por mês transitam na internet. Lembrando que 1 exabyte é 1 bilhão de gigabytes. Somente na Tail são 4 bilhões de novos registros por dia. Há um ano eram 3,5 bilhões, e isso continua crescendo. Portanto é preciso falar sobre engenharia de dados”, analisa Fabiane.
A palestrante ressalta que muita gente fala sobre ciência de dados, que é trabalhar com big data + inteligência artificial + estatística, esquecendo que engenharia de dados é todo processo anterior que representa 90% do tempo desse processo. “Engenharia de dados é você armazenar, limpar e transformar como vai processar. Depois de tudo resolvido você vai fazer ciência de dados, e isso precisa ficar claro”.
Quanto mais tempo de processamento e mais espaço de armazenamento, mais custo vai ter, por isso a busca por reduzir tudo isso. Durante a palestra, Fabiane mostrou que um data center consome, em média, de 3 a 5 milhões de galões de água por dia, o que é equivalente a uma cidade de 30 a 50 mil habitantes.
O que “eu” posso fazer?
– Eficiência da linguagem de programação: da diferença no consumo dependendo a linguagem que você usa;
– Eficiência nos algoritmos e armazenamento de dados: é preciso ter repertório na engenharia de dados para resolver o problema. Bons exemplos de leitura de livros, como Designing Data-Intensive Applications (Martin Kleppmann) e Algorthms and Data Strutuctures for Massive Datasets.
Data Mesh
“Você vai ver que na medida que isso vai crescendo na empresa (slide acima), a área central vira um gargalo porque não consegue mais atender. Mas, como não ter uma área centralizada? Esse modelo de infra (slide abaixo) vai te dar todo ferramental, pois cada área faz seu processamento e compartilha o produto de dados, que está compartilhado. Engenharia de dados não é só armazenar, transformar e processar dados. É também usar inteligência para fazer tudo isso em menos tempo e com menos custo”, finaliza.