Dados são fundamentais no dia-a-dia das empresas. Eles são utilizados para praticamente toda e qualquer tomada de decisão que realizamos, da análise de risco financeiro na concessão de crédito até a avaliação da segurança ou estabilidade de um mercado como um todo.
Parte dessas informações as empresas possuem dentro de casa, seja em seus próprios sistemas ou no conhecimento acumulado de seus funcionários. Outra parte é importada do ambiente externo, por meio de processos de coleta ou da compra de informações de terceiros.
Existem diversas formas e categorizações que podemos utilizar para segmentar os dados, mas talvez a mais simples seja a separação entre dados principais e os alternativos. Os principais são aqueles que tratam exatamente do assunto analisado: se queremos estudar a economia de um país, dados principais seriam o valor do PIB e da inflação, por exemplo; na concessão de crédito, o score de crédito é o exemplo clássico do dado principal.
Dados alternativos, por outro lado, são os que, à primeira vista, não têm nenhuma (ou têm pouca) relação com o assunto estudado, mas que em uma análise mais profunda se revelam fortemente associados.
Podemos usar como exemplo a evolução do consumo de energia elétrica de uma família para a análise de crédito. O quanto se consome de energia pode não parecer se conectar com crédito; no entanto, quando descartamos a sazonalidade (tanto anual como de horário), o aumento do consumo está diretamente relacionado com dois fenômenos: o aumento da unidade familiar (um casal tendo filhos) e a compra de mais aparelhos eletroeletrônicos. Ambos impactam diretamente no risco de crédito de uma pessoa sendo analisada.
Enquanto os dados principais são óbvios, e de fácil aplicação na resolução de qualquer problema, trabalhar com os alternativos é mais complexo, pois exige um raciocínio sobre como esses dados podem ser aplicados ao problema em mãos, quais atributos derivados podem ser extraídos deles, e que tipo de vieses eles podem introduzir na análise.
A complexidade, no entanto, vale a pena. Modelos, estudos e análises baseados em dados alternativos são no geral mais completos e robustos do que os baseados apenas em dados principais, pois os primeiros capturam diversos aspectos das pessoas e dos fenômenos. São também menos sujeitos a manipulação e distorção, uma vez que o relacionamento entre os dados e o que está sendo medido não é direto.
É muito fácil para um governo manipular e falsificar dados oficiais de inflação, mas alguém que tenha acesso aos preços cobrados por produtos no mercado, ou ao saldo que sobra na conta corrente das famílias no final do mês, pode de forma muito fácil identificar essas manipulações e ter uma boa noção da realidade.
Durante muito tempo, conseguir dados alternativos foi difícil. Poucas informações eram públicas, e mesmo elas eram de difícil acesso, ou então não possuíam a granularidade necessária para se realizar estudos mais sofisticados.
Hoje, no entanto, isso não é mais uma realidade. Na internet, é possível se capturar praticamente qualquer tipo de informação: podemos ver as avaliações, reclamações e reviews de produtos que uma pessoa faz e usar isso como uma aproximação para o quanto ela compra. Podemos ver quantas vagas uma empresa está anunciando, e medir se ela está crescendo ou está estagnada.
As possibilidades são realmente infinitas, e esses novos dados, aliados às tecnologias e ferramentas de Big Data, já estão alterando a forma como as empresas se relacionam com seus clientes e entendem o mercado.