Logo E-Commerce Brasil

Entendendo Big Data

Introdução

Obeservando o Mercado Digital ao longo do tempo sempre conseguimos identificar algum tema que se destaca frente aos demais. A própria linguagem de mercado os define como: trend, hot topics ou buzz word.

O processo que elege esses temas segue sempre uma mesma fórmula. Primeiramente gurus e evangelizadores de mercado propõem uma infinidade de buzz words, extraindo conteúdo desde estudos de vanguarda do MIT até romances de Isaac Asimov. Os termos que implacam são abraçados por Agências e Departamentos de Marketing de todos os tamanhos que os elevam aos mais diferentes status: meta para o ano, produto a ser vendido, temática de workshops e assim vai.

No entorno dessas ações existe toda uma comunidade que passa a discutir a nova tendência, amplificando sua relevância e tornando o tópico uma necessidade de mercado.

O conceito de ‘Big Data’ começou a ser discutido a cerca de 70 anos, a produção escrita da humanidade crescia a taxas exponenciais e o acesso à informação enfrentava grandes desafios devido ao seu volume. Essa discussão restringia-se ao universo da filosofia, já que a tecnologia da informação ainda estava em uma etapa embrionária.

O termo ‘Big Data’, no entanto, foi criado há 17 anos referindo-se à impossibilidade de armazenamento de grandes volumes de informação em data warehouses únicos, já que o armazenamento digital ainda não era tão eficiente como hoje em dia.

Em 2001, o problema de armazenamento já não era um grande fator limitante e grandes empresas ‘ponto com’ como Amazon, eBay e Walmart já acumulavam seus primeiros Petabytes de informação. Naquele ano, uma importante empresa de tecnologia (Gartner, na época Meta Group) definiu ‘Big Data’ pela primeira vez no formato que discutimos hoje em dia. Nos anos seguintes, a utilização do termo começou a se popularizar.

Foi em 2012 que Barak Obama desenvolveu a ‘Big Data Research and Development Initiative’, projeto que aplicava grandes quantidades de dados para soluções dos mais diversos problemas de seu governo. Também foi utilizando, no mesmo ano, inteligência de análise em ‘Big Data’ que Obama conseguiu se eleger para um segundo mandato.

Esses últimos eventos eram o que faltava para criar o novo trend. As buscas pelo termo ‘Big Data’ no Google triplicaram e no ano seguinte todos os evangelizadores falavam de ‘Big Data’, as empresas precisavam de ‘Big Data’ e as agências e consultorias o ofereciam como serviço em seus portfólios.

Definição

A definição mais aceita de ‘Big Data’ é aquela que a Gartner propôs, como sendo um conjunto de dados com o comportamento definido por Volume, Velocidade e Variedade (os três Vs).

Volume: gigas, teras, petabytes de informações são geradas por funcionários, clientes, forncedores e máquinas em qualquer empresa todos os dias. Essa é a dimensão mais imediata quando se pensa em ‘Big Data’ e traz desafios de armazenamento, transmissão e processamento ao mesmo tempo.

Velocidade: o volume de informação gerado é crescente e a janela de tempo para a tomada de decisão é cada vez menor. O desafio é conseguir atender as demandas esperadas de entrega de dados no tempo ideal. No limite, estamos falando de volumes imensos de dados alimentados em servidores em tempo real.

Variedade: os tipos de informação são mais complexos e diversos a cada dia: emails, posts, sons, vídeos, imagens, dados de GPS, páginas web, etc. O desafio é grande para armazená-los e muito maior para interpretá-los e analisá-los.

Na prática, ‘Big Data’ apenas define informações de uma natureza específica, ‘Big Data’ não fala sobre como utilizar essa informação, com que agilidade ela deve ser manipulada ou que tratamentos estatísticos ela deve receber. O termo define uma problemática, mas não uma solução. Por isso não faz sentido um projeto de ‘Big Data’, mas sim projetos que resolvam pontos específicos desse universo.

Para entender quais pontos são esses, vamos dividir o universo de uma forma mais estruturada.

Soluções de Big Data

Quando falamos de soluções de ‘Big Data’ normalmente pensamos apenas em tratamentos algorítmicos complexos, inteligência artificial e análises semânticas, mas nem sempre é esse o problema. ‘Big Data’ é a definição da complexidade de dados que você possui e, pela definição, poderíamos dizer que saber a receita hora a hora de uma grande franquia de supermercados se encaixaria diretamente nesse conceito.

Os problemas podem ser de diversas naturezas, mas o framework de soluções é bem conhecido: ETL de dados, procedimentos estatísticos e Relatórios e Visualização de Dados. Vamos discutí-los em maiores detalhes.

ETL (Extract-Transform-Load)

Este é o nome que se dá ao processo de extração e processamento de dados para disponibilizá-los para uma utilização final. O trabalho realizado nessa etapa varia muito de acordo com o volume e complexidade das fontes de dados: enquanto é muito direto armazenar IDs de Clientes ou Receitas de Transações, é muito dispendioso o armazenamento de textos de redes sociais ou chamadas telefônicas de SACs.

A variedade de dados é um problema enfrentado não apenas no armazenamento, mas também na sua aquisição. Quando temos muitas origens de dados diferentes precisamos, também, de um grande esforço de integração ou extração. Para bancos de dados locais podemos  fazer uma conexão diretas para análise, caso em que o limitante é essencialmente o volume. Mas frequentemente precisamos de informações de bancos de dados de terceiros e cada serviço diferente possui um protocolo de extração diferente. São os chamados webservices.

Para extrair dados de fontes como Google Analytics, Facebook, Twitter, ferramentas de Email Marketing e de alguns publicadores de conteúdo precisa-se programar um cliente que extraia dados via webservice de cada uma delas. Para várias dessas conexões é possível encontrar extratores já programados por empresas de intergração de dados, caso contrário o desenvolvimento do webservixce deverá entrar para a conta do ‘Big Data’.

Não apenas o volume e variedade são críticos no processo de ETL, mas também a velocidade de disponibilização do BD para utilização final. A arquitetura do Banco deve responder em tempo compatível com as demandas de consulta direta, demandas de relatórios e demandas de alimentação de processos estatísticos.

O ETL é periódico e a disponibilização depende de todas as variáveis de performance da infraestrutura. A pressão é cada vez maior para que os dados estejam disponíveis em real time, mas muitas decisões podem ser tomadas com dados em D-1 (atualizados até o dia anterior), a depender das necessidades de negócio do projeto.

Tratamento Algorítmico (estatístico ou matemático)

Uma vez que os dados já estão todos armazenados e disponíveis de forma adequada, passamos para a etapa de tratamento e enriquecimento.

A matéria de tratamento algorítmico abrange: criação de índices (como modelagem de LTV, Payback e Cohorts por cliente), aplicação estatística indutiva (análise de comportamento e clusters), modelagem preditiva (estimativa resultados futuros) e de algoritmos relativos a natureza de dados (processamento de imagens, análise semântica de textos, etc).

Esses processos têm grande dependência do resultado final que se deseja. Cada empresa possui uma necessidade e/ou uma capacidade técnica de aplicar alguns ou vários dos métodos citados.

As habilidades necessárias nessa etapa se dividem sobretudo entre conhecimentos de economia (econometria), computação, matemática e estatística. Como se pode imaginar é muito difícil que uma empresa possua uma equipe que domine todas essa técnicas, tanto mais difícil é encontrar um profissional que, sozinho, consiga resolver todas elas. O padrão no mercado é tercerizar projetos com empresas especializadas que já acumulam expertise nas soluções desejadas.

Vamos listar aqui algumas das técnicas mais procuradas hoje em dia para que se possa ter referência do que buscar:

– Análise Semântica: com a indiscutível relevância das redes sociais, a análise de posts, comentários e tweets desperta muito interesse nesse tópico. A idéia é indexar, segmentar e responder comentários das pessoas de acordo com o conteúdo de seus textos, mapear o humor dos clientes sobre uma marca e ser proativo em soluções de problemas.

No entanto é argumentável que a análise semântica, sobretudo em português, ainda não produz resultados inteiramente satisfatórios, sendo necessário intervenção humana para correção e garantia de qualidade.

Outro método amplamente praticado é a análise 100% humana dos textos, onde pessoas realizam uma leitura (parcial ou total) dos textos, mapeam o que se pretende mapear e fazem as devidas segmentações.

Ambos os casos entregam bons resultados, mas que podem não ser satisfatórios no pilar da velocidade.

– Análise Preditiva: Trata-se, por exemplo, de descobrir qual será o comportamento de vendas de um produto de acordo com suas características, ou a projeção de vendas de uma empresa de acordo com o histórico atual e indicadores-chave.

Existem métodos de aprendizagem de máquina (redes neurais) e outros algorítmos de inteligência artificial dão bons resultados para esse tipo de previsão, mas normalmente exigem um processamento pesado e, as vezes, não compatível com o contexto de ‘Big Data’.

Soluções alternativas para predição envolvem estatística preditiva (regressões lineares, quadráticas e exponenciais) que são simples e já ajudam a levantar previsões de resultados com margem de erro satisfatórias.

Um bom exemplo de aplicação dessas técnicas é para a análise de Lifetime Value de um cliente em 24 meses; a projeção é necessária, uma vez que o cliente ainda não realizou suas compras futuras.

– Análise de Cluster: Essa modalidade de análise guarda dois elementos de complexidade importantes.

Primeiramente existe vários métodos de clusterização (centróide, conectivo ou de densidade, para nomear alguns) que permitirão unir em um mesmo grupo jovens mulheres de São Paulo e homens de meia idade de Minas Gerais, de acordo com semelhantes padrões de comportamento. Esses métodos são ótimos para que se ofereçam ofertas adequadas para uma base de email marketing de acordo com seu padrão de compras, ou mesmo oferecer produtos matadores para clientes durante seu processo de navegação do site.

Novamente, existem empresas e ferramentas que já possuem bons cases de aplicação desse tipo de tecnologia no mercado.

O segundo ponto importante que a segmentação de cluster levanta: é possível ver o comportamento de um cluster e com poucos cliques passar a ver o comportamento de outro? Ou ainda, com mais alguns cliques construir seu próprio cluster cutomizado de análise?

Com esse questionamento, também pertinente a ‘Big Data’, passamos a discutir o último tópico desse artigo.

Relatórios e Visualização de Dados

Business Intelligence (BI) é um conjunto de teoria, metodologias, arquiteturas e tecnologias que conecta as bases de dados brutas aos usuários finais da informação, da forma que eles precisam. Há ferramentas desenvolvidas para atender necessidades de BI, bem como workframes de trabalho já consolidados e aplicados em todo o mundo. Vamos chamar essa ponte entre a extração e a leitura de dados de modelo de “BI Clássico”.

No ‘BI Clássico’ um dos pilares mais importante é como dispor a informação ao usuário final. Compilar informações de vendas ao longo dos meses é simples com um gráfico de barras; para adicionar na análise a categoria de produtos vendidos podemos utilizar um gráfico de bolhas; mas e se quisermos adicionar uma quarta dimensão? Ou uma quinta? Como manter a legibilidade e a aparência dos gráficos?

O conteúdo de um relatório é imprenscindível, mas a facilidade de compreensão desse conteúdo, mesmo para pessoas menos analíticas, é fundamental. Vários estudos se propõem a equacionar estética, simplicidade e legibilidade de informações para falicitar a rápida consulta e tomada de decisão. Essa é disciplina de BI conhecida como ‘Data Visualization’ e é estudada em universidades e empresas respeitadas que buscam criar e aprimorar formas de visualização de dados.

A ‘Data Visualization’ trata da democratização do entendimento dos dados presentes em relatórios, mas existe uma segunda necessidade de democratização importante em BI: a das criações de perguntas que serão respondidas nos relatórios.

Quem nunca viu um determinado relatório analítico e disse: ‘Interessante esse resultado, mas agora eu quero ver os mesmos números para São Paulo’. E a resposta ouvida foi: ‘Tudo bem, vou precisar de mais 5 dias para isso’.

Neste caso o analista de BI, ou mesmo alguém de TI, teria que voltar e alterar queries, reprocessar os dados e gerar o relatório todo novamente. A flexibilidade que o ‘Modelo Clássico’ permite não é compatível com as perguntas mais numerosas e complexas que precisam ser respondidas diariamente para manter as empresas competitivas.

A resposta para isso é o ‘BI em Memória’.

Para simplificar a distinção, imagine o ‘Modelo Clássico’ como um bibliotecário que sabe com precisão onde está armazenada cada informação em sua biblioteca, toda pergunta terá sua resposta, mas antes será necessário caminhar até a estante que contém a informação em questão, abrir um livro e consultá-lo. Já o “BI em Memória” é como se fosse um grande estudioso que sabe todas as informações sem precisar abrir nenhum livro para responder a uma pergunta, tudo está na ponta da língua.

Muito mais ágil e eficiente, esse modelo vem tomando espaço. Ele retira o time de TI e os analistas técnicos de BI de vários dos passos da geração do relatórios, dando poder ao usuário final de responder muitas de suas perguntas sozinho (chamamos isso de ‘Self-service BI’).

Os relatórios passam a ser um ambiente onde qualquer um pode perguntar o que deseja saber, alterar as visões variando regiões, cluster de usuários, criar cluster de acordo com a receita, analisar e segmentar times de venda por desempenho, etc. Com uma navegaçação mais ágil e ampla um grande universo de novas análises e descobertas ficam ao alcance de todos (chamamos isso de ‘Data Discovery’)

Para referência, os maiores representantes de ‘BI em Memória’ e ‘Data Discovery’ são as ferramentas QlikView e Tableau, mas outras gigantes ja estão se posicionando no segmento. Vale lembrar que essas ferramentas se posicionam na ponta final do que estamos entendendo como ‘Big Data’, mas nem elas são capazes de resolver todo o problema sozinhas. Importante lembrar que a ETL e análise estatística já devem estar bem resolvidas nos passos que antecedem o momento de Visualização da Informação.

Conclusão

‘Big Data’ tornou-se um buzz word bastante popular para o qual tentamos dar mais significado nesse texto. É uma questão multifacetada e ter necessidade de soluções de ‘Big Data’ significa entender com mais precisão em qual segmento você precisa de ações (ETL, estatística, visualização de informações, etc).

Buscar contratação de uma solução ‘Big data’ envolverá a equipe interna que já opera com os dados, mas certamente envolverá contratações de ferramentas e fornecedores serviço com know-how específico na solução que você precisa.

E ainda, solucionar um problema de ‘Big Data’ não significa solucionar os outros possíveis problemas do mesmo universo. Escopos bem definidos e uma boa gestão de projetos é indispensável para entender e atender toda as necessidades.

No entanto, um projeto de ‘Big Data’ tratará de um universo de informações nunca antes trabalhado com seu devido rigor, o que significa que o potencial de insights e otimização de negócios é gigantesca, e consequentemente a economia gerada e a lucratividade alcançada crescerá em igual proporção.