Instituir um time de Big Data no Luiza Labs (laboratório de desenvolvimento do Magazine Luiza) foi uma das decisões mais acertadas da gestão da empresa. Essa decisão foi tomada, segundo Gleicon Moraes, Gerente de Desenvolvimento Luiza Labs, por conta da necessidade de criar um repositório de dados (batizado de “DataLake” que pudesse crescer de acordo com a tecnologia para atender às demandas do Magazine Luiza.
“Guardamos os dados de busca do cliente e a partir disso fazemos as recomendações. Rodamos tudo na Amazon, com importação de dados da Amazon e os dados que não estão na Amazon vão para um repositório intermediário para depois ir para o DataLake”, explica Gleicon.
O DataLake é um repositório abastecido com fontes de dados novas diariamente que liga todos os dados do Magazine Luiza. Nele existem mais ou menos 200 milhões de linhas novas geradas por dia (log, Jason, etc), 6 nós: 56 cores + quase 460 GB RAM (AWS), 1200 jobs por dia e 400 MBdia transfer.
Conteúdo do DataLake:
- Clientes multicanal de e-commerce (quem são eles, quais são os dados e suas atualizações);
- Pedidos;
- Produtos;
- Reviews;
- Tabelas processadas de BI;
- Arquivos não estruturados;
O DataLake usa um grafo (veja mais aqui) com informações sobre a interação do cliente, coleta informações da navegação dos clientes do site do Magazine Luiza, dados de visualização de produtos, cálculo de frete, adições ao carrinho, compras, etc (são mais de 100 eventos coletados e guardados no DataLake).
Volume de informações no grafo:
- 40k visitantes únicos por dia;
- 300k interações com produtos por hora (5k por minuto);
- Informações salvas no formato grafo;
- 700 milhões de vértices;
- 2,8 bilhões de arestas;
- Cassandra + TitanDB + gremlin;
Recomendações da página de detalhes de produto:
- Resultados iniciais: 30% de incremento de vendas de AB testing
E-mails personalizados:
- Sugestões de produtos e ofertas baseados no comportamento do usuário e nos dados;
- Após a implantação resultados: abertura de 24%;
- Algumas e-mails com taxas de 35%;
- Conversão cinco vezes maior;
Busca:
- Coleta de todas as queries e resultados para o datalake (~1.8K queries por min)
- Criamos uma interface administrativa para edição de termos (corrigir erros de digitação automaticamente e fazer sugestão) – não são suficientes sozinhas
- Realtime top queries com mais resultados e top queries com resultado vazio (Intelie)
- AB com motores comerciais (por conta da nossa arquitetura não era possível)
- Busca de produtos – motores:
- Engines: SOLR e Elasticsearch
- Possibilidade comparar motores
- Problemas e antipatterns: Indexar a partir de um banco de dados, servir catálogo de produtos (dados voláteis como estoque, preço, etc), super customização (torcer o motor de busca que um catálogo deveria fazer) e por consequência nenhum motor de busca faz atualização em tempo real.
Leia mais sobre o DevCommerce