Logo E-Commerce Brasil

Tags: o DNA dos sistemas de recomendação

Por: Redação E-Commerce Brasil

Equipe de jornalismo E-Commerce Brasil

Geraldo Magela Souza – Especialista em sistemas de busca e gestão da informação, coordenador do projeto de Gestão do Conhecimento sobre e para as Micro e Pequenas Empresas no Sebrae Nacional.

Em setembro de 2009, Bob Bell, Martin Chabbert, Michael Jahrer, Yehuda Koren, Martin Piotte, Andreas Töscher e Chris Volinsky ganharam US$ 1 milhão da Netflix. O que eles tiveram de fazer para ganhar esse dinheirinho foi participar do concurso Netflix Prize, cujo desafio era melhorar, em no mínimo 10%, o sistema de recomendação da Netflix, o Cinematch.

Isso pode ter sido uma jogada de marketing para se posicionar frente aos concorrentes como Blockbuster e angariar novos e mais clientes, ou uma forma barata e efetiva de achar a melhor solução para melhorar o seu principal motor de vendas online, o Cinematch. Independentemente da resposta, Alex Iskold, em seu artigo The art, science and business of recommendation engines, publicado na ReadWriteWeb, diz que um bom sistema de recomendação não é bom apenas para o Netflix, mas para qualquer negócio online.

Desde que o mundo era apenas analógico, a busca por uma informação, como em uma biblioteca, acontecia e acontece basicamente de duas formas: o usuário vai direto ao catálogo de fichas ou “passeia” entre as estantes de livros procurando algo de forma aleatória. Hoje, na web (ou em um e-commerce), os métodos são os mesmos, mudam apenas as ferramentas. Quando o cliente já tem em mente o que realmente deseja, utiliza o buscador do site sem hesitar.

Mas quando o cliente deseja apenas navegar, sem uma intenção ou um desejo conscientes, a sua atenção e o seu dinheiro estão disponíveis para serem conquistados pela primeira e melhor recomendação. A grande dificuldade é o que recomendar sem antes conhecer os gostos, os desejos e as intenções do cliente em momentos e em contextos específicos. No mundo analógico das bibliotecas, tínhamos e ainda temos a(o) bibliotecária(o) de referência, que faz o papel da busca em sua terceira forma, além das duas acima citadas, de consultar um acervo. Esse profissional é quem “entrevista”o usuário – que não deseja pesquisar o catálogo de ficha e nem browsear entre as estantes – com o objetivo de localizar algo específico que procura e/ou recomendar, caso o usuário não saiba o que realmente busca.

Da biblioteca da cidade para o e-commerce

No site da Netflix, no da Amazon e em tantos outros, o sistema de recomendação é equivalente à(ao) nossa(o) bibliotecária(o) de referência. A grande questão é que um sistema de recomendação, às vezes, não tem informações sobre o cliente para que possa construir, por meio de um sistema de filtragem de informações, “predições” que possam atrair e conquistar a atenção e a preferência que um cliente daria a um produto como um filme, um livro ou uma música dentro um contexto específico. Por exemplo, as informações sobre o meu histórico de compras ou buscas na Amazon podem gerar recomendações “descontextualizadas” no momento em que eu desejar comprar um presente para a minha mãe.

Alex Iskold, ainda no mesmo artigo The art, science and business of recommendation engines, diz que esse problema é realmente difícil de ser resolvido, mas os incentivos para se solucionar isso são grandes. E são quatro as principais abordagens para se construírem recomendações:

Recomendação personalizada: recomenda coisas baseada no histórico de comportamento
Recomendação social: recomenda coisas baseada no histórico de comportamento de usuários parecidos
Recomendação de item: recomenda coisas baseada na própria coisa
• Uma combinação das três abordagens acima

Iskold faz uma descoberta interessante ao afirmar que a Amazon utiliza todas as abordagens. Eu chequei e vou mostrar cada uma delas. Ao pesquisar, selecionar e entrar na página de um produto, existe uma seção onde aparece a frequência com que ele foi comprado junto com outros produtos (frequently bought together). E logo abaixo são mostrados os itens que também foram comprados por vários outros clientes junto com o item selecionado (customers who bought this item also bough), onde a loja propõe a compra de outros produtos além do escolhido. E ela faz essa recomendação se baseando no argumento estatístico de que vários outros clientes fizeram o mesmo. Então, por que eu não deveria fazê-lo? Esse é um exemplo de Recomendação social e também de Recomendação personalizada, porque o sistema analisou as minhas preferências e adequou o serviço a elas.

Para as recomendações abaixo, New For You, classificadas como Recomendação de item, elas se referem a lançamentos cujos temas estão relacionados aos itens já comprados por mim.

Se eu clico em “Fix this recommendation”, que fica logo abaixo de cada livro recomendado (e eles também já usaram a pergunta “Why is this recommended for you?”), aparece em uma segunda janela o item comprado por mim no passado e que “inspirou” a atual recomendação. Essa recomendação também é classificada como Recomendação personalizada, porque o sistema se baseou nas informações sobre os produtos comprados e adequou a recomendação em função do meu histórico de compras.

Alex Iskold diz que o sistema de recomendação da Amazon é fenomenal e aparentemente imbatível. Mas, logo depois, afirma que não é impossível chegar nesse nível de sofisticação, pois existe uma alternativa-solução técnica que está relacionada a um assunto que, à primeira vista, não tem nada a ver com compras online: genética. Sim, genética, a ciência dos genes que investiga a forma como se transmitem as características biológicas entre as gerações. Naturalmente, Iskold se refere à transposição de alguns conceitos da genética para o mundo web.

O que biologia e e-commerce têm em comum

Essa ideia incrível nasceu dentro do projeto Music Genome Project, liderado por Will Glaster e Tim Westergren, em 1999. Em 2000, ambos juntaram forças com Jon Kraft e fundaram a Pandora Media. O projeto significou a codificação de cinco “genomas”: Pop/Rock, Hip-Hop/Eletronica, Jazz, World Music e a música Clássica. Uma música é representada por uma lista de atributos que chega a um número de 400 “genes”. Esse número pode variar conforme o genoma: Rock & Pop, por exemplo, possui apenas 150 genes. E cada gene corresponde a uma característica da música, como sexo do vocalista, nível de distorção da guitarra etc.

Resumo da opereta: dado o vetor de uma ou mais músicas, uma lista de várias outras similares é compilada e sugerida para o cliente. Essa abordagem é classificada como Recomendação de item, porque se baseia nos atributos do próprio item. Hoje, essa tecnologia é utilizada pela Pandora, tornando-a um dos sites mais divertidos e mais assertivos quando o tema é música e sistema de recomendação. Infelizmente, por questões de licenciamento, o site não está mais disponível para acessos identificados como sendo de fora dos Estados Unidos.

No meio do seu artigo, Alex Iskold questiona qual seria o gene para outras classes de objetos, como livros, filmes, vinhos, restaurantes ou destinos turísticos. Se nos genes estão contidos os atributos de um objeto, quais seriam os “genes” de um livro? Iskold diz que são as tags! Ou seja, as palavras-chave atribuídas aos objetos. A partir desse ponto, acrescento que essas palavras-chave, ou tags, representam conceitos que, isoladamente ou no seu conjunto, descrevem, detalhadamente, os atributos de um livro, uma música, um vinho ou qualquer outro objeto, físico ou digital.

A criação de tags e a indexação de objetos como um livro ou uma foto com tags é chamada de folksonomy ou folksonomia, expressão criada por Thomas Wander Wal por meio da junção de folk + taxonomy. Sites dedicados ao social bookmark (serviço de armazenamento e compartilhamento de links de web sites favoritos), como o Del.icio.us, e ao de armazenamento e compartilhamento de fotografias, como Flickr, já nasceram com essa proposta, que é encorajar os seus usuários a indexarem objetos com as suas próprias tags. A principal premissa da folcsonomia é que o usuário tem a total liberdade de usar ou criar as tags que façam, para ele e para os outros, mais sentido.

Essa forma de indexação livre é bastante atraente, pois é muito simples e fácil de ser feita, já que não possui muitas regras, nem muitas exceções, e não exige dos usuários conhecimentos sobre o processo de indexação que é tradicionalmente praticado, tal como o conhecemos hoje, desde 1950 por especialistas como os bibliotecários. Em 2011, o Del.icio.us evoluiu para um modelo de organização e relacionamento entre links de webpages que abordam um mesmo tema, formando os chamados stacks. Cada stack deve ter, no mínimo, três links, e são os próprios usuários que criam os stacks. Esse novo modelo já consolidou o Del.icio.us como maior e mais utilizado sistema de recomendação de webpages.

A folksonomia se tornou em uma ideia-força que hoje está presente até no site da Amazon, onde cada produto tem uma seção dedicada chamada Tags Customers Associate with This Product. Nela, o cliente pode, de forma colaborativa, participar da votação de tags já existentes, bem como fazer a sugestão de novas tags que descrevam melhor os atributos de um produto ou que representam resumidamente o conteúdo intelectual de um livro.

Então as tags e a folksonomia são a solução para todos os problemas? A resposta é não.

O usuário é o melhor sistema de recomendação

Sistemas de “tagueamento”, como a folksonomia, apresentam duas desvantagens que são próprias da linguagem natural, ou seja, a linguagem que utilizamos no dia-a-dia. Sem um controle dos vocábulos, os usuários podem criar vários termos para o mesmo conceito: por exemplo, para o termo New York City, o usuário pode criar tags como NYC, Newyork ou Newyourkcity. A segunda desvantagem é quando palavras homógrafas representam conceitos diferentes. Para entender mais sobre esse tema, leia o artigo “Ecommerce 3.0: novos paradigmas e novos desafios impostos pela web do futuro – a Websemântica”, que foi publicado na revista de fevereiro e está disponível online em http://bit.ly/wFRywP.

Por outro lado, a indexação com o uso de um vocabulário controlado (VC), ao contrário da folksonomia, não permite que o próprio usuário escreva ou crie as palavras-chave de forma “descontrolada”, pois elas devem ser selecionadas a partir de uma lista pré-definida e composta apenas por tags autorizadas. Nessa medida, o VC faz um contraponto com a folksonomia, porque esta usa a linguagem natural, e o VC usa um vocabulário que busca “controlar” as ambiguidades.

Enquanto o VC nos “lembra” e nos “impõe” o uso de apenas um, de dois ou mais termos sinônimos e nos permite identificar a distinção conceitual entre palavras homógrafas, na folksonomia é o usuário quem cria livremente as suas tags preferidas. Assim, se a indexação ou “tagueamento” é feito a partir da linguagem natural do usuário, a comunicação está sujeita a “ruídos” que podem tornar ambíguo o conceito representado pelos “genes” ou tags. Aí, nesse momento, começam a surgir as imprecisões ou mal entendidos, sejam entre humanos ou entre homens e máquinas.

Quanto mais coerentes as relações semânticas entre as tags ou conceitos, mais assertivas serão as recomendações ou buscas que se baseiam nesses “genes”. Uma abordagem que é híbrida, e que já é adotada pela Amazon, combina a liberdade de criação de tags com um processo de moderação que impõe ao cliente algumas regras, ou seja, são disponibilizadas funcionalidades que o permite organizar os produtos da loja à sua própria maneira, por meio das tags, bem como fazer buscas por produtos tagueados por outros clientes e até usar as tags para agrupar e comparar lado-a-lado produtos que considera comprar. Mas tudo isso de forma “supervisionada”, para garantir a qualidade das tags e dos serviços que delas dependem.

A Amazon não organizou um concurso de US$ 1 milhão, mas disponibiliza uma série de ferramentas sociais que viabilizam o trabalho que é pago através da troca de diferentes satisfações e necessidades pessoais. E são essas satisfações e necessidades sociais que despertam a motivação intrínseca de cada pessoa de uma horda de clientes para comentar a performance e as funcionalidades uma câmera fotográfica, a votar com estrelinhas em um livro que de gostou ou odiou, a sugerir novas tags e a votar nas tags existentes de um produto que comprou ou que deseja comprar. E, isso, US$ 1 milhão não paga… ou melhor, as lojas online é que ganham milhões.

***

Artigo publicado na Revista E-Commerce Brasil, edição 08.
Todos os direitos reservados. Não é permitida a publicação parcial ou total.