Logo E-Commerce Brasil

Pesquisa desenvolvida na UFSCar desenvolve método de identificação de mensagens spams

Por: Alice Wakai

Jornalista, atuou como repórter no interior de São Paulo, redatora na Wirecard, editora do Portal E-Commerce Brasil e copywriter na HostGator. Atualmente é Analista de Marketing Sênior na B2W Marketplace.

Novo método possibilita a análise de conteúdos enviados por SMS, mas pode ser usado no Facebook, Youtube e Twitter, por exemplo

No dia 21 de outubro, o aluno do Programa de Pós-graduação em Ciência da Computação (PPGCC-So) do Campus Sorocaba da Universidade Federal de São Carlos (UFSCar) Tiago Pasqualini, e seu orientador Tiago Almeida, docente do Departamento de Computação (DComp) da UFSCar, receberam o prêmio de melhor artigo científico no Encontro Nacional de Inteligência Artificial e Computacional (ENIAC) 2014.

Do artigo intitulado “Normalização e Indexação Semântica Aplicadas na Filtragem de SMS Spam” também participam Igor Santos, da Universidade de Deusto (Madrid), e José Higalgo, da empresa de segurança em informática Optenet (Madrid).

O ENIAC foi realizado em São Carlos entre os dias 19 e 23 de Outubro como parte da Brazilian Conference on Intelligent System (BRACIS) 2014. O evento oferece um fórum para pesquisadores, profissionais, educadores e estudantes apresentarem e discutirem as inovações, tendências, experiências e evolução no campo de Inteligência Artificial.

O artigo é resultado da pesquisa de mestrado de Tiago Pasqualini que desenvolveu um sistema de normalização e expansão de textos com o intuito de melhorar o desempenho de métodos tradicionais de classificação de spams enviados via SMS. Ou seja, um novo método que realiza a filtragem e classificação de mensagens spams enviadas por SMS.

De acordo com o orientador da pesquisa, o professor Tiago Almeida, o novo método “pode aumentar a informação semântica das mensagens e, consequentemente, melhorar a qualidade dos resultados (permitir que os métodos disponíveis classifiquem mais mensagens corretamente como spam ou não-spam)”.

O dispositivo também pode ser aplicado em outras categorias de mensagens, o que reforça a relevância do trabalho. “Este resultado é importante porque o método criado pode ser utilizado em vários outros cenários onde existem mensagens curtas, como classificação de mensagens do Twitter, Facebook e outras redes sociais”, completa o autor do artigo, Tiago Pasqualini.

De acordo com relatório da empresa Portio Research, o faturamento mundial com SMS atingiu a marca de 128 bilhões de dólares em 2011, sendo que a receita estimada para 2016 é de mais de 153 bilhões de dólares. Diante desse crescimento o professor Tiago comenta que existem diversos métodos que realizam a filtragem e classificação de spams enviados por email, mas estes dispositivos não são muito eficazes na filtragem de SMS spam.”Isso ocorre devido ao tamanho limitado das mensagens, que possuem apenas 160 caracteres.

Além disso, tais mensagens são geralmente repletas de erros de digitação, gírias, símbolos, emoticons e abreviações, que tornam a tarefa de classificação muito mais difícil”, explica o docente.
A pesquisa foi desenvolvida no Laboratório de Sistemas Inteligentes e Distribuídos (LaSID) do Departamento de Computação (DComp) da UFSCar. “Foi uma surpresa positiva para todos nós. Não esperávamos essa distinção uma vez que trata-se de um dos maiores congressos nacionais de inteligência artificial.

Ao todo, concorríamos com outros 97 importantes trabalhos de pesquisa realizados em instituições renomadas de ensino e pesquisa do Brasil e do exterior”, comenta o orientador Tiago Almeida. Já o autor, Tiago Pasqualini, afirma que “foi o primeiro evento desse tipo que eu participei, portanto tudo foi novidade pra mim. É bem interessante porque é possível acompanhar tudo o que vem sendo feito na área e quais são as tendências”.

Além da ENIAC 2014, o laboratório já teve artigos premiados na edição de 2013, no “The 11st IEEE International Conference on Machine Learning and Applications” e no Prêmio Jabuti 2012, com o livro “Inteligência Artificial: Uma abordagem de aprendizado de máquina”.

Mais informações sobre o trabalhos realizados pelo LaSID podem ser obtidas no site do Departamento de Computação, em http://dcomp.sor.ufscar.br/lasid/.