Imagine que você é dono de uma empresa e quer medir o grau de satisfação dos seus clientes nas redes sociais. Como filtrar rapidamente, entre milhares de publicações, os comentários positivos e negativos sobre sua marca? Uma técnica desenvolvida por um aluno de doutorado do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, promete facilitar esse trabalho.
O criador do modelo, Rafael Rossi, escreveu um artigo científico mostrando os resultados obtidos e foi um dos dois premiados na 16th International Conference on Intelligent Text Processing and Computational Linguistics, uma das principais conferências de linguística e mineração de textos do mundo, realizada em abril, no Egito. Foram 62 países participantes e 329 artigos enviados à conferência. Apenas 95 deles foram aceitos e destes, dois premiados.
Para identificar quantas pessoas estão elogiando ou criticando um produto em uma rede social, por exemplo, basta o empresário selecionar alguns comentários bons e outros ruins sobre sua empresa. Com a técnica criada por Rossi, é possível identificar os termos utilizados pelos usuários nesses comentários e classificar, automaticamente, todos os demais depoimentos em positivos ou negativos.
Para tornar essa classificação viável, o doutorando desenvolveu um algoritmo, uma sequência de comandos que é passada para o computador a fim de definir uma tarefa. Nesse caso, a tarefa é classificar textos baseando-se em uma rede de termos. Com esse algoritmo, é possível rotular e organizar uma grande quantidade de textos a partir de poucas unidades previamente classificadas. “Hoje em dia, com a grande quantidade de textos encontrados em diversos tipos de plataformas, é humanamente impossível organizar, processar e extrair conhecimento de todos eles”, conta o estudante, que é bolsista da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP).
Foco no que interessa – A grande quantidade de informações a que um leitor está exposto quando realiza uma simples pesquisa na internet muitas vezes atrapalha e desvia seu foco. O modelo proposto por Rossi contribui para agilizar e facilitar esse processo.
“O diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos”, explica a orientadora do projeto, Solange Rezende, do ICMC. A professora diz ainda que, dessa forma, o que não é de interesse do leitor é automaticamente descartado. No trabalho, Solange e Rossi contam ainda com o apoio do professor Alneu Lopes, também do ICMC.
Outra possível aplicação do método é na organização de uma biblioteca virtual. O algoritmo consegue identificar e organizar os gêneros de uma grande quantidade de livros através de termos retirados de alguns exemplares anteriormente classificados. Assim, a separação dos livros por temas é facilitada.
O doutorando, que recebeu o prêmio pelo artigo Term Network Approach for Transductive Classification, defenderá sua tese nos próximos meses no ICMC.
Texto: Henrique Fontes – Assessoria de Comunicação ICMC/USP