Revista de Engenharia da Computação e Tecnologia da Informação

Sistema de classificação de e-mail de spam da Random Forests

Khongbantabam Susila Devi

O e-mail é uma ferramenta de comunicação rápida e económica para os utilizadores. Por outro lado, o número de utilizadores de e-mail levou ao intenso crescimento de e-mails de spam nas últimas épocas. Este problema dos e-mails de spam é um dos riscos substanciais da Internet. A crescente quantidade de e-mails de spam traz a importância de filtros anti-spam fiáveis. Normalmente, os spammers enviam e-mails indesejados e não solicitados para vários destinatários e estes e-mails de spam são na sua maioria idênticos nas suas características. Por conseguinte, é essencial criar um sistema de defesa que encontre eficazmente os e-mails de spam e forneça um processo alternativo para o filtro independente. Assim, neste artigo é proposta uma nova estrutura para classificar o email em spam e spam utilizando a classificação de florestas aleatórias baseada em atributos. O processo inicia o cálculo da probabilidade de spam bayesiano para cada token, o esquema de ponderação TF-IDF calcula o peso de cada token e do e-mail, o cálculo da pontuação é realizado com base na aptidão genética e, por fim, o processo de classificação é feito usando classificador de florestas aleatórias para classificar os e-mails em e-mails de spam e spam Os resultados são comparados com os métodos de classificação de spam existentes em termos de precisão de classificação, precisão ponderada e medida F1. Os resultados mostram que o sistema proposto apresenta resultados promissores quando comparado com outros algoritmos existentes.

Isenção de responsabilidade: Este resumo foi traduzido usando ferramentas de inteligência artificial e ainda não foi revisado ou verificado