Abhya Tripathi
A sumarização de documentos é uma tarefa muito desafiante na mineração de texto. Resumir um documento grande em frases curtas e concisas, que é um subgrupo do texto inicial, é chamado de resumo extrativo. Existem várias aplicações de resumo de texto, mas aqui os artigos da CNN News são resumidos nas suas frases-chave. Neste projeto, é utilizado o algoritmo de modelação de tópicos Latent Dirichlet Allocation para gerar resumo extrativo de texto. É utilizado para captar tópicos importantes do texto e posteriormente, utilizando o mecanismo de ponderação de distribuição, as frases são pesquisadas no texto. O modelo tem um bom desempenho nos dados e procura o resumo da notícia. Isto ajuda a poupar tempo para ler textos ou documentos longos. O resumo do documento é um meio de derivar dados significativos e relevantes do documento e de formar informação abrangente e significativa. Neste projeto, é realizada uma sumarização extrativa de documentos de grande dimensão utilizando documentissegmentedinalistofsentences e aplicada ao algoritmo Latent Dirichlet Allocation (LDA) para extrair os principais tópicos. De seguida, utilizando a frequência das palavras destes tópicos nas frases, são extraídas as frases-chave com maior distribuição para resumir o texto. O relatório está estruturado abaixo nas secções seguintes. A Revisão da Literatura na Secção II que discute o trabalho de vários autores em sumarização de documentos e LDA. A Secção III especifica a metodologia real implementada utilizando o modelo LDA e inclui o processamento de dados. Os resultados empíricos em modelação de texto e sumarização de documentos são discutidos no segmento IV. Por fim, a Secção V apresenta a conclusão e o âmbito futuro. Resumir esta informação é de grande importância e necessidade. A sumarização de documentos transformou-se numa pesquisa significativa nas áreas de Processamento de Linguagem Natural (PLN) e Big Data. A sumarização extrativa utilizando o algoritmo LDA de modelação de tópicos gera com sucesso um resumo de frases importantes do documento original. Também fornece um bom nível de diversidade de tópicos. Mais tarde, poderemos querer investigar progressivamente os trabalhos alvo e melhorar ainda mais a geração de resumos e utilizar diversas técnicas de modelação de tópicos. Da mesma forma, pretendemos avaliar a nossa forma de lidar com vários dialectos. Existe um âmbito futuro de geração de resumos abstrativos que são mais humanos e exigirão ferramentas pesadas de aprendizagem automática para a geração de linguagem semântica.