Browsing by Author "Alves, Alexandra Isabel Magalhães"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Modelo de representação de texto mais adequado à classificaçãoPublication . Alves, Alexandra Isabel Magalhães; Escudeiro, Nuno Filipe Fonseca VasconcelosA área de text mining, mais especificamente a classificação de texto, é alvo de muito trabalho e avanços nos últimos anos. Esta área tornou-se cada vez mais importante com a evolução da tecnologia e assume grande relevância na actual sociedade de informação. Um dos problemas ainda presente nesta área baseia-se na classificação de texto para categorias que representam conceitos muito próximos e difíceis de distinguir quando se considera o modelo tradicional do “saco de palavras” (bag-of-word). Estes problemas surgem sobretudo quando se classifica texto referente a um mesmo tema, como por exemplo: respostas em texto livre dadas por alunos ao responder a perguntas abertas, comentários a um mesmo filme, etc. Neste trabalho, é apresentado um estudo sobre todo o processo de classificação de texto que permite avaliar as tarefas e fases mais importantes para a definição de uma metodologia útil para o problema enunciado. A abordagem adoptada neste trabalho baseou-se na ideia de que os resultados da classificação podem melhorar caso se considerem representações de texto mais elaboradas que o simples modelo bag-of-words. Foram então criados diversos modelos de representação dos documentos - envolvendo os modelos de bag-of-words, NGrams e Pos-Tag - todos eles baseados em diversas combinações de tarefas de pré-processamento. Os classificadores usados para a classificação dos documentos foram o support vector machine e k-nearest neighbour. Por fim, para a avaliação da classificação foi aplicada a técnica de validação cruzada para reduzir a variabilidade das estimativas das medidas de desempenho analisadas (abrangência e precisão). Foi possível concluir que os modelos de representação que parecem mais adequados, para a resolução do problema proposto, são os modelos bag-of-words construídos com base em nomes. E, que os classificadores support vector machine apresentam melhor desempenho que o classificadores k-nearest neighbour.