Repository logo
 
No Thumbnail Available
Publication

Classificação multi-etiqueta hierárquica de textos segundo a taxonomia ACM

Use this identifier to reference this record.
Name:Description:Size:Format: 
DM_AntonioSantos_2008_MEI.pdf4.03 MBAdobe PDF Download

Abstract(s)

Muitos dos trabalhos de classificação existentes na literatura, envolvem a atribuição a cada instância (exemplo) de uma única classe, de entre um conjunto pré-definido de classes normalmente pequeno e organizado de forma plana. Porém, existem problemas de classificação mais complexos, em que a cada instância é possível atribuir mais do que uma classe, podendo as classes, estar organizadas numa estrutura hierárquica. Para estes problemas, existe um conjunto de abordagens para lidar com o facto de uma instância poder pertencer a mais do que uma classe (classificação multi-etiqueta). Existem também abordagens para lidar com a organização hierárquica das classes (classificação hierárquica). Esta dissertação, apresenta um estudo das abordagens e conceitos de classificação multi-etiqueta e hierárquica, aplicados à classificação de documentos de texto. Trata-se, portanto, de um problema de classificação, em que as instâncias são documentos de texto, que podem pertencer a mais do que uma classe e estas encontram-se organizadas hierarquicamente. Nos problemas de classificação de texto, uma fase importante, é o pré-processamento dos documentos. Um processo transformativo, aplicado normalmente para reduzir o número de termos de um documento, de forma a obter uma representação dos documentos, mais adequada para as fases seguintes. Nesta dissertação, são também estudadas as várias tarefas de pré-processamento que podem ser realizadas, como por exemplo, remoção de stopwords, stemming, esquemas de atribuição de pesos aos termos. No estudo experimental realizado, foi utilizado o esquema de classificação ACM (Computing Classification System), que define um conjunto de classes, organizadas hierarquicamente, nas áreas científicas no campo da computação. O estudo experimental realizado, consistiu no desenvolvimento de uma solução para automatizar a navegação e recolha de documentos classificados da biblioteca digital ACM, pré-processamento dos documentos, construção e aplicação de diferentes classificadores a documentos ainda não classificados e por fim a avaliação do seu desempenho de previsão. Foi proposta uma metodologia para classificação multi-etiqueta hierárquica que combina as abordagens usadas na classificação multi-etiqueta e na classificação hierárquica que se mostrou adequada para a resolução destes problemas.

Description

Mestrado em Engenharia Informática

Keywords

Classificação de texto multi-etiqueta hierárquico Medidas de avaliação Esquema de classificação ACM

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto

CC License