Faria, Brígida MónicaReis, Luís PauloMagalhães, Gustavo Manuel Pinto de2020-02-212022-09-302019-11http://hdl.handle.net/10400.22/15514A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.Text categorization is a supervised learning task which aims to assign labels to documents based on the predicted outcome suggested by a classifier trained on a set labeled documents. With the increase availability of text accompanying the evermore prevalent growth of the internet and online data, the ability to find patterns or extract valuable information from data is incrediblu powerful. In afct, the association of text classification to facilitate labeling reports and compalints in the economic and health related fields can have a tremendous impact in the speed at which these are processed, and therefore, lowering the required time to act upon complaints and reports. In this work we evaluate the classification performance of 9 algorithms at differente levels of the text classification flow: Preprocessing, word normalization, feature extration, feature selction, classifier´s hyper-parameter´s optimization and evaluation. These algorithms are: Complement Naive Bayes, Bernoulli Niave Bayes, Multinominal Naive Bayes, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector MAchine, AdaBoost and Logistic Regression. Our principle findgings reveal that we´ve achieved high levels of accuracy, roughly around 67% and 85%, in two datasets with different target labels. It was also observed that the linear classifiers ( support vector machine and logistic regression) llowed us to obtain higher f1-measure values than the other classifiers in addition to the high accuracy values revealed. Furthermore, some of documents that were misclassified were observed to lack the unique features on their representation was low in our data. this work allowed us to conclude that the use of these algoritms is more adequate for the data selected ant the applying text classification methods can facilitate and the help the denunciation and reports processing which, in turn, leads to a swifter action by authorities in charge. Thus, relying on text classification of reports and complaints can have a positive influene in either economic crime prevention or in public health, in this case, by means of food-relate inspections.engDenúnciasReclamaçãoClassificação de textoAprendizagem computacionalText classificationText classifiersComplaints classificationFeature selectionMachine learningEmploying text classification to facilitate economic and food safety law enforcingmaster thesis202445305