Repository logo
 
Publication

Autoclipping

dc.contributor.advisorAlmeida, Ricardo Gabriel Soares Fernandes de
dc.contributor.authorOliveira, José Maria Paiva Jesus
dc.date.accessioned2021-02-08T15:45:19Z
dc.date.available2021-02-08T15:45:19Z
dc.date.issued2020
dc.description.abstractA monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos pode ser uma maneira muito eficiente de oferecer suporte ao recorte automático na web. Este documento apresenta soluções para a recolha automática de páginas web de seed websites de interesse para recolher notícias potencialmente interessantes para o boletim da European Association of ERASMUS Coordinators. O processo de recolha retorna dados não estruturados que são pré-processados para que possam ser explorados por técnicas de aprendizagem automática. Em particular, usaremos classificadores de texto para rotular notícias recentes sobre uma taxonomia que representa o tópico de interesse. O web crawling que faz a recolha de notícias também recolhe estatísticas sobre a qualidade das notícias extraídas de cada seed websites para que o modelo possa adaptar automaticamente a sua frequência de rastreamento para evitar o desperdício de recursos ao extrair dados de sites estáticos. A avaliação preliminar mostra que esse processo pode recolher notícias valiosas com uma redução significativa no tempo e no esforço exigidos do editor do boletim informativo.pt_PT
dc.description.abstractMonitoring the media with the purpose of compiling news about a certain topic, a process named clipping, demands for more and more resources as the amount of online information grows. Using machine learning solutions to assist the editors of thematic newsletters might be a very efficient way to support automatic clipping on the web. This document presents solutions for the automatic harvesting of web pages from seed websites of interest to gather potentially interesting news for the newsletter of the European Association of ERASMUS Coordinators. The harvesting process returns unstructured data that is pre-processed so it can be explored by machine learning techniques. In particular, we will use text classifiers to label fresh news on a taxonomy representing the topic of interest. The web crawler doing the news harvesting is also collecting statistics about the quality of the news extracted from each seed website so the model can automatically adapt its crawling frequency to avoid wasting resources retrieving data from static websites. The preliminary evaluation shows this process might collect valuable news with a significant reduction in the time and effort required from the newsletter editor.pt_PT
dc.identifier.tid202550419pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.22/16921
dc.language.isoporpt_PT
dc.subjectWeb Crawlingpt_PT
dc.subjectText Miningpt_PT
dc.subjectAprendizagem supervisionadapt_PT
dc.subjectClassificaçãopt_PT
dc.titleAutoclippingpt_PT
dc.title.alternativeAutoclipping: Automatic gathering of news for a specific topic taxonomypt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMestrado em Engenharia Informática - Sistemas de Informação e Conhecimentopt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
DM_JoseOliveira_2020_MEI.pdf
Size:
3.48 MB
Format:
Adobe Portable Document Format