| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 6.95 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Mass drug administration is the process of distributing medication to people who are in areas
with risk of neglected tropical diseases. The monitoring of this process is supported by the
application of forms in the communities, which are then sent to the headquarters, where they
are manually entered into governmental health information systems. This dissertation aims at
finding a solution for automating the process, making it more efficient and less error-prone.
Optical Character Recognition (OCR) is a technology that converts different types of documents
into searchable data. By reviewing the literature, it is possible to conclude that the
application of OCR is feasible for accurate text extraction. The literature also suggests that
AWS Textract is the tool with higher accuracy when extracting handwritten text.
A system composed of a Backend, an Android Application and a Backoffice web application
was designed and implemented. This solution was evaluated with two experiments. Text
extraction tests were performed using 8 example test forms filled with fake data. Different
effectiveness metrics where calculated, resulting in mean values of 0.8%, 2.5% and 3.7%
for the Character Error Rate (CER), Word Error Rate (WER) and Field Error Rate (FER),
while a mean value of 96.2% was achieved for the Precision, Recall and F1 score. It was
possible to conclude that forms filled in English and forms filled with print handwriting style
had better accuracy than forms filled in Portuguese and forms filled with cursive handwriting
style, respectively. The other experiment performed was user testing, in which two testers
used official forms filled with fake data to test the application. The feedback was positive,
with some improvements being suggested, such as the order of the fields in the form response
details screen and the size of the numeric fields. A mean value of 7.9% incorrectly extracted
fields was achieved during the user testing.
A administra¸c˜ao massiva de medicamentos ´e o processo de distribui¸c˜ao de medicamentos a pessoas que se encontram em ´areas de risco para doen¸cas tropicais negligenciadas. O monitoramento desse processo ´e apoiado pela aplica¸c˜ao de formul´arios nas comunidades, que s˜ao depois enviados para a sede, onde s˜ao inseridos manualmente nos sistemas de informa¸c˜ao de sa´ude governamentais. Esta disserta¸c˜ao tem como objetivo encontrar uma solu¸c˜ao para automatizar o processo, tornando-o mais eficiente e menos propenso a erros. OCR ´e uma tecnologia que converte diferentes tipos de documentos em dados pesquis´aveis. Ao rever a literatura, ´e poss´ıvel concluir que a utiliza¸c˜ao de OCR ´e vi´avel para uma extra¸c˜ao de texto exata. A literatura tamb´em sugere que o AWS Textract ´e a ferramenta com maior exatid˜ao na extra¸c˜ao de texto manuscrito. Foi desenhado e implementado um sistema composto por um Backend, uma aplica¸c˜ao Android e uma aplica¸c˜ao web Backoffice. Esta solu¸c˜ao foi avaliada com dois ensaios. Foram realizados testes de extra¸c˜ao de texto com a utiliza¸c˜ao de 8 formul´arios de teste preenchidos com dados falsos. Foram calculadas diferentes m´etricas de efic´acia, resultando em valores m´edios de 0,8%, 2,5% e 3,7% para o CER, WER e FER, enquanto um valor m´edio de 96,2% foi alcan¸cado para a Precis˜ao, Recall e F1 Score. Foi poss´ıvel concluir que os formul´arios preenchidos em inglˆes e os formul´arios preenchidos com estilo de caligrafia impressa tiveram melhores resultados do que os formul´arios preenchidos em portuguˆes e os formul´arios preenchidos com estilo de caligrafia cursiva, respetivamente. O outro ensaio realizado foi o teste de usabilidade, no qual dois testadores utilizaram formul´arios oficiais preenchidos com dados falsos para testar a aplica¸c˜ao. O feedback foi positivo, com algumas melhorias sugeridas, tais como a ordem dos campos no ecr˜a de detalhes da resposta do formul´ario e o tamanho dos campos num´ericos. Foi alcan¸cado um valor m´edio de 7,9% de campos extra´ıdos incorretamente durante o teste de usabilidade.
A administra¸c˜ao massiva de medicamentos ´e o processo de distribui¸c˜ao de medicamentos a pessoas que se encontram em ´areas de risco para doen¸cas tropicais negligenciadas. O monitoramento desse processo ´e apoiado pela aplica¸c˜ao de formul´arios nas comunidades, que s˜ao depois enviados para a sede, onde s˜ao inseridos manualmente nos sistemas de informa¸c˜ao de sa´ude governamentais. Esta disserta¸c˜ao tem como objetivo encontrar uma solu¸c˜ao para automatizar o processo, tornando-o mais eficiente e menos propenso a erros. OCR ´e uma tecnologia que converte diferentes tipos de documentos em dados pesquis´aveis. Ao rever a literatura, ´e poss´ıvel concluir que a utiliza¸c˜ao de OCR ´e vi´avel para uma extra¸c˜ao de texto exata. A literatura tamb´em sugere que o AWS Textract ´e a ferramenta com maior exatid˜ao na extra¸c˜ao de texto manuscrito. Foi desenhado e implementado um sistema composto por um Backend, uma aplica¸c˜ao Android e uma aplica¸c˜ao web Backoffice. Esta solu¸c˜ao foi avaliada com dois ensaios. Foram realizados testes de extra¸c˜ao de texto com a utiliza¸c˜ao de 8 formul´arios de teste preenchidos com dados falsos. Foram calculadas diferentes m´etricas de efic´acia, resultando em valores m´edios de 0,8%, 2,5% e 3,7% para o CER, WER e FER, enquanto um valor m´edio de 96,2% foi alcan¸cado para a Precis˜ao, Recall e F1 Score. Foi poss´ıvel concluir que os formul´arios preenchidos em inglˆes e os formul´arios preenchidos com estilo de caligrafia impressa tiveram melhores resultados do que os formul´arios preenchidos em portuguˆes e os formul´arios preenchidos com estilo de caligrafia cursiva, respetivamente. O outro ensaio realizado foi o teste de usabilidade, no qual dois testadores utilizaram formul´arios oficiais preenchidos com dados falsos para testar a aplica¸c˜ao. O feedback foi positivo, com algumas melhorias sugeridas, tais como a ordem dos campos no ecr˜a de detalhes da resposta do formul´ario e o tamanho dos campos num´ericos. Foi alcan¸cado um valor m´edio de 7,9% de campos extra´ıdos incorretamente durante o teste de usabilidade.
Description
Keywords
Optical Character Recognition Text extraction Mass drug administration Android Backend
