ISCAP – DM - Business Intelligence and Analytics
Permanent URI for this collection
Browse
Browsing ISCAP – DM - Business Intelligence and Analytics by Subject "Ciência de materiais"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Machine learning for single-modality and multi-modality data integration in the materials industryPublication . Costa, Vítor José Figueiredo; Ramos, Patrícia Alexandra Gregório; Oliveira, José Manuel SoaresEsta tese explora a aplicação de técnicas de aprendizagem automática para prever as propriedades dos materiais utilizando a integração de dados multimodais. O aparecimento de técnicas computacionais avançadas e a disponibilidade de grandes conjuntos de dados abriram novos caminhos para acelerar a descoberta de materiais utilizando modelos de previsão. No entanto, a previsão exata das propriedades dos materiais continua a ser um desafio complexo devido à natureza intrincada dos dados dos materiais. Os modelos de aprendizagem automática de modalidade única, embora eficazes para determinadas propriedades, não conseguem frequentemente captar toda a complexidade das caraterísticas dos materiais. Esta tese aborda esta limitação investigando o impacto da integração de dados multimodais, centrando-se especificamente na forma como as combinações de texto, imagem e dados tabulares melhoram a precisão da previsão das propriedades dos materiais. O estudo utiliza o conjunto de dados Alexandria, um recurso abrangente que oferece dados pormenorizados sobre as composições químicas e as propriedades de milhões de materiais. Um subconjunto de 1000 materiais deste conjunto de dados foi utilizado para construir um conjunto de dados multimodal que incorpora: composição química representada como uma sequência de elementos e as respetivas contagens de átomos (modalidade de texto); visualizações 2D da estrutura cristalina 3D de cada material, geradas com o Crystal Toolkit e captadas através de uma aplicação Web personalizada (modalidade de imagem); e embeddings estruturais de tamanho fixo gerados com a arquitetura PotNet, um modelo de rede neural gráfica concebido para captar interações atómicas complexas (modalidade tabular). O estudo utilizou o AutoGluon-Multimodal (AutoMM), uma estrutura de aprendizagem automática de máquinas, para treinar e avaliar modelos utilizando várias combinações de modalidades. O Erro Absoluto Médio (MAE) e o Erro Escalado Absoluto Médio (MASE) foram utilizados como métricas de avaliação. Os resultados demonstram que as abordagens multimodais, especialmente a combinação de dados de texto e imagem, superam consistentemente os modelos de modalidade única. Este facto realça a importância da integração de diversos tipos de dados para captar uma compreensão mais abrangente das propriedades dos materiais. Nomeadamente, a combinação de Texto e Imagem revelou-se particularmente eficaz na previsão de caraterísticas complexas como o intervalo de banda (Gap), que requer informações estruturais e de composição complexas. Por outro lado, os modelos de modalidade única, particularmente os que se baseiam apenas em dados tabulares, apresentaram a menor precisão na maioria das caraterísticas. Esta investigação fornece provas convincentes dos benefícios da integração de dados multimodais na previsão das propriedades dos materiais. Estabelece uma base para trabalhos futuros que explorem a incorporação de tipos de dados adicionais, o desenvolvimento de modelos mais avançados e a expansão de conjuntos de dados para melhorar ainda mais a precisão da previsão e acelerar a descoberta de novos materiais com as propriedades desejadas.