Name: | Description: | Size: | Format: | |
---|---|---|---|---|
1.82 MB | Adobe PDF |
Authors
Abstract(s)
Esta tese explora a aplicação de técnicas de aprendizagem automática para prever as propriedades dos materiais utilizando a integração de dados multimodais. O aparecimento de técnicas computacionais avançadas e a disponibilidade de grandes conjuntos de dados abriram novos caminhos para acelerar a descoberta de materiais utilizando modelos de previsão. No entanto, a previsão exata das propriedades dos materiais continua a ser um desafio complexo devido à natureza intrincada dos dados dos materiais. Os modelos de aprendizagem automática de modalidade única, embora eficazes para determinadas propriedades, não conseguem frequentemente captar toda a complexidade das caraterísticas dos materiais.
Esta tese aborda esta limitação investigando o impacto da integração de dados multimodais, centrando-se especificamente na forma como as combinações de texto, imagem e dados tabulares melhoram a precisão da previsão das propriedades dos materiais. O estudo utiliza o conjunto de dados Alexandria, um recurso abrangente que oferece dados pormenorizados sobre as composições químicas e as propriedades de milhões de materiais. Um subconjunto de 1000 materiais deste conjunto de dados foi utilizado para construir um conjunto de dados multimodal que incorpora: composição química representada como uma sequência de elementos e as respetivas contagens de átomos (modalidade de texto); visualizações 2D da estrutura cristalina 3D de cada material, geradas com o Crystal Toolkit e captadas através de uma aplicação Web personalizada (modalidade de imagem); e embeddings estruturais de tamanho fixo gerados com a arquitetura PotNet, um modelo de rede neural gráfica concebido para captar interações atómicas complexas (modalidade tabular).
O estudo utilizou o AutoGluon-Multimodal (AutoMM), uma estrutura de aprendizagem automática de máquinas, para treinar e avaliar modelos utilizando várias combinações de modalidades. O Erro Absoluto Médio (MAE) e o Erro Escalado Absoluto Médio (MASE) foram utilizados como métricas de avaliação. Os resultados demonstram que as abordagens multimodais, especialmente a combinação de dados de texto e imagem, superam consistentemente os modelos de modalidade única. Este facto realça a importância da integração de diversos tipos de dados para captar uma compreensão mais abrangente das propriedades dos materiais. Nomeadamente, a combinação de Texto e Imagem revelou-se particularmente eficaz na previsão de caraterísticas complexas como o intervalo de banda (Gap), que requer informações estruturais e de composição complexas. Por outro lado, os modelos de modalidade única, particularmente os que se baseiam apenas em dados tabulares, apresentaram a menor precisão na maioria das caraterísticas. Esta investigação fornece provas convincentes dos benefícios da integração de dados multimodais na previsão das propriedades dos materiais. Estabelece uma base para trabalhos futuros que explorem a incorporação de tipos de dados adicionais, o desenvolvimento de modelos mais avançados e a expansão de conjuntos de dados para melhorar ainda mais a precisão da previsão e acelerar a descoberta de novos materiais com as propriedades desejadas.
This dissertation explores the application of machine learning techniques for predicting material properties using multimodal data integration. The emergence of advanced computational techniques and the availability of large datasets have opened new avenues for accelerating material discovery using predictive models. However, accurately predicting material properties remains a complex challenge due to the intricate nature of material data. Single-modality machine learning models, while effective for certain properties, often fail to capture the full complexity of material characteristics. This dissertation addresses this limitation by investigating the impact of multimodal data integration, specifically focusing on how combinations of Text, Image, and Tabular data enhance material property prediction accuracy. The study utilizes the Alexandria dataset, a comprehensive resource offering detailed data on the chemical compositions and properties of millions of materials. A subset of 1,000 materials from this dataset was used to construct a multimodal dataset incorporating: chemical composition represented as a sequence of elements and their corresponding atom counts (Text modality); 2D visualizations of each material's 3D crystal structure generated using Crystal Toolkit and captured via a custom-built web application (Image modality); and fixed-size structural embeddings generated using the PotNet architecture, a graph neural network model designed for capturing complex atomic interactions (Tabular modality). The study employed AutoGluon-Multimodal (AutoMM), an automated machine learning framework, to train and evaluate models using various modality combinations. Mean Absolute Error (MAE) and Mean Absolute Scaled Error (MASE) were used as evaluation metrics. Results demonstrate that multimodal approaches, especially the combination of text and image data, consistently outperform single-modality models. This highlights the importance of integrating diverse data types to capture a more comprehensive understanding of material properties. Notably, the Text and Image combination proved particularly effective for predicting complex features like band gap (Gap), which requires intricate compositional and structural information. Conversely, single-modality models, particularly those relying solely on Tabular data, exhibited the lowest accuracy across most features. This research provides compelling evidence for the benefits of multimodal data integration in material property prediction. It lays a foundation for future work exploring the incorporation of additional data types, the development of more advanced models, and the expansion of datasets to further enhance predictive accuracy and accelerate the discovery of novel materials with desired properties.
This dissertation explores the application of machine learning techniques for predicting material properties using multimodal data integration. The emergence of advanced computational techniques and the availability of large datasets have opened new avenues for accelerating material discovery using predictive models. However, accurately predicting material properties remains a complex challenge due to the intricate nature of material data. Single-modality machine learning models, while effective for certain properties, often fail to capture the full complexity of material characteristics. This dissertation addresses this limitation by investigating the impact of multimodal data integration, specifically focusing on how combinations of Text, Image, and Tabular data enhance material property prediction accuracy. The study utilizes the Alexandria dataset, a comprehensive resource offering detailed data on the chemical compositions and properties of millions of materials. A subset of 1,000 materials from this dataset was used to construct a multimodal dataset incorporating: chemical composition represented as a sequence of elements and their corresponding atom counts (Text modality); 2D visualizations of each material's 3D crystal structure generated using Crystal Toolkit and captured via a custom-built web application (Image modality); and fixed-size structural embeddings generated using the PotNet architecture, a graph neural network model designed for capturing complex atomic interactions (Tabular modality). The study employed AutoGluon-Multimodal (AutoMM), an automated machine learning framework, to train and evaluate models using various modality combinations. Mean Absolute Error (MAE) and Mean Absolute Scaled Error (MASE) were used as evaluation metrics. Results demonstrate that multimodal approaches, especially the combination of text and image data, consistently outperform single-modality models. This highlights the importance of integrating diverse data types to capture a more comprehensive understanding of material properties. Notably, the Text and Image combination proved particularly effective for predicting complex features like band gap (Gap), which requires intricate compositional and structural information. Conversely, single-modality models, particularly those relying solely on Tabular data, exhibited the lowest accuracy across most features. This research provides compelling evidence for the benefits of multimodal data integration in material property prediction. It lays a foundation for future work exploring the incorporation of additional data types, the development of more advanced models, and the expansion of datasets to further enhance predictive accuracy and accelerate the discovery of novel materials with desired properties.
Description
Keywords
Machine learning multimodalities multimodal models Materials science Multimodalidades Modelos multimodais Ciência de materiais