Kai Liu, Vignesh Prabhakar, Chau Vu, Jennifer Crawford e Joseph Waite
A geração de Knowledge Graph Embeddings (KGEs) para representar entidades (nós) e relações (arestas) em conjuntos de dados de grafos de conhecimento de grande escala tem sido um problema desafiante na aprendizagem de representação. Isto ocorre principalmente porque as incorporações/representações vetoriais necessárias para codificar todo o âmbito dos dados num grande grafo heterogéneo precisam de ter uma elevada dimensionalidade. A orientação de um grande número de vetores requer muito espaço, o que é conseguido projetando os encaixes em dimensões superiores. Esta não é uma solução escalável, especialmente quando esperamos que o grafo de conhecimento cresça de tamanho para incorporar mais dados. Quaisquer esforços para restringir os embeddings a um número menor de dimensões podem ser problemáticos, uma vez que o espaço insuficiente para orientar espacialmente o grande número de embeddings/representações vetoriais dentro de um número limitado de dimensões pode levar a inferências deficientes em tarefas posteriores, como a previsão de ligações que aproveitam estes embeddings para prever a probabilidade de existência de uma ligação entre duas ou mais entidades num grafo de conhecimento. Este é especialmente o caso de grandes grafos de conhecimento biomédico que relacionam diversas entidades, como genes, doenças, vias de sinalização, funções biológicas, etc., que são clinicamente relevantes para a aplicação dos KGs na descoberta de fármacos. Os tamanhos dos gráficos de conhecimento biomédico são, portanto, muito maiores em comparação com os conjuntos de dados típicos de gráficos de conhecimento de referência. Isto representa um enorme desafio na geração de incorporações/representações vetoriais de boa qualidade para representar a estrutura semântica latente do grafo. As tentativas de contornar este desafio aumentando a dimensionalidade dos embeddings resultam frequentemente em limitações de hardware, uma vez que gerar embutimentos de alta dimensão é computacionalmente dispendioso e muitas vezes inviável. Para lidar de forma prática com a representação da estrutura latente de tais Gráficos de Conhecimento (KGs) de grande escala, o nosso trabalho propõe um modelo de aprendizagem conjunto no qual o gráfico de conhecimento completo é amostrado em vários subgrafos mais pequenos e os modelos KGE geram incorporação para cada subgrafo individual. Os resultados da previsão de ligações dos modelos KGE treinados em cada subgráfico são então agregados para gerar um conjunto consolidado de previsões de ligações em todo o gráfico de conhecimento. Os resultados experimentais demonstraram uma melhoria significativa nas métricas de avaliação baseadas na classificação nas previsões de ligações específicas de tarefas, bem como nas previsões de ligações gerais em quatro conjuntos de dados gráficos de conhecimento biomédico de código aberto.