IA Contra o Covid-19

Análise de Dados​

O objetivo desta análise é facilitar o acesso seletivo às informações científicas de milhares de artigos a especialistas em epidemiologia, ajudando-os a localizar referências e relações importantes sobre tópicos de importância para o seu trabalho. A análise de dados apresentada abaixo é resultado da aplicação do método de clusterização LDA (Latent Dirichlet Allocation), um algoritmo de aprendizagem não surpervisionada. 

Os dados utilizados provêm do kaggle.com que disponibilzou mais de 40 mil artigos sobre o COVID-19. Foram utilizamos apenas os que têm textos completos, que são em torno de 29 mil. Os tópicos são aprendidos como uma distribuição de probabilidade sobre as palavras que ocorrem em cada artigo. Cada artigo é uma combinação de um ou mais tópicos.

O algoritmo criou 20 grupos que caracterizam os artigos nos quais esses tópicos ocorrem. O primeiro gráfico é uma redução de dimensão para 2D para se visualizar os documentos (a cor indica o tópico do documento). O segundo gráfico é interativo e cada bolha é um tópico. Ao passarmos o mouse em cima de cada bolha (tópico), podemos ver as palavras mais significativas do mesmo. É possível interagir com o gráfico, selecionando tópicos à esquerda e ajustando a métrica de relevância à direita.

Similaridade de Documentos por Tópicos:

Cada documento está relacionado com um grau de similaridade para cada tópico. Na figura observa-se os cluster de tópicos e a similaridade que compartilham entre eles.

Outra forma de observar esta similaridade entre tópicos é usando um mapa de distância intertropical. Nela se apresenta interseções entre tópicos. Isto é devido a que alguns tópicos consideram importante algumas palavras.