tornado

Tornado (Torn, Analyzed & Dashboard Organized) é uma ferramenta para o processamento de grandes volumes de documentos que literalmente os corta em pedaços, transformando dados não-estruturados (word, pdf, email, pptx, excel, imagens) em dados estruturados ou semiestruturados para a posterior análise. A ferramenta extrai os elementos básicos de qualquer documento como textos, imagens, tabelas e equações através de um modelo de Deep Learning. Em seguida, esses elementos são processados e armazenados em formatos específicos (txt, xml, csv, jpeg, png), junto com seus respectivos metadados. Assim, é possível reconstruir o documento original a partir desses elementos. Com os dados semi-estruturados em mãos, é então possível aplicar algoritmos e modelos da Inteligência Artificial para diferentes aplicações. Exemplos: usar as imagens para treinar um modelo de classificação ou de agrupamento, concatenar tabelas ou dados do texto de documentos similares para geração de dashboards, usar o texto de milhares de documentos em processamento de linguagem natural e acessar através de um buscador cognitivo, fazendo questionamentos ou observando a frequência e similaridade entre documentos.

Buscador Cognitivo

Identificado no dia 31 de dezembro de 2019, o coronavírus SARS-CoV-2 é um vírus novo para a ciência. Médicos, biólogos e pesquisadores do mundo todo estão estudando para entender melhor como funciona sua transmissão e criar uma vacina. A cura, no entanto, é só uma das diversas dúvidas que os estudiosos ainda têm sobre o vírus. Para apoiar a pesquisa sobre o coronavírus (Covid-19), o Laboratório de Inteligência Artificial (ICA) disponibilizou um mecanismo de busca em artigos acadêmicos em inglês ricos e úteis em informação baseadas em evidências científicas atualmente disponíveis. Todos esses artigos estão relacionados ao estudo do coronavírus, como relatos de casos, rotinas de transmissão, fatores ambientais e explorações da estratégia de tratamento. Os materiais são provenientes de bases de dados acadêmicas como a Elsevier. A ferramenta de busca funciona de um jeito bem similar ao Google (ou seja, aquele que já estamos habituados e que usamos no nosso dia a dia). Na configuração padrão, após o usuário digitar no campo de busca o assunto ou a palavra-chave de interesse, os resultados são mostrados com base em um critério de relevância. Os artigos podem ser encontrados das seguintes formas:

  • com base em uma ou mais palavras chave;
  • com base em uma ou múltiplas frases;

Todo o processo de recuperação de informação consiste em identificar, no conjunto de artigos (corpus), os quais atendem à necessidade de informação do usuário. Esse pode optar por realizar a busca com base na similaridade semântica entre os termos de interesse ou pela frequência em que esses mesmos termos aparecem no documento completo ou no abstract.  Primeiramente, a ferramenta irá mostrar os resultados mais relevantes em inglês, mas você poderá filtrá-los por ano de publicação. Ao clicar em um dos título exibidos, poderá visualizar o artigo completo. Dessa forma, o usuário pode realizar um exame minucioso dos artigos sobre o coronavírus exibidos, em função das opções selecionadas. Adicionalmente disponibilizamos um sistema de pergunta-resposta. O usuário deseja fazer uma pergunta em linguagem natural e obtém a resposta correta no contexto do documento onde ela ocorre. No momento, o serviço suporta apenas perguntas e respostas na língua inglesa.

Linha do Tempo: O Comitê Permanente de Doenças Infecciosas Emergentes e Ameaças de Saúde do Século XXI do National Academies of Sciences, Engineering, and Medicine (NASEM) dos EUA e a Organização Mundial da Saúde (OMS) identificaram nove questões científicas que são vitais para enfrentar esta crise internacional. Essas perguntas incluem o estudo da transmissão e incubação do vírus, fatores de risco para a obtenção do COVID-19, a origem do vírus e a prática médica adequada para o tratamento desta doença. A lista completa das tarefas do desafio está disponível no site do KaggleÉ difícil para as pessoas revisarem manualmente milhares de artigos que sintetizam suas descobertas. Avanços recentes em tecnologia podem ser úteis aqui. Uma das aplicações mais imediatas e impactantes da Inteligência Artificial (IA) é a capacidade de ajudar cientistas, acadêmicos e tecnólogos a encontrar as informações corretas em um mar de artigos científicos alavancando mais rapidamente pesquisas científicas. 

Colaborando com essa iniciativa, organizamos uma linha do tempo com os artigos que respondem a essas questões. Acreditamos que compartilhar informações é essencial para acelerar nossa capacidade de responder à pandemia de coronavírus.