Doenças genéticas raras agora podem ser detectadas em pacientes, e mutações tumorais específicas identificadas — um marco possibilitado pelo sequenciamento de DNA, que transformou a pesquisa biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de próxima geração) impulsionou uma onda de descobertas. Durante 2020 e 2021, por exemplo, esses métodos possibilitaram a rápida decodificação e monitoramento mundial do genoma do SARS-CoV-2.
Ao mesmo tempo, um número crescente de pesquisadores está tornando seus resultados de sequenciamento acessíveis ao público. Isso levou a uma explosão de dados, armazenados em grandes bancos de dados, como o SRA americano (Sequence Read Archive) e o ENA europeu (European Nucleotide Archive). Juntas, essas archives agora armazenam cerca de 100 petabytes de informações — aproximadamente equivalente à quantidade total de texto encontrada em toda a internet, com um único petabyte equivalente a um milhão de gigabytes.
Até agora, os cientistas biomédicos precisavam de enormes recursos computacionais para buscar nesses vastos repositórios genéticos e compará-los com seus próprios dados, tornando as buscas abrangentes quase impossíveis. Pesquisadores da ETH Zurique desenvolveram agora uma maneira de superar essa limitação.
Busca em texto completo em vez de baixar conjuntos de dados inteiros
A equipe criou uma ferramenta chamada MetaGraph, que agiliza e acelera dramaticamente o processo. Em vez de baixar conjuntos de dados inteiros, o MetaGraph permite buscas diretas dentro dos dados brutos de DNA ou RNA — semelhante ao uso de um motor de busca na internet. Os cientistas simplesmente inserem uma sequência genética de interesse em um campo de busca e, em segundos ou minutos, dependendo da consulta, podem ver onde essa sequência aparece nos bancos de dados globais.
“É uma espécie de Google para DNA”, explica o professor Gunnar Rätsch, cientista de dados do Departamento de Ciência da Computação da ETH Zurique. Anteriormente, os pesquisadores só podiam buscar metadados descritivos e precisavam baixar os conjuntos de dados completos para acessar as sequências brutas. Essa abordagem era lenta, incompleta e cara.
Segundo os autores do estudo, o MetaGraph também é notavelmente econômico. Representar todas as sequências biológicas disponíveis publicamente exigiria apenas alguns discos rígidos de computador, e grandes consultas custariam não mais do que cerca de 0,74 dólares por megabase.
Como o novo motor de busca de DNA é rápido e preciso, pode acelerar significativamente a pesquisa — particularmente na identificação de patógenos emergentes ou na análise de fatores genéticos relacionados à resistência a antibióticos. O sistema pode até ajudar a localizar vírus benéficos que destroem bactérias nocivas (bacteriófagos) ocultos dentro desses enormes bancos de dados.
Compressão por um fator de 300
No estudo publicado em 8 de outubro na Nature, a equipe da ETH demonstrou como o MetaGraph funciona. A ferramenta organiza e comprime dados genéticos usando gráficos matemáticos avançados que estruturam a informação de maneira mais eficiente, semelhante a como softwares de planilhas organizam valores. “Matematicamente, é uma enorme matriz com milhões de colunas e trilhões de linhas”, explica Rätsch.
Criar índices para tornar grandes conjuntos de dados pesquisáveis é um conceito familiar na ciência da computação, mas a abordagem da ETH se destaca por como conecta dados brutos com metadados, alcançando uma taxa de compressão extraordinária de cerca de 300 vezes. Essa redução funciona como resumir um livro — remove redundâncias enquanto preserva a narrativa e as relações essenciais, mantendo toda a informação relevante em uma forma muito menor.
“Estamos ultrapassando os limites do que é possível para manter os conjuntos de dados tão compactos quanto possível, sem perder informações necessárias”, diz Dr. André Kahles, que, assim como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurique. Em contraste com outras máscaras de busca de DNA que estão sendo pesquisadas atualmente, a abordagem dos pesquisadores da ETH é escalável. Isso significa que, quanto maior a quantidade de dados consultados, menos poder computacional adicional a ferramenta exige.
Metade dos dados já está disponível agora
Introduzido pela primeira vez em 2020, o MetaGraph tem sido continuamente refinado. A ferramenta agora está acessível publicamente para pesquisas (https://metagraph.ethz.ch/search) e já indexa milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, quase metade de todos os conjuntos de dados globais disponíveis está incluída, com o restante previsto para seguir até o final do ano. Como o MetaGraph é de código aberto, também pode atrair o interesse de empresas farmacêuticas que gerenciam grandes volumes de dados de pesquisa interna.
Kahles acredita até que é possível que o motor de busca de DNA um dia seja usado por indivíduos comuns: “Nos primeiros dias, nem mesmo o Google sabia exatamente para que um motor de busca era bom. Se o rápido desenvolvimento no sequenciamento de DNA continuar, pode se tornar comum identificar suas plantas de varanda de maneira mais precisa.”
