Un nuevo modelo de IA, entrenado en 128.000 genomas que abarcan todo el árbol de la vida, desde humanos hasta bacterias unicelulares y arqueas, es capaz de escribir cromosomas enteros y genomas pequeños desde cero. Al mismo tiempo, puede dar sentido al ADN existente, incluyendo las variantes genéticas no codificantes, que son difíciles de precisar y están relacionadas con muchas enfermedades.

Un consorcio de investigación liderado por el Arc Institute, en Estados Unidos, ha desarrollado un innovador modelo de Inteligencia Artificial (IA) denominado Evo 2, que puede escribir ADN según lo requerido por los investigadores y también interpretar el código genético existente hasta los detalles más precisos. Hasta el momento, se trata del modelo de IA más completo y extenso creado para su aplicación en las ciencias de la vida.

El estudio que explica los alcances de Evo 2, por el momento solo disponible en el sitio del centro de investigación, indica que el modelo puede identificar con precisión las mutaciones causantes de enfermedades en los genes humanos, además de diseñar nuevos genomas que son tan largos como los que identifican a las bacterias simples.

Dominio de todo el código de la vida

Según una nota de prensa, el nuevo modelo de IA se edificó sobre la base de su predecesor Evo 1, que fue entrenado completamente en genomas unicelulares. Ahora, Evo 2 integra más de 9.3 mil millones de nucleótidos, que son los bloques de construcción que componen el ADN o ARN de un número superior a los 128.000 genomas completos, junto a datos extra que se conocen como metagenómicos.

Además de esta colección ampliada de genomas bacterianos, arqueales y fagos, Evo 2 suma información de humanos, plantas y otras especies unicelulares y multicelulares en el dominio eucariota de la vida. Vale aclarar que los organismos eucariotas son todos aquellos que poseen células con un núcleo definido y delimitado por una membrana: pueden ser tanto unicelulares como pluricelulares.

De acuerdo a un artículo publicado en Nature, un atractivo de los modelos genómicos como Evo-2 es que pueden generar nuevas secuencias de ADN que corresponden no solo a proteínas, sino también a secuencias no codificantes que trabajan con ellas. Estas secuencias complementarias están relacionadas con el desarrollo de múltiples enfermedades.

Aplicación contra enfermedades y problemas éticos

En ese sentido, el modelo ya evidencia suficiente versatilidad para identificar los cambios genéticos que afectan la función de las proteínas y la aptitud del organismo. En pruebas con variantes del gen BRCA1 asociado al cáncer de mama, Evo 2 alcanzó una precisión superior al 90% al predecir qué mutaciones son benignas y cuáles son potencialmente patógenas.

Considerando que está entrenado en el código genético de todo el árbol de la vida, Evo-2 podría aplicar su conocimiento sobre los genomas bacterianos y arqueales para producir nuevas proteínas humanas. Además de su aplicación en futuros tratamientos contra enfermedades, los modelos como Evo-2 podrían acelerar la progresión del biodiseño especializado, que apunta no solo al diseño de proteínas sino además a la creación del genoma en su conjunto.

Como esta posibilidad implica una serie de problemas éticos, los científicos excluyeron los patógenos que infectan a los humanos y otros organismos complejos del conjunto de datos que constituye la base de Evo-2.

Referencia

Genome modeling and design across all domains of life with Evo 2. Garyk Brixi et al. Arc Institute (2025).