Un equipo de investigadores del Arc Institute, NVIDIA y prestigiosas universidades ha presentado Evo 2, el modelo de inteligencia artificial (IA) más grande jamás construido para la biología. Entrenado con secuencias de ADN de más de 128,000 genomas que abarcan todos los dominios de la vida —incluyendo bacterias, arqueas, fagos, humanos, plantas y otras especies eucariotas—, Evo 2 marca un avance notable en la investigación genética potenciada por IA, siendo capaz de identificar mutaciones causantes de enfermedades, analizar patrones evolutivos e incluso diseñar nuevas estructuras genómicas.
Desarrollado en colaboración con instituciones como Stanford University, UC Berkeley, UC San Francisco y con el apoyo de NVIDIA, el modelo se entrenó utilizando más de 9.3 billones de nucleótidos, los bloques básicos que componen el ADN y ARN, lo que lo hace comparable en escala a los modelos generativos de lenguaje más avanzados. La arquitectura de IA, denominada StripedHyena 2, se logró gracias a varios meses de entrenamiento en la plataforma NVIDIA DGX Cloud a través de AWS, utilizando más de 2,000 GPUs NVIDIA H100. Este enfoque permitió que Evo 2 procesara secuencias genéticas de hasta 1 millón de nucleótidos a la vez, facilitando la comprensión de relaciones entre partes distantes de un genoma, y representando un salto cualitativo respecto a su predecesor, Evo 1, que se entrenó únicamente con genomas de células individuales.
Según Patrick Hsu, cofundador del Arc Institute, investigador principal del Arc Core, profesor asistente de Bioingeniería en la Universidad de California, Berkeley y coautor sénior del estudio, “Evo 2 posee una comprensión generalista del árbol de la vida, útil para una multitud de tareas, desde predecir mutaciones que causan enfermedades hasta diseñar posibles códigos para vida artificial. Nos emociona ver lo que la comunidad investigadora construirá sobre estos modelos fundamentales”. Brian Hie, profesor asistente de Ingeniería Química en Stanford y otro coautor sénior, agrega: “Así como el mundo ha dejado su impronta en el lenguaje de Internet para entrenar grandes modelos, la evolución ha dejado su huella en las secuencias biológicas. Estos patrones, perfeccionados a lo largo de millones de años, contienen señales sobre cómo funcionan e interactúan las moléculas.”
Evo 2 ya ha demostrado su capacidad para predecir el impacto de las mutaciones genéticas en la salud humana. Por ejemplo, en el análisis de variantes del gen BRCA1, asociado al cáncer de mama, el modelo alcanzó más del 90% de precisión al diferenciar entre mutaciones benignas y aquellas potencialmente dañinas. Esta destreza puede acelerar significativamente la investigación médica al permitir identificar las causas genéticas de las enfermedades sin recurrir a experimentos de laboratorio costosos y prolongados.
Además del análisis, Evo 2 introduce una capacidad revolucionaria: generar genomas completos. El modelo es capaz de crear secuencias de ADN sintéticas a escala de genomas bacterianos, con un control preciso sobre elementos como la expresión génica. Esto abre nuevas posibilidades en aplicaciones de bioingeniería, desde la biología sintética hasta terapias génicas personalizadas. Tal como lo explica Hani Goodarzi, biólogo computacional y profesor asociado de Bioquímica y Biofísica en la Universidad de California, San Francisco, “si se dispone de una terapia génica que se desea activar únicamente en neuronas para evitar efectos secundarios, o solo en células del hígado, se podría diseñar un elemento genético accesible exclusivamente en esas células específicas. Este control preciso podría ayudar a desarrollar tratamientos más focalizados y con menores efectos secundarios.”
El modelo también detecta elementos genéticos como los sitios de unión de factores de transcripción y los límites exón-intrón, proporcionando a los investigadores una comprensión más detallada de la función y evolución de los genes. Dave Burke, director de Tecnología del Arc Institute, señala que “se puede pensar en Evo 2 casi como en el núcleo de un sistema operativo, en el que se pueden desarrollar diversas aplicaciones especializadas, desde la predicción de cómo afecta una única mutación en el ADN a la función de una proteína, hasta el diseño de elementos genéticos que se comporten de manera diferente en distintos tipos de células.”
Considerando los posibles riesgos éticos y de seguridad, el equipo ha excluido intencionadamente de los datos de entrenamiento a los patógenos que infectan a humanos y otros organismos complejos, asegurando que el modelo no genere secuencias biológicas dañinas. La profesora de Medicina en Stanford, Tina Hernandez-Boussard, y su equipo colaboraron para implementar salvaguardas responsables en el desarrollo y la implementación de esta tecnología.
Evo 2 es completamente de código abierto, con su código de entrenamiento, conjunto de datos y pesos del modelo disponibles para la comunidad investigadora. Además, está integrado en el marco de trabajo BioNeMo de NVIDIA, garantizando un amplio acceso para expertos del área. Sumado a esto, el Arc Institute ha colaborado con el laboratorio de IA Goodfire para desarrollar una herramienta de interpretabilidad mecanicista que permita a los científicos comprender mejor cómo Evo 2 realiza sus predicciones.
Anthony Costa, director de biología digital en NVIDIA, concluye: “Evo 2 ha avanzado de manera fundamental nuestra comprensión de los sistemas biológicos. Al superar las limitaciones anteriores en la escala de los modelos biológicos fundamentales, y contando con el conjunto de datos integrados más grande de su tipo, Evo 2 se generaliza sobre más biología conocida que cualquier otro modelo. Al liberar estas capacidades de forma amplia, el Arc Institute ha brindado a científicos de todo el mundo un nuevo aliado para enfrentar los desafíos más apremiantes en salud y enfermedades de la humanidad.”
Con esta fusión de innovaciones, el futuro de la biología generativa y la ingeniería genética parece lleno de posibilidades, ofreciendo herramientas poderosas para descifrar los misterios de la vida y transformar la medicina del mañana.
Enlaces Relacionados: