La bioinformática hoy: mucho más que analizar secuencias de ADN
Si hace diez años la bioinformática evocaba principalmente bases de datos genómicas y alineamientos de secuencias, hoy es algo mucho más amplio y transformador. Es la disciplina que permite extraer conocimiento útil de la enorme cantidad de datos que genera la biología moderna: genomas, proteínas, imágenes celulares, registros clínicos, datos de microbioma... y hacerlo a una velocidad y escala que ningún ser humano podría alcanzar solo.
A continuación os presentamos tres avances recientes que ilustran muy bien hacia dónde se dirige el campo, con ejemplos concretos que van más allá de los libros de texto.
1. AlphaFold3: la IA que "ve" cómo interactúan las moléculas de la vida
En mayo de 2024, Google DeepMind e Isomorphic Labs lanzaron AlphaFold3 (AF3), una nueva versión del modelo de predicción de estructuras moleculares que supuso un salto cualitativo respecto a sus predecesores. AF3 no solo predice estructuras proteicas tridimensionales, sino que modela interacciones biomoleculares complejas incluyendo proteínas, ácidos nucleicos y moléculas pequeñas con una precisión sin precedentes.
¿Por qué importa esto? Porque entender cómo interactúa una proteína con un fármaco potencial, o cómo se une un anticuerpo a un antígeno viral, es el corazón del desarrollo de medicamentos. Para las interacciones entre proteínas y otros tipos de moléculas, AF3 muestra al menos un 50% de mejora respecto a los métodos de predicción existentes, y en algunas categorías de interacción la precisión se ha duplicado.
El impacto ya es medible: AlphaFold está siendo utilizado por más de 3 millones de investigadores de más de 190 países, abordando problemas como la resistencia antimicrobiana, la resiliencia de cultivos y las enfermedades cardíacas. Y en octubre de 2024, sus creadores, Demis Hassabis y John Jumper, recibieron el Premio Nobel de Química por sus contribuciones revolucionarias al desarrollo de la serie AlphaFold.
2. El Pangenoma Humano: un mapa genético más justo e inclusivo
Durante décadas, la genómica humana se basó en un único genoma de referencia construido principalmente a partir de datos de una sola persona. Eso significaba que cualquier variante genética frecuente en poblaciones africanas, latinoamericanas o asiáticas podía pasar inadvertida o clasificarse erróneamente.
En 2023, el Consorcio de Referencia del Pangenoma Humano (HPRC) publicó en Nature una primera solución a este problema. El pangenoma contiene 47 ensamblajes diploides procedentes de individuos genéticamente diversos, cubriendo más del 99% de la secuencia esperada en cada genoma. Usando este borrador para analizar datos de secuenciación, los errores en el descubrimiento de variantes pequeñas se redujeron un 34% y el número de variantes estructurales detectadas por haplotipo aumentó un 104% en comparación con los flujos de trabajo basados en GRCh38.
El proyecto continúa creciendo: la versión 2 del pangenoma, anunciada en mayo de 2025, incluye datos de secuenciación y genomas de alta calidad de más de 200 individuos, un incremento casi quíntuple respecto a la primera versión. Esto no es solo un logro técnico; es un paso hacia una medicina de precisión que funcione para toda la humanidad.
3. Los modelos del lenguaje del genoma: la IA que aprende a "leer" el ADN
Quizás el desarrollo más fascinante y disruptivo de los últimos años es la aparición de los modelos de lenguaje genómico (genomic language models o gLMs). La lógica es elegante: si un modelo de IA como ChatGPT aprende el "lenguaje" humano leyendo miles de millones de palabras, ¿podría otro modelo aprender el "lenguaje" del ADN leyendo miles de millones de bases genómicas?
La respuesta es que sí, y los resultados son notables. En febrero de 2025, investigadores presentaron Evo2, un modelo de lenguaje genómico entrenado sobre más de 128.000 genomas, abarcando más de 9,3 billones de pares de bases de ADN, una escala computacional comparable a los modelos de texto más potentes.
Estos modelos se están usando para predecir la función de elementos reguladores del ADN, analizar modificaciones de cromatina y predecir los efectos de variantes genéticas. En el descubrimiento de fármacos, se aplican para optimizar propiedades de moléculas candidatas y diseñar nuevas moléculas.
No todo son luces: a medida que estos modelos avanzan en su capacidad de generar genomas completos, es necesario considerar escenarios de doble uso donde herramientas de investigación legítimas podrían ser utilizadas para aplicaciones dañinas, además del riesgo de que su elevado coste computacional agrave las desigualdades en el acceso a la medicina genómica. Un debate ético que os invitamos a considerar.
Pregunta de discusión
Os proponemos que reflexionéis sobre la siguiente situación:
Un hospital de un país de ingresos medios quiere implementar medicina de precisión basada en datos genómicos para mejorar el diagnóstico de enfermedades raras en su población. Sin embargo, la mayoría de las herramientas bioinformáticas disponibles fueron entrenadas con datos de poblaciones europeas y norteamericanas.
¿Qué problemas concretos podría encontrar este hospital? ¿Qué papel jugaría el pangenoma humano en este contexto? ¿Y qué responsabilidad tienen los desarrolladores de herramientas bioinformáticas ante este reto?
No es necesario tener respuestas técnicas exhaustivas: nos interesa vuestra reflexión, especialmente desde la perspectiva de vuestro propio campo profesional o académico.
Lecturas recomendadas
Seleccionamos artículos de acceso abierto o con resumen público disponible, ordenados de más accesible a más técnico:
Para empezar (divulgativo y conceptual):
- AlphaFold3 y el Nobel de Química 2024 Fang et al. (2025). AlphaFold 3: an unprecedented opportunity for fundamental research and drug development. Precision Clinical Medicine, 8(3). https://doi.org/10.1093/pcmedi/pbaf015
- El pangenoma humano explicado Human Pangenome Reference Consortium (2023). A draft human pangenome reference. Nature, 617, 312–324. https://doi.org/10.1038/s41586-023-05896-x
Para profundizar (revisiones científicas recientes):
- Modelos de lenguaje genómico: oportunidades y retos Consens et al. (2025). Genomic language models: opportunities and challenges. Trends in Genetics. https://www.sciencedirect.com/science/article/abs/pii/S0168952524002956
- LLMs en bioinformática: una revisión comprehensiva Ruan et al. (2025). Large language models for bioinformatics. Quantitative Biology. https://doi.org/10.1002/qub2.70014
- Modelos fundacionales de IA en biología molecular (accesible y bien escrito) Xu & Elemento (2024). The potential and pitfalls of large language models in molecular biosciences. The Biochemist, 46(2).https://doi.org/10.1042/bio_2024_121
*****************************
Bioinformatics Today: Much More Than Analyzing DNA Sequences
If ten years ago bioinformatics mainly evoked genomic databases and sequence alignments, today it has become something far broader and more transformative. It is the discipline that makes it possible to extract useful knowledge from the enormous amount of data generated by modern biology: genomes, proteins, cellular images, clinical records, microbiome data, and to do so at a speed and scale that no human could achieve alone.
Below we present three recent advances that illustrate very well where the field is heading, with concrete examples that go beyond textbook explanations.
1. AlphaFold3: The AI That “Sees” How the Molecules of Life Interact
In May 2024, Google DeepMind and Isomorphic Labs released AlphaFold3 (AF3), a new version of the molecular structure prediction model that represented a qualitative leap compared with its predecessors. AF3 not only predicts three-dimensional protein structures but also models complex biomolecular interactions involving proteins, nucleic acids, and small molecules with unprecedented accuracy.
Why does this matter? Because understanding how a protein interacts with a potential drug, or how an antibody binds to a viral antigen, is at the heart of drug development. For interactions between proteins and other types of molecules, AF3 shows at least a 50% improvement over existing prediction methods, and in some categories of interaction the accuracy has doubled.
The impact is already measurable: AlphaFold is being used by more than 3 million researchers from over 190 countries to address problems such as antimicrobial resistance, crop resilience, and heart disease. In October 2024, its creators, Demis Hassabis and John Jumper, received the Nobel Prize in Chemistry for their revolutionary contributions to the development of the AlphaFold series.
2. The Human Pangenome: A Fairer and More Inclusive Genetic Map
For decades, human genomics relied on a single reference genome built largely from data from one individual. This meant that genetic variants common in African, Latin American, or Asian populations could go unnoticed or be misclassified.
In 2023, the Human Pangenome Reference Consortium (HPRC) published in Nature a first solution to this problem. The pangenome contains 47 diploid assemblies from genetically diverse individuals, covering more than 99% of the expected sequence in each genome. Using this draft to analyze sequencing data reduced errors in small-variant discovery by 34% and increased the number of structural variants detected per haplotype by 104% compared with workflows based on GRCh38.
The project continues to grow: version 2 of the pangenome, announced in May 2025, includes sequencing data and high-quality genomes from more than 200 individuals, nearly a fivefold increase compared with the first version. This is not only a technical achievement; it is a step toward precision medicine that works for all humanity.
3. Genomic Language Models: AI That Learns to “Read” DNA
Perhaps the most fascinating and disruptive development of recent years is the emergence of genomic language models (gLMs). The logic is elegant: if an AI model like ChatGPT learns the human “language” by reading billions of words, could another model learn the “language” of DNA by reading billions of genomic bases?
The answer is yes, and the results are remarkable. In February 2025, researchers presented Evo2, a genomic language model trained on more than 128,000 genomes, covering more than 9.3 trillion DNA base pairs, a computational scale comparable to the most powerful text models.
These models are being used to predict the function of regulatory DNA elements, analyze chromatin modifications, and forecast the effects of genetic variants. In drug discovery, they are applied to optimize properties of candidate molecules and design entirely new ones.
However, not everything is positive. As these models advance in their ability to generate complete genomes, it becomes necessary to consider dual-use scenarios in which legitimate research tools could be misused for harmful applications. There is also the risk that the high computational cost of these models could exacerbate inequalities in access to genomic medicine. This raises an ethical debate that we invite you to reflect upon.
Discussion Question
We invite you to reflect on the following situation:
A hospital in a middle-income country wants to implement precision medicine based on genomic data to improve the diagnosis of rare diseases in its population. However, most available bioinformatics tools were trained using data from European and North American populations.
- What specific problems might this hospital encounter?
- What role would the human pangenome play in this context?
- What responsibility do developers of bioinformatics tools have in addressing this challenge?
You do not need to provide exhaustive technical answers, we are interested in your reflections, especially from the perspective of your own professional or academic field.
Recommended Readings
We selected open-access articles or papers with publicly available abstracts, ordered from more accessible to more technical.
To Start (Conceptual and Introductory)
Fang et al. (2025). AlphaFold 3: an unprecedented opportunity for fundamental research and drug development. Precision Clinical Medicine, 8(3).https://doi.org/10.1093/pcmedi/pbaf015 Human Pangenome Reference Consortium (2023). A draft human pangenome reference. Nature, 617, 312–324.
https://doi.org/10.1038/s41586-023-05896-x
For Deeper Exploration (Recent Scientific Reviews)
Consens et al. (2025). Genomic language models: opportunities and challenges. Trends in Genetics.https://www.sciencedirect.com/science/article/abs/pii/S0168952524002956 Ruan et al. (2025). Large language models for bioinformatics. Quantitative Biology.
https://doi.org/10.1002/qub2.70014 Xu & Elemento (2024). The potential and pitfalls of large language models in molecular biosciences. The Biochemist, 46(2).
https://doi.org/10.1042/bio_2024_121