ml_bioinformatica_6ed: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Coral del Val Muñoz - lunes, 9 de marzo de 2026, 22:15

La bioinformática hoy: mucho más que analizar secuencias de ADN

Si hace diez años la bioinformática evocaba principalmente bases de datos genómicas y alineamientos de secuencias, hoy es algo mucho más amplio y transformador. Es la disciplina que permite extraer conocimiento útil de la enorme cantidad de datos que genera la biología moderna: genomas, proteínas, imágenes celulares, registros clínicos, datos de microbioma... y hacerlo a una velocidad y escala que ningún ser humano podría alcanzar solo.

A continuación os presentamos tres avances recientes que ilustran muy bien hacia dónde se dirige el campo, con ejemplos concretos que van más allá de los libros de texto.

1. AlphaFold3: la IA que "ve" cómo interactúan las moléculas de la vida

En mayo de 2024, Google DeepMind e Isomorphic Labs lanzaron AlphaFold3 (AF3), una nueva versión del modelo de predicción de estructuras moleculares que supuso un salto cualitativo respecto a sus predecesores. AF3 no solo predice estructuras proteicas tridimensionales, sino que modela interacciones biomoleculares complejas incluyendo proteínas, ácidos nucleicos y moléculas pequeñas con una precisión sin precedentes.

¿Por qué importa esto? Porque entender cómo interactúa una proteína con un fármaco potencial, o cómo se une un anticuerpo a un antígeno viral, es el corazón del desarrollo de medicamentos. Para las interacciones entre proteínas y otros tipos de moléculas, AF3 muestra al menos un 50% de mejora respecto a los métodos de predicción existentes, y en algunas categorías de interacción la precisión se ha duplicado.

El impacto ya es medible: AlphaFold está siendo utilizado por más de 3 millones de investigadores de más de 190 países, abordando problemas como la resistencia antimicrobiana, la resiliencia de cultivos y las enfermedades cardíacas. Y en octubre de 2024, sus creadores, Demis Hassabis y John Jumper, recibieron el Premio Nobel de Química por sus contribuciones revolucionarias al desarrollo de la serie AlphaFold.

2. El Pangenoma Humano: un mapa genético más justo e inclusivo

Durante décadas, la genómica humana se basó en un único genoma de referencia construido principalmente a partir de datos de una sola persona. Eso significaba que cualquier variante genética frecuente en poblaciones africanas, latinoamericanas o asiáticas podía pasar inadvertida o clasificarse erróneamente.

En 2023, el Consorcio de Referencia del Pangenoma Humano (HPRC) publicó en Nature una primera solución a este problema. El pangenoma contiene 47 ensamblajes diploides procedentes de individuos genéticamente diversos, cubriendo más del 99% de la secuencia esperada en cada genoma. Usando este borrador para analizar datos de secuenciación, los errores en el descubrimiento de variantes pequeñas se redujeron un 34% y el número de variantes estructurales detectadas por haplotipo aumentó un 104% en comparación con los flujos de trabajo basados en GRCh38.

El proyecto continúa creciendo: la versión 2 del pangenoma, anunciada en mayo de 2025, incluye datos de secuenciación y genomas de alta calidad de más de 200 individuos, un incremento casi quíntuple respecto a la primera versión. Esto no es solo un logro técnico; es un paso hacia una medicina de precisión que funcione para toda la humanidad.

3. Los modelos del lenguaje del genoma: la IA que aprende a "leer" el ADN

Quizás el desarrollo más fascinante y disruptivo de los últimos años es la aparición de los modelos de lenguaje genómico (genomic language models o gLMs). La lógica es elegante: si un modelo de IA como ChatGPT aprende el "lenguaje" humano leyendo miles de millones de palabras, ¿podría otro modelo aprender el "lenguaje" del ADN leyendo miles de millones de bases genómicas?

La respuesta es que sí, y los resultados son notables. En febrero de 2025, investigadores presentaron Evo2, un modelo de lenguaje genómico entrenado sobre más de 128.000 genomas, abarcando más de 9,3 billones de pares de bases de ADN, una escala computacional comparable a los modelos de texto más potentes.

Estos modelos se están usando para predecir la función de elementos reguladores del ADN, analizar modificaciones de cromatina y predecir los efectos de variantes genéticas. En el descubrimiento de fármacos, se aplican para optimizar propiedades de moléculas candidatas y diseñar nuevas moléculas.

No todo son luces: a medida que estos modelos avanzan en su capacidad de generar genomas completos, es necesario considerar escenarios de doble uso donde herramientas de investigación legítimas podrían ser utilizadas para aplicaciones dañinas, además del riesgo de que su elevado coste computacional agrave las desigualdades en el acceso a la medicina genómica. Un debate ético que os invitamos a considerar.

Pregunta de discusión

Os proponemos que reflexionéis sobre la siguiente situación:

Un hospital de un país de ingresos medios quiere implementar medicina de precisión basada en datos genómicos para mejorar el diagnóstico de enfermedades raras en su población. Sin embargo, la mayoría de las herramientas bioinformáticas disponibles fueron entrenadas con datos de poblaciones europeas y norteamericanas.

¿Qué problemas concretos podría encontrar este hospital? ¿Qué papel jugaría el pangenoma humano en este contexto? ¿Y qué responsabilidad tienen los desarrolladores de herramientas bioinformáticas ante este reto?

No es necesario tener respuestas técnicas exhaustivas: nos interesa vuestra reflexión, especialmente desde la perspectiva de vuestro propio campo profesional o académico.

Lecturas recomendadas

Seleccionamos artículos de acceso abierto o con resumen público disponible, ordenados de más accesible a más técnico:

Para empezar (divulgativo y conceptual):

AlphaFold3 y el Nobel de Química 2024 Fang et al. (2025). AlphaFold 3: an unprecedented opportunity for fundamental research and drug development. Precision Clinical Medicine, 8(3). https://doi.org/10.1093/pcmedi/pbaf015
El pangenoma humano explicado Human Pangenome Reference Consortium (2023). A draft human pangenome reference. Nature, 617, 312–324. https://doi.org/10.1038/s41586-023-05896-x

Para profundizar (revisiones científicas recientes):

Modelos de lenguaje genómico: oportunidades y retos Consens et al. (2025). Genomic language models: opportunities and challenges. Trends in Genetics. https://www.sciencedirect.com/science/article/abs/pii/S0168952524002956
LLMs en bioinformática: una revisión comprehensiva Ruan et al. (2025). Large language models for bioinformatics. Quantitative Biology. https://doi.org/10.1002/qub2.70014
Modelos fundacionales de IA en biología molecular (accesible y bien escrito) Xu & Elemento (2024). The potential and pitfalls of large language models in molecular biosciences. The Biochemist, 46(2).https://doi.org/10.1042/bio_2024_121

¡Nos vemos en el foro! Recordad que no hay respuesta incorrecta, solo perspectivas que enriquecen el debate colectivo

*****************************

Bioinformatics Today: Much More Than Analyzing DNA Sequences

If ten years ago bioinformatics mainly evoked genomic databases and sequence alignments, today it has become something far broader and more transformative. It is the discipline that makes it possible to extract useful knowledge from the enormous amount of data generated by modern biology: genomes, proteins, cellular images, clinical records, microbiome data, and to do so at a speed and scale that no human could achieve alone.

Below we present three recent advances that illustrate very well where the field is heading, with concrete examples that go beyond textbook explanations.

1. AlphaFold3: The AI That “Sees” How the Molecules of Life Interact

In May 2024, Google DeepMind and Isomorphic Labs released AlphaFold3 (AF3), a new version of the molecular structure prediction model that represented a qualitative leap compared with its predecessors. AF3 not only predicts three-dimensional protein structures but also models complex biomolecular interactions involving proteins, nucleic acids, and small molecules with unprecedented accuracy.

Why does this matter? Because understanding how a protein interacts with a potential drug, or how an antibody binds to a viral antigen, is at the heart of drug development. For interactions between proteins and other types of molecules, AF3 shows at least a 50% improvement over existing prediction methods, and in some categories of interaction the accuracy has doubled.

The impact is already measurable: AlphaFold is being used by more than 3 million researchers from over 190 countries to address problems such as antimicrobial resistance, crop resilience, and heart disease. In October 2024, its creators, Demis Hassabis and John Jumper, received the Nobel Prize in Chemistry for their revolutionary contributions to the development of the AlphaFold series.

2. The Human Pangenome: A Fairer and More Inclusive Genetic Map

For decades, human genomics relied on a single reference genome built largely from data from one individual. This meant that genetic variants common in African, Latin American, or Asian populations could go unnoticed or be misclassified.

In 2023, the Human Pangenome Reference Consortium (HPRC) published in Nature a first solution to this problem. The pangenome contains 47 diploid assemblies from genetically diverse individuals, covering more than 99% of the expected sequence in each genome. Using this draft to analyze sequencing data reduced errors in small-variant discovery by 34% and increased the number of structural variants detected per haplotype by 104% compared with workflows based on GRCh38.

The project continues to grow: version 2 of the pangenome, announced in May 2025, includes sequencing data and high-quality genomes from more than 200 individuals, nearly a fivefold increase compared with the first version. This is not only a technical achievement; it is a step toward precision medicine that works for all humanity.

3. Genomic Language Models: AI That Learns to “Read” DNA

Perhaps the most fascinating and disruptive development of recent years is the emergence of genomic language models (gLMs). The logic is elegant: if an AI model like ChatGPT learns the human “language” by reading billions of words, could another model learn the “language” of DNA by reading billions of genomic bases?

The answer is yes, and the results are remarkable. In February 2025, researchers presented Evo2, a genomic language model trained on more than 128,000 genomes, covering more than 9.3 trillion DNA base pairs, a computational scale comparable to the most powerful text models.

These models are being used to predict the function of regulatory DNA elements, analyze chromatin modifications, and forecast the effects of genetic variants. In drug discovery, they are applied to optimize properties of candidate molecules and design entirely new ones.

However, not everything is positive. As these models advance in their ability to generate complete genomes, it becomes necessary to consider dual-use scenarios in which legitimate research tools could be misused for harmful applications. There is also the risk that the high computational cost of these models could exacerbate inequalities in access to genomic medicine. This raises an ethical debate that we invite you to reflect upon.

Discussion Question

We invite you to reflect on the following situation:

A hospital in a middle-income country wants to implement precision medicine based on genomic data to improve the diagnosis of rare diseases in its population. However, most available bioinformatics tools were trained using data from European and North American populations.

What specific problems might this hospital encounter?
What role would the human pangenome play in this context?
What responsibility do developers of bioinformatics tools have in addressing this challenge?

You do not need to provide exhaustive technical answers, we are interested in your reflections, especially from the perspective of your own professional or academic field.

Recommended Readings

We selected open-access articles or papers with publicly available abstracts, ordered from more accessible to more technical.

To Start (Conceptual and Introductory)

Fang et al. (2025). AlphaFold 3: an unprecedented opportunity for fundamental research and drug development. Precision Clinical Medicine, 8(3).
https://doi.org/10.1093/pcmedi/pbaf015 Human Pangenome Reference Consortium (2023). A draft human pangenome reference. Nature, 617, 312–324.
https://doi.org/10.1038/s41586-023-05896-x

For Deeper Exploration (Recent Scientific Reviews)

Consens et al. (2025). Genomic language models: opportunities and challenges. Trends in Genetics.
https://www.sciencedirect.com/science/article/abs/pii/S0168952524002956 Ruan et al. (2025). Large language models for bioinformatics. Quantitative Biology.
https://doi.org/10.1002/qub2.70014 Xu & Elemento (2024). The potential and pitfalls of large language models in molecular biosciences. The Biochemist, 46(2).
https://doi.org/10.1042/bio_2024_121

Re: El ADN era solo el principio / DNA Was Just the Beginning

de Helen Kristin - martes, 10 de marzo de 2026, 16:33

1. I think this might result in inaccurate or biased results, which could be risky when applying these tools in precision medicine.

2. I would suggest first training bioinformatics tools using available data from the human pangenome, particularly data representing that country or a similar population. It would also be advantageous to train and validate the tools using local genomic data. Once validated, they could be used more reliably in that hospital. I also think collaboration between sites across the country and internationally would be useful. This would not only benefit individual hospitals but could also help more people, especially in rare diseases, where data are limited and some conditions may occur only in specific populations or be influenced by environmental or dietary factors.

3. I believe that bioinformatics tools should be useful and accessible to everyone. For example, RT-PCR machines became widely available during the SARS-CoV-2 pandemic and are now commonly used in hospitals, academic labs, and research centers. Their use has become more accessible and user-friendly. Similarly, health-tracking devices are easy to use while providing valuable data to users. I think bioinformatics tools should move in a similar direction. However, with the integration of AI, it is also important to establish clear limitations and guidelines on how far these tools should be used.

Re: El ADN era solo el principio / DNA Was Just the Beginning

de Coral del Val Muñoz - miércoles, 11 de marzo de 2026, 13:16

¡Muchas gracias Helen por una reflexión tan interesante! Planteas varios puntos muy importantes.

Tu primera observación sobre el riesgo de resultados sesgados o inexactos cuando las herramientas se entrenan principalmente con datos de poblaciones europeas o norteamericanas es uno de los grandes retos actuales de la medicina genómica. Como mencionas, esto puede tener consecuencias reales en medicina de precisión, donde variantes mal clasificadas o variantes no detectadas podrían afectar al diagnóstico o a las decisiones terapéuticas.

También me parece muy acertada tu propuesta de entrenar y validar las herramientas utilizando datos genómicos locales, así como fomentar la colaboración nacional e internacional. En campos como el estudio de enfermedades raras, compartir datos entre instituciones y poblaciones puede ser clave para identificar patrones que de otro modo pasarían desapercibidos.

Tu tercer punto sobre la accesibilidad y facilidad de uso de las herramientas bioinformáticas también es muy relevante. A medida que la bioinformática se integra cada vez más en la práctica clínica, las herramientas tendrán que ser no solo más potentes, sino también más transparentes, fáciles de usar y con una gobernanza responsable, especialmente con el creciente papel de la inteligencia artificial.

Una de las preguntas de fondo en este caso es cómo equilibrar innovación, equidad y responsabilidad en bioinformática:

¿Cómo aseguramos que las herramientas funcionen bien en poblaciones diversas?

¿Quién debería ser responsable de validarlas y mantenerlas?
¿Y cómo garantizamos que sean accesibles sin perder de vista un uso adecuado?

También sería muy interesante conocer la opinión de otras personas del foro. Desde vuestro propio ámbito o experiencia, ¿cuál creéis que sería el mayor reto para implementar medicina genómica en un contexto como este?

*********************

Thank you Helen for this thoughtful reflection. You raised several critical points.

Your first observation about the risk of biased or inaccurate results when tools are trained mainly on European or North American datasets is a key challenge in current genomic medicine. As you mentioned, this can have real consequences in precision medicine, where misclassified variants or missing variants could affect diagnosis or treatment decisions.

I also appreciate your suggestion to train and validate the tools using local genomic data and encourage national and international collaboration. Sharing data across institutions and populations can be crucial in fields such as rare disease research to identify patterns that would otherwise remain invisible.

Your third point about the accessibility and usability of bioinformatics tools is also very interesting. As bioinformatics becomes increasingly integrated into clinical practice, tools will likely need to become not only more powerful but also more transparent, user-friendly, and responsibly governed, especially with the growing role of AI.

One of the broader questions behind this case is how we balance innovation, equity, and responsibility in bioinformatics:

How do we ensure tools work well across diverse populations?
Who should be responsible for validating and maintaining them?
And how do we make sure they remain accessible while still being used appropriately?

I’d be very interested to hear what others think about this scenario as well. What would be your biggest challenge in implementing genomic medicine in this context from your own field or experience?

Re: El ADN era solo el principio / DNA Was Just the Beginning

de Marie Iglesias Mulhauser - jueves, 12 de marzo de 2026, 13:47

¿Qué problemas concretos podría encontrar este hospital?
En la cuestión planteada entendemos que el hospital se encuentra en un país fuera de Europa y Norteamérica por lo que a la hora de implantar la medicina de precisión para el diagnóstico de enfermedades raras nos encontraríamos con varios problemas:
- Sesgo de datos y resultados no exactos ya que las herramientas bioinformáticas disponibles, al ser desarrolladas para poblaciones europeas y norteamericanas es muy posible que no tenga en cuenta variantes genéticas de la población local. Derivado de ellos tendríamos diagnósticos erróneos por falsos positivos o falsos negativos, etc.
- No detección de enfermedades específicas raras o variantes genéticas que sean exclusivas de la población local al no estar incluidos en los modelos existentes.
- A nivel ético y legal habría que plantearse la responsabilidad del hospital ante el uso de una herramienta no adecuada.

¿Qué papel jugaría el pangenoma humano en este contexto?
En el pangenoma humano se representa la diversidad genética de toda la especie humana, más allá del genoma de referencia tradicional (basado en individuos europeos y/o americanos). Por lo tanto, para este hospital, el pangenoma puede:
- Ampliar la cobertura genética. De este modo se permitiría que las herramientas bioinformáticas reconozcan variantes genéticas presentes en la población local.
- Reducir sesgos. Al incluir datos de poblaciones diversas, se mejora la precisión de los diagnósticos de diferentes grupos poblacionales.
- Ayudar el desarrollo de herramientas locales. De este modo, el hospital podría usar el pangenoma como base para entrenar y validar modelos adaptados a su población.

¿Y qué responsabilidad tienen los desarrolladores de herramientas bioinformáticas ante este reto?
Un proceso de mejora continua que permita:
- Incluir diversidad genética. Deberían permitir que sus herramientas consideren la variabilidad genética global y no solo la de poblaciones europeas y/o norteamericanas.
- Transparencia y documentación. Informar claramente sobre los orígenes de los datos de entrenamiento y las limitaciones de precisión en poblaciones no representadas.
- Colaboración y soporte. Facilitar que hospitales de países de ingresos medios puedan adaptar, entrenar o validar herramientas con datos locales de manera ética y segura.
- Actualización continua. Incorporar nuevos datos genómicos de poblaciones diversas para mejorar la precisión y relevancia clínica global de sus herramientas.

Respecto a las 3 cuestiones planteadas:

¿Cómo aseguramos que las herramientas funcionen bien en poblaciones diversas?
En este caso deberíamos tener herramientas con datos representativos con el fin de no tener datos sesgados que hagan que los algoritmos fallen. Antes de su puesta en el “mercado” se debería comprobar su eficacia, por lo que se deberían analizar en diversas poblaciones con diferencias geográficas, étnicas, edad, etc. Y nuestras herramientas deberían permitir cierta flexibilidad de adaptación mediante el aprendizaje manteniendo la precisión requerida.

¿Quién debería ser responsable de validarlas y mantenerlas?
En este caso debería ser una responsabilidad compartida entre desarrolladores, laboratorios, comités regulatorios y colaboraciones comunitarias. Lo ideal sería establecer un marco normativo de derecho internacional.

¿Y cómo garantizamos que sean accesibles sin perder de vista un uso adecuado?
Estas herramientas, dada la importancia mundial que tiene debería tener un software abierto fácilmente utilizable, licencias adaptadas al conocimiento de los investigadores y laboratorios y que sea accesible a todo el mundo, con independencia de la capacidad económica, este punto puede ser muy importante ya que siempre hay mentes brillantes que pueden hacer grandes aportaciones científicas en los lugares más insospechados.

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Wilfried Condemine - jueves, 12 de marzo de 2026, 14:42

The article Trends in Genetics is not available as a free pdf.

¿Porque la diversidad bioinformatica es una necesidad medica?/ ¿why bioinformatic diversity is a Medical necessity?

de Coral del Val Muñoz - viernes, 13 de marzo de 2026, 08:26

Gracias Helen y Marie por vuestros post que recomiendo leer a los compañeros.
Profundizando en vuestros comentarios y en mi post en esta discusión exploramos cómo herramientas como AlphaFold3 y los Modelos de Lenguaje Genómico (Evo2) están transformando la biología. Sin embargo, una herramienta es tan buena como el mapa que sigue. Si el mapa está incompleto, la medicina será sesgada.

Para ilustrar lo que está en juego, veamos cómo la "Brecha Genómica" impacta en escenarios reales:

La Realidad Clínica (El problema de la "Invisibilidad"): Imaginemos a un médico en Colombia o Nigeria intentando diagnosticar una enfermedad rara. A menudo recibe un informe de "VUS" (Variante de Significado Incierto). Esto ocurre porque una variante genética común en su población local no está en las bases de datos globales. Cuando el 86% de los datos genómicos provienen de ascendencia europea, estamos practicando medicina con un "lente desenfocado".

La Solución Técnica (Corrigiendo el Sesgo): Desde una perspectiva de software, este es un problema de "datos de entrenamiento". Si entrenas una IA solo con un grupo, no puede generalizar. Nuevas herramientas como PhyloFrame utilizan Transfer Learning para corregir el sesgo ancestral, asegurando que el poder predictivo sea equitativo.

La Respuesta Estructural (El Pangenoma): El antiguo genoma de referencia era una única cadena lineal. El Pangenoma Humano es un "grafo": un atlas multidimensional que captura la diversidad de toda la especie. Nos permite ver "Variantes Estructurales" que antes eran invisibles.

El Desafío Ético del "Doble Uso"

A medida que estos modelos se vuelven más potentes (capaces de "escribir" ADN), enfrentamos un nuevo dilema. Aunque pueden diseñar curas, también podrían usarse indebidamente para crear agentes biológicos dañinos. Además, si el alto costo computacional de estos modelos se centraliza en naciones ricas, corremos el riesgo de un nuevo "Colonialismo Genómico". ¿que opinais?.

********

Thanks Helen and Marie for you insightfuls post. Deeping in your comments and my post we have been exploring how cutting-edge tools like AlphaFold3 and Genomic Language Models (like Evo2) are transforming biology. However, a tool is only as good as the map it follows. If the map is incomplete, the medicine will be biased.

To illustrate the stakes, let’s look at how the current "Genomic Gap" impacts real-world scenarios:

The Clinical Reality (The "Invisibility" Problem): Imagine a doctor in Colombia or Nigeria trying to diagnose a rare disease. They often receive a report labeled "VUS" (Variant of Uncertain Significance). This happens because a genetic variant that is common in their local population is missing from global databases. When 86% of genomic data comes from European ancestry, we are essentially practicing medicine with a "blurred lens."
The Technical Fix (Correcting Bias): From a software perspective, this is a "training data" problem. If you train AI only on one group, it cannot generalize. New tools like PhyloFrame use Transfer Learning to correct for ancestral bias, ensuring that predictive power is equitable across different ethnicities.
The Structural Solution (The Pangenome): The old reference genome was a single linear string. The Human Pangenome is a "graph": a multidimensional atlas that captures the diversity of the entire species. It allows us to see "Structural Variants" that were previously invisible.

The Ethical "Dual-Use" Challenge

As these models become more powerful (like gLMs that can "write" DNA), we face a new dilemma. While they can design new cures, they could also be misused to create harmful biological agents. Furthermore, if the high computational cost of these models remains centralized in wealthy nations, we risk a new form of "Genomic Colonialism."

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Franklin Guerrero Campos - martes, 17 de marzo de 2026, 02:34

Tener una herramienta de este tipo en un hospital para medicina de precisión en un contexto de diversidad genética puede crear crisis en la información que se genera. Esto incluye enfrentar sesgos al emitir diagnósticos, posiblemente debido a la cantidad de datos. Además, se entrenó con otros métodos, lo que generó limitaciones algorítmicas y problemas de interpretación. Una alternativa es el pangenoma humano, que ofrece una referencia genética más inclusiva y menos rígida que la que utiliza actualmente esta herramienta. Frente a este desafío, los desarrolladores de herramientas bioinformáticas tienen la responsabilidad de crear tecnologías más representativas, transparentes y globalmente aplicables, con la finalidad de ser un soporte para brindar servicios de calidad en salud.

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Coral del Val Muñoz - martes, 17 de marzo de 2026, 11:11

Hoila Franklin,
Muchas gracias por tu comentario, porque señala un problema central de la medicina de precisión actual: una herramienta bioinformática puede ser técnicamente muy avanzada y, aun así, producir resultados clínicamente problemáticos si se apoya en referencias genómicas poco representativas. En un hospital, esto puede traducirse en sesgos diagnósticos, menor fiabilidad predictiva y dificultades de interpretación, especialmente cuando los pacientes proceden de poblaciones insuficientemente representadas en los datos de entrenamiento. La falta de diversidad en los datos no es solo un límite técnico, sino también un problema de equidad clínica.

Aquí aparece una paradoja importante. Aunque las poblaciones africanas contienen la mayor diversidad genética humana, y son fundamentales para comprender nuestra historia evolutiva, siguen estando infrarrepresentadas en la investigación genómica. Algo parecido ocurre en América Latina: análisis recientes recuerdan que las personas latinoamericanas representan solo alrededor del 0,38% de los participantes en estudios GWAS. Esto no solo limita la portabilidad de los hallazgos, sino que también frena la investigación traslacional y puede ampliar desigualdades en salud en contextos donde la medicina de precisión debería justamente reducirlas.

En este contexto, el pangenoma humano representa un avance especialmente relevante. Proporciona una representación de la diversidad genética humana que no era posible con un único genoma de referencia. Mientras que la referencia clásica era lineal y única, el pangenoma integra simultáneamente múltiples versiones del genoma humano, ofreciendo una base mucho más amplia para analizar otras secuencias. El borrador del pangenoma humano añadió aproximadamente 119 millones de pares de bases de secuencia eucromática polimórfica y reveló nuevas variantes en regiones estructuralmente complejas, mostrando con claridad cuánto se perdía al depender de una única referencia.

Dicho de una forma sencilla: si el genoma de referencia clásico era como un único mapa de carreteras de Europa aplicado al mundo entero, el pangenoma es más bien un atlas con mapas específicos para cada región del planeta. Y eso importa mucho, porque para diagnosticar enfermedades raras en una población de los Andes, del Sahel o del sudeste asiático, necesitas el mapa correcto. Por eso, el reto no es solo diseñar algoritmos más potentes, sino desarrollar herramientas bioinformáticas más representativas, más transparentes y globalmente aplicables. La representación genómica no es únicamente una cuestión académica: es una condición necesaria para una medicina de precisión verdaderamente justa.

***********************

Thank you very much for your comment, because it highlights a central problem in current precision medicine: a bioinformatics tool may be technically very advanced and still produce clinically problematic results if it relies on poorly representative genomic references. In a hospital setting, this can translate into diagnostic bias, lower predictive reliability, and difficulties in interpretation, especially when patients come from populations that are underrepresented in the training data. Lack of diversity in the data is not only a technical limitation, but also a matter of clinical equity.

Here a major paradox appears. Although African populations contain the greatest human genetic diversity, and are essential for understanding our evolutionary history, they remain underrepresented in genomic research. A similar situation occurs in Latin America: recent analyses remind us that Latin American individuals account for only about 0.38% of participants in GWAS studies. This not only limits the portability of findings, but also slows translational research and may widen health inequalities in settings where precision medicine should, in principle, help reduce them.

In this context, the human pangenome represents a particularly important advance. It provides a representation of human genetic diversity that was not possible with a single reference genome. Whereas the classical reference genome was linear and unique, the pangenome simultaneously incorporates multiple versions of the human genome, offering a much broader basis for analysing other human sequences.

Put simply: if the traditional reference genome was like using a single road map of Europe for everything, the pangenome is more like an atlas with specific maps for each region of the planet. And that matters greatly, because if you want to diagnose rare diseases in a population from the Andes, the Sahel, or Southeast Asia, you need the right map.

For that reason, the challenge is not only to design more powerful algorithms, but also to develop bioinformatics tools that are more representative, more transparent, and more globally applicable. Genomic representation is not merely an academic issue; it is a necessary condition for a truly fair form of precision medicine.

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Sonia García Ruiz - martes, 24 de marzo de 2026, 11:49

Tras reflexionar, considero que:

1. Los problemas concretos con los que podría encontrarse el hospital: en la situación planteada, el hospital podría encontrarse con un problema a tener en cuenta en medicina de precisión: la representatividad de los datos genómicos.
Dado que la mayoría de los algoritmos bioinformáticos fueron entrenados con datos de poblaciones europeas y norteamericanas, es probable que los datos que obtenga este hospital al utilizar estas herramientas en su población, presenten una menor precisión y por tanto sean menos representativos, ya que su población de estudio puede presentar variantes genéticas diferentes a las de la poblaciones europeas y norteamericanas . Esto conllevaría a que algunas variantes frecuentes en la población local de estudio podrían pasar inadvertidas o clasificarse incorrectamente, lo que podría afectar al diagnóstico y a la selección de tratamientos.

2. El papel que jugaría el pangenoma humano en este contexto sería:
El hecho de que el pangenoma humano ofrezca un mapa más inclusivo y representativo de la variabilidad genética global. Permitiría a este hospital la opción de entrenar y validar herramientas bioinformáticas que funcionan mejor en poblaciones diversas, reduciendo sesgos y aumentando la efectividad de la medicina de precisión en su población de estudio.

3. La responsabilidad de los desarrolladores de herramientas bioinformáticas ante este reto, sería:
Considero que los desarrolladores de herramientas bioinformáticas tienen una responsabilidad tanto profesional como ética . A nivel profesional deberían ser conscientes de las limitaciones de sus modelos y de los sesgos en los datos, y trabajar para hacer que sus algoritmos sean lo más inclusivos posible., colaborando con comunidades y centros de investigación de distintos países. Y a nivel ético deberían compartir recursos para evitar desigualdades en el acceso a la medicina genómica, debido al elevado coste computacional y ofrecer transparencia en la documentación de los datos usados.

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

de Niurvis Legrá Pérez - lunes, 30 de marzo de 2026, 22:34

El principal problema sería el diagnóstico erróneo. Puede darse el caso de que un paciente sea diagnosticado con una enfermedad cuando en realidad no la tiene, ya que la herramienta fue entrenada con valores que pueden alejarse de las características reales de la población en la que se aplica. En este caso se orientarían análisis y medicamentos innecesarios, sin hablar del coste psicológico para el paciente. También pudiera darse el caso contrario, declarar un paciente como que está sano cuando no lo está, lo que pudiera atentar contra su vida, pues no recibiría el tratamiento que lleva.

El papel del Pangenoma Humano en este contexto jugaría un papel fundamental, pues serviría para comparar con mayor precisión todas las posibles enfermedades, características genotípicas y posibles respuestas del cuerpo humano para poder predecir si hay alguna enfermedad o cuerpo saludable. Esto es posible porque se ha entrenado la herramienta con casos con características que puedan resultar más compatibles a la hora de diagnosticarse.

Los desarrolladores de herramientas bioinformáticas tienen responsabilidad de informar en detalle cómo funciona la herramienta, cuales son los mejores datos de entrenamiento para que la herramienta tenga un rendimiento óptimo y si este depende de la población o no.

Foro de debate módulo 1

Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

La bioinformática hoy: mucho más que analizar secuencias de ADN

1. AlphaFold3: la IA que "ve" cómo interactúan las moléculas de la vida

2. El Pangenoma Humano: un mapa genético más justo e inclusivo

3. Los modelos del lenguaje del genoma: la IA que aprende a "leer" el ADN

Lecturas recomendadas

Para empezar (divulgativo y conceptual):

Para profundizar (revisiones científicas recientes):

Re: El ADN era solo el principio / DNA Was Just the Beginning

Re: El ADN era solo el principio / DNA Was Just the Beginning

Re: El ADN era solo el principio / DNA Was Just the Beginning

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

¿Porque la diversidad bioinformatica es una necesidad medica?/ ¿why bioinformatic diversity is a Medical necessity?

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Re: Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 6ª Edición

Foro de debate módulo 1

Post 1: material adicional El ADN era solo el principio / DNA Was Just the Beginning

La bioinformática hoy: mucho más que analizar secuencias de ADN

1. AlphaFold3: la IA que "ve" cómo interactúan las moléculas de la vida

2. El Pangenoma Humano: un mapa genético más justo e inclusivo

3. Los modelos del lenguaje del genoma: la IA que aprende a "leer" el ADN

Lecturas recomendadas

Para empezar (divulgativo y conceptual):

Para profundizar (revisiones científicas recientes):

Centro de Producción de Recursos para la Universidad Digital