La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 4

Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de María José Gacto - Número de respuestas: 6

Regresión en Bioinformática.

La regresión consiste en predecir el valor numérico para una variable a partir de los valores de otras variables. La definición del problema es parecida a la del problema de clasificación (como visteis en el módulo anterior), pero para predecir valores sobre una variable continua o numérica ordinal.

Normalmente por la tipología de problemas muchos de los que afrontamos en la vida real suelen ser de clasificación. No obstante, la regresión también es muy importante para estimar variables continuas, estudiar tendencias, etc…

Animaros, ¿qué problemas conocéis, que hayáis afrontado, que creáis que son de regresión y no de clasificación dentro del ámbito de la Bioinformática?.

--------------------------------------------

Regression in Bioinformatics.

Regression consists of predicting the numerical value for a variable from the values of other variables. The definition of the problem is similar to that of the classification problem (as you saw in the previous module), but to predict values on a continuous or ordinal numeric variable.

Normally, due to the typology of problems, many of the problems we face in real life are usually classification problems. However, regression is also very important for estimating continuous variables, studying trends, etc...

Come on, what problems do you know, that you have faced, that you think are regression problems and not classification problems in the field of Bioinformatics?


En respuesta a María José Gacto

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de Silvestre Ruano Rodríguez -
Algunos de los problemas más típicos en multiómicas o biología de sistemas son la predicción de niveles de expresión génica, el fold change en análisis de RNA-seq, la abundancia proteica, la respuesta a fármacos (por ejemplo, valores de IC50) o el tiempo hasta un evento en estudios de supervivencia. Los problemas de clasificación son muy comunes que sean binarios (Presencia-ausencia , Enfermo - Control, etc).
En respuesta a Silvestre Ruano Rodríguez

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de María José Gacto -
¡Gracias por tu aportación, Silvestre!
Efectivamente, todos los ejemplos que mencionas —como la predicción de niveles de expresión génica, etc.— son claros casos donde se aplica la regresión. Son problemas en los que el objetivo es estimar un valor numérico continuo, por lo que encajan perfectamente dentro de este tipo de modelos.
En cambio, en los problemas de clasificación, la variable de salida es categórica. No siempre tiene por qué ser binaria: podemos encontrar clasificaciones con múltiples clases, por ejemplo, distintos estados de salud, subtipos tumorales, etc.
¡Gracias de nuevo por tu contribución! Este tipo de reflexiones enriquecen mucho el debate y ayudan a visualizar mejor las diferencias entre cada tipo de problema.
-------------
Thank you for your contribution, Silvestre!
Indeed, all the examples you mention —such as predicting gene expression levels, etc.— are clear cases where regression is applied. These are problems in which the goal is to estimate a continuous numerical value, so they fit perfectly within this type of modeling.
In contrast, in classification problems, the output variable is categorical. It does not always have to be binary: we can find classifications with multiple classes, for example, different health states, tumor subtypes, etc.
Thanks again for your contribution! These kinds of reflections greatly enrich the discussion and help clarify the differences between each type of problem.
En respuesta a María José Gacto

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de María José Gacto -
Me gustaría compartir algunas ideas sobre cómo abordar estos problemas, ya que la distinción entre regresión y clasificación puede ser más flexible de lo que parece:
• Problema del Abalone: Aunque su naturaleza es de regresión (predecir una edad numérica entre 1 y 29), también se puede aplicar un enfoque de clasificación. Por ejemplo, discretizando la variable en grupos como "Jóvenes", "Adultos" y "Mayores".
• Problema del estatus social: Al tratar con categorías que tienen un orden lógico, estaríamos ante una regresión ordinal.
En ambos casos, la elección depende de lo que pretendamos lograr: ¿necesitamos la precisión del valor numérico o nos basta con la etiqueta de una categoría? Son excelentes ejemplos de cómo la naturaleza del problema y nuestros objetivos dictan la técnica a utilizar.
________________________________________
I would like to share some thoughts on how to approach these cases, as the line between regression and classification can be more flexible than it seems:
• Abalone Problem: While its nature is regression (predicting a numerical age between 1 and 29), a classification approach can also be applied. For instance, by discretizing the variable into groups such as "Youth", "Adults", and "Seniors".
• Social Status Problem: Since we are dealing with categories that have a logical order, this would be a case of ordinal regression.
In both scenarios, the choice depends on our goal: Do we need the precision of a numerical value, or is a category label sufficient? These are excellent examples of how the nature of the problem and our specific objectives dictate which technique to use.
En respuesta a María José Gacto

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de EVA JIMÉNEZ BENAVENTE -
Dentro de mi área, que es la biotecnología vegetal y agroalimentaria, destacan la predicción del rendimiento de cultivos basándose en múltiples variables, o la estimación de la vida útil de un producto (cuántos días tardará un producto fresco en degradarse bajo ciertas condiciones de almacenamiento).

Within my field, which is plant and agrifood biotechnology, the most notable applications include: crop yield prediction based on multiple variables, and shelf-life estimation (predicting how many days a fresh product will take to degrade under specific storage conditions).
En respuesta a EVA JIMÉNEZ BENAVENTE

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de Augusto Miguel Anguita Ruiz -
Un ejemplo fundamental en epidemiología molecular es la estimación de la edad biológica a partir de datos de metilación del ADN, los conocidos como relojes epigenéticos. En este caso, la regresión es muy superior a la clasificación porque no buscamos etiquetas simplistas como "joven" o "viejo", sino un valor continuo que refleje el desgaste celular real y el envejecimiento acelerado de un individuo respecto a su edad cronológica.Otro problema clásico de regresión es la predicción de la afinidad de unión (binding affinity) entre un fármaco candidato y su proteína diana. En el cribado virtual, no nos basta con una respuesta binaria de "se une" o "no se une"; necesitamos estimar valores numéricos precisos como la constante de disociación ($K_d$). Esta finura que aporta la regresión es lo que permite a los investigadores priorizar qué moléculas tienen el potencial químico suficiente para pasar a la fase de experimentación en el laboratorio. Al final, la regresión nos permite capturar gradientes biológicos que la clasificación a menudo ignora.A fundamental example in molecular epidemiology is the estimation of biological age using DNA methylation data, commonly known as epigenetic clocks. In this case, regression is far superior to classification because we are not looking for simplistic labels like "young" or "old," but rather a continuous value that reflects actual cellular wear and tear and accelerated aging relative to an individual's chronological age.Another classic regression problem is predicting the binding affinity between a candidate drug and its target protein. In virtual screening, a binary "binds" or "does not bind" response is not enough; we need to estimate precise numerical values such as the dissociation constant ($K_d$). The granularity provided by regression is what allows researchers to prioritize which molecules have enough chemical potential to move into the laboratory testing phase. Ultimately, regression allows us to capture biological gradients that classification often ignores.
En respuesta a Augusto Miguel Anguita Ruiz

Re: Hilo 1: Regresión en Bioinformática / Thread 1: Regression in Bioinformatics

de María José Gacto -
Muchas gracias, Eva y Augusto, por vuestras aportaciones. Creo que serán de gran utilidad para comprender mejor los distintos problemas en los que la regresión es necesaria.
Las aplicaciones que menciona Eva —como predecir el rendimiento de cultivos o estimar la vida útil de productos frescos— muestran claramente cómo la regresión ayuda a anticipar comportamientos complejos en biología.
Asimismo, el ejemplo de Augusto sobre los relojes epigenéticos demuestra la utilidad de la regresión para obtener valores continuos que reflejen fenómenos biológicos sutiles, como calcular la edad biológica frente a la cronológica.
------------
Thank you very much, Eva and Augusto, for your contributions. I believe they will be very useful for better understanding the different problems in which regression is necessary.
The applications mentioned by Eva—such as predicting crop yield or estimating the shelf-life of fresh products—clearly show how regression helps anticipate complex behaviors in biological systems.
Likewise, Augusto’s example about epigenetic clocks demonstrates the usefulness of regression when obtaining continuous values that reflect subtle biological phenomena, such as estimating biological age compared to chronological age.