La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 4

Hilo 3: Problemas de Regresión / Thread 3: Regression problems

Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de María José Gacto - Número de respuestas: 6

Aquí tenéis un par de problemas de ejemplo para que analicéis si son de regresión o de clasificación. A ver quién se anima a decir de qué tipo son:

  • Problema Abalone: Tiene como objetivo predecir la edad del abalone entre 1 y 29 años a partir de características físicas.
  • Problema de predicción del estatus social: Que tendría como objetivo predecir la categoría del estatus social a partir de ciertas características. Supongamos que se establecen 7 categorías a predecir.

---------------------

Here are a couple of example problems for you to analyze whether they are regression or classification problems. Who can tell which type they are:

- Abalone problem: Aims to predict the age of abalone between 1 and 29 from physical characteristics.

- Social status prediction problem: Aims to predict the social status category from certain characteristics. Suppose 7 categories to be predicted.


En respuesta a María José Gacto

Re: Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de Jose M Peregrin Alvarez -
Buenas!

Entiendo que el primer problema es un caso de regresión, ya que la edad del abalone es un valor numérico continuo.

El segundo problema es clasificación, porque el estatus social se divide en categorías predefinidas.

Pero personalmente yo disfruto más cuando ambos enfoques se combinan en un mismo problema. Por ejemplo, en salud, podemos predecir un riesgo de enfermedad como un valor continuo (regresión) y luego clasificarlo en niveles de riesgo (bajo, medio, alto). De manera similar, en el ámbito laboral, podríamos predecir el salario exacto que merece un puesto/oferta (regresión) y posteriormente asociarlo a su nivel (clasificación).

Creo que este tipo de problemas/proyectos nos permitiría desarrollar habilidades en ambas áreas y nos preparía para desafíos más complejos para su aplicación en el área de bioinformática u en otros campos de la ciencia de los datos.

Saludos,
J

------
Hello,

I understand that the first problem is a case of regression, since the age of abalone is a continuous numerical value.

The second problem is classification, since social status is divided into predefined categories.

But I personally enjoy it more when both approaches are combined into a single problem. For example, in the healthcare field, we can predict disease risk as a continuous value (regression) and then classify it into risk levels (low, medium, high). Similarly, in the workplace, we could predict the exact salary a position/offer deserves (regression) and then associate it with its position level (classification).

These types of problems/projects would allow us to develop skills in both areas and prepare us for more complex challenges for application in bioinformatics or other fields of data science.

Cheers,
J
En respuesta a Jose M Peregrin Alvarez

Re: Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de María José Gacto -
Muy buena aportación, José M. Me parece muy interesante la idea de combinar ambos enfoques en un mismo problema. Justamente, en el caso del Abalone, si bien tiene más sentido abordarlo desde la regresión, también es válido discretizar la variable de salida y aplicar una técnica de clasificación. Lo mismo ocurre con el estatus social, donde se trataría de una regresión ordinal. Como mencionas, la combinación de estos métodos puede ser muy útil en distintos campos, como la bioinformática o la ciencia de datos en general. La elección entre regresión y clasificación depende mucho del contexto y del objetivo final del análisis. ¡Gracias por compartir tu perspectiva!
-------------
Very good contribution, José M. I find the idea of combining both approaches in a single problem very interesting. Specifically, in the case of the Abalone problem, while it makes more sense to approach it from a regression perspective, it is also valid to discretize the output variable and apply a classification technique. The same applies to social status, where it would be an ordinal regression. As you mentioned, combining these methods can be very useful in various fields, such as bioinformatics or data science in general. The choice between regression and classification largely depends on the context and the final objective of the analysis. Thanks for sharing your perspective!
En respuesta a Jose M Peregrin Alvarez

Re: Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de Augusto Miguel Anguita Ruiz -
Gracias por tu aportación Jose M, podrías contarnos más sobre los enfoques en los que categorizáis el valor continuo en distintos grupos para aplicar un clasificador?

De acuerdo a mi experiencia, esto no ayuda en todos los casos, especialmente dependiendo del N del que se disponga.

Un fuerte abrazo y gracias por compartir tus impresiones.

-------------

Thanks for your input Jose M, could you tell us more about the approaches where you categorise the continuous value into different groups to apply a classifier?

According to my experience, this does not help in all cases, especially depending on the N available.

Best regards and thanks for sharing your impressions.
En respuesta a Augusto Miguel Anguita Ruiz

Re: Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de Jose M Peregrin Alvarez -
¡Buenas Augusto!,

Estoy totalmente de acuerdo en que categorizar un valor continuo no siempre es la mejor opción, especialmente si el tamaño de la muestra es pequeño o si la variable original tiene una distribución muy concentrada.

En mi caso, he trabajado con enfoques mixtos, por ejemplo en predicción de IMC (Índice de Masa Corporal): primero hacemos una predicción continua (regresión) para obtener el valor exacto de IMC, y luego lo categorizamos según los puntos de corte clínicos (bajo peso, peso normal, sobrepeso, obesidad) para aplicar un modelo de clasificación que refuerce o contraste el resultado.

Eso sí, es clave tener en cuenta el contexto y el N disponible, como bien mencionas. Si se tiene una buena base de datos y una justificación sólida para los cortes, puede funcionar muy bien. Pero si se fuerzan las categorías artificialmente, se puede perder mucha información y aumentar el error.

Espero haber respondido a tu pregunta,
Happy weekend!
J
--------
Hi Augusto!

I totally agree that categorizing a continuous value isn't always the best option, especially if the sample size is small or if the original variable has a highly concentrated distribution.

In my case, I've worked with mixed approaches, for example, in BMI (Body Mass Index) prediction: first, we perform a continuous prediction (regression) to obtain the exact BMI value, and then we categorize it according to clinical cutoff points (underweight, normal weight, overweight, obese) to apply a classification model that reinforces or contrasts the result.

Of course, it's key to consider the context and the available N, as you rightly mention. It can work very well if you have a good database and a solid justification for the cutoffs. However, if the categories are artificially forced, a lot of information can be lost, and the error can increase.

I hope I've answered your question.

Happy weekend!
J
En respuesta a Jose M Peregrin Alvarez

Re: Hilo 3: Problemas de Regresión / Thread 3: Regression problems

de María José Gacto -
Muchísimas gracias por tu respuesta, ¡me parece una muy buena forma de hacer que la categorización funcione!
El enfoque mixto que comentas tiene mucho sentido: aprovechar primero la precisión de un modelo de regresión y luego aplicar la clasificación con base en puntos de corte clínicos me parece una estrategia muy equilibrada, especialmente cuando se cuenta con una buena justificación detrás.
Coincido totalmente en que forzar categorías sin base sólida puede llevar a una pérdida de información. Me parece un ejemplo muy útil para abordar este tipo de casos con más flexibilidad. Gracias por compartirlo.
-------------
Thank you so much for your response! I think it's a great way to make categorization work.
The mixed approach you mentioned makes a lot of sense: first taking advantage of the precision of a regression model and then applying classification based on clinical cutoff points seems like a very balanced strategy, especially when there’s solid justification behind it.
I totally agree that forcing categories without a strong foundation can lead to information loss. I think it's a very useful example for approaching these kinds of cases with more flexibility. Thanks for sharing it.
Best regards,