¡Buenas Augusto!,
Estoy totalmente de acuerdo en que categorizar un valor continuo no siempre es la mejor opción, especialmente si el tamaño de la muestra es pequeño o si la variable original tiene una distribución muy concentrada.
En mi caso, he trabajado con enfoques mixtos, por ejemplo en predicción de IMC (Índice de Masa Corporal): primero hacemos una predicción continua (regresión) para obtener el valor exacto de IMC, y luego lo categorizamos según los puntos de corte clínicos (bajo peso, peso normal, sobrepeso, obesidad) para aplicar un modelo de clasificación que refuerce o contraste el resultado.
Eso sí, es clave tener en cuenta el contexto y el N disponible, como bien mencionas. Si se tiene una buena base de datos y una justificación sólida para los cortes, puede funcionar muy bien. Pero si se fuerzan las categorías artificialmente, se puede perder mucha información y aumentar el error.
Espero haber respondido a tu pregunta,
Happy weekend!
J
--------
Hi Augusto!
I totally agree that categorizing a continuous value isn't always the best option, especially if the sample size is small or if the original variable has a highly concentrated distribution.
In my case, I've worked with mixed approaches, for example, in BMI (Body Mass Index) prediction: first, we perform a continuous prediction (regression) to obtain the exact BMI value, and then we categorize it according to clinical cutoff points (underweight, normal weight, overweight, obese) to apply a classification model that reinforces or contrasts the result.
Of course, it's key to consider the context and the available N, as you rightly mention. It can work very well if you have a good database and a solid justification for the cutoffs. However, if the categories are artificially forced, a lot of information can be lost, and the error can increase.
I hope I've answered your question.
Happy weekend!
J