La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 4

Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de María José Gacto - Número de respuestas: 6

En el artículo "Experimental Study on 164 Algorithms Available in Software Tools for Solving Standard Non-Linear Regression Problems" (Gacto et al., 2019), se analizaron 164 algoritmos de regresión.

Podéis acceder a toda la información aquí:

·        Artículo completo: https://www.doi.org/10.1016/j.artmed.2024.102962

Una de las técnicas analizadas en este trabajo destaca por ser la que mejor se comporta en promedio. La pregunta para el debate es: ¿Debería ser ese algoritmo el que usemos para todos los problemas de regresión o existen razones para elegir otros?

-----------------------------------

The paper "Experimental Study on 164 Algorithms Available in Software Tools for Solving Standard Non-Linear Regression Problems" (Gacto et al., 2019) analyzed 164 regression algorithms.

You can access all the information here:

·        Full Article: https://www.doi.org/10.1016/j.artmed.2024.102962


One of the techniques analyzed in this study stands out as the best-performing one on average. The question for discussion is: Should we use this specific algorithm for every regression problem, or are there reasons to choose others?


En respuesta a María José Gacto

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de Augusto Miguel Anguita Ruiz -
Es un estudio fascinante, María José. Aunque tener un "ganador" estadístico es una brújula excelente, en ciencia de datos siempre nos acompaña el teorema de "No Free Lunch": ningún algoritmo es superior a todos los demás en todos los posibles escenarios.

En mi experiencia en epidemiología, a menudo elegimos algoritmos que no son los "mejores" en términos de error absoluto si el problema requiere interpretabilidad. Por ejemplo, un modelo de Random Forest o una red neuronal pueden tener un rendimiento promedio superior, pero si necesitamos explicar a un comité clínico exactamente cómo influye una variable ambiental en la salud, una Regresión Penalizada (como LASSO) puede ser preferible. Además, factores como el coste computacional o la facilidad de despliegue en entornos con pocos recursos pueden hacer que un algoritmo "segundón" en el ranking sea, en la práctica, la mejor elección para un proyecto concreto.

This is a fascinating study, María José. While having a statistical "winner" is an excellent compass, in data science, we are always guided by the "No Free Lunch" theorem: no single algorithm is superior to all others in every possible scenario.

In my experience in epidemiology, we often choose algorithms that are not the "best" in terms of absolute error if the problem requires interpretability. For instance, a Random Forest or a neural network might have superior average performance, but if we need to explain to a clinical committee exactly how an environmental variable influences health, a Penalized Regression (such as LASSO) might be preferable. Furthermore, factors like computational cost or ease of deployment in resource-limited settings can make a "runner-up" algorithm the best practical choice for a specific project.
En respuesta a Augusto Miguel Anguita Ruiz

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de María José Gacto -
Muchas gracias, Augusto, por tu aportación. Tienes mucha razón: el mejor algoritmo no siempre es la mejor opción en todos los casos, porque su rendimiento depende totalmente del contexto y de las características de los datos con los que trabajemos. En resumen, la elección debe adaptarse siempre al problema concreto a resolver.
-----------------------------------
Thank you very much, Augusto, for your contribution. You are absolutely right: the best algorithm is not always the best choice in every situation, because its performance depends entirely on the context and on the characteristics of the data we are working with. In short, the choice must always be adapted to the specific problem to be solved.
En respuesta a María José Gacto

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de Silvestre Ruano Rodríguez -
Aunque en el artículo uno de los 164 algoritmos salió como “el mejor en promedio”, no significa que sea el mejor para todos los casos. Depende de tus datos, tus objetivos y tus recursos. A veces un modelo más simple, rápido o interpretable funciona mejor que el “top” del estudio. La clave: probar unos cuantos y quedarte con el que realmente funcione para tu caso. Por tanto, estoy bastante de acuerdo con Augusto.
En respuesta a Silvestre Ruano Rodríguez

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de María José Gacto -
¡Totalmente de acuerdo! Como bien dices, no existe un algoritmo perfecto para todo. Entender que un modelo simple y rápido muchas veces es la mejor opción en la práctica es un consejo invaluable para alguien que empieza con problemas de regresión. ¡Gracias por el aporte, coincido con ambos!
-----
I completely agree! As you said, there is no perfect algorithm for everything. Understanding that a simple and fast model is often the best practical choice is invaluable advice for anyone starting out with regression problems. Thanks for the input, I agree with you both!
En respuesta a María José Gacto

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de MARIA GABRIELA ESPINOZA BRAVO -
Desde una perspectiva práctica y metodológica, no es recomendable asumir que el algoritmo con mejor rendimiento promedio sea la mejor opción para todos los problemas de regresión.

Si bien el estudio demuestra que una técnica destaca en términos globales, esto no implica universalidad. En Machine Learning, el desempeño de un algoritmo depende fuertemente de factores como:

La naturaleza de los datos (linealidad, ruido, outliers, dimensionalidad)
El tamaño del conjunto de datos
La interpretabilidad requerida del modelo
El costo computacional y tiempo de entrenamiento
El contexto de aplicación (por ejemplo, médico, financiero, industrial)

Por ejemplo, un modelo altamente preciso pero complejo puede no ser adecuado en escenarios donde la interpretabilidad es clave, como en el ámbito clínico. Asimismo, algoritmos más simples pueden generalizar mejor en datasets pequeños o con alta variabilidad.

En este sentido, el principio “No Free Lunch” en Machine Learning es fundamental: no existe un algoritmo óptimo para todos los problemas. Por ello, la selección del modelo debe basarse en la experimentación, validación y conocimiento del contexto específico.

En conclusión, aunque el algoritmo con mejor rendimiento promedio es una excelente referencia inicial, la elección final debe ser siempre adaptativa y basada en el problema concreto.
En respuesta a MARIA GABRIELA ESPINOZA BRAVO

Re: Hilo 2: ¿El mejor algoritmo de regresión? / Thread 2: The best regression algorithm?

de María José Gacto -
Gracias, Gabriela. Has dado totalmente en el clavo: justo esos son los aspectos esenciales que debemos tener en cuenta al elegir un algoritmo de regresión.
-------
Thank you, Gabriela. You’ve absolutely nailed it — those are exactly the key aspects we need to consider when selecting a regression algorithm.