ml_bioinformatica_6ed: Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

de Augusto Miguel Anguita Ruiz - viernes, 27 de marzo de 2026, 10:07

Como se ha mencionado en la cápsula 1 de este módulo, el preprocesamiento o la preparación de los datos es una fase clave dentro del ciclo de vida de la ciencia de datos. Su importancia es tal que, en muchas aplicaciones bioinformáticas, puede consumir hasta el 80% del tiempo de trabajo, determinando en gran medida el éxito de los resultados finales. En nuestro campo, y especialmente cuando trabajamos con ciencias ómicas, esta fase cobra una relevancia crítica debido a que los conjuntos de datos suelen contar con cientos de miles de variables, como ocurre en estudios de GWAS, EWAS o RNAseq. Este fenómeno dificulta enormemente el aprendizaje, ya que disminuye la capacidad del algoritmo para encontrar correlaciones óptimas entre las entradas y las salidas, algo que a menudo conocemos como la "maldición de la dimensionalidad".

Por este motivo, resulta imprescindible dedicar un esfuerzo considerable a la selección de características (feature selection), filtrando exclusivamente aquellas variables que sean realmente informativas para el estudio. Un enfoque particularmente interesante es el uso del conocimiento experto previo como filtro inicial, una estrategia que a menudo resulta más efectiva que el prefiltrado basado únicamente en los datos crudos, el cual podría sesgar las conclusiones y limitar la capacidad de generalización del modelo. Podéis encontrar ejemplos claros de este papel fundamental de la selección en trabajos recientes publicados en Nature Communications (https://doi.org/10.1038/s41467-025-56013-7) o Artificial Intelligence in Medicine (https://doi.org/10.1016/j.artmed.2024.102962).

Me encantaría conocer vuestra perspectiva al respecto y si se os ocurren otras formas creativas de abordar el feature selection en vuestros proyectos bioinformáticos. Si conocéis otros artículos donde estos métodos hayan marcado la diferencia, por favor, compartidlos para que podamos seguir profundizando en estas técnicas esenciales.

==================

As mentioned in Capsule 1 of this module, data preprocessing and preparation is a cornerstone of the data science lifecycle. Its importance is such that, in many bioinformatics applications, it can consume up to 80% of total working time, largely determining the success of the final results. In our field, particularly within omics sciences, this phase takes on critical relevance because datasets often contain hundreds of thousands of variables—as seen in GWAS, EWAS, or RNAseq studies. This reality significantly hampers the learning process, as it reduces the algorithm's ability to find optimal correlations between inputs and outputs, a phenomenon often referred to as the "curse of dimensionality."

For this reason, it is essential to devote considerable effort to feature selection, focusing exclusively on those variables that are most informative for the study. A particularly interesting approach is the use of prior expert knowledge as an initial filter—a strategy that is often more effective than pre-filtering based solely on the raw data, which can bias conclusions and limit the model’s generalizability. You can find clear examples of this fundamental role of selection in recent studies published in Nature Communications (https://doi.org/10.1038/s41467-025-56013-7) or Artificial Intelligence in Medicine (https://doi.org/10.1016/j.artmed.2024.102962).

I would love to hear your perspectives on this and whether you can think of other creative ways to approach feature selection in your own bioinformatics projects. If you know of any other papers where these methods have made a significant difference, please share them so we can continue to explore these essential techniques together..

Re: Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

de Ana Trillo - sábado, 28 de marzo de 2026, 11:05

Buenos días. Totalmente de acuerdo en que esta fase es clave, yo también he visto que si no limpias y reduces bien los datos desde el principio, luego el modelo no hay manera de que funcione. En mi caso, además de usar conocimiento previo, me parece útil combinar métodos sencillos como eliminar variables muy correlacionadas o con poca variabilidad, y luego ya afinar con técnicas automáticas. También creo que validar bien cada paso es importante para no cargarte información relevante sin darte cuenta. Y sobre todo, ir probando sin casarte con un único enfoque, porque en ómicas cada dataset es un mundo.

Re: Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

de Augusto Miguel Anguita Ruiz - martes, 31 de marzo de 2026, 22:43

Exactamente, esa flexibilidad es fundamental en bioinformática. Para aportar un matiz técnico nuevo a lo que comentas sobre la eliminación de variables, es vital tener especial cuidado con el Data Leakage (filtración de datos) durante ese proceso.

A veces, por error, realizamos la selección de características o el filtrado de variabilidad usando el dataset completo antes de hacer la partición de entrenamiento y test. Esto provoca que el modelo "conozca" de antemano información del grupo de validación, dándonos resultados falsamente optimistas que luego no se replican en la práctica real. Por eso, cualquier paso de preprocesamiento que dependa de la distribución de los datos debe ejecutarse siempre después de la división o dentro de los bucles de validación cruzada.

===============

Exactly, that flexibility is fundamental in bioinformatics. To add a new technical nuance to your point about variable removal, it is vital to be especially careful with Data Leakage during that process.

Sometimes, by mistake, feature selection or variability filtering is performed using the entire dataset before splitting it into training and testing sets. This causes the model to "know" information about the validation group beforehand, giving us falsely optimistic results that won't be replicated in real-world practice. Therefore, any preprocessing step that depends on the data distribution should always be executed after the split or within the cross-validation loops.

Foro de debate módulo 3

Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Re: Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Re: Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 6ª Edición

Foro de debate módulo 3

Hilo debate 2: Selección de características: ¿Cómo ganar la batalla a la "maldición de la dimensionalidad"? // Discussion thread 2: Feature Selection: How to Win the Battle Against the "Curse of Dimensionality"?

Centro de Producción de Recursos para la Universidad Digital