Como se ha mencionado en la cápsula 1 de este módulo, el preprocesamiento o la preparación de los datos es una fase clave dentro del ciclo de vida de la ciencia de datos. Su importancia es tal que, en muchas aplicaciones bioinformáticas, puede consumir hasta el 80% del tiempo de trabajo, determinando en gran medida el éxito de los resultados finales. En nuestro campo, y especialmente cuando trabajamos con ciencias ómicas, esta fase cobra una relevancia crítica debido a que los conjuntos de datos suelen contar con cientos de miles de variables, como ocurre en estudios de GWAS, EWAS o RNAseq. Este fenómeno dificulta enormemente el aprendizaje, ya que disminuye la capacidad del algoritmo para encontrar correlaciones óptimas entre las entradas y las salidas, algo que a menudo conocemos como la "maldición de la dimensionalidad".
Por este motivo, resulta imprescindible dedicar un esfuerzo considerable a la selección de características (feature selection), filtrando exclusivamente aquellas variables que sean realmente informativas para el estudio. Un enfoque particularmente interesante es el uso del conocimiento experto previo como filtro inicial, una estrategia que a menudo resulta más efectiva que el prefiltrado basado únicamente en los datos crudos, el cual podría sesgar las conclusiones y limitar la capacidad de generalización del modelo. Podéis encontrar ejemplos claros de este papel fundamental de la selección en trabajos recientes publicados en Nature Communications (https://doi.org/10.1038/s41467-025-56013-7) o Artificial Intelligence in Medicine (https://doi.org/10.1016/j.artmed.2024.102962).
Me encantaría conocer vuestra perspectiva al respecto y si se os ocurren otras formas creativas de abordar el feature selection en vuestros proyectos bioinformáticos. Si conocéis otros artículos donde estos métodos hayan marcado la diferencia, por favor, compartidlos para que podamos seguir profundizando en estas técnicas esenciales.
==================
As mentioned in Capsule 1 of this module, data preprocessing and preparation is a cornerstone of the data science lifecycle. Its importance is such that, in many bioinformatics applications, it can consume up to 80% of total working time, largely determining the success of the final results. In our field, particularly within omics sciences, this phase takes on critical relevance because datasets often contain hundreds of thousands of variables—as seen in GWAS, EWAS, or RNAseq studies. This reality significantly hampers the learning process, as it reduces the algorithm's ability to find optimal correlations between inputs and outputs, a phenomenon often referred to as the "curse of dimensionality."
For this reason, it is essential to devote considerable effort to feature selection, focusing exclusively on those variables that are most informative for the study. A particularly interesting approach is the use of prior expert knowledge as an initial filter—a strategy that is often more effective than pre-filtering based solely on the raw data, which can bias conclusions and limit the model’s generalizability. You can find clear examples of this fundamental role of selection in recent studies published in Nature Communications (https://doi.org/10.1038/s41467-025-56013-7) or Artificial Intelligence in Medicine (https://doi.org/10.1016/j.artmed.2024.102962).
I would love to hear your perspectives on this and whether you can think of other creative ways to approach feature selection in your own bioinformatics projects. If you know of any other papers where these methods have made a significant difference, please share them so we can continue to explore these essential techniques together..