ml_bioinformatica_6ed: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario - martes, 24 de marzo de 2026, 11:49

En los proyectos de investigación biomédica, existe una fase previa al preprocesamiento que es la captación de los datos.

A pesar de su importancia, en muchas ocasiones, no se le presta atención y se pasa directamente al preprocesamiento y la implementación de modelos de ML, lo que lleva a no obtener resultados óptimos.

¿Creéis que es importante diseñar correctamente la fase de captación de los datos?
¿Una fase de captación de datos mal diseñada puede introducir sesgos en el análisis?
¿Deben contar los proyectos de investigación biomédica con la opinión de los expertos en ML también para el diseño de esta etapa?

Estamos ansiosos por conocer vuestra opinión al respecto o conocer ejemplos que resalten la importancia de una correcta planificación de la etapa de captación de datos.

-----

In biomedical research projects, there is a phase prior to pre-processing, which is data capture.

Despite its importance, it is often neglected, and the focus is on pre-processing and the implementation of ML models, which leads to sub-optimal results.

Do you think it is important to design the data collection stage correctly?
Can a poorly designed data collection phase introduce biases in the analysis?
Should biomedical research projects also rely on the opinion of ML experts for the design of this stage?

We look forward to hearing your views on this, or to hearing examples that highlight the importance of proper planning of the data collection phase.

Alberto

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de EVA JIMÉNEZ BENAVENTE - jueves, 26 de marzo de 2026, 19:28

Has dicho
Soy Eva Jiménez, biotecnóloga, y opino que, tanto en biomedicina como en cualquier ámbito de investigación la fase de captación o recogida de datos es crucial para llevar a cabo un buen estudio. Este es el punto a partir del cual se realizarán los pasos posteriores, y por lo tanto puede ser origen de errores (sesgo de selección o sesgo de medición) que se arrastren y magnifiquen a lo largo de todo el análisis.
Es fundamental este paso en el que se delimita la realidad que queremos estudiar, donde se busca que los datos sean representativos y de calidad. Sin embargo, como se ha comentado anteriormente, no es una parte aislada, sino el inicio de un flujo de trabajo donde intervienen más profesionales, entre ellos los expertos en Machine Learning, los cuales posteriormente estarán implicados en el análisis computacional. Por ello, será de interés que participen en esta fase, de manera que puedan aconsejar sobre aspectos que les facilitarán la tarea más adelante, como la cantidad de muestras necesarias, la estructura que deben tener los datos...

am Eva Jiménez, a biotechnologist, and I believe that—both in biomedicine and in any other research field—the data collection or acquisition phase is crucial for conducting a sound study. This is the starting point for all subsequent steps; therefore, it can be the source of errors (such as selection or measurement bias) that may persist and magnify throughout the entire analysis.
This stage is fundamental, as it defines the reality we aim to study and ensures that the data is both representative and of high quality. However, as previously mentioned, this is not an isolated part, but rather the beginning of a workflow involving various professionals—including Machine Learning experts, who will later be involved in the computational analysis. For this reason, it is in everyone's best interest that they participate in this phase, allowing them to advise on aspects that will streamline their work later on, such as the required sample size and the necessary data structure.

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Augusto Miguel Anguita Ruiz - viernes, 27 de marzo de 2026, 09:49

Hola a todos,

Me gustaría sumarme a lo expuesto por Alberto y Eva, ya que coincido plenamente en que la fase de captación es el cimiento de todo el proyecto. En el ámbito del Machine Learning solemos guiarnos por el principio "Garbage In, Garbage Out", que nos recuerda que un modelo solo será tan bueno como lo sean los datos con los que se entrena. Si la base es deficiente, ninguna sofisticación algorítmica posterior podrá corregir esos errores estructurales.

Esta necesidad de una visión técnica desde el inicio me hace recordar un proyecto en el que estamos trabajando para evaluar el efecto de exposiciones ambientales y de estilo de vida en la salud cardiovascular de adolescentes. En este caso, el experto en ML que analizará los datos está participando desde etapas muy tempranas, incluso en la selección del dispositivo de captura de datos de movimiento (acelerometría) que se utilizará. Decisiones que podrían parecer puramente logísticas, como la duración de la batería, la frecuencia de recogida de datos o la propia tipología del dato en bruto, influyen directamente en la calidad de la información y, por tanto, en la validez de los resultados y modelos predictivos futuros.

A esta colaboración técnica inicial debemos añadir también la importancia de una gestión de datos sólida a través de un Plan de Manejo de Datos (DMP). No se trata solo de captar la información, sino de establecer protocolos claros sobre cómo se almacenarán, se protegerá su privacidad y se estructurarán para que sean interoperables. Una buena planificación en la gobernanza de los datos asegura que el flujo de trabajo, desde que el sensor captura una señal hasta que el modelo genera una predicción, sea transparente, reproducible y esté libre de sesgos imprevistos.

Un saludo, Augusto.

==========

Hi everyone,

I would like to echo the points made by Alberto and Eva, as I fully agree that the data collection phase is the foundation of any project. In the field of Machine Learning, we are constantly guided by the "Garbage In, Garbage Out" principle, which reminds us that a model is only as good as the data used to train it. If the foundation is flawed, no amount of algorithmic sophistication later on can correct those structural errors.

This need for a technical perspective from the very beginning reminds me of a project we are currently working on to evaluate the impact of environmental and lifestyle exposures on the cardiovascular health of adolescents. In this case, the ML expert who will eventually analyze the data is participating from the earliest stages—even in the selection of the motion capture devices (accelerometry) to be used. Decisions that might seem purely logistical, such as battery life, data collection frequency, or the specific typology of the raw data, directly influence the quality of the information. Ultimately, these choices determine the validity of the results and the effectiveness of future predictive models.

To this early technical collaboration, we must also add the importance of solid data governance through a Data Management Plan (DMP). It is not just about capturing information; it is about establishing clear protocols for how it will be stored, how privacy will be protected, and how it will be structured to ensure interoperability. Proper planning in data management ensures that the entire workflow—from the moment a sensor captures a signal to the moment a model generates a prediction—is transparent, reproducible, and free from unforeseen biases.

Best regards, Augusto.

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Marie Iglesias Mulhauser - sábado, 28 de marzo de 2026, 07:48

Hola a todos

Respecto a las intervenciones de los compañeros poco me queda por decir. Esto completamente de acuerdo que la captación de datos es la base de todo el proyecto. Al leer los comentarios me parece muy acertado el comentario de Eva respecto a los sesgos y la aportación de Augusto con el ejemplo práctico ya que refleja muy bien cómo decisiones que parecen muy pequeñas tienen un gran impacto después.

Podría añadir que, además de influir en la calidad de los resultados, la forma en la que se recogen los datos puede condicionar lo que después analizaremos. Es decir, si desde un principio no se tiene en cuenta cierta variabilidad (ej. En la población o en las variables recogidas), después podemos encontrarnos con modelos que funcionan bien en un contexto muy específico pero que no podremos generalizar.

Por resumir en una frase, más que una fase previa, la captación de datos debería ser parte clave o importante de todo el proceso, por lo que una buena planificación puede marcar la diferencia entre obtener resultados sólidos o tener conclusiones limitadas.

Un saludo

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Augusto Miguel Anguita Ruiz - martes, 31 de marzo de 2026, 22:41

Gemini ha dicho
Excelente punto, Marie. Para añadir un matiz técnico nuevo a lo ya comentado: la falta de estandarización y armonización durante la captación suele generar los temidos "efectos de lote" (batch effects).

En estudios multicéntricos, si cada hospital usa un kit diferente o un protocolo de recogida distinto, el modelo de ML acabará "aprendiendo" a distinguir los centros de procedencia en lugar de la señal biológica o patología real. Es mucho más eficiente evitar estos sesgos mediante un protocolo de captación uniforme que intentar corregirlos matemáticamente a posteriori mediante técnicas de normalización.

Excellent point, Marie. To add a new technical nuance to the discussion: the lack of standardization and harmonization during data capture often leads to the dreaded "batch effects."

In multi-center studies, if each site uses different kits or varying collection protocols, the ML model will end up "learning" to distinguish between the collection centers rather than the actual biological signal or pathology. It is far more efficient to prevent these biases through a uniform capture protocol than to attempt to correct them mathematically a posteriori using normalization techniques.

Foro de debate módulo 3

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 6ª Edición

Foro de debate módulo 3

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Centro de Producción de Recursos para la Universidad Digital