Hola a todos,
Me gustaría sumarme a lo expuesto por Alberto y Eva, ya que coincido plenamente en que la fase de captación es el cimiento de todo el proyecto. En el ámbito del Machine Learning solemos guiarnos por el principio "Garbage In, Garbage Out", que nos recuerda que un modelo solo será tan bueno como lo sean los datos con los que se entrena. Si la base es deficiente, ninguna sofisticación algorítmica posterior podrá corregir esos errores estructurales.
Esta necesidad de una visión técnica desde el inicio me hace recordar un proyecto en el que estamos trabajando para evaluar el efecto de exposiciones ambientales y de estilo de vida en la salud cardiovascular de adolescentes. En este caso, el experto en ML que analizará los datos está participando desde etapas muy tempranas, incluso en la selección del dispositivo de captura de datos de movimiento (acelerometría) que se utilizará. Decisiones que podrían parecer puramente logísticas, como la duración de la batería, la frecuencia de recogida de datos o la propia tipología del dato en bruto, influyen directamente en la calidad de la información y, por tanto, en la validez de los resultados y modelos predictivos futuros.
A esta colaboración técnica inicial debemos añadir también la importancia de una gestión de datos sólida a través de un Plan de Manejo de Datos (DMP). No se trata solo de captar la información, sino de establecer protocolos claros sobre cómo se almacenarán, se protegerá su privacidad y se estructurarán para que sean interoperables. Una buena planificación en la gobernanza de los datos asegura que el flujo de trabajo, desde que el sensor captura una señal hasta que el modelo genera una predicción, sea transparente, reproducible y esté libre de sesgos imprevistos.
Un saludo, Augusto.
==========
Hi everyone,
I would like to echo the points made by Alberto and Eva, as I fully agree that the data collection phase is the foundation of any project. In the field of Machine Learning, we are constantly guided by the "Garbage In, Garbage Out" principle, which reminds us that a model is only as good as the data used to train it. If the foundation is flawed, no amount of algorithmic sophistication later on can correct those structural errors.
This need for a technical perspective from the very beginning reminds me of a project we are currently working on to evaluate the impact of environmental and lifestyle exposures on the cardiovascular health of adolescents. In this case, the ML expert who will eventually analyze the data is participating from the earliest stages—even in the selection of the motion capture devices (accelerometry) to be used. Decisions that might seem purely logistical, such as battery life, data collection frequency, or the specific typology of the raw data, directly influence the quality of the information. Ultimately, these choices determine the validity of the results and the effectiveness of future predictive models.
To this early technical collaboration, we must also add the importance of solid data governance through a Data Management Plan (DMP). It is not just about capturing information; it is about establishing clear protocols for how it will be stored, how privacy will be protected, and how it will be structured to ensure interoperability. Proper planning in data management ensures that the entire workflow—from the moment a sensor captures a signal to the moment a model generates a prediction—is transparent, reproducible, and free from unforeseen biases.
Best regards, Augusto.