La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 3

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario - Número de respuestas: 9

En los proyectos de investigación biomédica, existe una fase previa al preprocesamiento que es la captación de los datos. 

A pesar de su importancia, en muchas ocasiones, no se le presta atención y se pasa directamente al preprocesamiento y la implementación de modelos de ML, lo que lleva a no obtener resultados óptimos.

¿Creéis que es importante diseñar correctamente la fase de captación de los datos?

¿Una fase de captación de datos mal diseñada puede introducir sesgos en el análisis?

¿Deben contar los proyectos de investigación biomédica con la opinión de los expertos en ML también para el diseño de esta etapa?

Estamos ansiosos por conocer vuestra opinión al respecto, o conocer ejemplos que resalten la importancia de una correcta planificación de la etapa de captación de datos.

-----

In biomedical research projects, there is a phase prior to pre-processing, which is data capture. 

Despite its importance, it is often neglected and the focus is on pre-processing and the implementation of ML models, which leads to sub-optimal results.

Do you think it is important to design the data collection stage correctly?

Can a poorly designed data collection phase introduce biases in the analysis?

Should biomedical research projects also rely on the opinion of ML experts for the design of this stage?

We look forward to hearing your views on this, or to hearing examples that highlight the importance of proper planning of the data collection phase.

Alberto


(Editado por Jesús Alcalá Fernández - envío original lunes, 24 de marzo de 2025, 09:56)

En respuesta a Alberto Fernández Hilario

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de María Isabel Aranda Olmedo -
No es solo que crea que es importante diseñar correctamente la fase de captación de los datos, sino que pienso que es fundamental. Sí, una fase de captación de datos mal diseñada puede introducir sesgos en el análisis; y sí, los proyectos de investigación biomédica, por su repercusión, deberían contar con la opinión de expertos en Machine learning.

Cuanto más complejo sea el problema, más datos necesitará aprender el modelo para hacer predicciones precisas. Se puede hacer experimentación, variando el tamaño del conjunto de datos para medir la cantidad de datos necesarios para alcanzar un rendimiento óptimo. Utilizar innecesariamente una gran cantidad de datos es costoso y lleva mucho tiempo. Pero debe procurarse un equilibrio entre la cantidad y la calidad de los datos. No se trata exclusivamente de tener muchos datos. Es igualmente importante la calidad. Si los datos son de mala calidad, tienen ruido, contienen errores o son incoherentes, pueden verse afectados negativamente la precisión y el rendimiento del modelo, que propagará estos errores, dando lugar a predicciones inexactas.

Un experto en Machine learning puede ayudar a valorar si los datos son precisos y están libres de errores, si están completos, si son suficientes para entrenar el modelo, etc. A su vez, un experto biomédico podrá determinar si son datos relevantes para el problema que se está tratando de resolver, si son consistentes y no contienen información contradictoria, etc.

---------------------------------------------------------------------------------------------------------

It's not just that I believe it's important to properly design the data collection phase; I think it's critical. Yes, a poorly designed data collection phase can introduce bias into the analysis; and yes, biomedical research projects, due to their impact, should seek input from machine learning experts.

The more complex the problem, the more data the model will need to learn to make accurate predictions. Experimentation can be done, varying the size of the data set to gauge the amount of data needed to achieve optimal performance. Unnecessarily using large amounts of data is costly and time-consuming. But a balance must be struck between data quantity and quality. It's not just about having a lot of data. Quality is equally important. If the data is of poor quality, noisy, contains errors, or is inconsistent, the accuracy and performance of the model can be negatively affected, and the model will propagate these errors, leading to inaccurate predictions.

A machine learning expert can help assess whether the data is accurate and error-free, complete, sufficient to train the model, etc. In turn, a biomedical expert can determine whether the data is relevant to the problem being solved, consistent and free of contradictory information, etc.
En respuesta a María Isabel Aranda Olmedo

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario -
Hola María Isabel,
muchas gracias por tu aportación. En el marco de trabajo de Machine Learning, hay un especialista en tratamiento de datos (Data Engineeer) cuya función es básicamente proveer de la información más relevante para la obtención de modelos de calidad. Este proceso es muy costoso y requiere tanto de conocimiento técnico sobre las herramientas, como sobre todo de conocimiento experto del problema. Hay una tendencia actual en el denominado "Data Centric-AI", que básicamente consiste en centrar los objetivos de los procedimientos de IA en optimizar los datos y no la parte de creación del modelo, entendiendo como los datos de calidad pueden incrementar exponencialmente la generación de modelos que realmente caracterizan el problema. Efectivamente hay que considerar el ruido de clases, outliers, variables redundantes, y un sin fin de cuestiones de integración de datos que, por desgracia, quedan fuera del ámbito de este curso, pero que son imprescindibles para el correcto funcionamiento de estas tareas asociadas a la bioinformática y otros campos.
Saludos,
Alberto.
---
Hello María Isabel,
Thank you very much for your contribution. Within the framework of Machine Learning, there is a specialist in data processing (Data Engineer) whose role is essentially to provide the most relevant information for obtaining quality models. This process is very costly and requires both technical knowledge of the tools and, above all, expert knowledge of the problem. There is a current trend in what is called “Data Centric-AI,” which basically focuses the objectives of AI procedures on optimizing data rather than on the model creation process, understanding how quality data can exponentially improve the generation of models that truly characterize the problem. Indeed, we must consider class noise, outliers, redundant variables, and a multitude of data integration issues that, unfortunately, fall outside the scope of this course, but are essential for the proper functioning of these tasks associated with bioinformatics and other fields.
Best regards,
Alberto.
En respuesta a Alberto Fernández Hilario

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Jose M Peregrin Alvarez -
¡Hola!

En mi opinión, la adquisición y el procesamiento adecuados de datos en biomedicina son aspectos cruciales para la aplicación eficaz de los modelos de ML/IA. Una vez estructurados correctamente, estos datos son esenciales para:

1) Entrenamiento del modelo:
Los modelos de ML/IA se basan en datos de alta calidad para aprender patrones y relaciones dentro de los conjuntos de datos biomédicos.
La diversidad y representatividad de los datos en esta etapa son clave para evitar sesgos y garantizar que los modelos se puedan generalizar a diferentes poblaciones.

2) Refinamiento y optimización del modelo:
A medida que se incorporan más datos, se pueden mejorar los hiperparámetros y ajustar los algoritmos para reducir errores y aumentar la precisión. El acceso a datos adicionales nos permite evaluar si el modelo presenta sobreajuste o infraajuste, optimizando así su rendimiento.

3) Integración continua de datos para el refinamiento:
En biomedicina, los datos evolucionan constantemente con nuevos descubrimientos y avances tecnológicos. La actualización periódica del modelo con nuevos datos garantiza su relevancia y precisión a lo largo del tiempo. Este proceso es clave para las aplicaciones clínicas, donde la adaptación a nuevas cohortes de pacientes puede mejorar la personalización de tratamientos y diagnósticos.

4) Validación y robustez del modelo (un punto adicional importante):
La recopilación de datos adicionales permite la validación externa con cohortes independientes, lo que refuerza la fiabilidad del modelo. Un modelo que funciona bien con datos de entrenamiento pero falla con datos nuevos puede no ser clínicamente útil; por lo tanto, la validación es esencial antes de su aplicación en el mundo real.

5) Regulación y cumplimiento ético (otro punto clave):
En biomedicina, el uso de datos está sujeto a estrictas regulaciones como el RGPD en Europa o la HIPAA en EE. UU. Garantizar que los datos se obtengan y utilicen de forma ética y con el consentimiento informado es crucial para evitar sesgos y respetar la privacidad del paciente.

Saludos,
J

------
Hello!

In my opinion, proper data acquisition and processing in biomedicine are critical aspects for the effective application of ML/AI models. Once properly structured, these data are essential for:

1) Model training:
ML/AI models rely on high-quality data to learn patterns and relationships within biomedical datasets.
The diversity and representativeness of data at this stage are key to avoiding bias and ensuring that models can be generalized to different populations.

2) Model refinement and optimization:
As more data is incorporated, hyperparameters can be improved and algorithms fine-tuned to reduce errors and increase accuracy. Access to additional data allows us to assess whether the model is overfitting or underfitting, optimizing its performance.

3) Continuous data integration for refinement:
In biomedicine, data constantly evolves with new discoveries and technological advances. Regularly updating the model with new data ensures its relevance and accuracy over time. This process is key for clinical applications, where adaptation to new patient cohorts can improve the personalization of treatments and diagnoses.

4) Model validation and robustness (an important extra point):
Gathering additional data allows for external validation with independent cohorts, which strengthens the model's reliability. A model that works well on training data but fails on new data may not be clinically useful; therefore, validation is essential before its real-world application.

5) Regulation and ethical compliance (another key point):
In biomedicine, data use is subject to strict regulations such as the GDPR in Europe or HIPAA in the US. Ensuring that data is obtained and used ethically and with informed consent is crucial to avoid bias and respect patient privacy.

Regards,
J
En respuesta a Jose M Peregrin Alvarez

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario -
Hola Jose,

interesante respuesta. Es bien sabido que los modelos de Machine Learning son ávidos de información, a mayor cantidad de datos, mayor representatividad tiene del problema y mejor es la fórmula matemática generada para condensar dicho escenario. Sin embargo, en el contexto de biomedicina es bastante común tener laboratorios que trabajan de manera aislada, que no comparten los datos o que no los extraen del mismo modo, con lo que no es directo integrar estos conjuntos. ¿Cómo podríamos resolver este problema?
Incluso en el caso que pudiéramos recopilar más datos dentro de un mismo programa, el recogerlos de diferentes pacientes, muestras, evaluadores, momentos temporales... hace que los datos no sean homogéneos y por tanto que pueda haber algún tipo de "ruptura de datos" en el propio modelo que haga que no se pueda caracterizar correctamente ¿qué opinión te merece en este caso?
Saludos,
Alberto.
-------
Hello Jose,

Interesting response. It is well known that Machine Learning models are data-hungry; the more data, the more representative they are of the problem, and the better the mathematical formula generated to condense that scenario. However, in the context of biomedicine, it is quite common to have laboratories working in isolation, not sharing data or extracting them in the same way, making it difficult to integrate these datasets. How could we solve this issue?
Even if we could gather more data within the same program, collecting them from different patients, samples, evaluators, or time points... makes the data heterogeneous, and thus, there may be some kind of "data break" in the model itself, making it impossible to characterize it correctly. What is your opinion on this matter?
Best regards,
Alberto.
En respuesta a Alberto Fernández Hilario

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Jose M Peregrin Alvarez -
Hola Alberto,

Interesante pregunta porque esto realmente es un punto clave en biomedicina. Esta es mi opinión al respecto:

1) Si el presupuesto es limitado, una opción es aprovechar la implementación del modelo en usuarios/pacientes reales para obtener datos adicionales de forma progresiva. Estos nuevos datos pueden servir para el reentrenamiento o ajuste (fine-tuning) del modelo, mejorando su precisión sin necesidad de grandes inversiones.

2) Si el presupuesto lo permite, se pueden establecer colaboraciones con otros centros, participar en consorcios clínicos o incluso lanzar ensayos clínicos estructurados. También existen estrategias como federated learning, que permite entrenar modelos con datos de múltiples instituciones sin compartir la información cruda, protegiendo la privacidad.

Sobre la heterogeneidad de los datos ("ruptura de datos"), es un desafío real en biomedicina, pero hay soluciones:

-Normalización y armonización de los datos antes del entrenamiento para reducir la variabilidad entre muestras.
-Uso de técnicas de data augmentation para mejorar la generalización del modelo.
-Implementación de modelos robustos a datos heterogéneos, como ensembles para mejorar la generalización, o arquitecturas avanzadas como transformers y Large Language Models (LLMs), que han demostrado ser eficaces en la integración de información biomédica y la extracción de conocimiento a partir de datos estructurados y no estructurados.
-Monitoreo continuo del modelo con nuevas cohortes para detectar sesgos o posibles fallos.

En definitiva, aunque los datos en biomedicina suelen ser heterogéneos y difíciles de integrar, existen enfoques efectivos para mejorar su representatividad y garantizar que los modelos sigan siendo precisos y útiles en entornos clínicos reales.

¡Saludos!
J

------
Hi Alberto,

Interesting question because this is truly a key point in biomedicine. Here's my take on it:

1) If the budget is limited, one option is to leverage the implementation of the model on real users/patients to progressively obtain additional data. This new data can be used to retrain or fine-tune the model, improving its accuracy without the need for large investments.

2) If budget permits, collaborations can be established with other centers, participation in clinical consortia, or even launching structured clinical trials. There are also strategies such as federated learning, which allows models to be trained with data from multiple institutions without sharing raw information, thus protecting privacy.

Regarding data heterogeneity ("data breakage"), this is a real challenge in biomedicine, but there are solutions:

- Normalization and harmonization of data before training to reduce variability between samples.
- Use of data augmentation techniques to improve model generalization.
-Implementation of robust models for heterogeneous data, such as ensembles to improve generalization, or advanced architectures such as transformers and Large Language Models (LLMs), which have proven effective in integrating biomedical information and extracting knowledge from structured and unstructured data.
-Continuous model monitoring with new cohorts to detect biases or potential errors.

In short, although biomedical data is often heterogeneous and difficult to integrate, there are effective approaches to improve their representativeness and ensure that models remain accurate and useful in real-world clinical settings.

Kind regards!
J
En respuesta a Jose M Peregrin Alvarez

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario -
Buenos días José,

Tu respuesta es realmente completa y aborda de manera acertada los diferentes aspectos que deben tenerse en cuenta para el desarrollo adecuado de modelos de Machine Learning en este contexto. Sin embargo, me surgen algunas cuestiones adicionales que me gustaría plantear:
• El tema del fine tuning de los modelos está estrechamente relacionado con el tipo de aproximación utilizada, especialmente en el caso de las redes neuronales. ¿Qué podemos hacer si realmente buscamos un sistema que sea transparente en el caso de estudio? Es decir, ¿cómo lograr un balance entre el ajuste fino de los modelos y la necesidad de explicabilidad?
• En cuanto a la privacidad de los datos, la propuesta de Aprendizaje Federado es muy acertada, pero aquí volvemos a encontrarnos con el dilema de su relación directa con los modelos de redes neuronales. ¿Es posible aplicar el aprendizaje federado de manera efectiva con otros paradigmas de aprendizaje, como los basados en árboles de decisión o máquinas de soporte vectorial?
• Finalmente, en relación con el uso de LLMs (Large Language Models), sabemos que estos son muy adecuados para problemas generales y a nivel “horizontal”, pero como modelos fundacionales, suelen carecer de un contexto específico para problemas más concretos. Esto nos lleva nuevamente al primer punto. ¿Cómo podríamos garantizar la eficacia de un modelo cuando trabajamos con un conjunto de datos en un área poco frecuente o muy especializada?

Como puedes ver, mi crítica se enfoca en las aproximaciones más potentes, ya que en general dependen tanto de la explicabilidad que necesitamos en el producto final como de la especificidad del problema. ¿Cómo crees que podríamos abordar ambas cuestiones de manera efectiva?

Saludos,
Alberto



Good morning José,

Your response is really comprehensive and addresses the various aspects that need to be considered for the proper development of ML models in this context. However, I have a few additional questions that I’d like to raise:
• The issue of fine tuning models is closely related to the type of approach used, especially with neural networks. What can we do if we’re aiming for a transparent system in this case study? In other words, how can we strike a balance between fine-tuning the models and the need for explainability?
• Regarding data privacy, the idea of Federated Learning is very fitting, but we’re again faced with the challenge of its direct connection to neural network models. Is it possible to apply federated learning effectively with other learning paradigms, such as decision trees or support vector machines?
• Finally, concerning the use of LLMs (Large Language Models), we know they are well-suited for general, “horizontal” problems, but as foundational models, they are typically not contextualized to very specific issues. This brings us back to the first point. How can we ensure the effectiveness of a model when working with datasets in a niche or specialized area?

As you can see, my critique focuses on the more powerful approaches, as they generally depend on both the explainability required in the final product and the specificity of the problem. How do you think we could effectively address both issues?

Best regards,
Alberto
En respuesta a Alberto Fernández Hilario

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Jose M Peregrin Alvarez -
Buenas Alberto,

Gracias por tu análisis y por estas preguntas tan interesantes. A continuación, intento abordar cada una de ellas:

1) La Explicabilidad vs Fine-Tuning: Para equilibrar el ajuste fino y la transparencia, se podría usar:
. Técnicas de interpretabilidad, como SHAP o LIME para texto o datos tabulares, y Grad-CAM para modelos de visión artificial.
. Arquitecturas híbridas: combinar redes neuronales con modelos interpretables (como árboles de decisión) en capas superiores.
. Attention mechanisms en transformers para visualizar qué partes de los datos influyen en la decisión del modelo.
. Redes neuronales simbólicas o modelos que generen explicaciones en lenguaje natural junto con la predicción.

2) El aprendizaje Federado en otros paradigmas:
. Aunque el aprendizaje federado (FL) se asocia a redes neuronales, también puede aplicarse a árboles de decisión o SVM.
. También se ha implementado regresión logística federada con éxito en entornos médicos.
. SecureBoost permite compartir gradientes parciales en boosting models, manteniendo la privacidad.

En resumen, el FL no se limita a redes neuronales, pero los retos técnicos varían según el algoritmo.

3) Los LLMs en problemas específicos y datos escasos:
. Se pueden usar modelos preentrenados para biomedicina, como BioBERT o PubMedBERT, optimizados para datos científicos.
. Retrieval-augmented generation (RAG) y técnicas de fine-tuning como Low-Rank Adaptation (LoRA) o Adapters permiten adaptar LLMs a datos específicos sin cambiar el modelo base.
. También se podría explorar "mi idea recurrente" de entrenar los LLMs con lenguaje biológico (secuencias de ADN, ARN, proteínas) y datos 3D de multi-ómica (expresión, localización celular, interacciones). Esto facilitaría la generación de hipótesis funcionales, mejorando la anotación de genes desconocidos y el descubrimiento de biomarcadores.

Conclusión:
El desafío en biomedicina no es solo encontrar modelos potentes, sino garantizar su transparencia y aplicabilidad en entornos reales. La clave está en combinar técnicas de explicabilidad, adaptar el aprendizaje federado a distintos modelos y especializar los LLMs mediante estrategias de fine-tuning y recuperación de información, o incluso se podría crear un nuevo modelo de lenguaje biológico (LLBMs).

-----
Hi Alberto,

Thank you for your analysis and for raising these interesting questions. Below, I'll try to address each of them:

1) Explainability vs. Fine-Tuning: To balance fine-tuning and transparency, one could use:
. Interpretability techniques, such as SHAP or LIME for text or tabular data, and Grad-CAM for computer vision models.
. Hybrid architectures: combining neural networks with interpretable models (such as decision trees) in higher layers.
. Attention mechanisms in transformers are used to visualize which parts of the data influence the model's decision.
. Symbolic neural networks or models that generate natural language explanations alongside the prediction.

2) Federated Learning in other paradigms:
. Although federated learning (FL) is associated with neural networks, it can also be applied to decision trees or SVMs.
. Federated logistic regression has also been successfully implemented in medical settings.
. SecureBoost allows partial gradients to be shared to boost models while maintaining privacy.

In summary, FL is not limited to neural networks, but the technical challenges vary depending on the algorithm.

3) LLMs for specific problems and sparse data:
. Pre-trained models for biomedicine, such as BioBERT or PubMedBERT, optimized for scientific data, can be used.
. Retrieval-augmented generation (RAG) and fine-tuning techniques such as Low-Rank Adaptation (LoRA) or Adapters allow LLMs to be adapted to specific data without changing the base model.
. "My recurring idea" of ​​training LLMs with biological language (DNA, RNA, and protein sequences) and 3D multi-omics data (expression, cellular localization, interactions) could also be explored. This would facilitate the generation of functional hypotheses, improving the annotation of unknown genes and biomarker discovery.

Conclusion:
The challenge in biomedicine is not only to find powerful models, but also to ensure their transparency and applicability in real-world settings. The key lies in combining explainability techniques, adapting federated learning to different models, and specializing LLMs through fine-tuning and information retrieval strategies, or even creating new biological language models (LLBMs).
En respuesta a Jose M Peregrin Alvarez

Re: Hilo de debate 1: Obtención de los datos / Discussion thread 1: Data collection

de Alberto Fernández Hilario -
Buenos días,
muy interesante la respuesta, quizá un poco técnica, pero es bueno conocer que efectivamente hay alternativas. Quizá su uso nos implique un conocimiento mucho más a fondo de la temática, y ello puede resultar vertiginoso para una gran cantidad de especialistas del sector que no están aún familiarizados con las herramientas más avanzadas de Machine Learning.
De todos modos, he querido centrar mi visión en la parte de XAI, tratada parcialmente en este curso. Para ello, hemos ubicado un nuevo hilo en el presente foro en el que hablamos de AlphaFold3 y sus implicaciones en cuanto a la transparencia de los sistemas basados en IA.
Os invito a colaborar activamente en el mismo para enriquecer la discusión.
Saludos,
Alberto.
---
Good morning,
Very interesting response, perhaps a bit technical, but it’s good to know that there are indeed alternatives. Perhaps its use requires a much deeper understanding of the subject, and this could be overwhelming for a large number of specialists in the field who are not yet familiar with the more advanced Machine Learning tools.
That said, I wanted to focus my view on the XAI (Explainable AI) aspect, which is partially addressed in this course. For that purpose, we have created a new thread in this forum where we discuss AlphaFold3 and its implications regarding the transparency of AI-based systems.
I invite you all to actively contribute to it to enrich the discussion.
Best regards,
Alberto.