ml_bioinformatica_4ed: Importancia de la ciencia reproducible/Reproducible science

Importancia de la ciencia reproducible/Reproducible science

de Coral del Val Muñoz - lunes, 22 de abril de 2024, 10:30

En el contexto de trabajos con datos -omicos, muchas revistas exigen depositar en repositorios públicos los datos antes de publicar el trabajo ¿Por qué creeis que esto es importante y qué ventajas puede tener? ¿Debería ser una exigencia en proyectos financiados con fondos públicos? ¿Qué ventajas e inconvenientes podría ofrecer un sistema para compartir datos clínicos

-----------------

In the context of clinical data work, many journals require data to be deposited in public repositories before publishing the work. Why do you think this is important and what advantages can it have? Should it be a requirement in publicly funded projects? What advantages and disadvantages could a system for sharing clinical data offer?

Re: Importancia de la ciencia reproducible/Reproducible science

de Carlos Romero Olóriz - lunes, 22 de abril de 2024, 16:18

Exigir depositar los datos -ómicos en repositorios públicos antes de publicar es importante por las siguientes razones:
1. Fomenta la transparencia y reproducibilidad de la investigación.
2. Permite la reutilización de los datos para nuevos análisis y descubrimientos.
3. Evita la duplicación de esfuerzos y recursos en la obtención de los mismos datos.

En proyectos financiados con fondos públicos, debería ser una exigencia para maximizar el retorno de la inversión y promover el avance científico.

Un sistema para compartir datos clínicos tendría las siguientes ventajas e inconvenientes:

- Ventajas:
* Facilita la investigación y desarrollo de nuevos tratamientos y terapias.
* Permite estudios amplios y diversificados en diferentes poblaciones.
* Impulsa la colaboración y el intercambio de conocimientos entre centros.

- Inconvenientes:
* Preocupaciones sobre la privacidad y protección de datos sensibles de pacientes.
* Necesidad de establecer estrictos controles y regulaciones para el manejo de los datos.
* Posibles sesgos en los datos si no se comparten de forma equitativa.

--------------------------------------------------------------------------------------------------------

Mandating the deposition of -omics data in public repositories prior to publication is crucial for the following reasons:
1. It promotes the transparency and reproducibility of research.
2. It enables the reuse of data for new analyses and discoveries.
3. It prevents the duplication of efforts and resources in acquiring the same data.

In publicly funded projects, it should be mandatory to maximize the return on investment and to promote scientific advancement.

A system for sharing clinical data would have the following advantages and disadvantages:
- Advantages:
* Facilitates the research and development of new treatments and therapies.
* Enables extensive and diversified studies across different populations.
* Promotes collaboration and knowledge exchange among centers.
- Disadvantages:
* Concerns regarding privacy and the protection of sensitive patient data.
* The necessity to establish strict controls and regulations for data management.
* Potential biases in the data if not shared equitably.

Re: Importancia de la ciencia reproducible/Reproducible science

de Miguel Ángel Díaz Pérez - lunes, 22 de abril de 2024, 17:21

Suscribo lo que comenta el compañero y añadiría la formación y entrenamiento: Los conjuntos de datos públicos son una valiosa fuente de recursos para la formación de nuevos investigadores y el desarrollo de nuevas metodologías analíticas.

Con respecto a los proyectos financiados con fondos públicos: Los contribuyentes han financiado la investigación, por lo que los datos deberían ser de acceso público para maximizar su beneficio, además fomenta la transparencia y la rendición de cuentas en el uso de los fondos.

Saludos.

--------------------
I subscribe to what the colleague comments and would add training and education: Public datasets are a valuable resource for training new researchers and developing new analytical methodologies.

Regarding publicly funded projects: taxpayers have funded the research, so the data should be publicly available to maximize its benefit, it also encourages transparency and accountability in the use of funds.

Regards

Re: Importancia de la ciencia reproducible/Reproducible science

de Carlos Cano Gutiérrez - miércoles, 24 de abril de 2024, 10:43

Gracias Carlos y Miguel Ángel por vuestras respuestas, interesantes y rigurosas.

Respecto a la Ciencia Reproducible, nos estamos centrando en los datos. Me gustaría ampliar la reflexión a la metodología científica, y, en particular, por el tópico de este curso, al software. En la academia, cada vez se incide más en la necesidad de publicar en abierto el software que se ha utilizado para realizar los análisis de los datos y obtener los resultados que se publican. Por tanto, no solo es importante depositar los datos en repositorios públicos, sino también el software. Un primer paso es publicar nuestro software en abierto a la comunidad en repositorios como GitHub o zenodo. Sin embargo, hay más pasos que podemos dar para contribuir a que nuestro software sea fácil de ejecutar para la comunidad.

¿Conocéis protocolos, tecnologías y repositorios que contribuyan a facilitar la ciencia reproducible respecto al software?

¿Cuáles son las ventajas de utilizar estos protocolos y tecnologías?

¿Cuáles creéis que son los retos más importantes a este respecto?

-----------------

Thank you Carlos and Miguel Ángel for your responses, which were interesting and thorough.

Regarding Reproducible Science, we are focusing on data. I would like to expand the reflection to scientific methodology, and particularly, given the topic of this course, to software. In academia, there is an increasing emphasis on the need to openly publish the software used to conduct a specific data analysis for published results. Therefore, it is not only important to deposit data in public repositories but also the software. A first step is to publish our software in repositories such as GitHub or Zenodo. However, there are further steps we can take to contribute to making our software easy to execute for the community.

Do you know of protocols, technologies, and repositories that contribute to facilitating reproducible science regarding software?

What are the advantages of these protocols and technologies?

What do you believe are the most significant challenges in this regard?

Re: Importancia de la ciencia reproducible/Reproducible science

de Samuel Saldaña - miércoles, 24 de abril de 2024, 16:14

Dentro del ámbito del software (modelado + datos) abiertos encontramos a Google Colab como los favoritos para el desarrollo de código. Sin embargo, existen plataformas para el manejo de datos y la elaboración gráfica de sus resultados de tipo clouding: Flakes, y gestores de datos como BigQuery, Looker o Data Studio, Oracle, además de plataformas de trabajo dev+ops+container como Azure y AWS.

Repositorios, deploy y dev de acceso privado-público encontramos: GitHub, GitLab, Zenodo, Docker (+ Compose), Containerd, Kubernets, Jenkins, Virtual Environment, Podman.

Within the field of open software (modeling + data) we find Google Colab as the favorite for code development. However, there are platforms for data management and graphical elaboration of its clouding type results: Flakes, and data managers such as BigQuery, Looker or Data Studio, Oracle, as well as dev+ops+container work platforms such as Azure and AWS.

Private-public access repositories, deploy and dev: GitHub, GitLab, Zenodo, Docker (+ Compose), Containerd, Kubernets, Jenkins, Virtual Environment, Podman.

Re: Importancia de la ciencia reproducible/Reproducible science

de Carlos Cano Gutiérrez - viernes, 26 de abril de 2024, 11:42

Gracias Samuel por tu respuesta,
dos tecnologías muy populares para el desarrollo de pipelines reproducibles en bioinformática que no has mencionado son Galaxy: https://training.galaxyproject.org/training-material/ y Snakemake https://snakemake.readthedocs.io/en/stable/ . ¿Los conocéis? ¿Tenéis experiencia con ellos?
--
Thank you Samuel for your reply.
two popular technologies for pipeline development in Bioinformatics that you did not mention are Galaxy: https://training.galaxyproject.org/training-material/ and Snakemake https://snakemake.readthedocs.io/en/stable/ . ¿Do you know them? ¿Have you used them?

Re: Importancia de la ciencia reproducible/Reproducible science

de Samuel Saldaña - viernes, 26 de abril de 2024, 21:15

Hola Carlos, no conozco las dos plataformas para pipelines reproducibles dirigidos a la bioinformática, los estaré revisando con más detenimiento, se ven muy bien (amplios).

Saludos.

Re: Importancia de la ciencia reproducible/Reproducible science

de Pedro Carmona - jueves, 9 de mayo de 2024, 12:51

Hola
En relación con esta temática, supongo que algunos habréis visto la noticia de la nueva versión de AlphaFold 3, que es capaz de predecir estructuras de todo tipo de biomoléculas, (proteínas, ADN, ARN)
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/

Ya la primera versión, que resolvía estructuras de proteínas, supuso un gran impacto en la comunidad científica, solucionando un problema que parecía complejo de poder resolver como es el predecir estructura a partir de secuencia con gran precisión.
Esto fue posible, no sólo gracias al desarrollo de los nuevos métodos de deep learning, si no también a la acumulación de datos durante mucho años por parte de investigadores que pusieron disponibles en bases de datos de acceso público.
--------
Hello
I guess some of you have seen the news about the new version of AlphaFold 3, which is able to predict structures of all kinds of biomolecules, (proteins, DNA, RNA).
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/

Already the first version, which solved protein structures, had a great impact on the scientific community, solving a problem that seemed complex to solve, such as predicting structure from sequence with high accuracy.
This was possible, not only thanks to the development of new deep learning methods, but also to the accumulation of information over many years by researchers in publicly available databases.

Foro de debate módulo 2

Importancia de la ciencia reproducible/Reproducible science

Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Re: Importancia de la ciencia reproducible/Reproducible science

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 4ª Edición

Foro de debate módulo 2

Importancia de la ciencia reproducible/Reproducible science

Centro de Producción de Recursos para la Universidad Digital