La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 2

POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Coral del Val Muñoz - Número de respuestas: 13

En esta semana iniciamos el módulo 2, donde se pueden aprender algunos de los pasos básicos en el análisis de datos --omicos con unos ejemplos implementados en Notebooks de Google Colab. En este hilo para podéis plantear todas las dudas que surgan sobre los contenidos del mismo.

Antes de centrarnos en las herramientas concretas, puede ser interesante abrir una reflexión general: ¿qué lenguajes de programación son los más utilizados en este contexto y por qué?

En bioinformática y análisis de datos ómicos no existe un único lenguaje “perfecto”, sino varios ecosistemas que han ido consolidándose según el tipo de problema, la tradición del campo y las herramientas disponibles.

Algunos de los más relevantes son:

Python
Probablemente es uno de los lenguajes más extendidos hoy en día por su versatilidad, su sintaxis accesible y su enorme ecosistema de librerías para análisis de datos, aprendizaje automático, visualización y automatización. Además, plataformas como Google Colab lo han convertido en una opción especialmente cómoda para la docencia, la reproducibilidad y el trabajo colaborativo.

R
Sigue siendo un lenguaje fundamental en bioestadística, transcriptómica, análisis exploratorio y visualización. En muchos entornos de investigación biomédica y bioinformática, R continúa siendo una referencia gracias a su potencia para el análisis estadístico y a ecosistemas muy consolidados como Bioconductor.

Bash / Shell scripting
Aunque a veces recibe menos atención, es esencial en muchos flujos de trabajo bioinformáticos. Permite automatizar tareas, encadenar herramientas, procesar archivos masivos y trabajar en entornos Linux o servidores de alto rendimiento, algo muy habitual en análisis ómicos reales.

SQL
No siempre aparece en primer plano, pero puede ser muy útil cuando trabajamos con bases de datos biológicas o grandes volúmenes de información estructurada.

Julia, C/C++ y otros lenguajes
También tienen su lugar, especialmente en contextos donde el rendimiento computacional es crítico. Sin embargo, suelen ser menos frecuentes en niveles introductorios o en flujos de trabajo docentes como los que veremos aquí.

Entonces, ¿cuál es “el más importante”?

La respuesta probablemente depende del contexto.
Si hablamos de entrada al análisis de datos ómicos, Python y R suelen ocupar un lugar central.
Si pensamos en pipelines reales y trabajo en servidores, Bash resulta casi imprescindible.
Y si nos movemos hacia el desarrollo de herramientas o problemas de alto rendimiento, otros lenguajes pueden cobrar más protagonismo.

Quizá lo más interesante no sea elegir “el mejor”, sino entender que en bioinformática lo habitual es trabajar en un entorno multilenguaje, donde cada herramienta aporta algo distinto.

Os propongo algunas preguntas para debatir:

·       ¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?

·       ¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?

·       ¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?

Será muy interesante leer vuestras experiencias y ver desde qué perspectivas os acercáis a esta parte más práctica del módulo.

*******************+

We are starting Module 2, where we will learn some of the basic steps in omics data analysis using examples implemented in Google Colab Notebooks. Before focusing on specific tools, it may be interesting to open a broader discussion: which programming languages are most commonly used in this context, and why?

In bioinformatics and omics data analysis, there is no single “perfect” language. Instead, several ecosystems have become established depending on the type of problem, the traditions of the field, and the tools available.

Some of the most relevant are:

Python
It is probably one of the most widely used languages today because of its versatility, accessible syntax, and enormous ecosystem of libraries for data analysis, machine learning, visualization, and automation. In addition, platforms such as Google Colab have made it an especially convenient option for teaching, reproducibility, and collaborative work.

R
It remains a fundamental language in biostatistics, transcriptomics, exploratory analysis, and visualization. In many biomedical research and bioinformatics environments, R continues to be a key reference thanks to its strength in statistical analysis and to very well-established ecosystems such as Bioconductor.

Bash / Shell scripting
Although it sometimes receives less attention, it is essential in many bioinformatics workflows. It allows users to automate tasks, chain tools together, process large files, and work in Linux environments or high-performance computing servers, which is very common in real omics analyses.

SQL
It does not always appear in the foreground, but it can be very useful when working with biological databases or large volumes of structured information.

Julia, C/C++, and other languages
They also have their place, especially in contexts where computational performance is critical. However, they tend to be less frequent at introductory levels or in teaching-oriented workflows such as the ones we will explore here.

So, which one is “the most important”?

The answer probably depends on the context.
If we are talking about getting started in omics data analysis, Python and R usually play a central role.
If we think about real pipelines and server-based work, Bash becomes almost indispensable.
And if we move toward tool development or high-performance problems, other languages may become more prominent.

Perhaps the most interesting point is not to choose “the best” language, but to understand that in bioinformatics it is common to work in a multilanguage environment, where each tool contributes something different.

Here are a few questions to open the discussion:

  • Which language have you used the most so far in your academic or professional environment?

  • Do you think Python is displacing R, or do both still have clearly differentiated niches?

  • Do you think learning bioinformatics today necessarily involves combining programming, statistics, and systems skills?



En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Marie Iglesias Mulhauser -
¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?
En mi entorno académico y profesional el lenguaje que he utilizado ha sido Python.

¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?
Si lo miro a nivel usuaria diría que Python es más utilizado para pipelines y machine learning, pero por lo que se a nivel de Bioestadística se usa más R.

¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?
Si, aprender Bioinformática implica combinar lenguajes de programación (Python o R) y manejar sistemas como Linux.
En respuesta a Marie Iglesias Mulhauser

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Coral del Val Muñoz -

Gracias Marie. por tu participacion, vamos a ver si se animan más compañeros a participar.

********

Thank you Marie for your answers, lets see what your colleagues tell us.


En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Noemia Morales Díaz -
¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?
Coincido plenamente con Marie en que Python se ha consolidado como el estándar académico y profesional. Sin embargo, en mi experiencia, bash y R siguen estando bastante presentes.
¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?
Creo que Python ha ido desplazando claramente a R en ciertas áreas. Sin embargo, algunas de ellas, como podría ser la ecología, siguen resistiéndose a transicionar, siendo R el lenguaje principal utilizado.
¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?
Definitivamente. Para poder analizar de forma detallada los datos existentes considero imprescindible combinar programación y estadística. Y, además, el manejo de distintos sistemas se vuelve esencial para poder asegurar la reproducibilidad de los análisis en distintas máquinas.
En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Silvestre Ruano Rodríguez -
· ¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?

En mi caso que estoy trabajando con datos de sangre de pacientes de una enfermedad rara, lo que más he empleado ha sido Bash/Shell (pre-procesamiento transcriptómico y genómico) y R (para análisis multiómicos).

· ¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?

No pienso que esté desplazando a R, pienso que cada uno tiene su nicho. En el caso de Python, el lenguaje es más generalista y se adapta muy bien a pipelines, procesamiento masivo de datos y ML + Deep Learning, que sumado al auge de estas últimas, hacen que se emplee cada vez más. Sin embargo, R lo veo mejor en bioestadística, análisis exploratorios y visualización de imágenes (paquete ggplot2).

· ¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?

Totalmente, es algo inevitable. Al final necesitas al menos nociones básicas de programación y saber que hace un cierto pipeline (conocer extensiones de archivos, etc) para poder correrlo e interpretar los resultados (para lo cuál es fundamental la estadística). Además, debido al creciente avance de técnicas, herramientas y pipelines, la cantidad de datos es mayor, por lo que o tienes un muy buen ordenador, o necesitas trabajar en un sistema HPC (por lo que es fundamental saber programación con Linux). Por tanto, pienso que debes manejar básicamente estos tres principios mínimamente.
En respuesta a Silvestre Ruano Rodríguez

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Carlos Cano Gutiérrez -
Gracias Noemia y Silvestre por vuestras aportaciones! vuestra opinión es muy interesante y estamos de acuerdo en que son lenguajes complementarios, con sus fortalezas y debilidades! y el resto, qué opina?
---
Thank you Noemia and Silvestre for your interesting contributions. We agree that these programming languages are complimentary, with both strengths and weaknesses. What do other people think?
En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Zaira Isabel González Sánchez -
¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?
Soy bastante nueva en el uso de estos lenguajes. Por el momento sólo he utilizado R, principalmente para análisis estadístico.

¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?
Python está ganando popularidad por su versatilidad y ecosistema, pero R sigue siendo fuerte en análisis estadístico y visualización, por lo que ambos mantienen nichos diferenciados.

¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?
Sí, hoy la bioinformática requiere combinar programación, estadística y manejo de sistemas, y además la IA se está usando cada vez más para analizar grandes volúmenes de datos biológicos.
En respuesta a Zaira Isabel González Sánchez

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Pedro Carmona -
Gracias, Zaira. Es interesante lo que mencionas sobre el papel creciente de la IA, porque efectivamente se está incorporando cada vez más al análisis de datos biológicos, como está ocurriendo también en muchas otras áreas.
Os lanzo una pregunta más para seguir reflexionando:
¿Cómo creéis que la incorporación de la IA puede impactar en las habilidades que se esperan de un bioinformático? Por ejemplo, a la hora de llevar a cabo tareas como depurar código, documentarlo o incluso desarrollar pipelines.
Y relacionado con esto, ¿cómo pensáis que debería incorporarse el uso de estas herramientas en este tipo de tareas?

----

Thank you, Zaira. It’s interesting what you mentioned about the growing role of AI, because it is indeed being incorporated more and more into the analysis of biological data, just as it is in many other fields.
Here’s another question for you to think about:
How do you think the incorporation of AI might impact the skills expected of a bioinformatician? For example, when performing tasks such as debugging code, documenting it, or even developing pipelines.
And related to this, how do you think the use of these tools should be incorporated into these types of tasks?
En respuesta a Pedro Carmona

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Zaira Isabel González Sánchez -
Gracias por tu comentario, Pedro.

Pienso que la IA va a revolucionar en gran medida muchas áreas de la investigación, y la bioinformática no será una excepción. Contestando a tus preguntas:

¿Cómo creéis que la incorporación de la IA puede impactar en las habilidades que se esperan de un bioinformático?
La IA puede automatizar tareas como depuración, documentación o desarrollo de pipelines, pero aumenta la necesidad de pensamiento crítico, validación de resultados y comprensión profunda de los datos y métodos. He participado en algunos proyectos como AI trainer y lo que se está intentando es que los nuevos modelos de IA razonen, porque es algo que hasta el momento no pueden hacer, aunque los nuevos modelos de IA (aún no disponibles para el usuario) están adquiriendo unos niveles que sorprenden a los más expertos.


Y relacionado con esto, ¿cómo pensáis que debería incorporarse el uso de estas herramientas en este tipo de tareas?
Debería usarse como herramienta de apoyo (para acelerar código, generar borradores o sugerencias), pero siempre con revisión humana, integrándola de forma responsable en el flujo de trabajo sin sustituir el criterio experto, que por el momento es insustituible.
En respuesta a Zaira Isabel González Sánchez

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Coral del Val Muñoz -
Hola Zaira,
De hecho has tocado un punto inmportante como respuesta al comentario de Pedro Carmona, que me parece muy interesante discutir, asi que voy a a habrir un post al respecto.
En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Wilfried Condemine -
Which language have you used the most so far in your academic or professional environment?
I obtained a PhD in molecular biology in 2006, so I never used programing in this context. After a post-doc, I have been unemployed (it happens when you find things that your laboratory directors refuse to have them published because these discoveries are opposite to their interests). So I use this time to initiate myself with Perl during the beginning of the 2010s (because of BoPerl, I must say), but this language is clearly declining. I intiated too with C++ but the available librairies are scarce and not easy to use. Python is definitively easier and the ecosystem very developed (I recently obtained certificates for Data Science, MLOPS engineer and Data Product Manager (the two last ones were to complement the first one to have a complete education pompously called "Team leader in IA") and I completed with a deepening in Computer Vision and a partial one in NLP : Python is definitively the language used in these contexts). On the contrary, I am nearly unfamilar with R.

Do you think Python is displacing R, or do both still have clearly differentiated niches?
R is faster than Python for the basic statistics, but for the development, I think that Python should be favoured because it is more widespread in the educations.

Do you think learning bioinformatics today necessarily involves combining programming, statistics, and systems skills?
How not to answer yes ?
En respuesta a Wilfried Condemine

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Carlos Cano Gutiérrez -
Gracias Wilfried,

Perl era el lenguaje de referencia para análisis de datos al inicio de los 2000's, y BioPerl era muy popular entre la comunidad. Por ejemplo, recuerdo que Coral Del Val se hizo programadora experta en Perl y luego se pasó al R. Perl es muy potente, pero, efectivamente, ha sido sustituido por Python y R en la mayoría de pipelines de análisis.

---

Thanks Wilfried, 

Yes, Perl was the reference programming language for Bioinformatics in the early 2000's and BioPearl was very popular in the community. I remember a younger Coral del Val being a Perl expert before she moved to R, for example. 
Perl is very powerful but it was indeed replaced by Python and R in most bioinformatics analytical pipelines. 

Thanks for sharing
En respuesta a Coral del Val Muñoz

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Laia Delgado -
· ¿Qué lenguaje habéis usado más hasta ahora en vuestro entorno académico o profesional?

Ahora mismo y dado que mi carrera se enfoca sobre todo en Data Science el lenguaje que más uso es Python, aunque he tenido asignaturas como estadística o análisis de datos donde hacía los trabajos con R. Además, a lo largo de la carrera he visto varios, el primer lenguaje que aprendí que me sirvió como base de todo fue C y en otras asignaturas aprendí Java, pero vamos al final con el que mejor me manejo ahora mismo es Python.

· ¿Creéis que Python está desplazando a R, o ambos siguen teniendo nichos claramente diferenciados?

Yo creo que Python está desplazando cada vez más a R. Puede que sea porque ahora para casi todo uso Python, pero creo que con Python puedes hacer casi todo lo que te da R y hacer visualizaciones muy limpias e interactivas, además de poder crear herramientas como dashboards. Y esto es ya opinión mía que a nivel de interfaz yo usaba R Studio y me parecía que tenía una estética bastante antigua.

· ¿Pensáis que aprender bioinformática hoy implica necesariamente combinar programación, estadística y manejo de sistemas?

Yo diría que sí, para aprender bioinformática necesitas combinarlo con programación, estadística y manejo de sistemas, pero no solo con bioinformática. Creo que por como han ido evolucionando las tecnologías ahora es fundamental tener una noción básica de programación, estadística y manejo de sistemas ya sea para cualquier ingeniería o campos dentro de la informatica.
En respuesta a Laia Delgado

Re: POst1_Modulo2: Python, R, Bash… ¿qué lenguajes dominan el análisis ómico? /Python, R, Bash… Which Languages Dominate Omics Data Analysis?

de Pedro Carmona -
Muy interesantes los comentarios Laia. Estoy de acuerdo en que, en el ámbito de la ciencia de datos, Python ha ganado mucha popularidad. Aun así, dependiendo del área, hay lenguajes que siguen teniendo más peso que otros.
En cuanto a la bioinformática, coincido totalmente contigo. Es un campo claramente interdisciplinar, donde no basta con saber programar: también es fundamental comprender los datos (estadística) y manejar entornos computacionales (sistemas, HPC, etc.).

------------

Those are very interesting comments, Laia. I agree that, in the field of data science, Python has become very popular. Even so, depending on the specific area, some languages still carry more weight than others.
As for bioinformatics, I completely agree with you. It’s a clearly interdisciplinary field, where knowing how to program isn’t enough: it’s also essential to understand data (statistics) and manage computational environments (systems, HPC, etc.).