¡Hola a todos! Para este módulo estamos usando Python (PySpark), pero Spark también permite trabajar con Java, R y Scala.
Muchos os preguntaréis: “Si Spark está escrito en Scala, ¿estamos perdiendo velocidad al usar Python?”.
Es un mito muy extendido que Python es hasta 10 veces más lento. Esto ya no es así. Esa diferencia era real en las versiones antiguas basadas en RDDs. Sin embargo, con la llegada de los DataFrames y el optimizador Catalyst, Spark traduce vuestro código Python a un plan de ejecución altamente eficiente en la JVM. En 2026, la diferencia de rendimiento es mínima para la gran mayoría de tareas de bioinformática.
Mi consejo: En Big Data, el tiempo más caro no es el de ejecución de la máquina, sino el tiempo del científico de datos. Es mucho mejor usar un lenguaje que ya domináis (como Python o R) que perder semanas aprendiendo Scala desde cero.
¿Alguien ha probado Spark con otros lenguajes o ha notado diferencias de rendimiento en sus proyectos? ¡Compartid vuestra experiencia!
Hi everyone! For this module, we are using Python (PySpark), but Spark also supports Java, R, and Scala.
Many of you might wonder: "If Spark is written in Scala, are we losing speed by using Python?".
There is a widespread myth that Python is up to 10 times slower. This is no longer the case. That gap was real in the old RDD-based versions. However, with DataFrames and the Catalyst optimizer, Spark translates your Python code into a highly efficient execution plan on the JVM. In 2026, the performance difference is negligible for most bioinformatics tasks.
My advice: In Big Data, the most expensive time is not the machine's execution time, but the data scientist's time. It’s much better to use a language you already know (like Python or R) than to spend weeks learning Scala from scratch.
Has anyone tried Spark with other languages or noticed performance differences in your projects? Share your experience!