Para trabajar con Big Data usando Apache Spark, nosotros estamos usando Python. No obstante, podemos usar Java, R o Scala.
Apache Spark está programado en Scala. Por tanto, suele ser la opción más rápida. No obstante, si dominamos un lenguaje de programación como Python o R, lo habitual es usar el lenguaje de programación que conocemos antes de aprender uno nuevo.
Python tiene la fama de ser algo más lento que Scala. En muchos sitios aparece que es un 10x veces más lento. Esto era cierto con la API antigua de MLlib basada en RDDs, con la API nueva basada en DataFrames la velocidad de ejecución es similar.
----------------------------------------------------------------------
To work with Big Data using Apache Spark, we are using Python. However, we can use Java, R, or Scala.
Apache Spark is programmed in Scala. Therefore, it is usually the fastest option. However, if we are proficient in a programming language such as Python or R, it is customary to use the programming language we know before learning a new one.
Python is considered to be somewhat slower than Scala. In many web sites it appears that it is 10x times slower. This was true with the old RDD-based MLlib API, with the new DataFrame-based API the execution speed is similar.
