¡Buenas! Dejamos abierta una cuestión en un hilo anterior y era Spark Connect.
Tanto SparkContext, como SparkSession y el nuevo Spark Connect (disponible desde la versión 3.4), son las interfaces que nos permiten "hablar" con Apache Spark o, mejor dicho, con el hardware distribuido (la CPU y la RAM de los servidores) que procesa nuestros datos.
* SparkContext: Es el motor original. Se encarga de la conexión de bajo nivel con el clúster y de gestionar cómo se reparten las tareas entre las máquinas.
* SparkSession: Es la evolución que usamos en este curso. Unifica todas las funciones en una sola puerta de entrada, haciendo que trabajar con DataFrames sea mucho más sencillo y eficiente.
* Spark Connect: Es la arquitectura más moderna. A diferencia de las anteriores, permite que nuestro ordenador se conecte a Spark de forma remota y ligera, como si estuviéramos usando un "mando a distancia".
¿Qué ganamos con Spark Connect? Principalmente, ganamos en tranquilidad: si vuestro Notebook o vuestra conexión a internet fallan, el servidor de Spark sigue trabajando de forma independiente; además, permite que usemos dispositivos con muy pocos recursos para manejar volúmenes de datos masivos en la nube sin complicaciones de configuración.
En resumen, SparkSession es vuestra herramienta de trabajo, pero gracias a Spark Connect, esa herramienta es ahora mucho más robusta y flexible.
Hi everyone! We left one question unanswered in a previous thread, and that was Spark Connect.
SparkContext, SparkSession, and the new Spark Connect (available since version 3.4) are the interfaces that allow us to "talk" to Apache Spark—or rather, to the distributed hardware (the CPU and RAM of the servers) that processes our data.
* SparkContext: The original engine. It handles low-level cluster connections and manages how tasks are distributed across machines.
* SparkSession: The evolution we are using in this course. It unifies all functions into a single entry point, making working with DataFrames much easier and more efficient.
* Spark Connect: The most modern architecture. Unlike previous versions, it allows our computer to connect to Spark remotely and lightly, acting like a "remote control."
What do we gain with Spark Connect? Mainly, we gain peace of mind: if your Notebook or internet connection fails, the Spark server continues to work independently. It also allows us to use low-resource devices to handle massive data volumes in the cloud without complex setup headaches.
In short, SparkSession is your primary tool, but thanks to Spark Connect, that tool is now much more robust and flexible.