La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 7

Conectividad en Spark: De SparkSession a Spark Connect / Connectivity in Spark: From SparkSession to Spark Connect

Conectividad en Spark: De SparkSession a Spark Connect / Connectivity in Spark: From SparkSession to Spark Connect

de Francisco Javier García Castellano - Número de respuestas: 2

¡Buenas! Dejamos abierta una cuestión en un hilo anterior y era Spark Connect.


Tanto SparkContext, como SparkSession y el nuevo Spark Connect (disponible desde la versión 3.4), son las interfaces que nos permiten "hablar" con Apache Spark o, mejor dicho, con el hardware distribuido (la CPU y la RAM de los servidores) que procesa nuestros datos.
* SparkContext: Es el motor original. Se encarga de la conexión de bajo nivel con el clúster y de gestionar cómo se reparten las tareas entre las máquinas.
* SparkSession: Es la evolución que usamos en este curso. Unifica todas las funciones en una sola puerta de entrada, haciendo que trabajar con DataFrames sea mucho más sencillo y eficiente.
* Spark Connect: Es la arquitectura más moderna. A diferencia de las anteriores, permite que nuestro ordenador se conecte a Spark de forma remota y ligera, como si estuviéramos usando un "mando a distancia".


¿Qué ganamos con Spark Connect? Principalmente, ganamos en tranquilidad: si vuestro Notebook o vuestra conexión a internet fallan, el servidor de Spark sigue trabajando de forma independiente; además, permite que usemos dispositivos con muy pocos recursos para manejar volúmenes de datos masivos en la nube sin complicaciones de configuración.


En resumen, SparkSession es vuestra herramienta de trabajo, pero gracias a Spark Connect, esa herramienta es ahora mucho más robusta y flexible.



Hi everyone! We left one question unanswered in a previous thread, and that was Spark Connect.


SparkContext, SparkSession, and the new Spark Connect (available since version 3.4) are the interfaces that allow us to "talk" to Apache Spark—or rather, to the distributed hardware (the CPU and RAM of the servers) that processes our data.
* SparkContext: The original engine. It handles low-level cluster connections and manages how tasks are distributed across machines.
* SparkSession: The evolution we are using in this course. It unifies all functions into a single entry point, making working with DataFrames much easier and more efficient.
* Spark Connect: The most modern architecture. Unlike previous versions, it allows our computer to connect to Spark remotely and lightly, acting like a "remote control."


What do we gain with Spark Connect? Mainly, we gain peace of mind: if your Notebook or internet connection fails, the Spark server continues to work independently. It also allows us to use low-resource devices to handle massive data volumes in the cloud without complex setup headaches.


In short, SparkSession is your primary tool, but thanks to Spark Connect, that tool is now much more robust and flexible.

En respuesta a Francisco Javier García Castellano

Re: Conectividad en Spark: De SparkSession a Spark Connect / Connectivity in Spark: From SparkSession to Spark Connect

de MARIA GABRIELA ESPINOZA BRAVO -
El planteamiento sobre la evolución desde SparkContext hasta Spark Connect refleja claramente cómo Apache Spark ha ido adaptándose a las necesidades actuales de escalabilidad, flexibilidad y trabajo distribuido.

Desde mi perspectiva, uno de los puntos más relevantes de Spark Connect no es solo la conexión remota, sino el cambio de paradigma en la arquitectura cliente-servidor. Mientras que SparkSession centraliza la interacción dentro de un entorno más acoplado, Spark Connect desacopla completamente el cliente del clúster, lo que tiene implicaciones importantes:

Permite trabajar desde entornos ligeros (por ejemplo, laptops o incluso aplicaciones web) sin depender de configuraciones complejas locales.
Mejora la tolerancia a fallos del lado del cliente, ya que la ejecución permanece en el servidor.
Facilita la integración con herramientas modernas y arquitecturas basadas en servicios (microservicios o APIs de datos).

Además, considero que este enfoque se alinea con tendencias actuales como el cloud computing y el trabajo colaborativo en ciencia de datos, donde múltiples usuarios pueden interactuar con un mismo clúster sin interferencias directas.

En conclusión, más que una mejora incremental, Spark Connect representa una evolución estratégica que acerca Spark a un modelo más moderno, distribuido y accesible, especialmente útil en contextos educativos y empresariales donde no todos los usuarios cuentan con infraestructura robusta.
En respuesta a MARIA GABRIELA ESPINOZA BRAVO

Re: Conectividad en Spark: De SparkSession a Spark Connect / Connectivity in Spark: From SparkSession to Spark Connect

de Francisco Javier García Castellano -

¡Excelente análisis! Has dado en el clavo con los puntos clave: el desacoplamiento y la democratización del acceso a la infraestructura pesada.


Como anécdota personal para reforzar lo que comentas: hace no tanto tiempo, mi rutina para lanzar experimentos de Big Data era mucho más "sufrida". Tenía que conectarme por SSH al clúster, lanzar los scripts y cruzar los dedos usando comandos como nohup y disown para que, si mi conexión de internet fallaba o cerraba el portátil, el experimento no se detuviera a mitad de noche.

Con la llegada de Spark Connect, esa fricción ha desaparecido. Poder interactuar con un clúster masivo desde un entorno ligero, con la tranquilidad de que la ejecución es independiente de nuestro estado de conexión, es el salto de calidad que necesitábamos en entornos de investigación y producción. ¡Gracias por tu aportación!


Excellent analysis! You’ve hit the nail on the head regarding the key points: decoupling and the democratization of access to heavy infrastructure.

As a personal anecdote to reinforce your point: not long ago, my routine for launching Big Data experiments was much more "painful." I had to connect via SSH to the cluster, launch the scripts, and keep my fingers crossed while using commands like nohup and disown so that if my internet connection failed or I closed my laptop, the experiment wouldn't stop in the middle of the night.

With the arrival of Spark Connect, that friction has vanished. Being able to interact with a massive cluster from a lightweight environment, with the peace of mind that execution is independent of our connection status, is the leap in quality we needed in research and production environments. Thank you for your contribution!