La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 7

Pandas API en SPARK / Pandas API on SPARK.

Pandas API en SPARK / Pandas API on SPARK.

de Francisco Javier García Castellano - Número de respuestas: 0

Aviso: Esto es para los programadores expertos.

Si usas Pandas en tus aplicaciones de Python de forma habitual, esto te interesa. En Apache Spark, desde octubre de 2021, se puede usar una API compatible con Pandas. Esto permite que el código estilo Pandas se ejecute sobre Spark, haciendo posible el procesamiento escalable de grandes volúmenes de datos con una sintaxis familiar:

from pandas import read_csv
from pyspark.pandas import read_csv
pdf = read_csv("data.csv")

Al parecer usar la API de Pandas en Spark es más rápido que usar otras soluciones como Dask para cargas de trabajo realmente grandes.

----------------------------------------------------------------------

Warning: This is for experienced programmers.

If you habitually use Pandas in your Python applications, this entry is of your interest. Since October 2021, Apache Spark has supported a Pandas-compatible API. This allows Pandas-style code to run on top of Spark, enabling scalable processing of large datasets using a familiar syntax:

from pandas import read_csv
from pyspark.pandas import read_csv
pdf = read_csv("data.csv")

Apparently, using the Pandas API on Spark can be faster than other solutions like Dask, especially for very large workloads.