¡Buenas! Para cerrar el módulo, quería compartiros que el ecosistema de Spark es mucho más grande de lo que vemos en el curso. En la web spark-packages.org podéis encontrar multitud de extensiones. Es cierto que muchas están en Scala o algo desactualizadas, pero hay algunas "joyas" modernas que son esenciales si queréis profundizar en Machine Learning con Python:
Synapse Machine Learning (antes mmlspark): Un paquete potentísimo que permite integrar herramientas como OpenCV, Deep Learning y LightGBM directamente en vuestros flujos de Spark.
XGBoost4j-Spark: Aunque no aparece en la web oficial de paquetes, es el estándar para usar XGBoost de forma distribuida.
CatBoost: Otra librería de Gradient Boosting muy popular en ciencia de datos que tiene una integración excelente con Spark (catboost.ai).
Para que veáis cómo funcionan estas librerías en la práctica, os dejo un par de cuadernos de ejemplo:
LightGBM y XGBoost: Enlace al cuaderno
CatBoost: Enlace al cuaderno
¡Espero que os resulten útiles para vuestros proyectos finales o trabajos futuros!
Hi! To wrap up the module, I wanted to share that the Spark ecosystem is much larger than what we cover in class. On the spark-packages.org website, you can find many extensions. While it’s true that many are in Scala or somewhat outdated, there are some modern "gems" that are essential if you want to dive deeper into Machine Learning with Python:
Synapse Machine Learning (formerly mmlspark): A very powerful package that allows you to integrate tools like OpenCV, Deep Learning, and LightGBM directly into your Spark workflows.
XGBoost4j-Spark: Although it doesn't appear on the official package site, it is the standard for using XGBoost in a distributed way.
CatBoost: Another highly popular Gradient Boosting library in data science that has excellent Spark integration (catboost.ai).
To see how these libraries work in practice, here are a couple of example notebooks:
LightGBM & XGBoost: Notebook link
CatBoost: Notebook link
I hope you find them useful for your final projects or future work!