La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 7

Spark Packages

Spark Packages

de Francisco Javier García Castellano - Número de respuestas: 0

Si estás interesado/a en seguir trabajando con herramientas de Big Data, en la página https://spark-packages.org hay multitud de herramientas para Apache Spark que os pueden servir. El problema es que están la mayoría sólo para Scala o están desactualizadas y es necesario usar una versión antigua de Apache Spark.

De entre todas, me gustaría destacar mmlspark (ahora Synapse Machine Learning ) que nos permite trabajar, por ejemplo,  con LightGBM, OpenCV o Deep Learning. Este paquete sí está disponible para Python.

También disponible en Python, hay otro paquete interesante, que además no aparece en https://spark-packages.org y es  XGBoost4j-Spark que nos permite usar XGBoost en Spark. Otro igualmente interesante es CatBoost (https://catboost.ai/en/docs/concepts/spark-overview)

En https://colab.research.google.com/drive/1hzUy8N96lGPYW3CxrQzjUoZCjVR2jDBq hay un cuaderno de ejemplo que utiliza LightGBM y XGBoost (sólo en español). Y en https://colab.research.google.com/drive/132E9hZt0xPHXQrCGfIqZ6bZre2wiHxsN hay otro cuaderno de ejemplo que usa CatBoost (sólo en español).

----------------------------------------------------------------------
If you are interested in continuing to work with Big Data tools, there are plenty of tools for Apache Spark at https://spark-packages.org that you may find useful. The problem is that most of them are only for Scala or are outdated, requiring the use of an older version of Apache Spark.

Among all of them, I would like to highlight mmlspark (now Synapse Machine Learning), which allows us, for example,  work with LightGBM, OpenCV, or Deep Learning. This package is available for Python.

Also available in Python, there is another interesting package, which does not appear in https://spark-packages.org and it is XGBoost4j-Spark that allows us to use XGBoost in Spark. Another equally interesting package is CatBoost (https://catboost.ai/en/docs/concepts/spark-overview).

There is an example notebook that uses LightGBM and XGBoost (only in Spanish) available at https://colab.research.google.com/drive/1hzUy8N96lGPYW3CxrQzjUoZCjVR2jDBq. Another example notebook that uses CatBoost (only in Spanish) can be found at https://colab.research.google.com/drive/132E9hZt0xPHXQrCGfIqZ6bZre2wiHxsN.