La búsqueda global no está activada.
Salta al contenido principal
Foro

Foro de debate módulo 2

Dudas y preguntas Módulo 2 / Doubst and questions Module 2

Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Pedro Carmona - Número de respuestas: 25

Hola!

En esta semana iniciamos el módulo 2, donde se pueden aprender algunos de los pasos básicos en el análisis de datos --omicos con unos ejemplos implementados en Notebooks de Google Colab. En este hilo para podéis plantear todas las dudas que surgan sobre los contenidos del mismo.

------------------

Hello!
This week we start module 2, where you can learn some of the basic steps in data analysis --omics with some examples implemented in Google Colab Notebooks. In this thread you can ask any questions you may have about the contents of the module.


En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Itzel Hernández Guillén -
Hola! Mi nombre es Itzel, no consigo seguir el pdf del módulo 2 a partir de la página 9.
Mi ordenador es un Mac y sigo las instrucciones mediante mi acceso en el google drive. No entiendo el tema celdas a que te refieres, si es en un excel aparte o como ejecutas la información que describes "from google.colab import drive
drive.mount('/content/mydrive', force_remount=True)" en el mismo google drive? Un saludo!
En respuesta a Itzel Hernández Guillén

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Itzel,
gracias por tu pregunta.

En primer lugar, es muy importante aclarar que no es necesario que ejecutes los cuadernos de Google Colab para seguir los contenidos del curso. Tal y como te explicamos en este hilo de instrucciones del foro, puedes seguir los contenidos en el PDF que contiene los códigos de los programas y los resultados de las ejecuciones:
https://abierta.ugr.es/mod/forum/discuss.php?d=1513#p13173

En cualquier caso, si quieres ejecutar los cuadernos de Google Colab, lo primero es que te familiarices con la propia herramienta de Google Colab. Para ello, revisa las instrucciones en las que explicamos qué es un cuaderno de Google Colaboratory:
https://abierta.ugr.es/pluginfile.php/83006/mod_page/intro/Instrucciones%20NoteBook.pdf?time=1644490322205
Puedes leer también las propias explicaciones de Google Colab en su página principal:
https://colab.research.google.com/?hl=es

Espero que después de haber leído esta documentación esté más claro cómo se utiliza Google Colab.

En cualquier caso, para responder a tu pregunta concreta, una "celda de código" (o, simplemente, "celda") en Google Colab es una caja de texto que contiene una secuencia de comandos típicamente en Python o R que pueden ejecutarse. Para ejecutar una celda de código debes darle al "play" que aparece en el margen izquierdo de la celda (o utilizar la combinación de teclas "Control+Intro" (o "Cmd+Intro" en Mac). El comando de la celda que describes:
"from google.colab import drive
drive.mount('/content/mydrive', force_remount=True)"
pide a Google Colab que acceda a tu unidad de Google Drive. Al ejecutar este comando, aparecerán una serie de ventanas emergentes que te guían en este proceso, tal y como se explica en el cuaderno de Google Colab: 
https://colab.research.google.com/drive/1sgkBRHqzUOxUHh4j_li3daHWqyNjEDOk

Es muy importante, tal y como se remarca en ese cuaderno, que ejecutes todos los pasos de instalación de bibliotecas en R y Python de manera secuencial (en el orden en que se especifica en el cuaderno) y sin saltarte ningún paso. Si todo el proceso de instalación termina con éxito, podrás ejecutar el resto del cuaderno. Si el proceso de instalación no es ejecutado correctamente, no funcionará el resto del cuaderno. Si encuentras serias dificultades en ejecutar este proceso de instalación, siempre puedes remitirte al PDF con el cuaderno ejecutado al que he hecho referencia anteriormente para seguir los contenidos sin problemas.

Si tienes más dudas, estaremos encantados de atenderte.
Un saludo

---

Hi Itzel,
thank you for your question.

First of all, it is very important to clarify that you do not need to run the Google Colab notebooks to follow the course contents. As we explained to you in this forum instruction thread, you can follow the contents in the PDF containing the program codes and the results of the runs:
https://abierta.ugr.es/mod/forum/discuss.php?d=1513#p13173

In any case, if you want to run the Google Colab notebooks, the first thing to do is to familiarize yourself with the Google Colab tool itself. To do this, review the instructions in which we explain what a Google Colaboratory notebook is:
https://abierta.ugr.es/pluginfile.php/83006/mod_page/intro/Instrucciones%20NoteBook.pdf?time=1644490322205
You can also read Google Colab's own explanations on its home page:
https://colab.research.google.com/?hl=es

I hope that after reading this documentation it is clearer how to use Google Colab.

Anyway, to answer your specific question, a “code cell” (or simply “cell”) in Google Colab is a text box containing a sequence of commands typically in Python or R that can be executed. To execute a code cell you must hit “play” in the left margin of the cell (or use the key combination “Control+Enter” (or “Cmd+Enter” on Mac). The cell command you describe:
"from google.colab import drive
drive.mount('/content/mydrive', force_remount=True)"
asks Google Colab to access your Google Drive. When you execute this command, a series of pop-up windows will appear to guide you through this process, as explained in the Google Colab notebook:
https://colab.research.google.com/drive/1sgkBRHqzUOxUHh4j_li3daHWqyNjEDOk
It is very important, as highlighted in the notebook, that you execute all the R and Python library installation steps sequentially (in the order specified in the booklet) and without skipping any steps. If the entire installation process completes successfully, you will be able to run the rest of the notebook. If the installation process is not executed correctly, the rest of the notebook will not work. If you encounter serious difficulties in running this installation process, you can always refer to the PDF with the executed notebook that I have referred to above to follow the contents smoothly.

If you have any further questions, we will be happy to assist you.
Best regards
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Santiago Zaragoza Rastoll -
Buenos días! Mi nombre es Santi y me ha surgido alguna duda durante el progreso de este módulo.

En el apartado 4: DESCARGA DE DATOS DE TCGA el código no me está funcionando correctamente, en concreto la siguiente sección:

# 1- Lanza la consulta para recuperar todos los datos que satisfagan
los criterios de búsqueda
query <- GDCquery(project = "TCGA-SKCM",
data.category = "Gene expression",
data.type = "Gene expression quantification",
legacy=TRUE,
file.type= "normalized_results"
)

El output que recibo es el siguiente:

File "", line 2
data.category = "Gene expression",
^
SyntaxError: expression cannot contain assignment, perhaps you meant "=="?

Por lo que he "investigado" el error en el código se debe a que los argumentos legacy=TRUE y file.type="normalized_results" en la función GDCquery() ya no son válidos en las versiones más recientes de TCGAbiolinks. ¿Cómo podría solucionar esto para avanzar en el notebook?

Un saludo y muchas gracias de antemanosonrisa
Santi
En respuesta a Santiago Zaragoza Rastoll

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Santi,

gracias por tu pregunta y por tu interés en el curso. Ante todo, genial que investigues y hackees el código para adaptarlo o corregirlo según tus intereses.

En cualquier caso, el código que indicas está en una parte del notebook que NO es una celda de código ejecutable (fíjate que no tiene un símbolo de "play" en el margen izquierdo). Ese código está en el cuaderno a modo informativo para que veáis una forma de descargaros los datos, pero no para ejecutarse porque el proceso de descarga es muy lento. Además, como no es código ejecutable, no es un código que hayamos revisado recientemente para asegurar su correcto funcionamiento con las últimas versiones de las bibliotecas y es posible que con los cambios en las bibliotecas se haya quedado obsoleto.

En cualquier caso, como ese código no está en una celda ejecutable, no necesitas ejecutarlo para seguir el cuaderno, porque en otra celda descargamos los datos ya preprocesados, así que te recomiendo que sólo ejecutes las celdas de código (las que tienen un "play" en el margen izquierdo). Por cierto, que puedes lanzar la ejecución de un solo golpe de todas las celdas de código utilizando la opción "Entorno de ejecución -> Ejecutar todas". Esta opción irá ejecutando secuencialmente todas las celdas de código y mostrando sus resultados.

Si estás interesado en descargar los datos completos e investigar más sobre TCGABiolinks, en esta página del manual tienes información actualizada sobre cómo hacerlo y todos los tipos de datos disponibles:
https://bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/download_prepare.html

Espero haber resuelto tu problema y no dudes en preguntar cualquier otra cuestión que te surja.
---

Hello Santi,

The code you mentioned is in a part of the notebook that is NOT an executable code cell (note that it doesn't have a "play" button on the left margin). That code is in the notebook for informational purposes to show you a way to download the data, but not for execution because the download process is very slow.

You don't need to run that code to follow the notebook, because in another cell we download the data we need, so I recommend you only execute the code cells (the ones with a "play" button on the left margin). To run all the code cells, you can use the option "Runtime -> Run all", which will sequentially execute all the code cells and display their results.

If you're interested in downloading the complete data, this page from the TCGAbiolinks manual has information on how to do it and all the types of data available:
https://bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/download_prepare.html

I hope I've resolved your issue, and don't hesitate to ask any other questions that may arise.
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Julia Carballo del Pino -
Buenas tardes,

No puedo ejecutar el paso 6 de la parte inicial donde incorporamos las distintas bibliotecas. Hay una indicación en el cuaderno donde piden que repitamos el proceso si hay cualquier error de instalación o ejecución de paquetes. He vuelto a intentar instalar todo desde el primer paso sin saltarme nada y en repetidas ocasiones, sin dar resultado, me sigue apareciendo este mensaje en el código:

Error in library(TCGAbiolinks) :
there is no package called ‘TCGAbiolinks’
---------------------------------------------------------------------------
RRuntimeError Traceback (most recent call last)
/usr/local/lib/python3.11/dist-packages/rpy2/ipython/rmagic.py in eval(self, code)
406 r_expr = ri.parse(code)
--> 407 value, visible = ri.evalr_expr_with_visible(
408 r_expr
En respuesta a Julia Carballo del Pino

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Pedro Carmona -
Hola Julia
El error es porque no encuentra el paquete de TCGAbiolinks
Los paquetes necesarios para ejecutar los diferentes pasos de los análisis se han dejado en una carpeta en Drive que tienes que añadir a "Tu Unidad" de Google Drive. Tienes que seguir los pasos anteriores que tienes indicados para enlazarla, se han subido unas imágenes de pantallazos para facilitar el proceso.
-------------------
Hello Julia
The error is because it does not find the TCGAbiolinks package.
The necessary packages have been left in a folder in Drive that you have to add to “Your Drive” in Google Drive. You have to follow the steps above that you have indicated to link it, some screenshots have been uploaded to make the process easier
En respuesta a Julia Carballo del Pino

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Julia, 

gracias por tu mensaje y tu interés en el curso. Acabo de repetir todo el proceso de instalación y funciona sin problema. Me indicas que has vuelto a repetir todos los pasos (del 1 al 6) cuidadosamente y sin saltarte nada. Fíjate que estamos ejecutando exactamente los mismos códigos en las mismas máquinas de Google Colab, así que tiene que haber algún paso en el que estás cometiendo algún pequeño error o que no está suficientemente bien explicado. 

Lo más probable es que el error esté en los pasos 2 y 3, donde tienes que pinchar en una carpeta compartida en Google Drive (la carpeta se llama r-lib-220424) y añadir en tu google Drive un acceso directo a esta carpeta. Pero cuidado, que este acceso directo lo tienes que colocar directamente en la carpeta raíz de tu unidad de Google Drive, tal y como aparece detallado en las imágenes del paso 3: 

 
Te ruego que lo compruebes, porque si has creado el acceso directo a la carpeta r-lib-220424 dentro de alguna otra carpeta de tu unidad de Drive, luego tendrías que modificar la ruta de acceso a las bibliotecas en el paso 5. 

En cualquier caso, para averiguar más sobre qué puede estar pasando, necesitaría que revises si después de cada una de las  celdas de código de los pasos 1, 4 y 5 te sale un error. Yo aquí te voy a ir indicando lo que sale cuando la ejecución es correcta y se completan todos los pasos por orden, para que vayas comparando tu resultado con el mío e identifiquemos dónde está el problema. 

Paso 1: (te muestro solo el final del mensaje de salida)


Paso 4: 
Comprueba que montas bien tu unidad de Drive y te sale "Mounted at ..." 

Paso 5 (se específica la ruta a la carpeta r-lib-220424 en tu unidad de Google Drive). Si no has guardado el acceso directo a r-lib-220424 en la carpeta raíz de tu unidad de Drive, este paso debería darte un error. 

 
Paso 6: comprobación, esta es la celda que para ejecutarse toma unos 15 minutos. Se muestra solo la primera parte de los mensajes de salida:



Vuelve a revisar el proceso y confírmame si obtienes los mismos resultados que te muestro para estos pasos de la instalación. 

---

Hello Julia,

I just went through the entire installation process again, and it works without any issues. You mentioned that you carefully repeated all the steps (from 1 to 6) without skipping anything. Since we're running exactly the same code on the same Google Colab machines, there must be a small mistake in one of the steps or something that isn't explained clearly enough.

The most likely issue is in steps 2 and 3, where you need to click on a shared folder in Google Drive (the folder is named r-lib-220424) and add a shortcut to this folder in your Google Drive. However, be careful—this shortcut must be placed directly in the root folder of your Google Drive, as detailed in the images from step 3:

 

Please double-check this because if you created the shortcut to the r-lib-220424 folder inside another folder in your Drive, you would need to modify the library path in step 5.

In any case, to better understand what might be going wrong, I need you to check whether you get any errors after running the code cells in steps 1, 4, and 5. I'll show you what the correct output looks like when all steps are executed in order, so you can compare your results with mine and identify where the issue might be.

  • Step 1: (I'll show only the final part of the output message)


  • Step 4:
    Make sure your Drive is mounted correctly, and you see the message: "Mounted at ..."


  • Step 5:
    (Here, the path to the r-lib-220424 folder in your Google Drive is specified.)


    If you haven’t saved the shortcut to r-lib-220424 in the root folder of your Drive, this step should result in an error.

  • Step 6:
    Verification—this cell takes about 15 minutes to run. Below is the first part of the output messages:


Please review the process again and confirm if you get the same results I provided for these installation steps.



En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Gregorio Gil -
Buenas! Mi nombre es Gregorio.
Tenía una duda acerca de Google Colab, es la primera vez que uso esta herramienta. Al estar en un entorno de ejecución de R, puedo seguir los pasos descritos en el PDF del módulo correctamente. Sin embargo, al ejecutar un comando en el entorno de ejecución Python 3, este se queda en "cola" durante mucho tiempo y no termina de ejecutarse.
Me pasa en los códigos del punto 5 de la cápsula 1: estructura de los datos de TCGA.

Gracias de antemano, un saludo!
En respuesta a Gregorio Gil

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -

Hola Gregorio, 

gracias por tu pregunta. 

Lo ideal es que sigas los contenidos utilizando uno de los dos enfoques que te sugerimos en este hilo de instrucciones del foro: 

https://abierta.ugr.es/mod/forum/discuss.php?d=1513

Es decir, puedes leer el PDF con el cuaderno de google colab ya ejecutado, consultando los códigos y los resultados obtenidos:

https://abierta.ugr.es/pluginfile.php/83006/mod_page/content/62/Notebook-Module2-C123-2024-ES.pdf

O puedes abrir el cuaderno en google colab y ejecutarlo tal y como está: 

https://colab.research.google.com/drive/1sgkBRHqzUOxUHh4j_li3daHWqyNjEDOk

En el cuaderno de Google Colab que te proporcionamos se utiliza un entorno de Python por defecto, pero también instalamos una biblioteca de python que se llama rpy que permite ejecutar celdas de código en R (las celdas de código en R son las que comienzan con %%R).

Por tu pregunta, me da la impresión de que estás consultando el PDF y has creado un nuevo cuaderno en blanco de Google Colab en el que estás copiando y pegando los comandos de las celdas correspondientes del PDF. Eso puede llevarte a errores si no eres un usuario experto, así que te recomiendo que accedas directamente al cuaderno https://colab.research.google.com/drive/1sgkBRHqzUOxUHh4j_li3daHWqyNjEDOk y lo ejecute tal cual está para evitar errores. 

Conforme vayas ganando confianza y vayas entendiendo los comandos, podrás modificar el cuaderno para adaptarlo a otros datos o a otro problema. 

Un saludo y ánimo con el curso! 

--- 

Hi Gregorio, 

Thank you for your question.

Ideally, you should follow the content using one of the two approaches we suggested in this forum instruction thread:

https://abierta.ugr.es/mod/forum/discuss.php?d=1513

That is, you can either read the PDF with the Google Colab notebook already executed, checking the code and the obtained results:

https://abierta.ugr.es/pluginfile.php/83006/mod_page/content/62/Notebook-Module2-C123-2024-ES.pdf

Or you can open the notebook in Google Colab and run it as it is:

https://colab.research.google.com/drive/1sgkBRHqzUOxUHh4j_li3daHWqyNjEDOk

The provided Google Colab notebook uses Python as the default environment, but we also install an R library called rpy, which allows running code cells in R (R code cells are the ones that begin with %%R).

From your question, it seems that you are consulting the PDF and have created a new blank Google Colab notebook where you are copying and pasting the commands from the corresponding PDF cells. This may lead to errors if you are not an advanced user, so I recommend that you access the notebook directly at this link and run it as it is to avoid mistakes.

As you gain confidence and understand the commands, you will be able to modify the notebook to adapt it to other data or different problems.

Best regards, and good luck with the course!


En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Cristina Sánchez Cañuelo -
Hola! Me llamo Cristina y tengo una duda antes de empezar a ejecutar comandos en la terminal para descargarme las bibliotecas necesarias. Soy usuaria de linux, entonces mi duda es si, exceptuando la descarga de bibliotecas, el resto de comandos son iguales entre el programa R de linux y Google Colab o si me recomiendan que use mejor Google Colab para evitar errores.

Muchas gracias y un saludo.
En respuesta a Cristina Sánchez Cañuelo

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Pedro Carmona -
Hola Cristina
Los análisis que hay en el Google Colab se hacen en R, por lo que podrías hacerlo en local en Linux teniendo R instalado. No obstante, te puedes encontrar problemas en ejecutar algunos de los pasos por usar versiones de los paquetes diferentes a los que utilizamos en el Google Colab. El Google Colab se ha hecho utilizando unas versiones concretas que os hemos dejado en una carpeta compartida, si se usan otras pueden aparecer incompatibilidades que tendrás que ir solucionando si los ejecutas en local, por lo que recomendamos que los análisis los hagáis en el Google Colab.
--------
Hello Cristina
The analyses in Google Colab are done in R, so you could do it locally on Linux having R installed. However, you may encounter problems in executing some of the steps because you are using different versions of the packages than the ones we use in Google Colab. The Google Colab has been made using some specific versions that we have left in a shared folder, if other versions are used, incompatibilities may appear that you will have to solve if you run them locally, so we recommend that you run it in Google Colab.
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Giulio Deca -
Hola a todos,

Estaba siguiendo la guía en Google Colab que indicaba agregar una carpeta personalizada a la ruta de las bibliotecas en R con el siguiente comando:

%%R
.libPaths( c( "/content/drive/MyDrive/r-lib-220424" , .libPaths() ) )
.libPaths()

Sin embargo, al ejecutarlo, noté que la carpeta no era reconocida.
El resultado que obtuve fue:

[1] "/usr/local/lib/R/site-library" "/usr/lib/R/site-library"
[3] "/usr/lib/R/library"

mientras que esperaba:

[1] "/content/drive/.shortcut-targets-by-id/1nglwQf-03PcNy-mGnaa4gGPPdHdXs_tw/r-lib-220424"
[2] "/usr/local/lib/R/site-library"
[3] "/usr/lib/R/site-library"
[4] "/usr/lib/R/library"

Verifiqué si la carpeta existía con:

import os
print(os.path.exists("/content/drive/MyDrive/r-lib-220424"))

Esto devolvía False, a pesar de que la carpeta era visible en Google Drive.

La carpeta en realidad es un acceso directo a una carpeta compartida, y Google Colab no gestiona directamente estos enlaces simbólicos.

Para resolver el problema, encontré la ruta real de la carpeta compartida y la utilicé en .libPaths().
Aquí te explico cómo encontrar la ruta correcta:

Ejecutar:

!readlink -f /content/drive/MyDrive/r-lib-220424
Esto devuelve la ruta real, que generalmente sigue esta estructura:

/content/drive/.shortcut-targets-by-id/ID-CARPETA/r-lib-220424
Usar esta ruta en el código R:


%%R
.libPaths( c( "/content/drive/.shortcut-targets-by-id/ID-CARPETA" , .libPaths() ) )
.libPaths()

Después de hacer este cambio, todo funcionó correctamente.
Si tu carpeta es un acceso directo a una carpeta compartida en Google Drive, asegúrate de obtener la ruta real con readlink -f y úsala en tus scripts.

¡Espero que esta solución sea útil para cualquiera que tenga el mismo problema!
En respuesta a Giulio Deca

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Giulio,

Gracias por tu comentario tan interesante sobre como gestionar enlaces simbólicos manualmente desde Google Colab.

En cualquier caso, sólo una puntualización: Google Colab si gestiona directamente estos enlaces simbólicos, así que el proceso manual que describes no es necesario. El comando:
%%R
.libPaths( c( "/content/drive/MyDrive/r-lib-220424" , .libPaths() ) )
.libPaths()

funciona normalmente. Si para ti no funcionaba, puede tratarse de que no hayas concedido los permisos correspondientes al autorizar a Google Colab a que accediera a tu Drive? es sólo una hipótesis, pero necesitaría investigarlo más en detalle.

Un saludo y gracias por tu aportación!


---

Hello Giulio,

Thank you for your interesting comment on how to manually manage symbolic links from Google Colab.

In any case, just a clarification: Google Colab does indeed manage these symbolic links directly, so the manual process you describe is not necessary. The command:

```r
%%R
.libPaths( c( "/content/drive/MyDrive/r-lib-220424" , .libPaths() ) )
.libPaths()
```

normally works. If it didn’t work for you, could it be that you didn’t grant the necessary permissions when authorizing Google Colab to access your Drive? That’s just a hypothesis, I would need to look into this in more detail.

Best regards, and thanks for your contribution!

---
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Pablo Calvete -
Hola, buenas tardes:
Quería preguntar como seria el proceso de realizar este modulo en el programa R ya descargado. Estoy siguiendo el Google Colab pero tengo la sensación de solo estar ejecutando un código ya escrito sin entender al completo los pasos que estoy realizando y cuando intento trasladarlo al programa descargado se salen 100 tipos de errores jaja. Entiendo perfectamente si es una cuestión demasiado amplia como para responderla en el foro o que incluso se salga de los objetivos del curso pero escribo por si es posible.
Muchas gracias de antemano
En respuesta a Pablo Calvete

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Cristina Sánchez Cañuelo -
Hola, a mi también me interesa esta duda porque he intentado seguir el curso tanto por google colab como por R descargado y me pasa igual, en el programa me dan varios errores quizá porque no son versiones de los paquetes de R con la versión de linux que poseo. Si se responde esta duda por privado a Pablo también tengo interés en la respuesta, muchas gracias a todos.

Un saludo

Cristina
En respuesta a Cristina Sánchez Cañuelo

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Pablo y Cristina,
gracias por vuestro interés en el curso. Efectivamente, los códigos que se proporcionan en este curso pueden ejecutarse de muchas formas y desde cualquier sistema operativo, en local y en la nube. En local, puedes ejecutarlo desde la terminal o línea de comandos, utilizando IDEs de programación como RStudio o VS Code, con Jupyter notebooks, etc. Y en la nube, puedes ejecutarlo con Google Colab, por ejemplo.

Para ejecutar los códigos es imprescindible tener acceso a una versión actualizada de los intérpretes de R y Python, y a las bibliotecas de funciones que se especifican a lo largo de los notebooks. Como sabéis, tanto las versiones de R y Python como las de las bibliotecas asociadas van cambiando, porque se sigue añadiendo funcionalidad y arreglando errores, y existen dependencias cruzadas entre estas versiones.

Todas estas opciones hacen que, en la práctica, sea inviable para nosotros daros soporte para ejecutar estos códigos en local, porque, como os he indicado, dependería de cada usuario: su sistema operativo, su IDE de programación, su versión de R/python y de bibliotecas, etc. etc. Es por esto que solo podemos daros soporte a errores con las ejecuciones basadas en los cuadernos de código sobre Google Colab. Ahí sabemos que el entorno de programación es el mismo para todos los usuarios, y también las versiones de R, python y de las bibliotecas (porque se están tomando de una carpeta compartida de Google Drive).

En cualquier caso, si podemos daros algunas recomendaciones si queréis hacer las ejecuciones en local. Primero, elegir un IDE de ejecución potente, mis favoritos son RStudio (para códigos en R) y VS Code (para python) -- pero cada programador tiene tus preferencias, podríamos abrir un hilo sobre esto --. Segundo, instalar la última versión de R y actualizar sus paquetes básicos, en caso de que no lo estén. Tercero, instalar todas las bibliotecas que necesitamos para la ejecución de los cuadernos, utilizando el asistente de instalación de paquetes del IDE, o tecleando los comandos nosotros mismos desde la terminal. En la sección 3.1 tenéis una caja sombreada en la que se indica de forma orientativa cómo podría hacerse desde la línea de comandos.
# 1 - Instalamos la última versión de R

!apt-get update
!apt-get install r-base

# 2 - Abrimos una terminal de R tecleando `R` (Intro) e instalamos las bibliotecas de R necesarias para que se ejecuten los análisis bioinformáticos de este módulo.

install.packages("BiocManager")
install.packages(c("scales", "pheatmap", "DT", "factoextra", "BiocManager"))
BiocManager::install(c ("NOISeq", "ComplexHeatmap", "TCGAbiolinks", "limma"))
BiocManager::install(c("clusterProfiler", "org.Hs.eg.db", "DOSE", "enrichplot"))


Después de ejecutar estos comandos, ya no sería necesario compartir ninguna carpeta del google Drive, porque tenéis las bibliotecas necesarias instaladas en local, en vuestra máquina. Deberíais entonces poder ir directamente al paso 6 de las instrucciones de instalación, para cargar algunas bibliotecas y ver si está todo bien. Si obtuviérais un error del tipo "Error in library (...): there is no package called '...'," significa que hay algún paquete que no hemos instalado, deberíais instalar sólo ese paquete con los comandos:
#Si es un paquete de R se instala con:
install.packages("NombreDelPaquete")
#Si es un paquete de Bioconductor se instala con:
BiocManager::install(c ("NombreDelPaquete"))

Espero que estos consejos os sean de utilidad,
Happy Coding!

--


Hello Pablo and Cristina,

Thank you for your interest in the course. Indeed, the codes provided in this course can be executed in many ways and from any operating system, both locally and in the cloud. Locally, you can run them from the terminal or command line, using programming IDEs such as RStudio or VS Code, with Jupyter notebooks, etc. In the cloud, you can run them using Google Colab, for example.

To execute the codes, it is essential to have access to an updated version of the R and Python interpreters, as well as the function libraries specified throughout the notebooks. As you know, both R and Python versions, as well as the associated libraries, are constantly evolving, as new functionalities are added and bugs are fixed, and there are cross-dependencies between these versions.

All these options make it practically unfeasible for us to provide support for running these codes locally because, as I mentioned, it depends on each user: their operating system, their programming IDE, their version of R/Python and libraries, etc. This is why we can only provide support for errors when executing the code notebooks on Google Colab. There, we know that the programming environment is the same for all users, as well as the versions of R, Python, and the libraries (since they are taken from a shared Google Drive folder).

In any case, we can give you some recommendations if you want to run the code locally. First, choose a powerful execution IDE—my favorites are RStudio (for R code) and VS Code (for Python), but every programmer has their preferences, so we could open a discussion about this. Second, install the latest version of R and update its basic packages if they are not already updated. Third, install all the libraries needed to run the notebooks, either using the IDE’s package installation assistant or by typing the commands manually in the terminal. In section 3.1, you will find a shaded box with an example of how this can be done from the command line.

```r
# 1 - Install the latest version of R
!apt-get update
!apt-get install r-base

# 2 - Open an R terminal by typing `R` (Enter) and install the necessary R libraries to execute the bioinformatics analyses in this module.

install.packages("BiocManager")
install.packages(c("scales", "pheatmap", "DT", "factoextra", "BiocManager"))
BiocManager::install(c("NOISeq", "ComplexHeatmap", "TCGAbiolinks", "limma"))
BiocManager::install(c("clusterProfiler", "org.Hs.eg.db", "DOSE", "enrichplot"))
```

After running these commands, there would be no need to share any Google Drive folder, as you will have all the necessary libraries installed locally on your machine. You should then be able to go directly to step 6 of the installation instructions, where you load some libraries to check that everything is working correctly.

If you encounter an error such as `"Error in library (...): there is no package called '...'"`, it means that there is a missing package. You should install only that package using the following commands:

```r
# If it is an R package, install it with:
install.packages("PackageName")

# If it is a Bioconductor package, install it with:
BiocManager::install(c("PackageName"))
```

I hope these tips are helpful.
Happy Coding!

---
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Santiago Rios -
Hola,

Ayer empecé a ejecutar los primers códigos que corresponden al curso en google Colab, esta mañana he querido seguir con el resto del curso pero me he encontrado que todo lo objetos generados incluso la conexión a mi Google Drive se habia perdido, por lo que quiero entender que la única solución es volver a ejecutar todos los códigos desdel principio.

Es posible que haya una manera de que se guarden los pasos que vamos haciendo y así poder seguir sin que recomenzar cada vez que nos desconectamos y nos volvemos a conectar?

Gracias por la ayuda,
Santiago
En respuesta a Santiago Rios

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Santiago Rios -
Hola de nuevo,

Ya he visto que en el notebook ya explicáis que cada vez que se reinicia la sesión se tiene que volver a ejecutar todos los comandos.

De todas formas preguntar si no existe algo parecido a los archivos .RData que se puedan guardar en Drive y así poder ir guardando los objetos creados.

Saludos,
Santiago
En respuesta a Santiago Rios

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hola Santiago,
gracias por tu interés en el curso. Efectivamente, tras un cierto tiempo de inactividad, el entorno de ejecución de Google Colab se reiniciará y se perderán las variables y el estado del entorno (incluyendo las bibliotecas que hayas instalado). Puedes guardar los objetos creados en R en ficheros tipo .RData utilizando los comandos apropiados de R:
https://rstudio-education.github.io/hopr/dataio.html#r-files
Sin embargo, las bibliotecas tendrás que volver a instalarlas cada vez siguiendo las instrucciones de los cuadernos.
Lo ideal es que puedas ejecutar todo el cuaderno de una sentada (tras instalar las bibliotecas necesarias, puedes utilizar la opción "Ejecutar esta celda y las de abajo") y luego puedes ir viendo los resultados e ir modificando las celdas que consideres.

Un saludo y a disfrutar del curso

---

Hello Santiago,

Thank you for your interest in the course. Indeed, after a certain period of inactivity, the Google Colab runtime will reset, causing the loss of variables and the environment state (including any libraries you have installed). You can save the objects created in R to .RData files using the appropriate R commands:
https://rstudio-education.github.io/hopr/dataio.html#r-files

However, you will need to reinstall the libraries each time by following the instructions in the notebooks.

Ideally, you should run the entire notebook in one go (after installing the necessary libraries, you can use the "Run this cell and all cells below" option) and then review the results and modify the cells as needed.

Best regards, and enjoy the course!
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Dr.Asma sbaih -
**Subject:** Re: Module 2 – Omics Data Analysis

Hello!

Looking forward to exploring the basic steps of **-omics data analysis** in **Google Colab**. I appreciate the hands-on approach! Will we also cover best practices for handling large datasets efficiently in Colab?

Best,
Asma
En respuesta a Dr.Asma sbaih

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Carlos Cano Gutiérrez -
Hello!
hope that you find this primer on -omics data analysis interesting. And yes, in module 7 we will be covering an engine for large-scale analytics called Spark. Stay tuned for more and enjoy your way to big data analytics!
--
Hola
esperamos que encuentres útil esta introducción práctica. Y respondiendo a tu pregunta, sí, en el módulo 7 trabajaremos con Spark, una herramienta de analítica de datos a gran escala. Esperamos que disfrutes tu aprendizaje!
En respuesta a Pedro Carmona

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Luis Cuevas -
Buenas tardes, mi nombre es Luis, muchas gracias por este curso.

Estoy intentando acessar en https://portal.gdc.cancer.gov/ los datos usados en el modulo de acuerdo con el filtro definido
# 1- Lanza la consulta para recuperar todos los datos que satisfagan los criterios de búsqueda
query <- GDCquery(project = "TCGA-SKCM",
data.category = "Gene expression",
data.type = "Gene expression quantification",
legacy=TRUE,
file.type= "normalized_results")

Pero en https://portal.gdc.cancer.gov/ el Projeto TCGA-SKCM no tiene disponible en el campo "Data Category" el valor "Gene expression quantification"
Solo estan los seguintes valores
biospecimen
clinical
copy number variation
dna methylation
proteome profiling
sequencing reads
simple nucleotide variation
somatic structural variation
structural variation
transcriptome profiling

Cual es el error que estoy cometiendo, me orientan por favor.
En respuesta a Luis Cuevas

Re: Dudas y preguntas Módulo 2 / Doubst and questions Module 2

de Pedro Carmona -
Hola Luis
El workflow de los Google Colab está desarrollado con unas versiones concretas de los diferentes paquetes. Si lo ejecutas en local usando versiones diferentes de paquetes de R algunas partes darán errores debido a las actualizaciones y las dependencias.
Por ejemplo, las últimas versiones del paquete TCGAbiolinks ha modificado algunos de los argumentos en la función GDCquery, y para estudios de expresión génica habría que usarla con los siguientes argumentos, si quieres descargar datos de RNA-Seq

query <- GDCquery(project = "TCGA-SKCM",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification",workflow.type = "HTSeq - FPKM" )

Como te comento, puedes adaptarlo y ejecutarlo en local, pero tendrás que solventar estas cuestiones en base a las versiones de los diferentes paquetes. Para esto no podemos dar soporte como entenderás, por lo que sugerimos que los análisis los hagáis en el Google Colab.
-----------
Hello Luis
The Google Colab workflow is developed with specific versions of different packages. If you run it locally using different versions of R packages some parts will give errors due to updates and dependencies.
For example, the latest versions of the TCGAbiolinks package have changed some of the arguments in the GDCquery function, and for gene expression studies you would have to use it with the following arguments, if you want to download RNA-Seq data

query <- GDCquery(project = “TCGA-SKCM”,data.category = “Transcriptome Profiling”,data.type = “Gene Expression Quantification”,workflow.type = “HTSeq - FPKM” )

As I comment, you can adapt it and run it locally, but you will have to solve these issues based on the versions of the different packages. For this we can't give support as you will understand, so we suggest you to do the analysis in the Google Colab.associate.
Close menu