Ahora que hemos llegado al Módulo 2, nos adentramos en el preprocesamiento y análisis exploratorio de datos, con un enfoque especial en el análisis de expresión génica a partir de RNA-Seq. Sabemos que RNA-Seq nos permite obtener información valiosa sobre la expresión de genes, pero ¿qué factores pueden modificar drásticamente nuestros resultados?
¿Por qué es tan importante la
normalización en RNA-Seq?
El método de normalización que
elijamos puede cambiar significativamente las conclusiones que sacamos del
análisis de expresión génica. Diferentes técnicas, como Counts per Million (CPM), Transcripts per Million (TPM) y Reads
per Kilobase Million (RPKM), ofrecen enfoques distintos para
interpretar los datos. ¿conocéis las
diferencias?
Pero, además, hay estrategias de normalización entre muestras como Quantile normalization, Trimmed Mean of M-values (TMM) y Upper Quartile normalization, que pueden corregir sesgos técnicos y mejorar la comparabilidad entre muestras.
¿Qué más puede afectar los resultados?
Más allá de la normalización, hay otros aspectos clave que debemos considerar:
Tamaño de las librerías: ¿Cómo influye en la sensibilidad y en
la capacidad de detectar genes diferencialmente expresados?
Estrategias de filtrado de genes: ¿Qué pasa si eliminamos
genes con baja expresión? ¿Cómo afecta esto a nuestros modelos?
Sesgos técnicos y ruido en los datos: ¿Qué técnicas podemos
usar para minimizar el impacto de factores como la profundidad de secuenciación
o el efecto de lotes?
Para profundizar en estos temas, os
dejamos algunas lecturas:
Johnson, K.A., Krishnan, A. Robust
normalization and transformation techniques for constructing gene coexpression
networks from RNA-seq data. Genome Biology 23, 1 (2022). DOI: 10.1186/s13059-021-02568-9
Abrams, Z.B., Johnson, T.S., Huang, K. et al. A protocol to evaluate RNA sequencing normalization methods. BMC Bioinformatics 20 (Suppl 24), 679 (2019). DOI: 10.1186/s12859-019-3247-x
----------------------------
Now that we’ve reached Module 2, we’re diving into data preprocessing and exploratory analysis, with a special focus on gene expression analysis using RNA-Seq. We know that RNA-Seq provides valuable insights into gene expression, but what factors can drastically alter our results?
Why is normalization so important in RNA-Seq?
The normalization method we choose can significantly impact the conclusions drawn from gene expression analysis. Different techniques, such as Counts per Million (CPM), Transcripts per Million (TPM), and Reads per Kilobase Million (RPKM), offer distinct approaches to interpreting data. Are you familiar with the differences between them?
Additionally, between-sample normalization strategies, such as Quantile normalization, Trimmed Mean of M-values (TMM), and Upper Quartile normalization, help correct technical biases and improve comparability across samples.
What else can affect the results?
Beyond normalization, several other key factors should be considered:
Library size: How does it influence sensitivity and the
ability to detect differentially expressed genes?
Gene filtering strategies: What happens if we remove
low-expression genes? How does this affect our models?
Technical biases and data noise: What techniques can be used
to minimize the impact of factors such as sequencing depth or batch effects?
Key Readings to Explore These Topics Further:
Johnson, K.A., Krishnan, A. Robust normalization and transformation techniques for constructing gene coexpression networks from RNA-seq data. Genome Biology 23, 1 (2022). DOI: 10.1186/s13059-021-02568-9
Abrams, Z.B., Johnson, T.S., Huang, K. et al. A protocol to evaluate RNA sequencing normalization methods. BMC Bioinformatics 20 (Suppl 24), 679 (2019). DOI: 10.1186/s12859-019-3247-x