La búsqueda global no está activada.
Salta al contenido principal
Foro

Cafetería

La guerra del 80%: ¿Por qué limpiar datos es tan... aburrido? // The 80% war: Why is data cleaning so... boring?

La guerra del 80%: ¿Por qué limpiar datos es tan... aburrido? // The 80% war: Why is data cleaning so... boring?

de Francisco Javier García Castellano - Número de respuestas: 0

¡Buenas! Se dice a menudo que en la ciencia de datos pasamos el 80% del tiempo limpiando y "peleando" con los archivos, y solo el 20% restante disfrutando de los algoritmos. En Big Data también se puede realizar tareas de ETL (extracción, transformación y carga) con Spark, pero es que en Big Data también suele ser necesaria una gran limpieza.

En Bioinformática esto es casi una batalla personal. Entre archivos FASTQ de calidad dudosa, formatos VCF complejos o tablas de expresión con nombres de genes que Excel confunde con fechas (como el famoso caso del gen SEPT9), a veces parecemos más fontaneros de datos que científicos. Al final, por mucho que automaticemos los procesos, esa intuición para detectar un dato que "no huele bien" sigue siendo nuestra mejor herramienta.

¿Cuál ha sido vuestra peor pesadilla limpiando datos biológicos o qué trucos usáis para no desesperar en el intento? ¿Creéis que la IA llegará a hacer este trabajo sucio por nosotros o siempre necesitaremos a un humano revisando los formatos? ¡Os leo!


Hi! It’s often said that in data science we spend 80% of our time cleaning and "wrestling" with files, leaving only 20% to enjoy the algorithms. In Big Data, you can also perform ETL (extract, transform, and load) tasks with Spark, but the truth is that Big Data also usually requires a massive cleaning process.

In Bioinformatics, this is almost a personal battle. Between FASTQ files of questionable quality, complex VCF formats, or expression tables with gene names that Excel mistakes for dates (like the famous SEPT9 case), sometimes we feel more like data plumbers than scientists. In the end, no matter how much we automate processes, that intuition for spotting data that "doesn't smell right" remains our best tool.

What’s been your worst nightmare cleaning biological data, or what tricks do you use to stay sane? Do you think AI will eventually do this dirty work for us, or will we always need a human checking the formats? Looking forward to your comments!