La búsqueda global no está activada.
Salta al contenido principal
Foro

Cafetería

☕ Pero… ¿Qué es Big Data realmente? / But... What is Big Data, really?

☕ Pero… ¿Qué es Big Data realmente? / But... What is Big Data, really?

de Francisco Javier García Castellano - Número de respuestas: 1

¡Hola a todos! Aprovechando que acabamos de estrenar el Módulo 7, abro este hilo para charlar sobre algo que parece obvio pero no lo es tanto: ¿pero qué es el Big Data?

Muchos lo llaman ahora Large-Scale Data Analytics (analítica de datos a gran escala). Si sabéis definirlo con precisión, ya tenéis el apartado 7.1 superado. Pero para los que todavía dudan, quiero rescatar un "tweet" (ahora post) legendario de Dan Ariely que resume la situación de la industria:

"El Big Data es como el sexo en la adolescencia: todos hablan de ello, nadie sabe realmente cómo hacerlo, todos creen que los demás lo practican, así que todos afirman que lo hacen..."

Más allá de la broma, tiene mucha verdad. En el mundo real, si quieres que un proyecto parezca caro o innovador, le pones la etiqueta de "Big Data". Los periódicos lo usan para todo y hay cientos de artículos intentando definirlo con las famosas "Vs" (Volumen, Velocidad...).

Mi definición intuitiva para este curso: Tenemos un problema de Big Data cuando no podemos tratarlo con las herramientas convencionales de Ciencia de Datos (las que habéis usado hasta ahora).

Si tenéis un conjunto de datos tan grande que simplemente no cabe en vuestro ordenador, ¿podríais usar lo visto en los módulos anteriores? Ahí está la trampa: para procesar datos, primero hay que poder leerlos o almacenarlos. Si tu PC dice "hasta aquí", bienvenido al mundo del Big Data.

Atención pregunta: ¿Creéis que si los datos caben en una tarjeta SD de 1TB sigue siendo un problema de Big Data? ¡Os leo!

----------------------------------------------------------------------

Hi everyone! Since we’ve just launched Module 7, I’m opening this thread to chat about something that seems obvious but isn't: what on earth is Big Data?

Many now call it Large-Scale Data Analytics. If you can define it accurately, you’ve already cleared section 7.1. But for those who are still unsure, I want to bring back a legendary "tweet" by Dan Ariely that perfectly sums up the industry:

"Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…"

Joke aside, there’s a lot of truth in it. In the real world, if you want a project to look expensive or innovative, you just label it "Big Data." Newspapers use it for everything, and there are countless articles trying to define it using the famous "Vs" (Volume, Velocity...).

My intuitive definition for this course: We have a Big Data problem when we cannot handle it with conventional Data Science tools (the ones you’ve used so far).

If you have a dataset so large that it simply won’t fit on your computer, could you use what you’ve learned in previous modules? There’s the catch: to process data, you first need to be able to read or store it. If your PC gives up, welcome to the world of Big Data.

Let’s discuss: Do you think that if the data fits on a 1TB SD card, it’s still a Big Data problem? Looking forward to your thoughts!


En respuesta a Francisco Javier García Castellano

Re: ☕ Pero… ¿Qué es Big Data realmente? / But... What is Big Data, really?

de Francisco Javier García Castellano -
Respecto a la pregunta de este hilo, la respuesta es: depende. Aunque sí que puede ser un problema de Big Data.

Aunque 1TB quepa físicamente en una tarjeta SD, el problema no es solo guardarlo, sino moverlo y procesarlo. Puede que intentar procesar esos datos requieran más memoria RAM de los que tiene tu máquina. Al final, el Big Data no es solo "cuánto" tienes, sino si tus herramientas actuales pueden procesarlo en un tiempo razonable. ¡El cuello de botella no es el espacio, es la velocidad!

----------------------------------------------------------------------

For the question in this thread, the answer is: it depends. Although it could well be a big data problem.

Even if 1TB physically fits on an SD card, the problem isn’t just storing it, but moving and processing it. Trying to process that data might require more RAM than your machine has. Ultimately, Big Data isn’t just about ‘how much’ you have, but whether your current tools can process it within a reasonable time. The bottleneck isn’t space, it’s speed!