La búsqueda global no está activada.
Salta al contenido principal
Foro

Cafetería

Pero… ¿Qué es Big Data? / But... What is Big Data?

Pero… ¿Qué es Big Data? / But... What is Big Data?

de Francisco Javier García Castellano - Número de respuestas: 0

Acabamos de empezar el módulo 7 de Big Data y sois muchos que no tenéis claro ¿qué es Big Data?. Últimamente también se le denomina Larga-Scala Data Analytics (analítica de datos a gran escala). Si sabéis contestar a esta pregunta, ya tenéis el apartado 7.1 superado.


Para los que no, voy a empezar con un tweet muy famoso sobre el tema:



Os lo traduzco: "Big Data es como el sexo de adolescentes: todo hablan sobre ello, nadie sabe realmente cómo hacerlo, todos creen que los demás lo practican, así que todos afirman que lo hacen..."

Creo que esa comparación acierta en muchas cosas.

En Ciencia de Datos, cuando intentan venderte un proyecto como novedoso le ponen la etiqueta de Big Data. En los periódicos y distintas publicaciones, pasa un poco de lo mismo. De hecho, como no todo el mundo lo tiene claro, hay distintos artículos intentando definir el Big Data como los de las Vs del Big Data.

Hay incluso gente que dicen que el Big Data es la nueva Ciencia de Datos o la nueva Minería de Datos. Son conceptos que están relacionados, pero no son lo mismo. De hecho, el Big Data es un subcampo dentro de la Ciencia de Datos.

Os voy a dar una definición, que no es exacta, pero es bastante intuitiva, y es la siguiente: tenemos un problema de Big Data cuando no podemos tratarlo con herramientas convencionales de Ciencia de Datos.

Os puede surgir la duda ... ¿Qué son herramientas convencionales de Ciencias de Datos? Pues las que habéis usado hasta ahora en este MOOC.

Por ejemplo, tenéis un conjunto de datos tan grande que no os cabe en vuestro ordenador ... ¿podréis usar lo que habéis visto en el curso? Esa pregunta va con trampa ... pues para poder usar lo que habéis visto, primero tendremos que guardar los datos en el ordenador y si no podemos, mal empezamos. ¿No creéis?

También, os podéis hacer preguntas del tipo... ¿si los datos me caben en una tarjeta SD es un problema de Big Data?
----------------------------------------------------------------------

We have just started Module 7 on Big Data, and many of you are not clear on what Big Data is. Recently, Big Data is also known as Large-Scale Data Analytics. If you can answer that question, you have already completed Section 7.1.

For those who don't, I'll start with a very famous tweet on the subject:




It says: "Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…”

I think that comparison is right in many things.

In Data Science, when they try to sell you a project as novel, they put the label of Big Data. In newspapers and various publications, a bit of the same thing happens. In fact, as not everyone is clear, there are different articles trying to define Big Data as those of the Vs of Big Data.

There are even people who say that Big Data is the new Data Science or the new Data Mining. They are concepts that are related, but they are not the same. In fact, Big Data is a subfield within Data Science.

I'm going to give you a definition, which is not exact, but it is quite intuitive, and it is the following: we have a Big Data problem when we cannot treat it with conventional Data Science tools.

The question may arise ... What are conventional Data Science tools? Well, the ones you have used so far in this MOOC.

For example, you have such a large dataset that it doesn’t fit it in your computer ... will you be able to use what you’ve seen in the course? That's a tricky question ... because in order to be able to use what you have seen, we will first have to save the data in the computer and if we can't, we are off to a bad start, don't you think?

Also, you can ask yourself questions such as... if the data fits on an SD card, is it a Big Data problem?