Antes de definir la disciplina de Ciencia de Datos es conveniente establecer claramente lo que se entiende por los siguientes conceptos [11]:
Dato
- Es un símbolo o conjunto de símbolos (alfabéticos, numéricos, gráficos, etc.) utilizado para representar o describir un valor numérico, un hecho, un objeto o una idea.
- Puede describir variables cuantitativas o cualitativas, correspondientes a hechos empíricos, sucesos y entidades.
Información
- Una información es un conjunto de datos organizados de forma adecuada para ser objeto de tratamiento.
- Una información se puede transmitir o comunicar en forma de mensaje.
- Un mensaje o una información, en general, a diferencia de los datos o de las percepciones sensoriales, tiene una estructura útil que permiten cambiar el estado de conocimiento de un individuo y modificar las sucesivas interacciones del que la posee con su entorno.
Los datos e información los utilizamos principalmente bajo las formas de:
- Textos.
- Sonidos.
- Imágenes.
- Valores numéricos.
Conocimiento
- Es el significado extraído de una información.
- Facultad del ser humano para comprender por medio de la razón la naturaleza, cualidades y relaciones de las cosas.
- Entendimiento, inteligencia, razón natural (RAE, acepción 2).
Toma de decisiones
- Proceso mediante el cual se realiza una elección entre diferentes opciones o formas posibles para resolver diferentes situaciones en la vida, en diferentes contextos.
- Consiste, básicamente, en elegir una opción entre las disponibles, a los efectos de resolver un problema actual o potencial.
Los cuatro conceptos descritos (datos, información, conocimiento, y decisiones) tienen distintos volúmenes de ocupación en nuestros sistemas digitales y su valor está más o menos oculto. Así, los datos son más voluminosos, y su valor está implícito; mientras que el conocimiento y las decisiones ocupan menos espacio, y tienen un valor explicito directamente utilizable por los usuarios. (ver Figura 6).
En cierta medida cada nivel representa la sinopsis, resumen o destilación del nivel inmediatamente inferior.

Nuestro universo se desenvuelve alrededor de los datos; así encontramos a estos en muy distintos contextos, como los siguientes:
Ciencia |
Bases de datos de astronomía, genómica, datos medio-ambientales, datos de transporte … |
---|---|
Ciencias Sociales y Humanidades | Libros digitalizados, documentos históricos, datos sociales … |
Empresas y Comercio |
Ventas de corporaciones, transacciones de mercados, censos, tráfico de aerolíneas … |
Entrenamiento y Ocio | Imágenes en internet, películas, archivos MP3, videojuegos … |
Medicina | Datos de pacientes, datos de escáner, radiografías … |
Industria, Energía... | Sensores ... |
Internet de las cosas (IoT) | Determinadas aplicaciones tienen miles e incluso pueden llegar a tener millones de sensores captando datos permanentemente |
Disponemos de cantidades ingentes de datos (big data) almacenados, pero son infrautilizados. Sin lugar a duda podemos afirmar que “somos ricos en datos, pero pobres en conocimiento”. Por ejemplo, dentro del contexto de IoT en una Ciudad Inteligente se generan continuamente datos ambientales que se procesan mínimamente.
El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar y almacenar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento implícito en los datos recopilados de manera oportuna y en una forma escalable (es decir, que la complejidad de extracción del conocimiento no crezca exponencialmente con el número de datos a procesar).
Pero ¿qué podemos hacer con los datos? Desde un punto de vista científico-tecnológico con los datos se pueden efectuar tres tipos de operaciones: básicas, descriptivas y predictivas, como se describe a continuación.
Operaciones básicas o rutinarias del día a día, que en la actualidad se realizan habitualmente siempre que accedemos a información digital
- Introducir, almacenar y controlar los datos.
- Bases de datos convencionales:
- Crear, borrar, modificar registros de información.
- Consultas.
- Transacciones:
- Comprar un billete o entrada, pagar con tarjeta de crédito, etc.
Operaciones descriptivas que tratan de explicar los datos existentes.
- Agrupar (clustering); es decir, detectar datos que tienen valores o características similares y segmentarlos en grupos o clases representativas.
- Identificar reglas de asociación, esto es, encontrar relaciones interesantes entre variables (relacionar unas compras con otras), o descubrir secuencias de patrones (ADN, sistemas de recomendación, etc.).
- Sintetizar, que supone resumir conjuntos o bases de datos masivos para facilitar la toma de decisiones, por ejemplo, generando informes multidimensionales, utilizando herramientas de visualización, etc., que sinteticen la información relevante y sus relaciones.
Operaciones predictivas con las que se hacen previsiones que faciliten la toma de decisiones.
- Clasificar o segmentar (tipologías de clientes, preferencias de los usuarios, etc.)
- Estimar relaciones entre parámetros (análisis de regresión).
- Detectar desviaciones o anomalías (detección de acciones fraudulentas, detección de accidentes).
- Identificar series temporales (pronósticos sobre nuevos datos o tendencias).
En relación con los datos en los últimos años han surgido conceptos nuevos, como los siguientes.
Minería de Datos
- Es el proceso de extracción de patrones de información implícitos, no triviales, desconocidos y potencialmente útiles, a partir de grandes cantidades de datos:
- Existe una cantidad ingente de datos (mina)
- Se pretende extraer (minar) conocimiento (la mena) de esos datos, distinguiéndolo de la información irrelevante (la ganga).
Big Data
Concepto que se refiere a datos cuyo volumen, diversidad y complejidad requieren nuevas arquitecturas hardware, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento implícitos (oculto) en ellos.
Usualmente se caracteriza por las 5 V:
- Volumen, pueden llegar a almacenarse y procesarse cantidades ingente de datos,
- Velocidad de generación de nuevos datos elevada y de naturaleza dinámica,
- Variedad, ya que se consideran tipologías y formatos muy diversos con calidades diferentes,
- Veracidad, siendo uno de los objetivos detectar la fiabilidad de los datos, y
- Valor, ya que a partir de los datos se pretende mejorar la comprensión y toma de decisiones siendo de gran utilidad para la humanidad.
Ciencia de Datos
La concienciación de la relevancia de los datos ha provocado que en los últimos años haya surgido esta nueva disciplina, que, en lugar de circunscribirse a dominios de conocimiento o aplicaciones concretas, se focaliza en los datos en sí. Podemos definir la Ciencia de Datos como la disciplina que se centra en la extracción de conocimiento a partir de los datos.
