Saltar la navegación

1. La ciencia de datos y la inteligencia artificial

 

La gran cantidad de datos que se generan en la actualidad en el ámbito de las empresas procedentes de los dispositivos IoT exigen llevar a cabo un proceso de recopilación, almacenamiento y análisis para poder encontrar el conocimiento oculto en los mismos. Para ello, la ciencia de datos se considera hoy en día como una disciplina fundamental. Uno de los grandes objetivos que persigue es la búsqueda de modelos que describan patrones y comportamientos que ayuden a la toma de decisiones y al diseño de productos y servicios innovadores para satisfacer las necesidades y deseos de los consumidores.

Antes de analizar algunas de las herramientas de ciencias de datos más utilizadas en el ámbito empresarial y de marketing y realizar algún ejemplo práctico, es importante delimitar conceptualmente el término ciencia de datos y diferenciarlo de otros términos relacionados. La ciencia de datos es una disciplina que busca hacer que los datos sean útiles y generen conocimiento al objeto de conseguir ventajas competitivas para las empresas que la practican. Muy vinculado a este término está la inteligencia artificial (IA) que podría definirse como la simulación de procesos de inteligencia humana por parte de máquinas, y que incluye el aprendizaje mediante la adquisición de información y reglas, el razonamiento que usa esas reglas para alcanzar conclusiones y la autocorrección [1].

Las diferencias principales entre ambos términos serían [2]:

La ciencia de datos es un proceso integral que implica el preprocesamiento, análisis, visualización y predicción; mientras que la IA es la implementación de algoritmos para pronosticar eventos futuros.

La ciencia de datos se compone de varias técnicas estadísticas, mientras que la inteligencia artificial hace uso de algoritmos informáticos.

Las herramientas involucradas en la ciencia de datos son mucho más que las que se usan en la inteligencia artificial. Esto se debe a que la ciencia de datos implica varios pasos para analizar datos y generar conocimientos a partir de ellos.

La ciencia de datos trata de encontrar patrones ocultos en los datos. La IA trata de impartir autonomía al modelo de datos.

La ciencia de datos busca crear modelos que utilizan conocimientos estadísticos. La IA, en cambio, sirve para construir modelos que emulen la cognición y la comprensión humana.

La ciencia de datos implica un menor grado de procesamiento científico en comparación con la IA.

Figura 1. Ciencia de datos vs. IA [3]
Figura 1. Ciencia de datos vs. IA [3]

Sin embargo, la parte común de ambas disciplinas está en que giran en torno a los datos y a la necesidad de sacarle el máximo valor, existiendo una fuerte relación o intersección entre ellos. La ciencia de datos es necesaria para la IA ya que esta última  necesita grandes cantidades de datos para que aprendan las máquinas, aplicando y validando sus algoritmos y generando inteligencia. Cuantos más datos se disponga y más limpios estén, más podrán aprender las máquinas y más precisos y eficientes serán los resultados. Esto es precisamente lo que conecta la IA con la ciencia de datos, la provisión de “combustible” a la IA, una herramienta poderosa para el científico de datos.

Para entenderlo mejor, la siguiente figura representa la jerarquía de necesidades de la ciencia de datos donde los distintos componentes de la pirámide representarían las operaciones de datos que realizan hoy en día los científicos de datos.

Figura 2. Jerarquía de necesidades de la ciencia de datos. Fuente: elaboración propia.
Figura 2. Jerarquía de necesidades de la ciencia de datos. Fuente: elaboración propia.

Tanto la ciencia de datos como la IA cuentan con distintas áreas para llevar a cabo sus objetivos. Así, dentro de la ciencia de datos podemos distinguir el Big Data y la Minería de datos (Data Mining) y dentro de la IA podemos diferenciar el aprendizaje de máquinas (Machine Learning) y el Aprendizaje Profundo (Deep Learning).

El Big Data

ace referencia al almacenamiento y procesamiento de grandes volúmenes de datos almacenados en bases de datos, razón por la cual no se relaciona con IA. Esta área busca extraer y almacenar datos de manera sistémica que por lo general son almacenados en “Data Warehouse” que incluyen diversas bases de datos.

La minería de datos

Se refiere al análisis de datos para extraer valor de los mismos con resultados exploratorios, descriptivos o predictivos. En este sentido sí que se relaciona con la IA, y más concreto con el Machine Learning, ya que el objetivo es extraer valor de esa “mina” de datos, aunque eso puede llevarse a cabo mediante algoritmos de Machine Learning o no. A modo de ejemplo, simplemente obtener el saldo medio de millones de clientes de una base de datos de un banco ya supondría extraer valor a esos datos masivos sin necesidad de IA. En cambio, si se consigue hacer una predicción del saldo que van a tener el próximo año los clientes mediante el desarrollo de un algoritmo de Machine Learning se estará extrayendo muchísimo más valor dentro de la minería de datos [3].

El Machine Learning

Comprende una serie de algoritmos de aprendizaje automático basados en modelos estadísticos y matemáticos tales como árboles de decisión o regresión logística que permiten realizar labores de agrupación, predicción o clasificación.

El Deep Learning

Forma parte del Machine Learning, pero va un poco más allá al aplicar algoritmos que funcionan de forma similar a cómo lo hace el cerebro humano mediante la aplicación de sistemas de redes neuronales. Estos algoritmos de última generación se están utilizando en la actualidad para el procesamiento del lenguaje natural (que las máquinas comprendan el lenguaje humano), el procesamiento de imágenes y videos (que las máquinas comprendan el contenido que aparece en las imágenes o videos), sistemas expertos (que las máquinas proporcionen asesoramiento experto) o para comunicar y conectar los distintos dispositivos conectados a través de Internet (IoT).

Figura 3. Áreas que componen la ciencia de datos y la IA. Fuente: elaboración propia.
Figura 3. Áreas que componen la ciencia de datos y la IA. Fuente: elaboración propia.