Big Data hace referencia a las tecnologías y disciplinas que se enmarcan dentro del sector  IT  (Tecnologías de la información) y el análisis de datos.  Engloba todas las prácticas que guardan relación con las herramientas y sistemas que manejan grandes volúmenes de datos. A continuación encontrarás una sencilla definición de Big Data.

Qué es y cómo funciona el big data
Qué es el Big Data y cómo funciona: Imagen creada por un algoritmo de procesamiento de imágenes de google llamado deep dream

¿Qué es Big Data?

Big Data es el conjunto de distintas tecnologías y disciplinas que permiten el procesamiento y análisis de grandes conjuntos de datos. La diferencia entre el Big Data y el análisis de datos tradicional, radica en la complejidad y el tamaño de estos conjuntos de datos, así como la velocidad en la que se capturan y procesan estos datos.

Por ello, se utiliza el término Big Data, cuando se hace referencia a proyectos que procesan enormes conjuntos de datos a una mayor velocidad, y cuando estos datos tienen variedad, es decir, que pueden tener distintos formatos y orígenes.

Estas características son las llamadas, V’s del Big Data, que detallamos y explicamos a continuación.

V’s del Big Data

Las V’s del Big Data es una forma de sintetizar y explicar la esencia y las dimensiones que dan forma a un proyecto de Big Data. Hace unos años, en el entorno académico, se empieza a contextualizar este concepto y se empieza a hablar de  las V’s del Big Data: 

Volúmen:

El volúmen de datos que maneja el Big Data es otra de sus principales características y el origen de su nombre. Tiene la capacidad de almacenar una gran cantidad de datos. El volumen de datos se incrementa exponencialmente (44x de 2009 a 2020).

Podemos decir que un proyecto puede considerarse Big Data cuando trabajan con cantidades de datos que pueden  ir desde los 100 Terabytes a varios Petabytes. Aunque los expertos discrepan en cuanto a las cantidades mínimas que debe manejar un proyecto para considerarse Big Data.

Variedad:

La variedad es una de las principales características del Big Data, que lo diferencian del business intelligence tradicional es que los datos pueden ser de naturaleza estructurada y no estructurada.

Algunos ejemplos de datos no estructurados:

  • Publicaciones redes sociales
  • Archivos en formato texto
  • Emails
  • Archivos CSV (Hojas de cálculo)
  • Vídeo.
  • Audio
  • Imágenes
  • Web logs
  • Json
  • Xml
  • Pdf
  • BBDD

Los proyectos Big Data suelen combinar conjuntos de datos de naturaleza estructurada y no estructurada. Los datos estructurados provienen de bases de datos relacionales como por ejemplo Oracle o SQL Server.

Esto ayuda a optimizar los resultados e integrar todas la fuentes de información disponibles.

Velocidad:

Capacidad para poder capturar, almacenar y analizar los datos a la mayor velocidad posible.

Veracidad:

Capacidad para tratar con datos desfasados, inconsistentes, incompletos, inciertos o ambiguos.

Valor:

De las 5 V de Big Data. Ésta es la variable más importante de todas ya que el valor que obtengamos de un proyecto. dependerá de nosotros mismos  y el valor que aportemos a tal cantidad de datos.

  • Conocimiento de cliente
  • Captación / Retención
  • Mejores decisiones del negocio
  • Estratégicas / Operacionales
  • Optimización de los procesos de negocio
  • Ahorro de costes
  • Nuevos modelos de negocio
  • Ventaja competitiva

Viabilidad:

Al hablar de Viabilidad nos referimos a la capacidad que tienen las organizaciones, empresas o instituciones, de llevar a cabo un proyecto que sea asumible y aporte valor real.

Visualización:

Si no se analizan e interpretan los datos, Big Data no sirve de nada. El Big Data Analytics o el Big Data análisis es la disciplina que se encarga de analizar los grandes volúmenes de datos transformándolos  en información útil y relevante.

Estos análisis se realizan mediante modelos estadísticos de análisis avanzado de datos que intentan exprimir los datos para extraer el mayor valor posible de ellos.

Herramientas del Big Data

Las herramientas de Big Data, son el conjunto de tecnologías, así como las distintas prácticas o disciplinas y lenguajes de programación más importantes y utilizados en proyectos Big Data. A continuación detallamos las herramientas más importantes

Herramientas del Big Data
Big Data Herramientas

Tecnologías de la información o IT (Information Technologies)

Las Tecnologías de la Información o IT no son una herramienta en sí, pero creemos que es importante explicar que es en este área, donde se enmarcan los proyectos Big Data. Por ejemplo, es en el departamento de IT de una empresa es donde se desarrollan las distintas tecnologías y proyectos Big Data. Conviene decir que aunque los equipos de las áreas de IT, son, cada vez más, equipos multidisciplinares, pertenecen al ámbito de la informática.

Todas las tecnologías que se utilizan en éste área para desarrollar los proyectos, se pueden considerar herramientas Big Data. Algunas de las más utilizadas y populares son:

NoSQL

El NoSQL (Not Only SQL) es el conjunto de sistemas de bases de datos no relacionales o bases de datos no estructurados que permiten procesar grandes volúmenes de datos de gran variedad. Como su nombre indica, no se utilizan solo bases de datos relacionales (Not only SQL), por lo tanto, se pueden utilizar otros lenguajes de programación distintos al lenguaje de consultas SQL.

Algunas de las herramientas o tecnologías NoSQL más importantes son:

Data Science

El Data Science o ciencia de datos, más que una herramienta, es la disciplina encargada de analizar y sacar todo el valor de los datos que se capturan y procesan. Aunque no sea una herramienta en sí, es el conjunto de técnicas que se enmarcan en el ámbito de la estadística y las matemáticas.

A los distintas técnicas, o modelos matemáticos o estadísticos que se utilizan para extraer todo el valor a grandes conjuntos de datos como por ejemplo un data frame, se denomina Minería de datos o data mining.

Una de las técnicas de minería de datos más populares y potentes en proyectos Big Data, es el machine learning o aprendizaje automático, utilizando técnicas como las redes neuronales.

Python

Python es un lenguaje de programación, es una herramienta muy utilizada en proyectos Big Data ya que es muy versátil al poder utilizarse tanto para desarrollo de software, como para las matemáticas.

Más información y acceso al tutorial gratuito de Python

SQL

SQL es el lenguaje de consultas de las bases de datos relacionales o estructuradas. Es un lenguaje que aporta sencillez e integridad al proceso de extracción y manipulación de los datos.

Más información y acceso al tutorial gratuito de SQL

R (lenguaje de programación y entorno)

R es un entorno y un lenguaje de programación orientado hacia el análisis estadístico de datos. Es una de las herramientas más utilizadas para el análisis de datos y la aplicación de modelos estadísticos en proyectos Big Data

Business Intelligence

El Business Intelligence es el conjunto de prácticas y herramientas que se utilizan en el ámbito de la empresa con la finalidad de crear sistemas de información que permitan explotar los datos mediante herramientas de visualización o informes ad-hoc.

Algunas de estas herramientas de visualización son:

Otras herramientas utilizadas en el mundo de la empresa para proyectos Big Data son:

Business Analytics

El Business Analytics, como su nombre indica, es el conjunto de prácticas que permiten el análisis de datos en el ámbito del negocio. A diferencia del BI tradicional, que está más enfocado en el análisis descriptivo, este es un análisis predictivo.

Transformación Digital

Big Data surge como resultado natural de la digitalización y la transformación digital que está experimentando la sociedad en general.

Más del 90% de los datos que existen en el mundo se han generado en menos de dos años, gracias, en parte, a la aceptación y penetración de la tecnología e internet en nuestras vidas.

La penetración y aceptación de la tecnología digital en nuestras vidas dan como resultado inmensas cantidades de datos que crecen de de forma exponencial y son susceptibles de ser almacenados y analizados posteriormente.

Las búsquedas que realizamos en los diferentes buscadores, las interacciones que generamos en una web concreta, nuestra actividad en redes sociales o las compras online, son algunos ejemplos de datos que generamos en internet.

Big Data afecta de forma transversal a toda la sociedad, ya que tiene potencial en prácticamente cualquier sector, actividad o práctica. De hecho se utiliza en medicina, educación, seguridad y empresa o en otras tecnologías como la inteligencia artificial o internet de las cosas, entre otras.

¿Para qué sirve el Big Data?

A continuación, mostramos algunas de las áreas donde es más común la utilización de Big Data, aunque es una tecnología que afecta a cualquier sector o ámbito de la sociedad, así como de sus instituciones, al tratarse se una tecnología transversal.

Big Data para qué sirve
Para qué sirve el big data

Seguridad

El desafío del cifrado de datos masivos consiste en que la mayoría únicamente aborda un aspecto específico. Por ejemplo, se pueden emplear las capacidades de cifrado transparente de datos del proveedor de base de datos.

¿Qué sucede cuando se exportan los datos de la base de datos a entornos de datos masivos?.

Además, ¿qué ocurre con todas las otras fuentes de datos y sistemas que intervienen?. También hay que preguntarse dónde almacena el proveedor las claves.

Medicina

Big Data presenta una nueva forma de mejorar la medicina que ayude al avance de una medicina personalizada y orientada al paciente.

Supone  una gran oportunidad y el reto está en tratar losdatos clínicos de manera confidencial así como también el desarrollo de leyes y normas de protección de datos así como el impacto que tendría en la investigación en medicina o la propia integración de los datos en el sector y su uso.

Ésta, aplicada a la sanidad  puede ofrecer diversas oportunidades como predecir futuras enfermedades, decisiones clínicas acertadas o reducir costes.

Política

Los partidos políticos utilizan Big Data para realizar análisis de intención de voto y realizar campañas de Marketing basadas en datos.

Investigan cómo es la opinión pública, y de esta manera poder diseñar sus estrategias de comunicación, sobre todo en precampaña. Son bien conocidas las técnicas de monitorización de la red, sobre todo, de redes sociales.

En los últimos años hemos sido testigos de cómo el Big Data ha jugado un papel clave, en los resultados de las elecciones de grandes países. Tanto en el diseño de su campaña, como en las interferencias que hayan podido causar de forma ilegítima, en el resultado de las elecciones.

Empresas

Las empresas lo utilizan para aprovechar las grandes cantidades de datos que generan y ser más competitivas. Se consigue transformando esos datos en información relevante que les apoye en la toma de decisiones.

También utilizan Big Data para realizar  investigaciones de mercado tanto cuantitativas como cualitativas.

Por ejemplo,  utilizando técnicas de Social Listening que pueden monitorizar la red. Se utilizan modelos de decisión mediante modelos econométricos y técnicas de análisis avanzado de datos que permiten calcular predicciones y todo tipo de ratios y KPI’s.

Mercado laboral y formación

La transformación digital que se está generando en todos los ámbitos de la sociedad está cambiando el mercado laboral y se están generando multitud de nuevos empleos que hace pocos años ni siquiera existían.

Se están generando nuevos empleos, pero además, existen miles de vacantes en las empresas ya que faltan perfiles adecuados para el sector tecnológico. Es una situación que ofrece oportunidades laborales, pero si uno quiere adaptarse a los cambios que se están generando en nuestro entorno y trabajar en el sector tecnológico debe formarse para adquirir las competencias necesarias que demandan las empresas e instituciones en la actualidad.

Si estás pensando en formarte en esta disciplina, continuación, puedes ver un listado de los másteres y programas de formación más destacados que existen en España actualmente:

Si necesitas saber qué tipo de asignaturas, conocimientos y lenguajes se imparten en estos programas de formación, consulta el siguiente artículo:

Esperamos que este artículo te haya servido para aclarar algunas de tus posibles dudas.

Para terminar, hemos seleccionado el siguiente vídeo, que explica de una forma muy clara y sencilla lo que realmente significa Big Data: