Qué son los Macrodatos (Big Data) y en qué influye el hardware

Rodrigo Alonso Publicado el 22 de abril, 2020 • 17:00

El término Big Data, también conocido como Macrodatos en castellano, lleva ya bastante tiempo en la escena de la informática moderna. Sin embargo, igual que «la nube», es un término que a veces cuesta un poco explicar ya que es bastante abstracto. Así pues, en este artículo te vamos a explicar qué es el Big Data, en qué consiste y más importante si cabe, en qué influye el hardware en él.

No es de extrañar que los teóricos de la conspiración desarrollen muchas teorías sobre este término, pero desde ya os podemos garantizar que no existe ningún vínculo entre el Big Data y la dominación mundial, podéis estar tranquilos. Así que, ¿qué son estos Macrodatos de los que tanto se habla en la informática moderna? Vamos a verlo.

Qué es el Big Data

Esencialmente, significa «un volumen masivo de datos«, pero si antes os decíamos que era un concepto un poco abstracto es porque esto no es todo, sino que también abarca el estudio de estos datos para buscar patrones en ellos. Es una manera rentable y complicada de procesador información para intentar descubrir algo útil en ella.

Por poneros un ejemplo, imaginad un superordenador haciendo pruebas para investigar una enfermedad, que saca millones y millones de datos. El Big Data comprende no solo esos datos, sino la manera de gestionarlos, clasificarlos y analizarlos para intentar encontrar en ellos las respuestas que se buscan.

Así, los Macrodatos tienen cinco características que definen su uso y filosofía:

Volumen – por supuesto hablamos de volúmenes masivos de datos, así que si el tamaño de estos no es significativo no puede considerarse Big Data. El volumen es por lo tanto la característica primaria de este concepto.
Variedad – este atributo aborda la naturaleza y el tipo de datos que se analizarán.
Velocidad – estos datos deben analizarse en tiempo real, lo que implica que incluso al analizar enormes volúmenes de datos todos deben estar disponibles al mismo tiempo. Aquí es donde entra en juego el hardware, tanto por la capacidad de albergar los datos como por la potencia para poder gestionarlos.
Variabilidad – la coherencia de los conjuntos de datos determina la medida en la que éstos se ajustan al concepto.
Veracidad – es la calidad de los datos utilizados para el análisis. Solo los datos de calidad pueden producir patrones, o de lo contrario sería una pérdida de tiempo. En otras palabras, si estás analizando los datos de una investigación de una enfermedad, no puedes meter datos relativos al análisis de los tiempos de un piloto de Fórmula 1 porque sería incoherente.

¿Cuántos datos se generan y almacenan?

En total se estima que existen unos 2,7 Zettabytes de datos en el universo digital. ¿A qué equivale esto? Veamos la tabla…

Un Terabyte son 1024 Gigabytes
Un Petabyte son 1024 Terabytes
Un Exabyte son 1024 Petabytes
Un Zettabyte son 1024 Exabytes.

Por lo tanto, 2,7 Zettabytes son unos 2.968.681.394.995 Gigabytes. Si quisiéramos almacenarlo en discos duros de 4 TB, necesitaríamos casi 725 millones de discos duros, algo impensable, ¿verdad? Pues no tanto en realidad, teniendo en cuenta que cada minuto se envían más de 150.000 emails, se generan 3,3 millones de publicaciones en Facebook o se realizan 3,8 millones de búsquedas en Google.

Además, estas cifras aumentan día tras día y cada vez se genera más información. Para poneros en perspectiva, en 2020 se produce 44 veces más datos que en 2010, y la expectativa es que estas cifras que os hemos dado se multipliquen por dos antes de cinco años.

La gestión del Big Data y cómo influye el hardware

En realidad, la gestión de los Macrodatos no es demasiado complicada de entender. Vamos a tratar de explicarlo de manera sencilla (la realidad es algo más compleja, pero para que nos entendamos vamos a simplificarlo todo lo posible):

Se capturan los datos.
Los datos capturados se ordenan y separan en unidades más pequeñas mediante un algoritmo para que analizarlas sea más sencillo.
Se crea un índice de los datos, ya que de lo contrario el tiempo que se tardaría en encontrar cualquier dato se multiplicaría.
Se almacenan los datos.
Se analizan los datos mediante una gran cantidad de algoritmos en pos de buscar los datos que nos interesan, como explicamos antes.
Se visualizan los resultados.

Siguiendo con el ejemplo del superordenador que está siendo utilizado para analizar una enfermedad e intentar encontrar su cura. Este super ordenador genera un volumen de datos masivo, con muchísimas entradas y cálculos cada segundo, así que hace falta un enorme espacio de almacenamiento para poder guardarlos y clasificarlos para su posterior análisis.

Aquí es donde entra en juego el hardware. Necesitas muchísimo espacio de almacenamiento, pero también que sea muy rápido, todo lo posible para poder gestionar estos datos en el menor tiempo posible. También necesitas muchísima memoria RAM y muchísima capacidad de cómputo para poder ejecutar los algoritmos que analizan estos datos, ¿no?

En resumidas cuentas, la gestión de los Macrodatos solo es posible según va avanzando la industria del hardware, ya que si no van mejorando los procesadores, discos duros y memoria RAM al mismo ritmo al que crecen los datos que generamos, su análisis no sería posible.