BIG DATA SPARK VS HANDOOP

Arturo Espinoza
4 min readJun 17, 2024

--

INTRODUCCIÓN

En el presente artículo se tratará de algunos aspectos claves para el procesamiento del Big Data, el cuál se reconoce que es un término que se utiliza para determinar un conjunto de datos extremadamente grandes y complejos, y es para ello que se necesitan ciertas tecnologías especiales para su procesamiento. En este caso se explicarán las tecnologías que se utilizan para el procesamiento de Big Data, y específicamente las tecnologías Apache Hadoop y Apache Spark, se hablará de qué es lo que implican o cuál es la razón de ser de estas tecnologías, y las diferencias que puedan llegar a tener una de la otra y cómo estas se pueden complementar.

HADOOP

Primero se tratará qué es Hadoop y cuál su relación con el Big Data, ya que por lo general cuando se habla de Big Data, se suele relacionar con Hadoop y es que este último es una tecnología de código abierto, el cual permite reunir todos los componentes necesarios para almacenar y analizar grandes cantidades de datos. Al ser una herramienta que cuenta con un costo inicial bajo y poder almacenar los datos a medida que se reciben, resulta una herramienta atractiva para los usuarios que están interesados en la implementación de Big Data.

También Hadoop resulta atractivo a los usuarios, por el hecho de utilizar un hardware “sencillo” y es que distribuye todo el poder necesario en varias máquinas, por lo que resulta asequible y este tipo de sistema puede adaptarse a cualquier tamaño. A su vez, no solo divide el poder de procesamiento, si no que también nos presenta un nuevo término para procesar datos, que es los “mares de datos”, ya que no solo trabaja con “almacenes de datos”, los cuales son muy comunes, sin embargo, puede resultar difícil el análisis de la información o algunos datos pueden quedar inservibles por su poco uso, los mares de datos cuentan con grandes cantidades de datos almacenados libremente y Hadoop se puede adaptar a este sistema, para analizar y almacenar más cantidades de datos.

Cabe recalcar que no todo es ventaja al utilizar Hadoop, también cuenta con algunas desventajas, algunas de ellas es que no es la mejor opción par archivos pequeños, como se menciona en los párrafos anteriores, Hadoop está hecho para el análisis de Big Data y únicamente para ello; probables problemas de estabilidad, por el hecho de contar con un hardware “básico; y está diseñado totalmente en JAVA.

SPARK

Es importante aclarar que el sistema Spark, nace a raíz de mejorar algunos errores del sistema Hadoop, como se mencionaron anteriormente, con el objetivo de crear un nuevo marco, optimizado para el procesamiento iterativo rápido, como lo es el learning machine. A diferencia de que otros sistemas de Big Data procesan macrodatos con un algoritmo en paralelo, esto hace que el proceso sea más lento, Spark se creo para abordar estas limitaciones, mediante el procesamiento en memoria, la reducción de cantidad de pasos en un trabajo y la reutilización de los datos en múltiples operaciones paralelas.

Pero a pesar de que en un principio el sistema Spark se creo para responder ante los problemas del sistema Hadoop, muchos descubrieron que estos marcos de macrodatos son complementarios y son utilizados juntos para resolver desafíos empresariales más amplios. Ya que Hadoop es un marco de código abierto que tiene el Sistemade archivos distribuidos de Hadoop como almacenamiento, mientras que Spark es un marco de código abierto dentrado en las consultas interactivas, machine learning y las cargas de trabajo en tiempo real y no cuenta con su propio sistema de almacenamiento.

CONCLUSIONES

Las tecnologías para el procesamiento del Big Data han ido evolucionando, ya que en la actualidad el mundo al estar tan globalizado y en donde la información aumenta y se actualiza prácticamente al instante, y por ello es importante conocer herramientas que ayuden al procesamiento de extensos almacenamientos de datos, por lo que a partir de lo expuesto en este artículo, se concluye que es importante para las compañías en general conocer de estas tecnologías y adaptarse a la que más les convenga, dependiendo de su utilidad y de la información a procesar.

La herramienta Apache Spark nace con la idea de suplir errores de la herramienta Apache Hadoop, sin embargo, como se menciona en el artículo, se logró encontrar que en vez de ser herramientas diferentes, estás se podían complementar para realizar un mejor análisis y abarcar un mayor almacén de datos, por lo que se concluye que los usuarios deben estar abiertos a los múltiples cambios que las herramientas tecnológicas pueden sufrir, sin embargo, estos cambios o actualizaciones no deben eliminar otras herramientas, si no que tal vez se pueden llegar a complementar y tener un mejor uso.

BIBLIOGRAFIA

https://www.tableau.com/es-es/learn/articles/big-data-hadoop-explained

https://es.hostzealot.com/blog/about-solutions/apache-spark-frente-a-hadoop-una-comparacion-en-profundidad#article-anchor-1

https://aws.amazon.com/es/what-is/apache-spark/#:~:text=Apache%20Spark%20es%20un%20sistema,de%20an%C3%A1lisis%20de%20cualquier%20tama%C3%B1o.

--

--