LUCA Talk: Spark vs. Hadoop

LUCA    18 junio, 2019

Hadoop y Spark son dos de las herramientas más utilizadas hoy en día en entornos Big Data. Aunque hay quienes ven estos dos frameworks como competidores, no es tan fácil hacer una comparación.

En este webinar, nuestro experto Iker Gómez, Ingeniero Big Data en el área de Consulting & Analytics de LUCA, da a conocer más a fondo cada herramienta, por qué fueron creadas, las características principales de Spark y Haddop, y una comparativa entre ambas, para entender mejor cómo funcionan. Además, a través de varios casos de uso, identificamos qué herramienta es la más adecuada para cada caso.

Al final de la emisión, dedicamos una sesión Q&A con el experto en directo para resolver algunas de las dudas y preguntas comentadas en el chat live:

Estamos hablando siempre de soluciones Cloud, ¿verdad?
No siempre. Hoy en día, la mayoría de las empresas integran todos sus sistemas en la nube, aunque todas estas soluciones se pueden integrar en tus servidores on-premise sin problema. Hay varios temas a considerar antes de dar el paso a la nube, como puede ser: seguridad y regulaciones (si utilizas datos sensibles), gastos de mantenimiento de máquinas, gastos de licencias, etc.

¿A partir de que cantidad de datos podemos empezar a pensar en soluciones big data?, ¿Es posible montar un pequeño cluster propio para situaciones intermedias?
No hay una cifra en concreto a partir de la cual se empiece a hablar de “Big Data”. La idea del “Big Data” es almacenar y procesar grandes cantidades de datos. Si tienes una BBDD de toda la vida, bien gestionada y optimizada y eres capaz de gestionar TeraBytes de datos, entonces quizá no necesites estos sistemas. Todo depende de las necesidades del negocio.
Y respecto a la segunda pregunta, sí, totalmente posible. Un cluster pequeño con 2 máquinas es totalmente factible.

¿Los Dataframes de Spark tienen alguna relación con los de pandas (módulo de Python)?
Parecidos, pero no iguales. Te dejo este post de medium (En Inglés) donde comentan sus diferenciashttps://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2

¿HDFS ya es dato estructurado?
No, en HDFS almacenamos ficheros. Pueden ser de todo tipo, Json, XML, csv… Es el momento en el que leemos esos ficheros, cuando les damos la estructura que queramos.A esto se conoce como “Schema-on-read” y es diferente de “Schema-on-write” de las BBDD tradicionales.Te dejo este post para entender mejor las diferencias:https://www.thomashenson.com/schema-read-vs-schema-write-explained/

¿Te parece interesante este webinar? Visita la sección LUCA Talks en nuestra web para ver nuestros anteriores webinars.

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *