LUCA Talk: Spark vs. HadoopAI of Things 18 junio, 2019 Hadoop y Spark son dos de las herramientas más utilizadas hoy en día en entornos Big Data. Aunque hay quienes ven estos dos frameworks como competidores, no es tan fácil hacer una comparación. En este webinar, nuestro experto Iker Gómez, Ingeniero Big Data en el área de Consulting & Analytics de LUCA, da a conocer más a fondo cada herramienta, por qué fueron creadas, las características principales de Spark y Haddop, y una comparativa entre ambas, para entender mejor cómo funcionan. Además, a través de varios casos de uso, identificamos qué herramienta es la más adecuada para cada caso. Al final de la emisión, dedicamos una sesión Q&A con el experto en directo para resolver algunas de las dudas y preguntas comentadas en el chat live: Estamos hablando siempre de soluciones Cloud, ¿verdad?No siempre. Hoy en día, la mayoría de las empresas integran todos sus sistemas en la nube, aunque todas estas soluciones se pueden integrar en tus servidores on-premise sin problema. Hay varios temas a considerar antes de dar el paso a la nube, como puede ser: seguridad y regulaciones (si utilizas datos sensibles), gastos de mantenimiento de máquinas, gastos de licencias, etc. ¿A partir de que cantidad de datos podemos empezar a pensar en soluciones big data?, ¿Es posible montar un pequeño cluster propio para situaciones intermedias?No hay una cifra en concreto a partir de la cual se empiece a hablar de «Big Data». La idea del «Big Data» es almacenar y procesar grandes cantidades de datos. Si tienes una BBDD de toda la vida, bien gestionada y optimizada y eres capaz de gestionar TeraBytes de datos, entonces quizá no necesites estos sistemas. Todo depende de las necesidades del negocio.Y respecto a la segunda pregunta, sí, totalmente posible. Un cluster pequeño con 2 máquinas es totalmente factible. ¿Los Dataframes de Spark tienen alguna relación con los de pandas (módulo de Python)?Parecidos, pero no iguales. Te dejo este post de medium (En Inglés) donde comentan sus diferenciashttps://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2 ¿HDFS ya es dato estructurado?No, en HDFS almacenamos ficheros. Pueden ser de todo tipo, Json, XML, csv… Es el momento en el que leemos esos ficheros, cuando les damos la estructura que queramos.A esto se conoce como «Schema-on-read» y es diferente de «Schema-on-write» de las BBDD tradicionales.Te dejo este post para entender mejor las diferencias:https://www.thomashenson.com/schema-read-vs-schema-write-explained/ ¿Te parece interesante este webinar? Visita la sección LUCA Talks en nuestra web para ver nuestros anteriores webinars. Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Así funciona Azure Machine Learning StudioCómo vender más entradas de cine con nuevas fuentes de datos y un móvil
Roberto García Esteban ChatGPT y Cloud Computing: un matrimonio bien avenido ChatGPT (quizá no sepas que son las siglas de Chat Generative Pre-Trained Transformer) está en boca de todos por su impresionante habilidad para generar textos que parecen escritos por...
Olivia Brookhouse ¿Puede la Inteligencia Artificial entender las emociones? Cuando John McCarthy y Marvin Minsky iniciaron la Inteligencia Artificial en 1956, se sorprendieron de cómo una máquina podía resolver rompecabezas increíblemente difíciles en menos tiempo que los humanos. Sin...
Javier Martínez Borreguero Automatización, Conectividad e Inteligencia Aumentada al servicio de una reindustrialización competitiva, disruptiva y sostenible Por segundo año consecutivo vuelvo a participar en el Advanced Factories (AF 2023), la mayor exposición y congreso profesional dedicado a la Industria 4.0 del sur de Europa. Un...
Nacho Palou Medidas para reducir la brecha digital de género sin esperar 32 años El informe Sociedad Digital en España 2023, de Fundación Telefónica, dedica un apartado específico para analizar la brecha de género en el ámbito del talento digital. Destaca que, si bien...
Nacho Palou Raspberry Pi para Edge AI: Inteligencia Artificial en el borde para todos Raspberry Pi es un popular ordenador muy utilizado entre desarrolladores, estudiantes y aficionados a la informática, a la robótica y a ‘cacharrear’. Entre sus virtudes están su bajo coste...
Carlos Lorenzo Ya no eres solo una empresa de productos o servicios, eres una empresa de datos Todas las empresas que operan en la actualidad son en realidad empresas de datos. Y lo son porque día a día almacenan y utilizan una gran cantidad de información:...