ElevenPaths Radio – 1×07 Entrevista a Paloma Llaneza

ElevenPaths    16 septiembre, 2019

¿Te preocupa la privacidad de tus datos? A nuestra nueva invitada de #ElevenPathsRadio, Paloma Llaneza, también. En esta nueva entrevista de nuestro podcast, charlamos con Paloma Llaneza, CEO de Razona Legaltech, sobre un tema que domina a la perfección y que está a la orden del día: los datos. ¿Qué empresas los recogen? ¿Para qué los utilizan? ¿Cómo de vulnerables somos?

Si te interesa saber más sobre este tema, no te pierdas el libro sobre el tema de nuestra invitada: Datanomics: todos los datos personales que das sin darte cuenta y todo lo que las empresas hacen con ellos.

Agradecimientos al fotógrafo Julián Fallas.

Entrevista a Paloma Llaneza ya disponible:

Disfruta de nuestros podcast en tu plataforma favorita:

Capítulos de ElevenPaths Radio:

Desencuentros en el mundo de los certificados y las CA: Google contra el mundo

Sergio de los Santos    16 septiembre, 2019

Ninguna industria se libra de miserias internas, peleas y desencuentros entre sus principales actores. En estos días, (o meses, o años) la industria de los certificados digitales se transforma profundamente e intenta adaptarse a los nuevos tiempos. Actores como Google marcan el paso ahora más que nunca gracias al control de Chrome (donde deciden cuándo y cómo gestionar las alertas hacia el usuario, por ejemplo) o iniciativas como Certificate Transparency. Y precisamente vamos a centrarnos en dos encontronazos recientes de Google con personajes de la industria.

En ambos casos el desencuentro ha involucrado a Ryan Sleevi, empleado de Google conocido por sus innumerables aportaciones en el mundo de la criptografía y certificados en general. Más a allá de la curiosidad, estas discusiones cuentan con buenos argumentos por ambas partes, y suponen una excusa interesante para la reflexión.

El caso Ballot SC22

Los principales actores de internet (Google, Microsoft, Apple, Mozilla…) y las CAs ya han votado si se debe reducir (aún más) el tiempo de vida de los certificados TLS/SSL obligando a que tengan un tiempo de vida máximo.

En los 2000, no existía límite para el tiempo de vida de un certificado. En 2012 se impuso un límite de 5 años. En 2015 se redujo a 3 años máximo. En 2017 Google intentó reducirlo 368 días (poco más de un año) pero se votó en contra. Poco después se votó a favor de 825 días (algo más de dos años). En septiembre de 2019 se ha votado que la duración sea de 397 días. Esta nueva propuesta viene otra vez principalmente impulsada por Google, Mozilla, Apple y Let’s Encrypt. Google lleva tiempo queriendo reducir el tiempo de vida de los certificados e impulsando iniciativas para mejorar su seguridad en varios aspectos. Desde una notificación más agresiva al usuario (haciendo pasar por no seguros los hashes obsoletos, las páginas sin HTTPS, etc) hasta sistemas complejos como Certificate Transparency.

La  votación SC22 suponía que la acortar del tiempo de vida representa una mejora en la seguridad en varios planos: supuestamente, adaptarse más rápido a los cambios (por ejemplo al abandonar algoritmos que vayan quedando obsoletos, introducción de nuevos campos en los certificados…); paliar el sistema de revocación (CRL y OSCP), que sigue sin funcionar y está totalmente roto; fomentar la automatización de los procesos (por realizarse más frecuentemente) y por tanto, con menor posibilidad de fallos.

Pero todo esto es discutible. Las CAs Entrust Datacard y Globalsign no están convencidas de sus hipotéticas ventajas. Aparte de contar con el respaldo de sus clientes para el rechazo, alegan que no se ha hecho ningún estudio al respecto y todo son hipotéticas ventajas. Es lógico que los clientes no quieran certificados más cortos: implica más procedimientos, gastos y problemas en general. Si no se popularizan sistemas como ACME para automatizar la renovación y despliegue de certificados, los administradores se mostrarán siempre reacios. Let’s Encrypt ofrece certificados gratuitos y ya permite renovación automática de serie. Sin esos problemas, no es casualidad que apoye sin fisuras la propuesta de acortar certificados. A los navegadores tampoco les afectan estos problemas.

En la lista de correo, Doug Beattie y Ryan Sleevi  de Google se enzarzaron en una discusión abierta durante la votación. Beattie defendía que no había estudios que avalaran la necesidad de acortar la vida de los certificados, frente a los costes que suponía. No existían pruebas de que disminuirían el número de incidentes si se acortara el periodo de validez. Sleevi explicaba que la propuesta en sí era una explicación suficiente y que del mismo modo, habría que explicar si acortar la vida suponía algún daño, además de mostrar numerosos ejemplos. Merece la pena leer los argumentos de uno y otro, donde en algunos puntos rozaba una en cierta profundidad filosófica más general: ¿recordar incidentes a los clientes y proponer modificaciones para su mitigación sirve para convencer del cambio de manera constructiva, o para intimidar a la comunidad?

Por cierto, el resultado de la votación es que no se acorta la vida de los certificados.

El caso Scott Helme

En esta entrada Scott Helme realiza una pequeña investigación sobre certificados EV (Extended Validation). Se supone que son más caros y que la validación sobre quién los solicita y los datos que se emiten en ese certificado deben ser totalmente rigurosas y fehacientes. Cynthia Revströn encontró un certificado de una compañía sueca con un número danés en el certificado. No es grave, pero implica que quizás no se están siguiendo las normativas de los certificados EV a rajatabla. Con esta excusa, Helme decide buscar otros certificados con, potencialmente, ese u otros tipos de problemas que violen el estándar EV. Encuentra unos 4000. Estos deben ser reportados y revocados. Estima que a 250 dólares cada uno, ha revocado un millón de dólares en certificados.

Ryan Sleevi vuelve a la carga en Twitter y se enzarza en la polémica. Alega que ese tipo de investigaciones no aporta ningún valor, y su razonamiento es que estos fallos puntuales solo saturan el sistema. Ahora todos ellos deben ser revocados, pero no aporta nada concreto que motive y proponga una mejora a largo plazo. No son fallos sistemáticos a los que se les pueda poner remedio sino “anecdóticos” y por tanto hacen más daño que bien.

Pone ejemplos positivos de fallos sistemáticos como este estudio en el que se monitorizan errores y fallos de certificados desde 2012, y desde donde se ayuda a la industria a mitigarlos a gran escala. Pone otro buen ejemplo como el encontrado por Corey Bonnell , que descubrió que Apple y Google, habían emitido 12 millones de certificados con 63 bits en su número de serie, no 64. Esto era relevante y curioso. El programa EJBCA que genera certificados sacrificó un bit para que el entero aleatorio que representa el número de serie siempre fuera positivo. Ahora bien, se exige una entropía y aleatoriedad de 64 bits en los números de serie de certificados para no facilitar los ataques de colisión que ya se conocen por culpa de MD5 y SHA1. Si se hicieran como «antiguamente», números pequeños y correlativos, se facilita a un atacante la construcción de una parte de un hipotético certificado falso. Con 63 bits, baja la entropía y no se sigue el estándar. En realidad afecta poco, porque 63 es suficiente y además ya pocos usan MD5 y SHA1. Pero fue una llamada de atención interesante para la industria.

Sirviéndose de estos ejemplos, Sleevi finalmente se rendía sin estar convencido en la discusión ante Helme, que defendía la postura de que este estudio también ayuda a poner foco en que la industria debe tomarse en serio en general la emisión de certificados EV, aunque cada uno de los 4000 suponga un problema diferente.

¿Quién tiene razón en cada caso? ¿Son estas controversias de Sleevi (representando a Google) necesarias para hacer avanzar la industria? Es como preguntar quién tiene razón en el caso del eterno debate del “full disclosure”. Lo importante es escuchar a todas las partes si defienden con motivos sólidos cada postura.

Cómo formar a los equipos y prepararlos para la transformación digital

Raúl Salgado    16 septiembre, 2019

La irrefrenable transformación digital y tecnológica todo lo cambia, todo lo arrasa, hasta el punto de convertir las empresas más analógicas y arcaicas en víctimas de una especie de apocalipsis que amenaza la supervivencia de quienes viven de espaldas a esta revolución.

Tal es el ultimátum que parecen haber propagado las voces más punteras y pioneras que siete de cada diez empresas ya han mostrado su intención de formar a sus equipos en los próximos dos años en aquellas disciplinas afectadas por esta, por decirlo de otra manera, mutación.

Los datos hablan por sí mismos. Al menos, los del estudio “Revolución de las competencias 4.0: Los robots te necesitan”, elaborado por ManpowerGroup, que señalan que nueve de cada diez compañías prevén aumentar o mantener sus profesionales con el desarrollo tecnológico, mientras que la mayoría de los directivos españoles augura un estancamiento de la contratación durante el último trimestre del año.

Y todo ello a pesar de los alarmantes vaticinios que alertan de que la invasión de los robots exterminará una infinidad empleos.

Desde ManpowerGroup aseguran que, en contra de lo que muchos piensan, en la era de las máquinas no se han reducido las oportunidades laborales, sino que las organizaciones están creando empleo, invirtiendo en digitalización y automatizando procesos.

Y, al mismo tiempo, están mejorando la formación de sus profesionales, para que puedan desempeñar nuevas funciones complementarias a las que realizan las máquinas.

Crear talento

En este marco, Mª José Martín, directora general de ManpowerGroup Solutions, considera que el aprendizaje será fundamental para que los profesionales adquieran las nuevas competencias que trae consigo la transformación tecnológica.

“En un panorama de desajuste de talento (un 26% a nivel nacional), las compañías deben ser generadoras de talento, impulsando una cultura del aprendizaje en la compañía, y las personas tienen que concienciarse de la importancia de mejorar su empleabilidad de modo permanente”, manifiesta. 

Y agrega que la capacidad de aprender de las organizaciones (aprendibilidad organizativa) es la clave de la sostenibilidad y la principal ventaja competitiva, máxime teniendo en cuenta que la demanda de competencias digitales crece a tal velocidad que para el año 2022 el 54% de los profesionales requerirán actualizar sus habilidades.

Martín señala que, de ellos, un 35% necesitará un período de formación de hasta seis meses; el 9%, de seis a 12 meses; y el 10% se tendrá que formar en competencias adicionales durante más de un año.

¿Cómo debe ser esa formación?

La directora general de ManpowerGroup Solutions explica que para convertir la cultura de una empresa en una cultura del aprendizaje, hay que hacerlo desde “arriba”, es decir, desde el liderazgo.

“Ya no se trata de contar con ambiciosos planes formativos, sino de desarrollar el talento de las empresas, implicando a los propios profesionales en ello, y considerando tanto las necesidades y prioridades de estas compañías como las propias necesidades del talento a quien queremos comprometer con el aprendizaje, la evolución y los resultados”, declara.

Cinco claves para formar equipos

Martín señala que las compañías deben tener una visión clara de su propósito y de cómo lo quieren extender a toda la empresa. “El líder tiene que ser visible, referente y modelo para todos”. Desde allí, y para acelerar el aprendizaje en toda la compañía, cita a Juan Carlos Cubeiro, Head of Talent de ManpowerGroup, para instar a:

  1. Dar un enfoque holístico.
  2. Contar con un Chief Learning Officer.
  3. Convertir la dirección en un equipo de alto rendimiento.
  4. Identificar a los profesionales con mayor curiosidad y capacidad de aprendizaje, y mejor capacidad de adaptación.
  5. Apostar por una cultura de confianza.

Herramientas necesarias

Con respecto a las herramientas necesarias, desde ManpowerGroup afirman que todo dependerá en gran medida de la cultura organizativa.

En España, un 23% de las compañías (39% a nivel global), colaboran con organizaciones externas -como centros educativos y universidades- para crear comunidades de talento.

No obstante, en Norteamérica, por ejemplo, los sistemas de aprendizaje online son el primer método de formación de profesionales a gran escala, mayoritariamente en temas como el cumplimiento normativo o la ciberseguridad.

Sea como fuese, Martín destaca que mientras que el coste de la rotación de personal puede llegar a superar el 30% de los salarios, el coste en formación se mantiene por debajo del 10%.

Al margen de que la automatización de procesos, el lead scoring, el control de datos o la producción inteligente sean algunas de las tecnologías más demandadas hoy en día por las empresas, la verdad es que las compañías más digitalizadas son las que tienen mayores intenciones de contratación.

En este sentido, España, junto con países como  Estados Unidos, Israel o Italia, se encuentra entre los que más empleo crearán como resultado de la apuesta tecnológica.

Actualizarse o morir

Las empresas ya han interiorizado que no pueden continuar a expensas de que el talento se encuentre disponible justo cuando lo necesiten, pese a estar dispuestas a pagar más para captarlo.

De ahí que el reto surja cuando estas competencias y aptitudes no están al alcance, y también que, cada vez con mayor frecuencia, la solución pase por dotar de las mismas a los empleados.

Del estudio de ManpowerGroup se desprende que, en España, más de una de cada tres empresas que automatizará procesos en los próximos dos años tienen previsto crear más empleo. Y que, en concreto, Industria y Producción será el área que experimentará un mayor incremento de equipos, gracias al desarrollo tecnológico (+16%), por delante de las funciones de Atención al cliente (12%) y de las de TI (Tecnologías de la Información) (4%).

Por otra parte, en un futuro demasiado cercano las habilidades y competencias que se requerirán en cada sector nada tendrán que ver con las de hace apenas unos años. Así, por ejemplo, en el sector TI se valorará cada vez más la capacidad de aprendizaje o learnability, el razonamiento crítico y analítico o la resolución de problemas.

Sin embargo, el 33% de las empresas en España reconoce las dificultades a las que se enfrenta a la hora de formar en habilidades técnicas a sus profesionales, unas complicaciones que se agravan al enseñar competencias sociales, como puede ser la comunicación.

Pero más allá de la necesidad imperiosa de crear nuevos empleos para satisfacer los requerimientos de los clientes del siglo XXI, totalmente digitalizados, muchas compañías se verán obligadas a generar su propio talento, a hacer escuela para valerse de sus propios recursos a la hora de competir.

Y para ello tendrán que invertir en la formación de sus equipos, no solo mejorar los sueldos y usar otros métodos distintos de contratación.

“Hay que liderar la digitalización para instalarnos en el futuro y crear el nuevo mundo”

Mercedes Núñez    16 septiembre, 2019

“No podemos vivir en el pasado, ni siquiera en el presente: nos tenemos que instalar en el futuro”. La frase es del alcalde de Madrid, José Luis Martínez-Almeida, en el DigitalES Summit 2019, que se celebró este verano y del que ya escribió un compañero, pero me ha parecido interesante recoger en el post de hoy algunas notas que tomé.

Eduardo Serra, presidente de la asociación, bromeó con que “solo hay tres cosas seguras: la muerte, los impuestos y el cambio”. Ahora estamos, además, en un cambio de época, como tanto se ha repetido.

El progreso dependerá de la digitalización

En este momento la transformación digital en España es un elemento transversal de progreso económico y social. El crecimiento, que debe ser inclusivo y sostenible, va a depender de ella y por eso, como país y continente, debemos replantearnos el lugar que ocupamos en el mundo. La transformación digital es un objetivo clave en este momento y las TIC y la innovación son palancas fundamentales. Ésta fue una de las principales conclusiones del encuentro.

Incluso la lucha por la hegemonía mundial es hoy cuestión de tecnología, dijo Eduardo Serra: «Europa debe replantearse su lugar ante China o EE. UU. Debemos despertar para no convertirnos en la cola del mundo» -afirmó.

Francisco Polo, Secretario de Estado para el Avance digital, introdujo el concepto de “gobernar la digitalización”. No tenemos que adaptarnos a este nuevo mundo que está naciendo -defendió-, sino crearlo.

El cómo llevemos a cabo la digitalización marcará nuestro futuro -añadió- y para eso hay que liderarla. Una sociedad más próspera, justa y capacitada está en juego (respecto a la capacitación, de la concienciación, preparación continua y un nuevo modelo educativo habló Isabel Celáa).

El impacto de la revolución digital

A estas alturas resulta una obviedad decir que la revolución digital impacta en todos los ámbitos de nuestra vida: en la esfera personal, en cómo trabajamos, en la formación que necesitamos, en las ciudades en las que vivimos, en la sanidad, los negocios…

España cuenta con un buen nivel en algunos aspectos, pero en otros hace falta un impulso que pasa, como destacaron tanto la ministra en funciones de Economía como la de Industria, Comercio y Turismo, por la colaboración público privada. “No hacerlo sería una miopía”, afirmó Reyes Maroto.

Como mensaje positivo, durante el evento se destacó que España cuenta en este momento con importantes activos ante la revolución digital -como las infraestructuras– frente a lo que ocurrió en la revolución industrial.

En DigitalEs Summit 2019, entre otras, hubo mesas redondas dedicadas al despliegue de 5G y sus casos de uso -la semana pasada veíamos un nuevo avance-, o la inteligencia artificial, sobre la que ya publicamos un post.

Y un ámbito donde esta transformación digital resulta especialmente relevante es en el de la industria. El próximo 12 de noviembre se abordará en el III Congreso de industria conectada, que Telefónica Empresas impulsa.

IA y Salud: Condenados a entenderse

Ismael Rihawi    16 septiembre, 2019

Mucho se discute sobre el agujero existente entre dos campos muy presentes en el día a día de cualquier persona: la medicina y las tecnologías de la información. Ya surgen proyectos muy importantes resultado de la colaboración entre estos dos sectores, como la impresión de órganos en 3D o el desarrollo de algoritmos capaces de predecir enfermedades. Sin quitar la relevancia de esas iniciativas, la realidad es que los beneficios de tecnologías punteras como el Big Data y la Inteligencia Artificial todavía no han llegado a todos los estratos de la sociedad, influyendo en la mala percepción que la ciudadanía tiene acerca de todo trámite relativo a la gestión hospitalaria.

Un claro ejemplo de ello transcurre en las consultas de los ambulatorios distribuidos por todo el territorio nacional, donde el desconocimiento completo del historial del paciente es patente en caso de no acudir a su centro asignado. También se nota en la concesión de citas de atención médica tardías y en la falta de agilidad en urgencias e intervenciones quirúrgicas por ausencia de procedimientos digitales que aceleren dichas demandas. Ni por asomo hablar de diagnósticos médicos basados en el análisis pormenorizado del histórico de datos, para así establecer tendencias de afecciones asociadas a perfiles comunes claramente identificados, todavía restringidos a dolencias más graves en centros muy especializados.

Pero nuevos tiempos transcurren, y apuntan a esperanzadores. Una serie de indicios empuja a creer que finalmente se está dando el acercamiento entre el sector salud y la implantación de soluciones Data Driven para la aplicación de servicios cognitivos. Surgen nuevas generaciones de profesionales médicos familiarizados con herramientas digitales; hay más recursos y técnicas capaces de procesar ingentes cantidades de información; tienen lugar mayor número de eventos que logran asentar las bases del entendimiento y la promoción de dinámicas de equipo multidisciplinares; se observan avances notorios en líneas de investigación que refuerzan el discurso; y, finalmente, hay mayor concienciación por parte de la comunidad científica de que ya existen los medios para abordar las deficiencias descritas y obrar en la excelencia sanitaria.

Ahora bien, es importante poner sobre la mesa ciertos retos a superar en el camino a la verdadera transformación digital en el ámbito médico. Por una parte, la fiabilidad y granularidad de los datos, requisitos necesarios para dotar de precisión y verdadero rigor su aplicabilidad, lo cual implica de una mejora en los procesos de recogida de la información en tiempo de consulta médica.

Por otro lado, propiciar la implantación de una infraestructura global de almacenamiento de todos los historiales informatizado, recogidos estos de manera confiable, de cara a su tratamiento desde los principios de la ética y privacidad, con el único fin de devolver el valor del dato a la sociedad en aras de garantizar una óptima salud y bienestar. Esta nueva pieza constituirá una herramienta aliada de inmensa valía en tiempo de toma de decisiones por parte de los facultativos sanitarios, verdaderos protagonistas, aportandoles una información adicional jamás antes imaginada.

La población quiere disponer de una sanidad a la altura de los tiempos que corren y el resto de prestaciones sociales que consume recurrentemente pero, ¿realmente estaría dispuesta a poner de su parte? Para ganar su apoyo, habría que poner el paciente en el centro de todos los esfuerzos. Implantar políticas públicas para concienciar que eso supondría un retorno diferencial en la calidad de la atención, diagnóstico y tratamiento. Asimismo, propiciar la adquisición del conocimiento y beneficios de su uso por parte de los médicos, sabiendo trasladarlo a los pacientes para generar la confiabilidad de que su información personal será tratada con el mejor de los fines, revirtiendo en una mejor experiencia.

¿Estamos preparados para afrontar los retos y darle el empujón necesario para que IA y Salud caminen de la mano? De los desafíos surgen nuevas oportunidades, el mercado ya demanda perfiles especializados, y una nueva y prometedora línea de trabajo emergerá para los apasionados de los datos y la analítica avanzada, ¡estad preparados para ser parte del cambio!

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Nuevo paper publicado “Second Factor Web Browsing: detección de amenazas a través del uso de un doble canal”

Fran Ramírez    13 septiembre, 2019

La utilización de un doble canal para tener una segunda vía de acceso en caso de que nuestro canal principal esté comprometido, es un factor realmente importante a tener en cuenta para mantener segura nuestra infraestructura y nuestros usuarios. Intentar solucionar el problema desde el canal principal no es la vía más aconsejable, ya que cada acción que realicemos podría estar manipulada por un posible atacante. Esta idea no es nueva para nosotros, de hecho, aplicaciones como Latch, StackSMS y Safepost son sólo algunos ejemplos de soluciones que hemos implementado basándonos en el concepto de Second Channel o segundo canal.

Un paso más relacionado con este concepto de segundo canal fue publicado por Chema Alonso en su blog en una serie de artículos centrados en la seguridad a la hora de navegar por Internet. En ellos, la propuesta ofrece mantener una navegación conjunta a la principal, utilizando uno de estos canales secundarios, para monitorizar en todo momento si se está produciendo algún tipo de ataque. Este segundo canal puede ser por ejemplo, una conexión Bluetooth, la cual servirá como vía de comunicación con el equipo a monitorizar, y por otro lado una conexión 2G, 3G o 4G para ofrecer conectividad desde otra conexión distinta a la utilizada por el equipo auditado (normalmente una WiFi o una conexión por cable).

Figura 1. Concepto básico principal de la idea de segundo canal de monitorización descrito.

Utilizando otras palabras, el tráfico sale por el primer canal por defecto en el equipo principal, pero a su vez también se envía ese mismo tráfico por el segundo canal para su control. El dispositivo ideal para realizar dicha monitorización es un smartphone, aunque también sería posible alguna implementación en la nube. Por lo tanto, cualquier modificación en el tráfico que se detecte puede ser síntoma de posible ataque. Una posible utilidad inmediata, debido a esta característica de monitorización, es la posibilidad de utilizar este canal como control parental.

Chema Alonso durante la RootedCON 2019

En la Rooted de este año, esta idea se materializó en una charla de Chema Alonso (que podéis ver en el vídeo de arriba) en la cual, además de explicar la evolución y los conceptos clave, también se ofreció una demo de su funcionamiento. Utilizar un doble canal es muy similar al concepto de doble factor de autenticación, 2FA, en la cual el atacante tiene que vulnerar dos elementos diferentes para poder llevar a cabo con éxito la acción. Por lo tanto, no cabe duda de su gran utilidad a la hora de incrementar la seguridad del usuario, en este caso navegando por Internet, aunque sus posibilidades son mucho más amplias.

Es por eso por lo que finalmente todos estos conceptos e ideas se han unificado en un paper publicado hoy y que ya podéis consultar desde este enlace. En él se profundiza a nivel técnico en todos los conceptos antes mencionados, así como diferentes propuestas de arquitecturas que permitan automatizar e implementar las verificaciones de los posibles ataques de red a los que pueda estar expuesto el usuario. Esperamos que esta idea os haya gustado y nos hagáis llegar vuestros comentarios.

Happy Hacking Hackers!

Transfer Learning en modelos profundos

Enrique Blanco    13 septiembre, 2019

En el Departamento de Ideas Locas nos encanta trastear con la Inteligencia Artificial, sobre todo si nos piden algo con aplicaciones fuera de lo común. Justo antes del verano estuvimos familiarizándonos con una práctica muy interesante relacionada con el Deep Learning: Transfer Learning para clasificar imágenes con alta precisión.

El objetivo en la clasificación de imágenes no es más que es etiquetar una imagen específica de acuerdo con un conjunto de categorías posibles.

Desde una perspectiva de aprendizaje profundo, el problema de clasificación de imágenes se puede resolver mediante Transfer Learning o aprendizaje por transferencia. Éste es un método popular en visión artificial porque nos permite construir modelos precisos ahorrando una gran cantidad de tiempo. Con el aprendizaje de transferencia, en lugar de comenzar el proceso de aprendizaje desde cero, se comienza haciendo uso de patrones o modelos pre-entrenados que se han aprendido al resolver un problema diferente.

Principios de Transfer Learning

Un modelo pre-entrenado es un modelo que fue entrenado con un ingente conjunto de datos de referencia para resolver un problema similar al que queremos abordar. Debido al coste computacional del entrenamiento de tales modelos, así como en la complejidad a la hora de elegir la arquitectura óptima, el Transfer Learning de modelos bien conocidos y precisos se ha convertido es una práctica común (por ejemplo, VGG-16, VGG-19, ResNet-50, SeNet-50, etc.)

Supongamos que, por poner un ejemplo, deseamos clasificar rostros de ganado, pero no existen algoritmos liberados que hagan un trabajo adecuado. Parece algo novedoso, pero desde hace un año el Deep Learning ha encontrado en el sector ganadero un campo de aplicación muy interesante, como ya adelantamos en este post. Con Transfer Learning, podemos construir una red neuronal convolucional ya existente y entrenada, comúnmente utilizada para el reconocimiento facial y modificarlo para entrenar rostros de vacas (por ejemplo). Podríamos descargarnos los pesos de los modelos bien conocidos ya mencionados, de varias decenas o cientos de capas, con un elevado nivel de precisión para clasificar rostros de personas y usarlo para identificar con una precisión similar a una determinada cabeza de ganado.

Figura 1.
Diferencias en el proceso de aprendizaje entre ML tradicional y Transfer Learning. Fuente

Las redes convolucionales (que son las arquitecturas típicas para la resolución de este tipo de problema) actúan, al fin y al cabo, como extractores de características tales como los ojos, las orejas y los morros de una vaca o un cerdo haciendo uso de lo que ese modelo aprendió en su origen clasificando rostros de personas famosas.

Redes convolucionales

Una CNN (Convolutional Neural Network) típica tiene dos partes:

  • una base convolucional, compuesta por una pila de capas convolucionales y de agrupación. El objetivo principal de la base convolucional es extraer características de la imagen;
  • un clasificador, que generalmente está compuesto por capas completamente conectadas. El objetivo principal del clasificador es clasificar la imagen en función de las características detectadas. Una capa totalmente conectada es aquella en la que sus neuronas tienen conexiones con todas las activaciones en la capa anterior.

Un aspecto importante de estos modelos de aprendizaje profundo es que pueden aprender automáticamente representaciones jerárquicas de características. Esto significa que las características calculadas por la primera capa son generales y pueden reutilizarse en diferentes problemas, mientras que las características calculadas por la última capa son específicas y dependen del conjunto de datos y la tarea elegidos.

A lo largo de la arquitectura hay una transición donde se pasa de extraer los rasgos más generales a los más específicos. Como resultado, la base convolucional de una CNN, especialmente sus capas inferiores (las que están más cerca de las entradas), se refieren a características generales, mientras que la parte clasificadora y algunas de las capas superiores de la base convolucional se refieren a características especializadas.

En la siguiente imagen intentamos mostrar las activaciones de algunos de los filtros de la última capa convolucional de la arquitectura VGG-16 dedicada a la clasificación de rostros de un dataset extenso de personas famosas. Como se puede ver (aunque onírico e inquietante) se distinguen perfectamente las características en la que esta capa convolucional se fija en una imagen (ojos, narices, orejas, bocas…).

Figura 2.
Visualización de algunos de los filtros de la última capa convolucional (Conv5_3) del modelo VGG-16 de clasificación de rostros.

Conceptos asociados

Pero volvamos a poner el punto de mira en las fuentes del problema que se intenta resolver: la posible escasez de muestras para entrenar a un modelo y la disparidad entre los datos que tenemos entre manos y aquellos que se usaron en su día para entrenar el modelo que vamos a tomar como base.

Una definición formal de Transfer Learning es la siguiente (A Survey on Deep Transfer Learning; Tan, C.; et al. 6 Aug 2018):


Contamos con un dominio D formado por: un espacio de características X y una distribución de probabilidad P(X) donde x={x_1, ..., x_n}\in X . Dado ese dominio D={X, P(X)} y una muestra \tau  que podemos considerar formada por dos componentes: una etiqueta Y  y una función objetivo f(\cdot)  tal que \tau={Y, f(\cdot)}.  Esta función es aprendida a través de un entrenamiento basado en datos agrupados por pares {x_i, y_i} donde x_i\in X  e y_i\in Y . Entonces la función f(\cdot)  se puede usar para predecir una etiqueta  de una nueva muestra x  incluso cuando está en las fronteras de la distribución marginal que define D .


Estrategias

Cuando queremos reutilizar un modelo pre-entrenado para tus propias necesidades, se suele comenzar eliminando el clasificador original para posteriormente agregar un nuevo clasificador que se adapta a tus propósitos. Sólo nos queda ajustar tu modelo de acuerdo con una de tres estrategias por la que deberemos apostar:

  • Estrategia 1: Entrenar todo el modelo. En este caso, utiliza la arquitectura del modelo pre-entrenado y lo entrena de acuerdo con su conjunto de datos. Está aprendiendo el modelo desde cero, por lo que necesitará un gran conjunto de datos (y mucha potencia computacional).
  • Estrategia 2: Entrenar algunas capas y deja las otras congeladas. Como se comentó anteriormente, las capas inferiores abstraen características generales (independientes del problema), mientras que las capas superiores tienen capacidad de abstraer características específicas. Por lo general, si tiene un conjunto de datos pequeño y una gran cantidad de parámetros, deberemos tender a dejar más capas congeladas para evitar un overfitting sobre nuestro dataset. Por el contrario, si el conjunto de datos es grande y el número de parámetros es pequeño, puede mejorar su modelo entrenando más capas para la nueva tarea, ya que el overfitting no será un problema que nos afecte.
  • Estrategia 3: Congelar la base convolucional. La idea principal es mantener la base convolucional en su forma original y luego usar sus salidas para alimentar un clasificador propio. En este caso se está utilizando un modelo pre-entrenado como un mecanismo de extracción de características generales, que puede ser útil si tiene poca potencia computacional, su conjunto de datos es pequeño y/o el dataset empleado en entrenar el modelo pre-entrenado cuenta con una distribución muy similar al que tenemos entre manos.

Guía de aplicación de las estrategias

Desde una perspectiva práctica, todo el proceso de aprendizaje de transferencia se puede resumir como sigue. Contamos con un conjunto de dominios D_s  y   D_T (fuentes y objetivo respectivamente) donde D_s={X_s, P(X_s)}; D_T={X_T, P(X_T)} y tenemos muestras \tau_s  y \tau_T  donde \tau={Y, P(Y|X)} :

  1. Contamos con un gran número de datos, pero éstos son diferentes del conjunto de datos del modelo previamente entrenado. X_s\neq X_T y P(X_s)\neq P(X_T). El espacio de características en los dominios de la fuente y el objetivo son diferentes. Las distribuciones de probabilidad marginal no coinciden al ser los dominios de las fuentes y del objetivo diferentes. Esta situación la deberíamos abordar desde la estrategia 1. Como tenemos un gran conjunto de datos, puede entrenar un modelo desde cero y hacer lo que quiera. A pesar de la diferencia de conjunto de datos, en la práctica, aún puede ser útil inicializar su modelo a partir de un modelo previamente entrenado, utilizando su arquitectura y pesos.
  2. Tenemos un gran conjunto de datos que, además, es similar al conjunto de datos del modelo previamente entrenado. Este es un escenario ideal. Cualquier estrategia funcionará. Probablemente, la opción más eficiente es la estrategia 2. Dado que tenemos un gran conjunto de datos, el sobreajuste no debería ser un problema, por lo que podemos aprender todo lo que queramos. Sin embargo, dado que los conjuntos de datos son similares, podemos salvarnos de un gran esfuerzo de capacitación aprovechando el conocimiento previo. Por lo tanto, debería ser suficiente entrenar el clasificador y las capas superiores de la base convolucional.
  3. Nuestro conjunto de datos es pequeño y diferente del conjunto de datos del modelo previamente entrenado.   P(Y_s|X_s)\neq P(Y_T|X_T). Las distribuciones de probabilidad condicionales de la fuente y el objetivo son diferentes. Nos encontramos ante esta tesitura cuando el número de muestras de una determinada clase está sin balancear. Se suele aproximar a través de diferentes técnicas de over/under-sampling. La única opción que tiene es la estrategia 2. Será difícil encontrar un equilibrio entre la cantidad de capas para entrenar y congelar. Si profundizamos en la congelación, nuestro modelo podría sufrir overfitting. Si permanece en el extremo poco profundo de su modelo, éste no aprenderá nada útil de la nueva distribución marginal. Se deberían considerar seriamente las técnicas de aumento de datos.
  4. El conjunto de datos nuevos es pequeño, pero similar al conjunto de datos del modelo previamente entrenado. La estrategia 3 es la más adecuada. Solo necesita eliminar las últimas capas completamente conectadas (capas de salida), ejecutar el modelo previamente entrenado como un extractor de características fijas y luego usar las características resultantes para entrenar a un nuevo clasificador.

Esperamos que esta introducción a la reutilización de modelos de Deep Learning para proyectos propios os haya gustado. En siguientes entregas profundizaremos en un ejemplo entretenido de Transfer Learning donde presentaremos algo de código haciendo uso de Keras.

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Un repaso antes de seguir transformándonos

Equipo Editorial    13 septiembre, 2019

El próximo lunes habremos superado el ecuador de septiembre y estaremos ya plenamente inmersos en el nuevo curso escolar corporativo. En el blog de Telefónica Grandes empresas y Administración pública hemos estado publicando todo el verano, así que como seguro que en algún momento os habéis cogido unos días para desconectar -tan necesarios-, os recordamos algunos contenidos que pensamos que os resultarán atractivos y útiles en vuestra vuelta:

Hemos publicado, así mismo, interesantes entrevistas.

Si os los perdisteis en su momento, no dejéis de leer también estos otros, que os pueden servir de inspiración:

¡Bienvenidos de vuelta, nos espera un cuatrimestre apasionante!

Imagen: SIM Central and South Ea

Ahora el ciclismo es más seguro gracias a los drones e IoT

Luis Simón Gómez Semeleder    12 septiembre, 2019

¿Cuántos de nosotros no nos sentimos seguros al adelantar a una bici en carretera?  Lo cierto es que mientras conducimosun coche se nos pueden presentar una situación peligrosa, pero también si somos nosotros los que vamos encima de la bicicleta. Ahora, la tecnología IoT puede ayudarnos y dotar de un ‘sexto sentido’ a los conductores.

Telefónica ha participado en el desarrollo de un sistema de avisos en carretera que proporciona una conducción asistida. Mediante drones con cámara, es capaz de avisar al conductor si hay una bicicleta más adelante o un vehículo parado.

Si aún no imaginas cómo funciona, infórmate en esta infografía que te mostramos hoy y comprueba cómo gracias a Internet de las Cosas se pueden prevenir accidentes en carretera.

Además, con motivo de la Vuelta Ciclista a España, hemos probado esta solución junto a Perico Delgado, ex ciclista profesional.

Si quieres saber más sobre la iniciativa con La Vuelta Ciclista, tienes más información en este enlace.

Para mantenerte al día con el área de Internet of Things de Telefónica visita nuestra página web o síguenos en TwitterLinkedIn YouTube.

¿Es siempre obligatorio llevar la contabilidad de la empresa?

Mario Cantalapiedra    12 septiembre, 2019

En no pocas ocasiones me encuentro con empresarios que consideran que la contabilidad es una mera imposición legal a la que están obligados para cumplir con Hacienda.

Es habitual escucharlos decir: “Eso lo lleva mi gestoría”, “no leo los balances ni entiendo lo que dicen”, “firmo los papeles que me presentan y no me preocupo de más”. Lo cierto es que más allá de la exigencia fiscal, la información que suministra la contabilidad sobre la realidad económica y financiera de la empresa es fundamental para la toma de decisiones del empresario.

Sin los datos que muestran los estados contables (balances, cuentas de pérdidas y ganancias, etcétera), los responsables de gestionar la empresa tomarán sus decisiones un poco “a ciegas”, con el peligro de acabar en una mala situación patrimonial.

Es más, los datos contables interesarán a otras personas e instituciones, en ocasiones externas a la compañía. Según la interpretación que hagan estos interesados o stakeholders de los datos contables, y las decisiones que tomen, podrán influir en la marcha del negocio en una dirección u otra.

Obligación de llevar contabilidad

Legalmente el Código de Comercio estipula que “todo empresario deberá llevar una contabilidad ordenada, adecuada a la actividad de su empresa, que permita un seguimiento cronológico de todas sus operaciones, así como la elaboración periódica de balances e inventarios”.

No obstante, la legislación fiscal limita esta obligación general a los contribuyentes del Impuesto sobre Sociedades, entre los que destacan las sociedades mercantiles (anónimas, de responsabilidad limitada, etcétera) y los empresarios autónomos con actividad mercantil que tributan por el método de estimación directa normal.

Otros autónomos como los que desarrollan actividades empresariales agrícolas o ganaderas, los profesionales, o los empresarios que tributan por los métodos de estimación directa simplificada u objetiva no están obligados a llevar contabilidad, aunque como ya he comentado, es muy recomendable que lo hagan.

En cuanto a los interesados en los datos contables, puede distinguirse entre internos, que tomarán decisiones desde dentro de la empresa, y externos, que lo harán desde fuera.

Usuarios internos

Propietarios

En calidad de dueños de la empresa, a partir de sus balances y las cuentas de pérdidas y ganancias, pueden conocer cómo marcha el negocio y analizar si su inversión aumenta o no de valor con el transcurso del tiempo.

Directivos y administradores

En función de la información que suministra la contabilidad y entendiendo esta como una herramienta de gestión, pueden tomar decisiones como, por ejemplo, comprar maquinaria, solicitar financiación bancaria o contratar nuevo personal.

Empleados

Los empleados en general pueden conocer cómo marcha la empresa en la que trabajan, y ver si los datos contables confirman la percepción que tienen sobre ella (crecimiento, estabilidad, etcétera).

También los futuros trabajadores que estén valorando incorporarse a la compañía pueden analizar su situación patrimonial, para saber dónde se meten (en este sentido, serían usuarios externos de la información contable). 

Usuarios externos

Hacienda

Como he señalado anteriormente, una de las funciones principales de la contabilidad es servir de base para el cálculo de los impuestos, teniendo la Administración Tributaria la potestad de examinar la contabilidad de la empresa a través de inspecciones, en los casos en los que su llevanza sea obligatoria.

Registro Mercantil

Esta institución pública, que depende del Ministerio de Justicia, tiene entre sus funciones principales las de depositar y dar publicidad a los principales documentos contables de las empresas como son las cuentas anuales (balance, cuenta de pérdidas y ganancias, etcétera). Gracias a esta publicidad, otros interesados externos pueden acceder a dicha información.

Entidades financieras

Los bancos y otras entidades financieras utilizan los estados contables como base del análisis de riesgo que realizan sobre las empresas que les solicitan financiación.

Clientes

Analizan la información contable para comprobar que la situación patrimonial de la empresa es sólida y garantiza el correcto suministro de los bienes y servicios solicitados.

Proveedores

Fundamentalmente buscan en los datos contables muestras de la solvencia de la empresa, para minimizar las dudas sobre el cobro futuro de sus facturas.

Competidores

Estudian la situación económica y financiera de las empresas competidoras para evaluar su desempeño en términos relativos.

Empresas de información comercial

Estas agencias especializadas utilizan los documentos contables de la empresa para evaluar su riesgo de impago y plasmarlo en los informes comerciales que proporcionan, los cuales, a su vez, son utilizados por otros interesados externos (clientes, proveedores, bancos, etcétera).

Posibles inversores

Por último, la información contable es base fundamental de análisis para todos aquellos inversores (business angels, entidades de capital riesgo, otras compañías, etcétera) que muestren interés en participar en el capital de una empresa.