Se filtra la mayor colección de usuarios y contraseñas… o no (I)

David García    28 enero, 2019
Se filtra la mayor colección de usuarios y contraseñas… o no (I)
De vez en cuando, alguien libera, por descuido (o no), una gigantesca colección de archivos de texto con millones de contraseñas en ellos. Un listado casi interminable de cuentas de correo acompañadas de una contraseña o su hash equivalente. Se repiten los titulares en los medios: «Se filtran millones de contraseñas…». Si bien no es un titular falso, algunas veces sí que puede llegar a ser algo engañoso. En concreto hablamos del último “leak” masivo, apodado «Collection #1».

Hemos analizado este último leak gigantesco. Más allá de «Collection #1» que ha trascendido a los medios, nos hemos hecho con un superconjunto con más de 600 gigas de contraseñas. Es tan grande que en nuestros análisis llegamos a contar más de 12.000.000.000 de combinaciones de usuarios y contraseñas en bruto. A priori, un número astronómico pero lo importante aquí es que están «en bruto». ¿Qué queda de interesante tras realizar alguna limpieza? Debemos tener en cuenta que una filtración de una filtración no es una filtración. Si hace meses o años alguien filtró una base de datos de cierto sitio, eso es un leak. Pero si alguien concatena ese archivo con otros y lo publica no es una filtración, simplemente está poniendo a disposición de Internet su colección particular de leaks.

Desmitificando el leak: Repeticiones

Las repeticiones se clasifican en dos tipos:

  • Apariciones de la misma cuenta y misma contraseña
  • Encontrar una misma cuenta con distinta contraseña

En ambos casos, puede tratarse de la simple reutilización de una cuenta de correo y contraseña en múltiples sitios, fruto de la fusión de diferentes bases de datos de filtraciones. En ambos casos (independientemente de que sean válidas y sin contexto) podemos adelgazar los números de datos «diferentes». Un vistazo rápido a estos 600 gigabytes de información nos muestra muchas cuentas repetidas. Si bien esta información puede resultar válida, ayuda a rebajar las posibilidades de usuarios afectados.

Caducidad de los datos
¿Cuánto vale un leak de hace 6 meses? ¿Y uno de hace 5 años? ¿Y otro de diez años de antigüedad? Disponer de una cuenta de correo y una contraseña no significa acceso perpetuo a los secretos que se esconden tras el proceso de autenticación. Cada día que pasa esos datos valen menos. En general, este tipo de datos son como el pescado: se consumen frescos o se pudren rápido. Cuando se posee acceso a una cuenta con su correspondiente credencial, se dispone de un margen de tiempo hasta que el dueño es alertado y cambia la contraseña o el propio servicio detecta que la cuenta ha sido filtrada y la desactiva o la borra preventivamente.
Ese estrecho margen o tiempo de vida del acceso es el valor inicial de la cuenta (luego entran en juego otras propiedades, como el dominio al que pertenecen o más jugoso… o a quién exactamente). Posteriormente, ya solo les servirá el correo electrónico y la credencial para ir probando suerte en otros servicios, emplearla para envíos de spam u otras estafas; pero eso es otra historia.
Hemos realizado un pequeño experimento. Hemos concatenado todos los ficheros que contienen correos en el megaleak, les hemos quitado las contraseñas, y nos quedamos con un «todos.txt» de unos 200 gigabytes. De ellas seleccionamos un grupo de cuentas al pseudoazar (todo el azar que nos permiten las matemáticas y generadores del sistema):
El ‘0.0001’ nos extrae una muestra mínima, pero cuando hablamos de estos números, suponen más de mil correos electrónicos. Además, «salida.txt» está filtrada sobre correos con dominios inexistentes, duplicados y servidores que no permiten verificar una cuenta a través de VRFY (comando del protocolo SMTP).
Sobre esa muestra de más de mil correos, hemos comprobado su existencia. El resultado es que el 9,8 % no existía o nunca existió en el dominio. Casi un 10 % de las direcciones “hábiles” no están ya disponibles en sus respectivos servidores de correo. Nos atrevemos a afirmar que es extrapolable a esos 12.000.000.000. Esto sin contar que, en el caso de muchas de ellas, su contraseña ni siquiera sea válida.
¿Datos ficticios?
Fijémonos en algunas entradas del botín. Observemos a simple vista que dominios no existen ni existieron nunca, puesto que no son dominios recogidos por la IANA.
El ejemplo es ilustrativo, existen miles de TLD inexistentes en los múltiples archivos que componen el leak.
Otro ejemplo sospechoso es el contenido mismo de algunos archivos, observemos:
El rectángulo que hemos interpuesto para no exponer los datos podría despistar, pero se trata de una lista donde la cadena [email]:[password] es de exactamente 32 caracteres. Ni uno más, ni uno menos. 32 caracteres donde ya sea por la longitud del correo o la contraseña, todos miden lo mismo y forman una columna sospechosamente perfecta. Puede ser que el atacante los haya ordenado, pero resulta siempre curioso, porque no se trata de un solo archivo con miles y miles de correos con esa exacta longitud. Dentro del leak existen otros archivos donde la longitud de la cadena es tanto mayor como menor, pero siempre homogénea. No se nos ocurre utilidad práctica la de disponer de listas de cadenas compuestas por correo-password de igual longitud. ¿Podríamos hablar de que han sido generados así de alguna forma?
¿Entonces, es grave?
En teoría sería necesario validar muchos factores, pero con 12.000.000.000 de combinaciones, la operativa resulta cuando menos compleja. Con estas simples muestras y ejemplos que hemos tomado, podríamos aventurarnos a afirmar que esta colección sí que se trata de un conjunto de datos valioso, pero no desde la perspectiva de la privacidad o del destrozo a la intimidad de los usuarios, sino como sistema de diccionario de cuentas.
Creemos que concluir que «una cuenta filtrada equivale a poder acceder al correo o los datos de una persona» es un razonamiento aventurado. El número útil de estas cuentas es inmensamente más reducido, ya sea por su caducidad, o porque simplemente, ni tan siquiera existieron. Creemos que en el leak hay información muy poco actualizada o contrastada e incluso así, se ha engordado artificialmente.
En cualquier caso, un aspecto muy positivo de estos anuncios es que al menos hay una pequeña parte del público general que se anima a cambiar de contraseñas, un diminuto sector de estos que adopta un gestor de contraseñas y unos pocos que incluso activan el segundo factor de autenticación. Algo es algo.
En la segunda parte veremos más curiosidades de este gigantesco archivo.

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada.