Hablemos de lo que sabemos: Webscraping, o el «hackeo» a la web del INDH

Título alternativo: MIRA MAMÁ SOY UN JAQUER.

Título alternativo 2: Con esto cumplo la cuota anual de publicaciones.

Todos sabemos por lo que está pasando Chile en estos momentos. Y nadie puede estar aparte en esta realidad, sobre todo lo que estamos luchando para que las cosas cambien. En este mismo concepto, vengo a hablar de una noticia que me llamó muchísimo la atención.

El contexto

Resulta que un grupo que se autodenomina hacker, llamado ‘Caballeros Anonymous02’ tuiteó esta joyita:

Bueno, me pareció curioso por decir lo menos, así que hice lo que cualquier persona cuerda haría, y descargué el archivo en mención en un ambiente controlado (no vaya a ser que la cosa en realidad tenía algún malware y yo me lo estuviera comiendo feliz de la vida, regla N° 1 de los antivirus). El archivo en cuestión estaba limpio, y pueden descargar una copia aquí.

Pero, ¿por qué lo dejas público?

Aquí es donde viene mi explicación. Al analizar el archivo en cuestión me percaté de que gran porcentaje de los enlaces que ahí aparecían venían de un directorio llamado /transparencia. Según la Ley 20.285 de Chile, todas las organizaciones públicas deben tener a disposición de todas las personas una serie de archivos relacionados a su información pública. Nótese que la ley se llama Ley de Transparencia.

Bien, explicado esto, es cosa de sentido común conjeturar que toda la información que viene contenida dentro de ese ‘hack’ en realidad son documentos que están en la web y que, por tanto, cualquier persona puede tener acceso a ella, con solo una condición: En alguna parte del sitio web debe existir un enlace para poder acceder a dicho archivo. Es la condición que permitió que este ‘hack’ fuese posible.

¿Cómo lo lograron?

Fácil. Lo hicieron con la ayuda de un web scraper. Un web scraper es un software que se utiliza para extraer información de sitios web. Refiere a un proceso de recopilación de información automática desde la Web, el cual utiliza soluciones basadas en diversas formas de automatización, y ejemplos de esto hay muchos. El más fácil de explicar es por lo general el que más se usa: un sitio web tiene una cantidad de links en su portada; el scraper lo que hará es clickear todos los links que tenga esta portada y llegará a un número determinado de páginas secundarias, cada una con su respectivo número de links. Esta estrategia en algún momento abrirá cada link existente y disponible al usuario en el sitio web, y habrá enlaces que lleven a descargar algún documento en particular; bastará entonces con replicar esta técnica miles de veces con ayuda de una herramienta automatizada y en cuestión de algunas horas tendrás un volumen interesante de documentos disponibles y, con ayuda de alguna herramienta, un registro que contendrá la ubicación desde donde salió cada documento.

Muéstrame

Para el ejemplo elaboré un pequeño esquema:

Este mismo esquema lo subiré a uno de mis dominios, y desde este dominio ejecutaré un scraper. El resultado debiese ser que me descargue tanto ‘documento1.docx’ como ‘documento2.pptx’. Veamos. Para el ejemplo usaré el viejo HTTrack. Este fue el resultado:

Como es posible apreciar, me trajo desde el sitio los dos archivos, junto con su ruta.

¿Y en el caso del supuesto hackeo?

Lo mismo, solo que a juzgar por el archivo de log, el grupo utilizó FOCA, que es una herramienta que hace lo mismo.

¿Hay otras formas de hacer webscraping?

Sí. Se puede hacer lo mismo en base a expresiones regulares (es decir, si tengo un archivo que se llame «45.pdf», seguramente existe «44.pdf», «43.pdf» y así), minería de datos (similar al ejemplo anterior pero muchísimo más sofisticado y con mucha más información), reconocimento de semántica, etc.

Conclusiones

Desde que supe de la noticia imaginé que había gato encerrado. Los ‘hackeos’ por lo general tienen como objetivo acceder a información que se encuentra oculta al público general, como es el caso de Pacoleaks. En este caso, no es nada más que una compilación de los archivos que ya se encontraban disponibles al público. Ni siquiera necesitaron romper nada. No es hackeo.

En otras palabras: te caíste feo, FayerWayer.

Aquí está el artículo original que escribió FayerWayer.