Miles de repositorios expuestos en GitHub, ahora privados, aún se pueden acceder a través de Copilot

IInvestigadores de seguridad advierten que la información expuesta en Internet, aunque sea por un instante, puede seguir presente en chatbots de IA generativa en línea como Microsoft Copilot, incluso mucho después de haber sido configurada como privada.

Se han visto afectados miles de repositorios que en algún momento fueron públicos en GitHub y pertenecieron a algunas de las empresas más importantes del mundo, incluido el de Microsoft, según recientes hallazgos de Lasso, una compañía israelí de ciberseguridad especializada en amenazas emergentes vinculadas a la IA generativa.

El cofundador de Lasso, Ophir Dror, comentó a TechCrunch que la empresa descubrió contenido de su propio repositorio en GitHub apareciendo en Copilot, ya que este había sido indexado y almacenado en caché por el motor de búsqueda Bing de Microsoft. Dror explicó que dicho repositorio se había hecho público por error durante un corto período, pero luego se configuró como privado, y al intentar acceder en GitHub se muestra un error de “página no encontrada.”

“Resulta sorprendente que en Copilot hayamos encontrado uno de nuestros repositorios que se supone son privados,” destacó Dror. “Si navego por la web, esos datos no son visibles. Sin embargo, cualquier persona en el mundo podría formular la consulta adecuada a Copilot y obtener dicha información.”

Luego de darse cuenta de que cualquier dato en GitHub, aunque solo sea transitoriamente, podía quedar expuesto mediante herramientas como Copilot, Lasso decidió profundizar en la investigación.

La empresa extrajo una lista de repositorios que fueron públicos en algún momento durante el 2024 e identificó aquellos que posteriormente fueron eliminados o puestos en modo privado. Empleando el mecanismo de caché de Bing, se detectaron más de 20,000 repositorios en GitHub que, habiéndose vuelto privados, aún mantenían datos accesibles a través de Copilot, lo que afecta a más de 16,000 organizaciones.

Antes de hacer pública su investigación, Lasso informó a TechCrunch que algunas de las organizaciones impactadas incluyen a Amazon Web Services, Google, IBM, PayPal, Tencent y Microsoft. Tras la publicación, Amazon comunicó a TechCrunch que no se veía afectada por este problema. Lasso añadió que “se eliminaron todas las menciones a AWS siguiendo el consejo de nuestro equipo legal” y afirmó que “apoyamos firmemente nuestra investigación.”

En algunos casos, se pudo solicitar a Copilot que devolviera archivos confidenciales alojados en GitHub, conteniendo propiedad intelectual, datos corporativos sensibles, claves de acceso y tokens, según indicó la empresa.

Además, Lasso recalcó que utilizó a Copilot para recuperar el contenido de un repositorio de GitHub que Microsoft ya había eliminado, el cual albergaba una herramienta destinada a la creación de imágenes de IA “ofensivas y dañinas” mediante el servicio de IA en la nube de Microsoft.

Dror aseguró que Lasso se puso en contacto con todas las compañías que resultaron “fuertemente afectadas” por la exposición de datos, recomendándoles cambiar o revocar cualquier clave vulnerable.

Ninguna de las empresas mencionadas por Lasso respondió a las preguntas de TechCrunch, y Microsoft tampoco se pronunció ante la consulta realizada por el medio.

Lasso informó a Microsoft sobre sus hallazgos durante noviembre de 2024, y la empresa clasificó el problema como de “baja severidad”, sosteniendo que este comportamiento de caché resultaba “aceptable.” A partir de diciembre de 2024, Microsoft dejó de incluir enlaces hacia la caché de Bing en los resultados de búsqueda.

No obstante, Lasso señala que, pese a la desactivación de la función de caché, Copilot continuaba teniendo acceso a los datos, aunque estos no fueran visibles mediante las búsquedas web tradicionales, lo que sugiere que se trató de una solución provisional.

Enlaces Relacionados (en español):

Repositorios privados de GitHub continúan siendo accesibles a través de Copilot tras hacerse privados

Miles de repositorios de GitHub expuestos a través de Microsoft Copilot