Big Data = Big Business ?


Lors de la conférence Black Hat qui vient de s'achever, le nouveau mot magique semblait être "Artificial Intelligence", l'intelligence artificielle. L'objectif n'est plus "seulement" d'obtenir des données exploitables à partir des sources de données disponibles au moyen d'un algorithme intelligent - mais aussi de (re)trouver automatiquement l'algorithme adéquat.
L'arrière-plan est certainement aussi la constatation que l'aspect informatique du Big Data peut être mis à l'échelle, alors que la créativité et l'expérience humaines nécessaires sont nettement plus difficiles.
Le "Cyber Grand Challenge", dont l'organisateur, le DARPA, qui dépend du ministère américain de la Défense, gère des projets de recherche, montre où le voyage peut mener.
Pour simplifier, cette compétition vise à créer des systèmes autonomes capables de détecter et de combler les failles de sécurité. Ce qui semble d'abord être le "prochain Saint Graal" de la défense contre les attaques de failles de sécurité devient nettement plus explosif si l'on se rend compte que les systèmes s'affrontent dans un scénario dit de capture du drapeau - et qu'ils n'essaient pas seulement de trouver et de combler des failles de sécurité de manière automatisée chez eux, mais aussi de les trouver chez les autres et de les exploiter.
De nombreuses technologies ne sont pas clairement bonnes ou mauvaises, ce sont le scénario d'utilisation et l'intention qui sont décisifs !
Mais même malgré le lien avec le ministère américain de la Défense, il convient d'être prudent avec un soupçon généralisé. Après tout, de nombreuses technologies que nous percevons aujourd'hui naturellement comme "bonnes" sont nées de projets de recherche publics financés par le DARPA.
L'exemple le plus marquant est celui d'Internet.
Même si les résultats du Cyber Grand Challenge ont été impressionnants, nous sommes encore loin d'un système autonome équivalent aux capacités d'un être humain "prêt à la production". Les scénarios de double (mis-)usage des technologies Big Data sont déjà bien plus avancés.
Le phishing, par exemple : Tout le monde connaît probablement les fausses factures de téléphone portable ou les fausses notifications de colis destinées à attirer les utilisateurs peu méfiants sur des sites de phishing.
Dans le contexte de l'entreprise, ils sont encore pires que les e-mails dits de "spear phishing" - c'est-à-dire des e-mails visant à attirer une personne ou un groupe sur des sites web. La plupart du temps, il s'agit d'une étape préalable à une attaque ciblée.
Dans ce contexte, il n'est guère surprenant que de nombreuses solutions de détection des menaces basées sur le Big Data se soient donné pour mission de détecter le phishing. On utilise les connaissances issues des analyses de données volumineuses, selon la devise "les bons dans le pot, les mauvais dans le seau".
Toutefois, ces mêmes données permettent également de tirer des conclusions sur les personnes/cibles particulièrement prometteuses, sur les contenus de phishing sur lesquels on clique le plus souvent et qui, en fin de compte, ne sont pas non plus détectés par les solutions de sécurité !
C'est exactement le scénario esquissé par l'outil SNAP_R présenté lors de la Black Hat : il génère automatiquement un "hit-parade" des cibles intéressantes à partir de données Twitter publiques et d'une liste de personnes ciblées - et, sur la base du contenu de leur timeline, des tweets automatiques avec des liens.
Il est prouvé que ces derniers sont plus souvent cliqués que les tweets de phishing de masse comparables.
Bien que SNAP_R ait été conçu comme un outil de phishing à détection automatique pour les testeurs de pénétration, il n'y a pas de limites à son utilisation (malveillante). Indépendamment de l'outil concret, on constate ici aussi
Une technologie n'est souvent ni clairement "bonne" ni "mauvaise".
L'histoire nous apprend plutôt que cela dépend du contexte et de celui qui les utilise. Dans le contexte de la sécurité informatique, il existe (actuellement et à l'avenir) des technologies qui peuvent d'une part aider à mieux détecter et repousser les attaques, mais qui peuvent d'autre part être utilisées pour optimiser précisément ces attaques contre les mesures de défense.
Malgré tout l'amour que nous portons à la technologie, nous ne devrions pas attendre le "Graal de la sécurité informatique" - mais utiliser les technologies disponibles à bon escient après une évaluation des risques.