Un loup dans la peau d'un husky ? IA et cybersécurité


Si l'on jette un regard critique derrière les coulisses des messages publicitaires, on constate tout d'abord que le terme "Artificial Intelligence" est utilisé de manière très libérale dans les départements marketing. Les produits "AI-powered" n'utilisent en général qu'un aspect partiel de l'IA, à savoir le Machine Learning.
L'apprentissage automatique n'est toutefois pas particulièrement nouveau ni innovant dans le domaine de la cybersécurité.
Depuis plus de 10 ans déjà, les fabricants d'antimalwares utilisent l'apprentissage automatique pour analyser des échantillons d'une quantité énorme de nouvelles variantes de malwares et pour générer des signatures de détection, aujourd'hui entièrement automatisées.
Dans le domaine de la détection des SPAM et du phishing, des algorithmes d'apprentissage automatique sont utilisés depuis maintenant 20 ans - même s'ils ne sont pas exclusifs.
Il est important de comprendre que tous ces champs d'application ne concernent généralement pas le "deep learning", c'est-à-dire l'utilisation de réseaux neuronaux artificiels multicouches. Ceux-ci sont encore bien trop gourmands en mémoire et en CPU pour être utilisés sur des systèmes serveurs ou clients dont le domaine d'application principal n'est pas le réseau neuronal.
L'algorithme de machine learning pour la cybersécurité n'existe pas : le machine learning est très bien adapté pour agir dans un champ de tâches étroitement défini.
La cybersécurité, et même une petite partie comme Endpoint Security, couvre une multitude de vecteurs et de méthodes d'attaque possibles. Il n'existe pas ici de solution "one-size-fits-all" issue de la boîte à malices de l'IA.
Les algorithmes de machine learning s'améliorent "tout seuls" avec le temps ? Il est vrai qu'avec de grandes quantités de données qualifiées, le Machine-Learning devient de plus en plus performant - c'est-à-dire qu'il "apprend".
Par données qualifiées, on entend que l'algorithme a besoin, en plus des données proprement dites, d'informations indiquant par exemple si ces fichiers sont infectés ou inoffensifs ou si un courriel est du ham ou du spam.
En effet, peu d'utilisateurs "normaux" sont en mesure de distinguer un fichier infecté par un malware d'un fichier propre, du moins tant que le malware (p. ex. ransomware) n'est pas devenu actif.
Les solutions d'intelligence artificielle peuvent-elles dès aujourd'hui remplacer les solutions de sécurité classiques ? Seuls les très, très courageux - ou les très imprudents - devraient miser sur ce cheval.
Pour la grande majorité des domaines d'application, les procédés déterministes tels que les filtres IP classiques et/ou les procédés de Pattern-Matching sont encore largement supérieurs aux solutions d'IA, tant en termes de performance que de précision. En fonction du domaine d'application, il est en outre possible et judicieux d'évaluer l'utilisation de procédés déterministes dans le cadre d'une procédure de liste noire ou de liste blanche.
Les résultats sont-ils nécessairement meilleurs avec le Machine Learning et les Big (Training) Data ? La qualité des résultats d'un classificateur basé sur le Machine Learning, en particulier dans le domaine du Deep Learning, ne dépend pas seulement de l'algorithme, mais aussi - et même de manière beaucoup plus décisive - des données avec lesquelles il a été entraîné.
Malheureusement, nous, utilisateurs et clients finaux, ne pouvons pas regarder l'algorithme d'apprentissage automatique de la cybersécurité prendre des décisions. Si nous pouvions le faire, comme l'ont fait les scientifiques de l'université de Washington, nous pourrions éventuellement découvrir des cas comme celui du husky, identifié à tort comme un loup.
La raison en est que la plupart des images de loups avec lesquelles le système a été entraîné montraient des loups dans la neige. La visualisation des bases de décision de l'algorithme a donc montré que l'animal sur le loup ne jouait qu'un rôle secondaire dans la décision. La présence de neige était déterminante.