{"id":133777,"date":"2023-11-02T13:50:00","date_gmt":"2023-11-02T12:50:00","guid":{"rendered":"http:\/\/e3mag.com\/?p=133777"},"modified":"2023-11-03T08:13:04","modified_gmt":"2023-11-03T07:13:04","slug":"euclid-et-hana","status":"publish","type":"post","link":"https:\/\/e3mag.com\/fr\/euclid-et-hana\/","title":{"rendered":"Euclide et Hana"},"content":{"rendered":"<h2 class=\"wp-block-heading\">SAP TechEd 2023, Bangalore, Inde<\/h2>\n\n\n\n<p>Au d\u00e9but du TechEd 2023, le directeur technique de SAP, J\u00fcrgen M\u00fcller, a d\u00e9clar\u00e9 qu'il \u00e9tait heureux d'annoncer une extension importante, voire la plus importante, de la plate-forme de base de donn\u00e9es Hana. Le suspense \u00e9tait lanc\u00e9 : pour le TechEd, une sensation Hana au-del\u00e0 des Large Language Models (LLM), qui n'utilisent que des algorithmes d'apprentissage en profondeur pour r\u00e9sumer et ordonner de grandes quantit\u00e9s de donn\u00e9es ou pour g\u00e9n\u00e9rer des pr\u00e9dictions \u00e0 partir de celles-ci.<\/p>\n\n\n\n<p>Lors du TechEd 2023 \u00e0 Bangalore, J\u00fcrgen M\u00fcller a fait valoir, non sans raison, que les grands mod\u00e8les linguistiques ne peuvent g\u00e9n\u00e9ralement saisir que le pass\u00e9. Ils sont entra\u00een\u00e9s \u00e0 l'aide de donn\u00e9es existantes, g\u00e9n\u00e9ralement extraites d'Internet. Une r\u00e9ponse imm\u00e9diate en temps r\u00e9el bas\u00e9e sur des donn\u00e9es op\u00e9rationnelles est difficile. Depuis de nombreuses ann\u00e9es, la base de donn\u00e9es SAP Hana est responsable des r\u00e9sultats en temps r\u00e9el - d\u00e9sormais avec des vecteurs !<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Vecteurs<\/h2>\n\n\n\n<p>Selon J\u00fcrgen M\u00fcller, directeur technique de SAP, la pr\u00e9tendue sensation de Hana est la capacit\u00e9 d'utiliser des vecteurs comme objets sur la plate-forme de base de donn\u00e9es. Dans les math\u00e9matiques euclidiennes traditionnelles, les vecteurs ne sont vraiment pas une sensation. Avec les outils informatiques existants de la plate-forme de base de donn\u00e9es Hana, n'importe quel \u00e9tudiant en informatique de premier cycle peut impl\u00e9menter quelques fonctions vectorielles simples. Ce \u00e0 quoi J\u00fcrgen M\u00fcller faisait peut-\u00eatre allusion, c'est \u00e0 une extension du langage SQL-DB par quelques commandes vectorielles.<\/p>\n\n\n\n<p>Qu'est-ce qu'un vecteur ? Dans un syst\u00e8me de coordonn\u00e9es avec un axe x et un axe y, on peut choisir deux points quelconques, relier ces points par la droite la plus courte possible et ajouter une fl\u00e8che \u00e0 la fin, on a alors devant soi sur le papier un graphique orient\u00e9 ou un vecteur dans l'espace bidimensionnel. Il est \u00e9galement facile d'imaginer un vecteur dans un espace tridimensionnel (axes x, y et z), par exemple un crayon pos\u00e9 sur une table. L'extr\u00e9mit\u00e9 et la pointe du crayon peuvent \u00eatre d\u00e9finies avec pr\u00e9cision comme des points dans l'espace. Le crayon serait donc le vecteur.<\/p>\n\n\n\n<p>On passe maintenant \u00e0 des dimensions sup\u00e9rieures qui sont difficilement imaginables visuellement (un cube \u00e0 quatre dimensions aurait par exemple une ombre \u00e0 trois dimensions), mais il est tout de m\u00eame facile de calculer avec des dimensions sup\u00e9rieures - m\u00eame en tant que calcul mental, ce qui est d'ailleurs \u00e0 prouver avec ce blog du r\u00e9dacteur en chef.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">De nombreux param\u00e8tres, de nombreuses dimensions<\/h2>\n\n\n\n<p>Probl\u00e9matique : clusteriser un million d'offres en fonction des groupes de clients, du taux d'utilisation des machines, du chiffre d'affaires, etc., c'est-\u00e0-dire les rassembler en groupes qui pr\u00e9sentent des similitudes. Chaque offre dispose de param\u00e8tres sp\u00e9cifiques qui sont facilement identifiables. Le statut du client peut \u00eatre d\u00e9duit de son nom. Les mauvais clients se voient attribuer la valeur z\u00e9ro, les bons clients la valeur neuf. Les petites offres de moins de 1 000 euros ont une valeur de un, les grandes offres de plus d'un million d'euros ont une valeur de 25 et toutes les autres ont une gradation fixe entre un et vingt-cinq. On proc\u00e8de de la m\u00eame mani\u00e8re pour les marchandises propos\u00e9es : Marchandise en stock, fabrication \u00e0 l'unit\u00e9, etc. Et ainsi de suite : \u00e0 la fin de ce processus, il y a dix cat\u00e9gories et chaque offre a une valeur par cat\u00e9gorie. Ces dix valeurs peuvent \u00e9galement \u00eatre interpr\u00e9t\u00e9es comme un vecteur (le point de d\u00e9part est le point z\u00e9ro) dans un espace \u00e0 dix dimensions et \u00eatre \u00e9crites comme suit : (5, 9, 3, 7, 11, 2, 42, 15, 6, 102).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Distance euclidienne<\/h2>\n\n\n\n<p>Pour chaque offre, il existe maintenant un vecteur dans l'espace \u00e0 dix dimensions. Il s'agit maintenant de regrouper ces offres en vue d'\u00e9ventuelles mesures de marketing, de chiffres d'affaires attendus ou de commandes anticip\u00e9es de mati\u00e8res premi\u00e8res. L'astuce du regroupement, c'est-\u00e0-dire le processus permettant de former des groupes, consiste \u00e0 d\u00e9terminer les distances (distance) des diff\u00e9rents vecteurs dans l'espace \u00e0 dix dimensions.<\/p>\n\n\n\n<p>Les distances entre les crayons pos\u00e9s sur la table de bureau dans l'espace tridimensionnel sont simples \u00e0 d\u00e9terminer. On mesure la distance avec une r\u00e8gle. Tous les crayons qui se trouvent \u00e0 moins de dix centim\u00e8tres les uns des autres appartiennent \u00e0 un groupe, tous les autres \u00e0 un groupe suivant. (J'entends une contradiction justifi\u00e9e : le clustering est un peu plus complexe, mais le principe vectoriel, tel que l'a pr\u00e9sent\u00e9 J\u00fcrgen M\u00fcller, directeur technique de SAP, reste tr\u00e8s simple).<\/p>\n\n\n\n<p>Chaque vecteur d'offre a pour extr\u00e9mit\u00e9 un point de donn\u00e9es dans l'espace \u00e0 dix dimensions (voir ci-dessus les dix nombres). Les distances euclidiennes sont utilis\u00e9es, entre autres, comme mesures de distance ou de similitude pour mesurer la similitude ou la dissemblance de ces points de donn\u00e9es. Comment calculer la distance des deux points de donn\u00e9es entre l'exemple de vecteur mentionn\u00e9 (5, 9, 3, 7, 11, 2, 42, 15, 6, 102) et une deuxi\u00e8me offre ayant approximativement le vecteur (7, 2, 5, 13, 25, 9, 1, 132, 55, 8) ?<\/p>\n\n\n\n<p>La premi\u00e8re \u00e9tape consiste \u00e0 calculer la diff\u00e9rence respective des points de donn\u00e9es : Premi\u00e8re valeur du premier vecteur d'offre moins la premi\u00e8re valeur du deuxi\u00e8me vecteur, soit : 5 moins 7, 9 moins 2, 3 moins 5, etc. Ces r\u00e9sultats sont \u00e9lev\u00e9s au carr\u00e9 et additionn\u00e9s : -2 au carr\u00e9 est \u00e9gal \u00e0 4, 7 au carr\u00e9 est \u00e9gal \u00e0 49, etc. De la somme des dix nombres au carr\u00e9 (4 plus 49 plus 4 plus 36, etc.), on tire la racine, ce r\u00e9sultat est la distance euclidienne ! Eur\u00eaka !<\/p>\n\n\n\n<p>Il existe donc des relations math\u00e9matiquement d\u00e9finies entre les un million d'offres. Ces distances euclidiennes peuvent maintenant \u00eatre utilis\u00e9es comme mesures de similitude pour le regroupement. Il est ainsi possible de r\u00e9aliser d'excellentes cartes dont les zones (clusters) fournissent des informations imm\u00e9diates sur les pr\u00e9f\u00e9rences, les similitudes et les tendances. Il y a une dizaine d'ann\u00e9es, la maison d'\u00e9dition E3 a r\u00e9alis\u00e9 une telle carte Hana en collaboration avec le professeur Alfred Taudes de l'universit\u00e9 d'\u00e9conomie de Vienne, sur la base d'une enqu\u00eate men\u00e9e au sein de la communaut\u00e9 SAP. (Ce qui \u00e9tait \u00e0 l'\u00e9poque les r\u00e9sultats de l'enqu\u00eate sont dans cet exemple le million d'offres).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Les cartes ne sont pas des IA<\/h2>\n\n\n\n<p>Ce que le directeur technique de SAP, J\u00fcrgen M\u00fcller, a pr\u00e9sent\u00e9 \u00e0 Bangalore lors du TechEd 2023 est d'une tr\u00e8s grande importance pratique. De nombreux clients existants de Hana appr\u00e9cieront l'extension du langage \u00e0 des dimensions sup\u00e9rieures. N\u00e9anmoins, ce qui a \u00e9t\u00e9 pr\u00e9sent\u00e9 est des math\u00e9matiques tr\u00e8s traditionnelles et tr\u00e8s connues. Pr\u00e9senter la distance euclidienne comme une \u00e9tape importante du d\u00e9veloppement de Hana est \u00e9trange.<\/p>\n\n\n\n<p>Compl\u00e9ment : Outre la distance euclidienne, il existe une deuxi\u00e8me unit\u00e9 de mesure. La m\u00e9trique de Manhattan est une mesure de proximit\u00e9, c'est-\u00e0-dire \u00e9galement une mesure de la proximit\u00e9 ou de la distance pour des variables m\u00e9triques telles que la taille, l'\u00e2ge ou le poids. La m\u00e9trique de Manhattan mesure les distances sous forme de distances \u00e0 angle droit, comme lorsque l'on parcourt un syst\u00e8me de rues ou que l'on prend un taxi. En revanche, la distance euclidienne mesure la distance directe, la plus courte, en diagonale (\u00e0 vol d'oiseau). Les deux m\u00e9thodes peuvent \u00eatre utilis\u00e9es pour g\u00e9n\u00e9rer des clusters pour une carte de l'offre. <a href=\"https:\/\/welt-der-bwl.de\/Manhattan-Metrik\" data-type=\"link\" data-id=\"https:\/\/welt-der-bwl.de\/Manhattan-Metrik\" target=\"_blank\" rel=\"noopener\">Source<\/a><\/p>","protected":false},"excerpt":{"rendered":"<p>Le clustering, c'est-\u00e0-dire la recherche de similitudes, peut souvent cr\u00e9er des moments tr\u00e8s \u00e9clairants pour de grandes quantit\u00e9s de donn\u00e9es. L'astuce repose sur le calcul de la distance euclidienne et peut \u00e9galement \u00eatre r\u00e9alis\u00e9e sans Hana uniquement sous forme de simple calcul mental.<\/p>","protected":false},"author":2,"featured_media":132122,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[27840],"tags":[65,624,1175],"coauthors":[27825],"class_list":["post-133777","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-chefredakteur-blog","tag-hana","tag-ki-joule","tag-teched","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-150x150.jpeg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-400x180.jpeg",400,180,true],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-768x346.jpeg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-100x45.jpeg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-480x216.jpeg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-640x288.jpeg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-720x324.jpeg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-960x432.jpeg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-18x8.jpeg",18,8,true],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu.jpeg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-600x270.jpeg",600,270,true],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-600x450.jpeg",600,450,true],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-24x24.jpeg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-48x48.jpeg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-96x96.jpeg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-150x150.jpeg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2023\/09\/Chefredakteur-neu-300x300.jpeg",300,300,true]},"post_excerpt_stackable_v2":"<p>Das Clustern, also das Finden von \u00c4hnlichkeiten, kann f\u00fcr gro\u00dfe Datenmengen oft sehr erhellende Momente schaffen. Der Trick beruht auf der Berechnung der euklidischen Distanz und kann auch ohne Hana nur als simple Kopfrechnung erfolgen.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/fr\/categorie\/redacteur-en-chef-blog\/\" rel=\"category tag\">Chefredakteur-Blog<\/a>","author_info_v2":{"name":"Peter M. F\u00e4rbinger, E3 Magazine","url":"https:\/\/e3mag.com\/fr\/author\/peter-m-faerbinger-e-3-magazin\/"},"comments_num_v2":"0 commentaire","_links":{"self":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/133777","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/comments?post=133777"}],"version-history":[{"count":5,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/133777\/revisions"}],"predecessor-version":[{"id":134210,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/posts\/133777\/revisions\/134210"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media\/132122"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/media?parent=133777"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/categories?post=133777"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/tags?post=133777"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/fr\/wp-json\/wp\/v2\/coauthors?post=133777"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}