{"id":64047,"date":"2020-01-09T10:00:32","date_gmt":"2020-01-09T09:00:32","guid":{"rendered":"http:\/\/e3mag.com\/?p=64047"},"modified":"2020-02-07T19:35:33","modified_gmt":"2020-02-07T18:35:33","slug":"los-datos-tecnologicos","status":"publish","type":"post","link":"https:\/\/e3mag.com\/es\/die-technik-data\/","title":{"rendered":"La tecnolog\u00eda de un lago de datos"},"content":{"rendered":"<p>En general, yo dividir\u00eda las opciones de almacenamiento de datos en tres categor\u00edas. Ficheros: los datos se almacenan como simples ficheros y se utilizan como tablas.<\/p>\n<p>Estos archivos deben contener informaci\u00f3n sobre la estructura y tambi\u00e9n deben estar indexados. El formato de archivo Parquet es representativo de esta categor\u00eda.<\/p>\n<p>Proceso de base de datos: En lugar de trabajar directamente con los archivos, hay un servicio activo en la parte superior que se siente como una base de datos. Se encarga de almacenar en cach\u00e9 los datos de uso frecuente y puede consultarse a trav\u00e9s de ODBC\/JDBC. Un representante t\u00edpico de este tipo en el mundo de los macrodatos es Apache Hive.<\/p>\n<p>En memoria: Para obtener el m\u00e1ximo rendimiento, todos los datos se almacenan en memoria, se indexan y se utilizan para construir algo similar a Hana. Exasol y SAP Vora funcionan seg\u00fan este principio.<\/p>\n<p>El mundo del big data vive \u00fanicamente del hecho de que muchos servidores peque\u00f1os (y por tanto baratos) forman un sistema global. Esto permite un escalado infinito, con costes de hardware que solo aumentan linealmente.<\/p>\n<p>Pero cuantos m\u00e1s nodos forman el sistema global, m\u00e1s cara resulta su sincronizaci\u00f3n. Un enlace (\"join\") de tres o incluso m\u00e1s tablas puede suponer que cada nodo tenga que buscar los resultados intermedios apropiados del enlace anterior y que la consulta se prolongue durante horas.<\/p>\n<p>Este problema se denomina \"redistribuci\u00f3n\". Por supuesto, el hecho de que los datos se almacenen en memoria no ayuda a la hora de redistribuir los resultados provisionales a trav\u00e9s de la red.<\/p>\n<p>Hana, en cambio, es una aut\u00e9ntica base de datos. Es incre\u00edblemente r\u00e1pida en las b\u00fasquedas. El rendimiento de las uniones es estupendo y la consistencia de las transacciones es total al leer y escribir. Todo esto requiere mucha sincronizaci\u00f3n.<\/p>\n<p>Sin embargo, una base de datos de este tipo no escala infinitamente. Muchos proyectos resuelven el dilema de la \"reorganizaci\u00f3n\" almacenando los datos de forma optimizada para determinadas consultas. Esto, a su vez, reduce la flexibilidad y aumenta los costes, es decir, precisamente los puntos que en realidad se pretend\u00edan como ventajas de un lago de datos.<\/p>\n<p>El esfuerzo de sincronizaci\u00f3n de la coherencia de las transacciones es un problema l\u00f3gico. No puede resolverse sin imponer requisitos m\u00e1s blandos, como la \"coherencia eventual\".<\/p>\n<p>Este problema se conoce como el teorema CAP. De los tres requisitos Consistencia-Disponibilidad-Partici\u00f3n, nunca se pueden alcanzar todos los puntos, especialmente en caso de error.<\/p>\n<p>Un sistema distribuido y de alta disponibilidad tiene que hacer concesiones en t\u00e9rminos de coherencia de los datos, mientras que un sistema de base de datos transaccional tiene que hacer concesiones en t\u00e9rminos de disponibilidad o escalabilidad.<\/p>\n<p>Los datos disponibles en Big Data son datos en bruto que se convierten en informaci\u00f3n mediante transformaciones no SQL, por lo que un almac\u00e9n de datos basado en Big Data con consultas SQL no tiene sentido.<\/p>\n<p>El lago de datos es el patio de recreo del cient\u00edfico de datos. Esta persona tiene f\u00e1cil acceso a datos que antes se eliminaban o eran de dif\u00edcil acceso.<\/p>\n<p>El cient\u00edfico de datos puede enfrentarse a todos los problemas que plantea la tecnolog\u00eda de big data: Sem\u00e1ntica de los datos; rendimiento lento; y, qu\u00e9 datos hay. \u00bfMezcla de big data y datos empresariales? Ning\u00fan problema para \u00e9l.<\/p>\n<p>Acoplar Hana con Vora no tiene mucho sentido desde este punto de vista. Ambos almacenan los datos en memoria y permiten b\u00fasquedas r\u00e1pidas, con los costes correspondientes. Ambos tienen almacenamiento en caliente en disco (base de datos Sybase), ambos se centran en consultas SQL. Adem\u00e1s, Vora ya no figura en la lista de precios de SAP como producto independiente.<\/p>\n<p>En cambio, los archivos parquet y una base de datos se complementan a la perfecci\u00f3n. Los archivos parquet de un lago de datos no cuestan pr\u00e1cticamente nada de almacenar, mientras que el espacio de almacenamiento en la base de datos es caro.<\/p>\n<p>Una base de datos como Hana est\u00e1 excelentemente adaptada para las uniones y las consultas SQL complicadas; para un cl\u00faster inform\u00e1tico, son precisamente estas operaciones las m\u00e1s complejas.<\/p>\n<p>La combinaci\u00f3n de ambas permite realizar consultas r\u00e1pidas de inteligencia empresarial y acceder c\u00f3modamente a todos los datos en bruto. Ambos aportan sus puntos fuertes.<\/p>","protected":false},"excerpt":{"rendered":"<p>En un almac\u00e9n de datos, los datos se almacenan en una base de datos relacional. Esto es costoso y, en consecuencia, existen productos del mundo del Big Data que parten de aqu\u00ed. Parquet, Hive, SAP Vora y Exasol son los representantes m\u00e1s conocidos en el entorno SAP.<\/p>","protected":false},"author":1891,"featured_media":62136,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"pmpro_default_level":"","footnotes":""},"categories":[7,37003,36004],"tags":[210,6062,338],"coauthors":[36006],"class_list":["post-64047","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meinung","category-mag-1912","category-smart-big-data-integration","tag-big-data","tag-data-scientist","tag-sql","pmpro-has-access"],"acf":[],"featured_image_urls_v2":{"full":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"thumbnail":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",400,180,false],"medium_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-768x346.jpg",768,346,true],"large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-100":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-100x45.jpg",100,45,true],"image-480":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-480x216.jpg",480,216,true],"image-640":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-640x288.jpg",640,288,true],"image-720":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-720x324.jpg",720,324,true],"image-960":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-960x432.jpg",960,432,true],"image-1168":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1440":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"image-1920":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"1536x1536":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"2048x2048":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"trp-custom-language-flag":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",18,8,false],"bricks_large_16x9":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_large_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",1000,450,false],"bricks_medium":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"bricks_medium_square":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration.jpg",600,270,false],"profile_24":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-24x24.jpg",24,24,true],"profile_48":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-48x48.jpg",48,48,true],"profile_96":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-96x96.jpg",96,96,true],"profile_150":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-150x150.jpg",150,150,true],"profile_300":["https:\/\/e3mag.com\/wp-content\/uploads\/2019\/08\/Smart-and-Big-Data-Integration-300x300.jpg",300,300,true]},"post_excerpt_stackable_v2":"<p>Beim Data Warehouse liegen die Daten in einer relationalen DB. Das ist teuer und entsprechend gibt es Produkte aus der Big-Data-Welt, die hier ansetzen. Parquet, Hive, SAP Vora und Exasol sind die bekanntesten Vertreter im SAP-Umfeld.<\/p>\n","category_list_v2":"<a href=\"https:\/\/e3mag.com\/es\/category\/meinung\/\" rel=\"category tag\">Die Meinung der SAP-Community<\/a>, <a href=\"https:\/\/e3mag.com\/es\/category\/mag-1912\/\" rel=\"category tag\">MAG 19-12<\/a>, <a href=\"https:\/\/e3mag.com\/es\/category\/meinung\/smart-big-data-integration\/\" rel=\"category tag\">Smart &amp; Big Data Integration<\/a>","author_info_v2":{"name":"Werner D\u00e4hn, rtdi.io","url":"https:\/\/e3mag.com\/es\/author\/werner-daehn\/"},"comments_num_v2":"0 comentarios","_links":{"self":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts\/64047","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/users\/1891"}],"replies":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/comments?post=64047"}],"version-history":[{"count":0,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/posts\/64047\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/media\/62136"}],"wp:attachment":[{"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/media?parent=64047"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/categories?post=64047"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/tags?post=64047"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/e3mag.com\/es\/wp-json\/wp\/v2\/coauthors?post=64047"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}