释放数据生态系统的全部潜力:了解数据湖引擎、数据虚拟化和数据编织之间的区别
- 2024-09-18 17:15:47上传人:pa**路人
-
Aa
小
中
大
在当今数据驱动的世界中,很多企业都在生成大量数据,这些数据经过有效分析后,可以提供有价值的见解。为了实现这一目标,组织需要一种能够处理数据集成、数据管理和数据交付的强大数据基础设施。目前,有三种流行的方法可为用户提供对数据的快速访问:数据湖引擎、数据虚拟化和数据编织。虽然数据湖引擎可以提供方便、可扩
- 支持跨环境的逻辑数据访问,而不是总是采用点对点物理数据复制。但从数据虚拟化转变为数据编织,
- 还需要很多其他功能。
- © 2023 Denodo Technologies
- 最小支持 最大支持
- 数据湖引擎 经典数据虚拟化 数据
- 编织
- 1. 数据访问层
- 2. 数据湖查询优化
- 3. 联合和分布式查询引擎
- 4. 数据复制(持久性)
- 5. 元数据存储库
- 6. 安全和治理层
- 7. 使用层
- 8. 通用语义层
- 9. 设计界面和工具
- 10. 增强数据目录
- 11 . 主动元数据
- 12. 推荐引擎
- 13. 数据准备和交付层
- 14. 编排和 DataOps
- 1. 数据访问层 可以简化对来自多个源的数据的访问和集成(通常通过 SQL ),即便这些源可能并非原生支持
- SQL 。它还可为数据使用者提供一致、统一的数据视图,而不管底层数据源的位置或格式如何。数据访问
- 层包括用于连接到各种数据源(如数据库、应用程序、 API 或 Web 服务)的连接器或适配器。在评估不
- 同技术时,需要查看可用连接器、其下推功能的复杂性,以及它们支持的系统类型。您肯定不希望向可能
- 不支持您当前或未来所有数据源的解决方案投资。
- 2. 数据湖查询优化 可以优化针对数据湖执行的查询,确保查询高效执行,并且具有可接受的性能水平。技术
- 包括大规模并行处理 (MPP) 和不同风格的查询加速。在选择其中某一工具时,数据湖查询优化是一项重
- 要考虑因素,因为它能改善查询性能、降低数据传输成本,并提高整体系统效率。请注意,数据湖引擎的
- 设计决定了当数据湖是主要信息源时其通常可非常高效地运行,但在分布式环境中性能会下降。请务必了
- 解您的全部或大部分数据是否都位于数据湖中,如果答案是否定的,可能对性能产生什么影响。
- © 2023 Denodo Technologies
- 3. 联合和分布式查询引擎 使用户能够访问和查询来自多个源的数据,仿佛一切都来自单个数据库。此类查询
- 引擎可以处理跨多个数据源的查询,并将结果合并到可返回给用户的单个结果集中。它们可以访问和集成
- 来自不同类型来源的数据,包括数据库、应用程序、 Web 服务和数据湖。联合查询引擎负责识别相关数据
- 源、检索所需数据,并将结果合并到单个视图中。除了具有与独立查询加速器相同的多种技术以外,联合
- 查询引擎还将提供其他经过专门设计和优化的技术,以跨多个数据源运行,如高级查询下推、查询重写、
- 查询加速及缓存。
- 4. 数据复制(持久性) 是指创建和管理数据副本。复制可以采用多种形式:用于点对点复制的提取 -转换 -加载
- (ETL) 流程、用于数据湖或数据湖库内操作的提取 -加载 -转换 (ELT) 流程、来自外部 API 的微批处理、从
- 流式传输通道摄取,以及缓存和加速结构。每种应用场景都不相同,现代架构必须提供技术灵活性,以创
- 建、管理和执行这些复制任务。
- 5. 元数据存储库 是存储有关数据源的元数据(如其架构、数据类型、数据统计信息和关系)的集中式组件。
- 它还提供有关使用者数据模型的信息,如它们与源的映射、它们的沿袭和转换。元数据存储库还可以存储
- 活动元数据(请参阅下面的 “主动元数据 ”)。它不仅是查询优化器的基础,也是数据治理流程(如管理更
- 改、设置安全性以及某些自助服务功能,这些功能将在其他部分中深入描述)的基础。
- 6. 安全和治理层 提供高级机制,用于管理身份验证和对特定数据的访问。例如,如果列被标记为个人身份信
- 息 (PII) ,则可以将权限设置为不共享该信息,或仅与某一授权用户子集共享。这是一个非常注重细节的
- 领域。请务必了解您考虑的解决方案是否支持高级功能,如基于属性的访问控制 (ABAC) 系统,以强制执
- 行数据访问的安全策略。策略引擎定义并强制执行安全策略,这些策略可以根据各种因素(包括数据敏感
- 性、用户角色和业务需求)进行配置。了解您所考虑的工具是否可与贵组织的现有安全和治理工具集成也
- 很有必要。
- 7. 使用层 可为数据使用者提供对所有数据的集中访问。此层将以最终用户的首选形式向其提供数据。大多数
- 系统会为 SQL 查询提供 JDBC 或 ODBC 支持,但要考虑所有潜在使用者,以及是否需要更多选项。其
- 他选项包括 ADO.NET 、MDX 、RESTful Web 服务、 OData 、GraphQL 、GeoJSON 、导出到 Microsoft
- Excel/SQL 、订阅 Kafka ,以及 JMS 消息队列等。
- 8. 通用语义层 可以提供多种功能,用于定义更易于最终用户使用和理解的数据结构。有多种与语义建模相关
- 的功能,如用易记名称和描述定义派生数据模型、公司指标定义、标记和分类、治理控制(如背书或弃
- 用)、数据质量标签等等。这些功能拥有一个共同目标,即通过使数据更易于理解和使用,实现数据访问
- 民主化。如果这是贵组织的一个重要目标,那么语义绝对应该是您评估中的一项关键标准。
- 9. 设计界面和相关工具 有助于管理系统。从仅命令行工具 (command-line-only tools) ,到使数据工程师和最
- 终用户能够轻松与系统交互的 Web UI ,各供应商提供的产品功能差异很大。考虑哪种类型的界面对您来
- 说使用舒适,但请记住,如果您计划将数据民主化以供整个组织的所有人员使用,则应确保该工具对于所
- 有潜在用户而言足够直观。
- 10. 增强数据目录 提供整个组织内数据资产的集中、可搜索的清单,以及元数据、数据沿袭和有关数据的其他
- 信息。增强数据目录根据数据资产的内容和结构对其进行自动分类和标记。它们还使数据管理员和分析师
- 能够使用其他信息(如业务定义、数据质量指标和使用信息)手动标记和注释数据资产。它们使用户能够
- 快速轻松地发现和访问整个组织中的数据资产,从而实现更好的协作和决策。
- © 2023 Denodo Technologies