Data Fabric(数据结构)早在2000年中期,Forrester公司的分析师Noel Yuhanna最早定义了Data Fabric。从概念上讲,大数据结构本质上是一种元数据驱动的方式,将不同的数据工具集合连接起来,以一种有凝聚力的自助方式解决大数据项目的关键痛点。具体而言,数据结构解决方案在数据访问、发现、转换、集成、安全、治理、脉络和协调等领域提供能力。图谱也经常被用来连接数据资产和用户。Data Fabric概念的背后是简化数据访问和管理的方式,在一个越来越多的异质环境中,包括交易和运营数据存储、数据仓库、数据湖和湖泊房屋,这种势头正在形成。企业正在建立更多的数据孤岛,而不是更少,随着云计算的发展,围绕数据多样化的问题比以往任何时候都大。A data fabric consists of multiple data management layers (Image source: Eckerson Group)通过一个单一的数据结构覆盖在各种数据存储库之上,一个组织可以为不同的数据源和下游消费者(包括数据管理员、数据工程师、数据分析师和数据科学家)带来某种形式的统一管理。但需要注意的是,管理是统一的,而不是实际的存储,存储仍然是分散的。一些工具供应商,包括Informatica和Talend,提供了一个从头到尾的数据结构,包含了上面讨论的许多功能,而其他的工具,如Ataccama和Denodo,提供了数据结构的特定部分。谷歌云也是数据结构方法的支持者,其新的Dataplex产品。数据结构中的各种组件之间的整合通常是通过API和通用的JSON数据格式来处理。
02
Data Mesh(数据网格)虽然Data Mesh的目的是解决许多与数据结构相同的问题——即在异构数据环境中管理数据的困难——但它以一种根本不同的方式处理这个问题。简而言之,Data Fabric试图在分布式数据之上构建一个单一的虚拟管理层,Data Mesh则鼓励分布式团队以他们认为合适的方式管理数据,尽管有一些共同的治理规定。Data Mesh的概念最早是由Zhamak Dehghani提出的,他现在是Thoughtworks北美next科技孵化项目的主管。 Dehghani在2019年5月的报告 “如何超越单体数据湖,走向分布式数据网格 “中阐述了Data Mesh的许多原则和概念,随后她又在2020年12月发布了题为 “Data Mesh原则和逻辑架构 “的报告。The logical architecture of the data mesh approach (Source: Zhamak Dehghani)正如我们在今年早些时候所写的那样,驱动数据网格的核心原则是纠正数据湖和数据仓库之间的不一致。第一代数据仓库旨在存储大量结构化数据,供数据分析师用于回溯SQL分析,而第二代数据湖主要用于存储大量非结构化数据,供数据科学家用于构建预测机器学习模型。Dehghani提到了以实时数据流和云服务为标志的第三代系统(Kappa),但它并没有解决第一代和第二代系统之间潜在的可用性差距。许多组织构建和维护精心设计的ETL数据管道,试图保持数据同步。这也推动了对“超专业数据工程师”的需求,他们的任务是维护拜占庭式系统的工作。Dehghani对这个问题提出的关键见解是,数据转换不能由工程师硬连接到数据中,而应该是一种过滤器,应用于所有用户可用的公共数据集。因此,不是构建一组复杂的ETL管道来将数据移动和转换到专门的存储库中,以便各种社区可以对其进行分析,而是以其大致的原始形式保留数据,并且一系列特定于领域的团队在将数据塑造成产品时拥有该数据。Dehghani的分布式数据网格解决了这一问题,其新架构具有四个主要特征:
Mesh Vs. Fabric正如我们所看到的,数据网格和数据结构方法之间有相似之处。然而,也应该考虑到一些差异。根据Forrester的Yuhanna的说法,数据网格和数据结构方法之间的关键区别在于如何访问API。“数据网格基本上是一种API驱动的(解决方案),不像(数据)结构,”Yuhanna说。“[数据结构]与数据网格相反,在数据网格中,你要为API编写接口代码。另一方面,数据结构是低代码、无代码的,这意味着API集成是在结构内部进行的,而不是直接利用它,这与数据网格相反。”詹姆斯•塞拉(James Serra)是安永(ernst and Young)的数据平台架构主管,曾在微软担任大数据和数据仓库解决方案架构师。对于他来说,这两种方法的区别在于用户访问它们的方式。Serra在6月份的一篇博客文章中写道:“数据结构和数据网格都提供了一种架构,可以跨多种技术和平台访问数据,但数据结构以技术为中心,而数据网格则侧重于组织变革。”“数据网格更多的是关于人和过程,而不是架构,而数据结构是一种架构方法,它以一种智能的方式处理数据和元数据的复杂性,并能很好地协同工作。”根据Eckerson Group分析师David Wells的说法,你可以同时使用数据网格和数据结构,甚至是数据中心,“首先,它们是概念,而不是实物,”Wells在最近的一篇博客文章《Data Architecture: Complex vs Complicated.》中写道。“作为架构概念的数据中心不同于作为数据库的数据中心。”其次,它们是组成部分,而不是替代品。对于架构来说,同时包含数据结构和数据网格是可行的。它们并不相互排斥。最后,它们是体系结构框架,而不是体系结构。在框架根据您的需求、数据、流程和术语进行调整和定制之前,您还没有体系结构。”数据网格和数据结构在大数据领域都占有一席之地。在寻找架构概念和架构来支持您的大数据项目时,一切都归结为找到最适合您自己特定需求的架构。来源:人与数据 END 行业知识交流分享,结识扩展人脉圈层 公众号后台回复【数字金融】可受邀加入【金融数字化交流群】