元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。 元数据被认为是数据治理的基石,元数据治理贯彻数据产生、加工、消费的全过程,沉淀了数据资产,搭建了技术和业务的桥梁。本文介绍什么是元数据和元数据管理,以及常用的元数据管理策略、方法和技术 元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、来源、版本和其他信息,主要用于跟踪、分类和分析。 元数据大致定义为提供有关其他内容的信息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解数据的含义,对于确保遵守法规和数据治理计划至关重要。 最基本的文本文档的元数据是 作者, 文件大小, 创建日期, 修改日期。 音乐的元数据可能是 歌手, 专辑, 轨道持续时间, 比特率等。 图像的元数据可能是 分辨率, 尺寸, 焦距, 颜色配置文件等。 元数据提供数据的来源、含义、位置、所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度等信息。它有助于数据的分类、组织、标记、排序和搜索。 元数据存储库是存储和管理元数据的数据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。以下是元数据的作用: 按照不同应用领域或功能,元数据一般大致可分为:业务元数据、技术元数据和操作元数据、管理元数据 例如,销售主题的指标体系如下所示,通常包含业务、技术、操作和管理四部分属性内容: ①业务元数据:业务元数据定义数据的业务含义、业务规则等;消除数据二义性,让用户对数据有一致的业务认知,为数据分析和应用提供有力支撑; ②技术元数据:技术元数据明确数据的存储、结构,为应用开发和系统集成奠定基础;通过技术元数据厘清数据关系,支持数据血缘追溯和影响分析; 数据清洗元数据:数据清洗,主要目的是为了解决掉脏数据及规范数据格式。因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。 数据处理元数据:数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。 ④管理元数据:管理元数据定义数据的操作属性,包括管理部门、管理责任人等;有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。 元数据是描述数据的数据。如何理解? 现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢? 这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXXX,由国家统计的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。 在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。当然,为了管理方便,我们同样还能将上述元数据进行归类 01 什么是元数据管理 02 元数据管理的目标 举个例子,将图书馆的图书类比为数据资产:元数据管理的工作是创建图书目录、索引和用户指南,辅助读者进行书籍快速查找和数据阅读。 目前很多企业没有完整的数据治理规划,导致关键信息缺失,元数据的获取比较困难等,因此需要对元数据管理进行整体规划,以更好实现元数据的获取和管理。企业元数据管理需要以业务需求为目标,主要包含: ❖ 元数据治理:实现企业元数据的统一治理,为企业的数据应用开发提供可复用的数据模型和元数据标准。 ❖ 数据治理提升:统一的元数据管理为数据稽查、数据质量管理打下良好的基础,实现数据治理能力和质效的提升。 ❖ 数据资产编目:基于元数据管理实现数据资产分布和数据关系的梳理,快速形成企业数据资产编目;提高数据资产管理效率及应用能力。 03 元数据管理的挑战 尽管企业越来越意识到元数据管理的重要性,但是在实际的数据治理中,元数据管理技术和方法仍面临着很多挑战 企业数据治理及数据资产流转过程中都会涉及到元数据的管理,包括对数据源、数据湖、数据仓库、数据资产、应用层、BI展示层所对应的元数据进行统一的管理。 企业在确立了元数据管理的目标之后,进行元数据规划以及元数据管理策略的制定。主要包括以下内容: ❖ 元数据管理的基本策略: ①坚持以易用、实用、易理解、准确为基本原则; ②支持异构系统之间元数据标准统一,支持互操作; ③面对复杂多变数据环境支持元数据管理的扩展性。 ❖ 元数据的梳理: 根据不同分类框架对元数据进行梳理,通常有以下两种方式,在实际的元数据管理过程中,企业通常需要根据业务需求,两种梳理方式相结合,来构建企业级的元数据地图。 ①站在业务视角梳理:基于企业的业务域或管理域、从业务主题、实体、数据模型等逐层递进分解梳理,形成企业数据目录,通过这种方式形成的元数据易于业务人员理解和使用; ②站在技术视角梳理:通过对数据源对应的IT系统、数据表、数据结构进行分析和梳理,形成企业数据目录;通过这种方式形成的元数据便于IT技术人员理解和使用 ❖ 元数据的定义:对元数据的业务属性、技术属性、管理属性进行标准的定义,主要是描述元数据各属性内容:例如名称、用途、存储位置、历史数据、更新时间等。 ❖ 元数据的采集:通过元数据管理平台中自动化采集能力,对元数据进行识别和获取,包括缺乏原始元数据信息的老旧系统,通过人工进行元数据的补充后,实现统一管理。 ❖ 元数据的管理:在完成对分散在各业务系统中的元数据采集、梳理后,建立技术元数据、业务元数据、管理元数据的映射,形成企业级元数据地图并支持多版本管理。 ❖ 元数据的应用:支持元数据查询、元数据报表以及元数据分析,通过元数据管理平台对相关用户分配相应的元数据使用权限。 ❖ 元数据的变更:各业务系统数据源等信息会随时发生变化,企业可以采用自动识别和主动申请元数据变更两种方式,来落实元数据的变更与新版本的发布 05 元数据管理的保障体系 企业基于数据治理整体框架,建立元数据管理体系,需要从组织保障、运营制度、业务流程、管理平台等方面确保元数据的落地和持久化运营,帮助企业管理好元数据,使用好元数据。 ❖ 组织保障:组织保障:建立高层支持、中层管理、基础执行三层级专业化数据治理组织,为元数据管理工作提供组织保障。 ❖ 制度保障:元数据管理是企业数据治理基础,需制定配套的管理制度、奖罚措施进行日常运营管理,这是元数据管理持续推进的动力之一。 ❖ 流程保障:确立元数据从产生、定义、发布、变更维护等全过程管理流程,确保元数据管理持续高效推进。 ❖ 管理平台:搭建统一的元数据管理平台,实现企业级元数据集中管控,支持元数据采集、元数据管理、元数据共享等,为元数据管理提供技术保障。 06 元数据的管理工具 谈到元数据管理时,要考虑的最重要的事情之一就是使用的工具。毕竟,即使有定义最明确的元数据治理政策和程序,但如果没有合适的工具来管理和实施它们,努力就会功亏一篑。 首先,市场上有太多的选择。从 Apache Atlas 和 Metadata Repository 等开源产品到 Informatica MDM、Collibra 和 Alation Data Catalog 等商业产品。每个工具都有自己的一组特性和功能,因此进行研究并找到最适合组织需求的工具非常重要。下面,列出了其中一些工具以及提供它们的公司 1)Atlan:主动元数据管理 Atlan是“为云时代重塑数据管理的公司”,是领先的主动元数据管理平台。它们提供个性化的元数据体验、强大的协作功能和开放的 API 架构以支持更强大的连接性。 主要的 Atlan 主动元数据管理产品是数据发现,列级沿袭,数据治理,数据词汇表等。Atlan 用户认可该平台精心构建的搜索功能、无缝集成、用户友好的界面、协作支持以及供应商的客户服务。消费者还欣赏该平台如何帮助管理数据质量和创建自定义元数据。很少有抱怨与个别用例缺乏功能有关。 2)Collibra:针对各种工作流的复杂数据治理 Collibra提供数据智能云平台,可简化和自动化关键数据管理方面。它在 IDC MarketScape 中被定位为领导者:全球数据目录软件 2022 供应商评估。其产品套件包括数据目录,数据治理,数据隐私,数据沿袭,数据质量和可观察性。 大多数用户报告说 Collibra 平台非常适合数据治理,可以针对多个工作流管理进行定制,并与第三方工具很好地集成。然而,评论指出它不是非常用户友好并且需要大量的技术专业知识才能实施 3)Alation:支持自助服务分析和 BI Alation是一家行业公认的提供商,其数据管理解决方案主要侧重于推动自助服务分析、数据治理和云数据迁移。 Alation 通过其数据治理应用程序和数据目录工具支持主动元数据管理。该平台有助于捕获、组织、理解、检索和交换元数据。它充当所有公司数据的数据库,允许用户运行查询,然后在分析和BI 工具中使用这些查询。您还可以利用数据沿袭、影响分析和其他方便的功能。 4)Informatica:具有基于机器学习的数据编目功能的数据管理软件 Informatica是另一个成熟的数据管理系统——智能数据管理云(IDMC)的供应商。它支持数据集成、数据质量、主数据管理以及元数据管理等其他方面。 其屡获殊荣的企业数据目录工具建立在基于机器学习的发现引擎之上,可跨多个来源扫描和编目数据资产。它为数据消费者提供强大的搜索功能,自动关系发现,详细的数据沿袭,分析统计,数据质量记分卡,数据相似性建议,影响分析功能,以及综合业务词汇表。活动元数据作为 IDMC 的统一基础,推动进一步的分析和其他数据管理流程。用户特别强调数据管理和自动更正功能以及一般的易用性,尽管有些人指出功能列表不足和平台性能不佳。 06 元数据的应用 1)数据资产地图 2)元数据血缘分析 总结01
什么是元数据
02
元数据的作用
03
元数据的分类
04
元数据的管理
05