数据治理：将数据从源头进行清洗

449 阅读 0 评论 2 点赞

数据一切都与技术的集中化有关。数据安全地存储在企业大型机上，只有具备导航预处理数据库技能的程序员才能访问它。差不多四十年后，所有这些都与数据民主化和强大的数据治理战略的需求有关。

在当天，业务分析师必须与IT部门联手，因为他们不知道如何导航信息管理系统数据库，即使他们可以也不会被授予访问权限，IT部门打印出月度报告并分发它们。

随着个人计算机的出现，权力的平衡从根本上发生了变化。突然之间，商人可以访问电子表格，并可以创建自己的计算和分析，即使数据仍然大部分无法触及。然后是客户端/服务器计算和急于分散数据，带来了新的可能性，但也因为不同部门使用不同版本的数据而产生混淆。分析师争论谁的版本是正确的。分析现在可以由业务分析师完成，但未就数据源的合法性达成一致，随之而来的是混乱。

IT部门使用数据仓库进行响应，数据仓库会在断开连接的交易系统中收集数据，仅用于分析。出现了聪明的报告工具，可以更容易地操作，加入和汇总原始交易表，甚至可以将它们下载到电子表格中。当然，原始数据仍然存储在不同的应用程序和格式中，但是通过足够的努力，数据仓库可以被用来以理解所有这些，提供客户，产品，资产和位置等维度。但是，要实际生成一致的客户和产品列表，必须解决底层系统的不一致问题。

主数据管理（MDM）诞生了，与此同时，还需要数据治理策略。业务用户被鼓励或哄骗决定哪些客户和产品的分类是“黄金记录”，要在整个企业中高举，哪些将被投入到部门特定的本地术语的荒野中。这是一个经常激烈的过程，不同的部门争论哪个是分类数据的最佳方式。一些公司文化比其他文化更适合这种方法。高度集中的公司习惯于从高度但分散的方式决定结构，并且努力保持在数据治理结构中。这些公司的分析师认为自己是自由战士，而中央办公室的分析人员则认为他们是数据恐怖分子。

很明显，至少在很多公司中，自由战士现在方兴未艾。这标志着数据准备工具的市场不断增长。这些产品能够访问来自各种来源的数据，包括传统数据库，应用程序包，Excel或企业防火墙外的应用程序。它们支持一些数据质量技术，例如分析，并使业务用户能够设置数据转换，并通过可重复的工作流程自动执行此类提取，数据清理和转换。这些工具拥有自己的分析工具，或者可以调用最新的可视化和数据挖掘产品，使分析师能够根据自己的内容处理数据。

如果企业数据仓库和MDM正在开展工作，那么这样的市场就不会存在。数据准备，质量检查和转换正是准备将数据输入数据仓库的准备。问题是公司数据仓库已超出其自然限制。数据现在来自各种各样的来源，其中许多来自企业之外，并且在这样的数量中，传统的数据管理方法正在崩溃。

电子商务系统可以生成如此大小的网络流量日志，使得普通数据库不能处理该处理。车辆和机械上的传感器现在产生大量的流数据：波音787每次飞行产生几乎1TB的数据。在其他行业中也是如此，汽车，家庭智能电表甚至道路上的传感器都会产生大量数据进行分析。所有这些都是传统企业数据的补充，以及来自业务合作伙伴和数据经纪人的数据。有这么多数据出现在你面前，谁有时间讨论不同客户分类层次结构的优点？

公司需要以某种方式收回对这种快速流动的数据流的控制，如果他们要理解它的话。如果没有办法深入了解并深入了解数据湖泊，数据湖泊将成为数据沼泽。数据治理策略可能不是一个感性的主题，但它是需要发生的事情的核心。那些使用新工具构建自己的提取和转换的分析师需要帮助决定如何管理数据，因为如果你不能就底层数据是否值得信任达成一致，所有漂亮的图表和AI工具都没有任何意义。

在没有某种结构的情况下，我们将回到过去，分析师互相争吵，并争论谁的数据是正确的。将数据精灵放回瓶子中将是困难的并且需要纪律，但是在所有太多的组织中，现在感觉混乱而不是管理。它不是要从高层实施规则，而是要在整个组织层面嵌入分析和数据管理规则。否则，可能会忽略有价值的业务见解，并失去竞争优势。

既然我们已经知道了数据治理对于现在这样一个数据大爆炸的时代有这么重要，那么其实作为企业要想在公司前进的每一步都走得稳走得准，那么就要求公司在每一个决策上面都要做好准备，而决策—这样一个有着太多不确定因素的决定，要想降低其的不稳定性，那么就要将其建立在可靠的数据分析上面。试问利用“浑浊”的数据做出来的数据分析能否支持公司高层，让其做出更安全更有效的决策呢？

答案是否定的！

那么怎么去做数据治理呢？利用公司的研发部门去在很短的时间里面上线一款适合自己公司的数据治理工具吗？这种费时费力的事情不适合大多数公司来进行，因为对于他们来说集中精力于自己公司所属于的方向是极其重要的，那么选择一款适合企业自身的数据治理工具就极其重要了！

点赞(2) 打赏

本文分类：数据治理
本文标签：数据清洗筛斗数据治理筛斗数据清洗
浏览次数：449 次浏览
发布日期：2024-03-06 16:54:31
本文链接：https://www.shaidou.net/shujuzhili/134.html

数据治理：将数据从源头进行清洗

信息技术与数据安全：打造高效、安全的数据处理系统

构建可靠的数据管道：从数据提取到清洗的全流程指南

数据清洗的重要性：提升大数据分析准确性的关键步骤

数据治理与信息技术：确保数据提取与清洗的质量