Gartner将暗数据定义为“组织在常规业务活动期间收集、处理和存储的信息资产,但通常不能用于其他目的。”

组织存储数据的原因有很多,通常是为了记录和法规遵从性。但是,也有一种趋势,即囤积可能成为有价值的数据。最后,大多数公司甚至从不将存储的一小部分数据用于任何目的,因为这些数据可能变得不可访问。这可能是因为存储库没有适当地记录元数据标签,一些数据的格式是集成工具无法读取的,或者数据无法通过查询检索。(对于扫描的文档、语音记录、视频和某些形式的机器生成的数据)

 

组织在正常操作期间定期存储的未开发数据称为暗数据。暗数据是产生良好数据分析的一个主要限制因素,因为任何数据分析的质量都取决于分析工具可访问的信息主体。

公司并不是唯一存储暗数据的例子,也存在着许多日常的暗数据例子。例如,我读了很多技术论文和期刊,通常在研究期间,我会下载并存储PDF文件或链接,以备日后参考。这些文件没有描述性名称,许多文件,特别是研究论文,只是使用数字文档标识符。没有描述性信息,就不可能按关键字搜索特定的文章。为了找到一篇特定的论文,我可能需要打开并审阅每个文档,直到找到我想要的那个——这是一个耗时且效率低下的过程。而且,我经常会再次执行在线搜索,结果发现当下载尝试导致重复文件错误时,我已经拥有了该文件。

我本可以通过更好的数据治理来缓解这个问题,比如按类别将文件存储在文件夹中,或者向文件属性添加描述性元数据。然而,这样做消耗了我搜索的时间,分散了我的思路。结果是,我最终得到了一个经常重复的文件集合,这些文件我可能永远不会实际使用,但会囤积起来,因为它们可能在将来变得有用。换句话说,我的下载文件夹-我的个人数据湖-已经变成了一个数据沼泽。

另一个日常暗数据的例子是数码摄影。数码相机通常遵循按顺序对图片文件进行编号的文件命名约定,将图像下载到计算机驱动器或云端的程序通常具有基于日期的组织。但是,如果要搜索特定位置、人员或事件的照片,则必须手动查看照片,因为不存在有关照片创建日期与搜索上下文之间相关性的文档。照片嵌入元数据,但只有专业摄影师倾向于使用此功能。

智能应用程序已经解决了这两个问题,最初使用基于规则的搜索和排序方法,但越来越多地使用机器学习和深度学习。桌面搜索工具可以扫描文档内容并根据关键字查找文档,照片组织工具可以识别人脸、地标和特征,自动对照片进行分类。

以下部分讨论了导致形成暗数据的原因、更有效地管理数据的步骤以及事后提取和使用暗数据的方法。

为什么数据会变暗

数据变得不可访问和不可用有很多原因,但主要原因是大数据是,嗯,大。不仅很大,而且令人难以置信的巨大。看看一些社交媒体的统计数据:2017年,Twitter用户平均每分钟发送50万条推文,Facebook用户点击量为400万。

大数据的3个特征:

数量大:大数据通常有巨大的数量,处理这些数据既费钱又费时。这就是为什么组织倾向于推迟处理,直到这样做是必要和合理的。例如,美国联邦强制使用电子医疗记录,迫使医疗机构将纸质记录数字化。但这些记录大多是以扫描图像的形式出现的。医生可以很容易地提取病历,但信息检索和分析系统无法访问病历中的数据。

多样性:数据也有多种格式,包括结构化和非结构化格式。例如,除了数据库中的传统数据之外,客户关系管理(CRM)数据通常还包括电子邮件、社交媒体消息、语音消息、视频等。音频、图像和视频等格式需要进行预处理,以通过查询和分析以有利于检索的格式提取信息以供存储。同样,由于成本和时间的原因,组织倾向于推迟预处理并简单地存储原始数据。

速度快:商业交易和操作系统,如金融行业的股票市场交易或信用卡交易,可以生成高速数据流。这些数据的处理和结构往往落后于数据到达率。一个组织通常存储这些数据只是为了法规遵从性和审计。由于不需要立即处理数据,因此结果是推迟处理,而有利于存储原始数据。

1、缺乏数据来源

在这种情况下,数据是可访问的,但没有出处。它根本无法用于分析。原始的非结构化数据是来源所必需的,但它是不可访问的。结果:形成暗数据。

这不是直接关系。数据科学家依靠数据源的可信度来确保数据分析的产品是可信和可重复的。如果数据没有出处,那么它就不能作为可靠的信息来源。数据湖通过保存非结构化和原始数据,有助于保存这种来源。

2、糟糕的元数据文档

数据源不可用的另一个常见原因是缺少良好的元数据。丢失元数据会直接导致数据变为暗数据,因为您无法通过查询访问数据。劣质或不正确的元数据也会导致通过元数据搜索无法访问良好的数据。类似地,不一致的元数据可以基于标签元数据中的变化拆分类别。

数据的陷阱和风险

既然您已经了解了数据是如何转变为暗数据的,现在是时候检查与暗数据相关的陷阱和风险了。

1、数据质量

暗数据的主要影响是用于分析提取有价值信息的数据质量。这很重要。暗数据使得访问和查找重要信息、确认其来源以及及时获取重要信息以做出良好的数据驱动决策变得困难。对质量的影响源于以下因素:

数据可访问性:无法访问非结构化或以不同媒体格式(如图像、音频或视频)的数据,会导致无法访问可改进分析的基本信息。

数据准确性:数据分析的准确性取决于输入数据的准确性。准确的分析导致从质量上提取更有价值的信息。因此,暗数据对提取信息的准确性和分析所产生信息的质量有着重要的影响。

数据可审计性:无法跟踪数据的出处,可能导致数据在分析中被遗漏,从而影响数据质量。这反过来又会导致错误的数据驱动决策。

 

2、数据安全

存储的数据通常包含敏感信息。敏感信息可以包括专有信息、商业秘密、员工和客户的个人信息,如财务和医疗记录等。当组织不知道他们的数据存储包含敏感信息时,他们倾向于放松数据安全过程。经常先发现这些敏感信息的黑客正在增加数据安全漏洞。这将导致代价高昂的责任和补救措施。

3、成本增加

暗数据在两个方面导致成本上升:

数据存储成本:虽然数据存储硬件成本正在下降,但存储的信息量呈指数级增长,长期来看可能会显著增加。使用第三方存储管理解决方案,结果是应用了更高的订阅层,从而导致成本不断上升。这一额外的成本是为具有未知价值的数据,因为它是暗数据。

法规遵从性:企业必须遵守许多法律法规。其中一些,如萨班斯-奥克斯利法案(Sarbanes-Oxley Act),推动了存储业务相关数据的需求;另一些,如医疗保险可移植性和责任法案(Health Insurance Portability and Accountability Act)和支付卡行业数据安全标准(Payment Card Industry data Security Standard),则要求增强对某些敏感存储数据的保护,所有这些都可能导致法规遵从性监控成本增加。组织还需要增加监视和安全销毁过期数据的成本。因此,由于敏感度细节或数据是否已过期未知,组织可能会在监管期结束后很长时间内继续存储暗数据。

 

提取暗数据的好处

提取暗数据的组织需要花费大量的工程成本,但这样做有很多好处。

1、暗数据很有价值

暗数据是有价值的,因为它通常包含任何其他格式不可用的信息。因此,各组织继续支付收集和存储暗数据的成本,以达到合规目的,并希望在未来利用这些数据(获取有价值的信息)。

由于这个价值,组织有时会求助于人力资源来手动提取和注释数据,然后将其输入到关系数据库中,尽管这个过程成本高昂、速度慢而且容易出错。深度学习技术比人类更快、更准确地提取暗数据。在使用这些技术和工具时,暗数据提取成本较低,并且使用较少的工程工作。

2、更好的分析质量

通过访问更好的数据源和更多的信息,分析的质量显著提高。分析不仅基于更大的高质量数据池,而且数据可供迅速分析。其结果是更快更好的数据驱动决策,进而导致业务和运营的成功。

3、降低成本和风险

提取暗数据会减少组织在保护敏感信息方面面临的风险和责任。组织还可以安全地清除不必要的数据,从而减少重复的存储和管理成本。法规遵从性也变得更加容易。

4、暗数据提取技术很有价值

除了暗数据本身之外,暗数据提取技术也极具价值。最近的报道显示,苹果以2亿美元的价格收购了人工智能公司莱迪思数据。格数据应用了一个人工智能推理机来提取暗数据。同样,由Facebook首席执行官马克•扎克伯格(Mark Zuckerberg)创立的慈善组织Chan Zuckerberg InitiativeCZI)也以未披露的价格收购了MetaMeta是一个人工智能搜索引擎初创公司,CZI计划免费提供。因此,内部开发的暗数据提取技术和知识产权也具有相当潜在的独立价值。

取暗数据的工具

有许多开源的暗数据提取工具。下面介绍一些更好的工具。

DeepDive:斯坦福大学开发了这个开源工具,由Lattice数据提供商业支持。随着苹果在2017年收购莱迪思数据,发展不再活跃。

浮潜:斯坦福大学也开发了这个工具。Snorkel通过开发工具来创建数据集,帮助训练黑暗数据提取的学习算法,从而加快了黑暗数据提取的速度。

暗视觉:此应用程序是一个技术演示程序,它使用IBM®Watson®服务从视频中提取暗数据,这是暗数据提取的经典示例。

 

暗数据是组织在正常操作期间定期存储的未开发的数据。这种暗数据通常不会被使用,因为传统的关系数据库工具无法访问它。通常,这是因为数据是非结构化的、不可用的格式(例如,文档扫描,或者因为糟糕的元数据描述不允许高效的搜索)。任何数据分析的质量都取决于分析工具能够及时、全面地访问的信息主体。因此,暗数据是一个很大的限制因素。

暗数据与可用数据的比例往往很大。例如,IBM估计从物联网设备收集的所有传感器数据中有90%从未使用过。然而,这种暗数据是有价值的,因为它是其他任何格式都不可用的数据。因此,各组织继续为合规目的而支付收集和存储信息的费用,以期在将来加以利用。

存储和保护暗数据确实有相关的成本和风险,其中一些成本和风险超过了其价值。此外,暗数据可能对时间敏感,并且数据保持不可访问的时间越长,它丢失的值就越多。因此,许多组织求助于人工手动来提取和注释数据,并将其输入到关系数据库中,这是一个昂贵、缓慢且容易出错的过程。深度学习的出现使得创造一种新的智能数据提取和挖掘工具成为可能,这种工具能够比人类更快、更准确地从黑暗数据中提取结构化数据。这些工具的技术是非常有价值的。

 


点赞(2) 打赏

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部