数据安全的保护对象是数据。只有对数据具有基本认知后,才可以施加适当的数据保护方案。如果不知道数据在哪儿,数据安全显然是空谈。而当我们对数据的安全保护一概而论时,数据必然会面临保护过度或保护不足的问题,数据的使用也会受到很大的影响。
当前,基于安全的数据分类、分级,已成为数据安全领域公认的基础工程,结合方案实施的经验,我们需要深入思考在此背景下面临的重大挑战:如何发现数据?如何对数据进行分级分类?
从安全的角度看数据
从安全的视角看,数据可以分为:个人信息和隐私,商业机密,涉及公共安全、国家安全的信息和国家秘密。这三类数据在医疗行业中均有深刻的体现。
1、个人信息和隐私
当个人信息(PI)的泄露和破坏存在影响人身安全、财富安全和生活安全的风险时,即可被纳入“隐私”范畴。在某种程度上,所有与“个人”相关的信息都可以称之为个人隐私,如消费记录、行动轨迹、用水用电、犯罪记录等,个人信息安全等于隐私安全。
个人信息可分为PII、PFI、PHI三类。PII指个人识别信息,主要是个人基础识别信息,如个人标识信息、住址、联系方式等;PFI指个人财富或财物信息,比如有多少存款、房产与车辆,个人信用等;PHI指个人健康信息,比如病案信息。
其中,PII的最大特征是:依赖于这个标识信息和适当的上下文,可以在现实生活中追溯、定位到真实的人。PII主要包括:(1)指纹、DNA、人像、虹膜等各种可唯一识别的生命特征信息;(2)身份证、驾驶证、健康证、军官证、教师证、学生证、准考证、社保卡等各种证件号码;(3)电话号码、QQ号、微信号码、支付宝账户、微博号码、电子邮件、住址等各种联系方式;(4)姓名、绰号等各种名称;(5)各种账户信息和密码信息等。
PII是个人信息的核心。一般情况下,PFI和PHI脱离了PII之后,就不再具有隐私信息的特征。在医疗行业中,存在大量精确度极高、较为完备的 PII。随着近几年各种支付结算手段的兴起,医院也存储了大量PFI信息。
2、商业机密
从安全的角度看,商业机密和个人隐私的本质没有太大差别,只是信息主体从个人变成了机构和企业。因信息泄露从而会对企业运营、商业竞争、企业声誉带来损伤的数据,都可称之为商业机密,主要包括:
(1)客户资料:客户几乎是任何机构的核心商业机密,包含了众多个人隐私。客户资料的泄露往往会对机构运营造成双重伤害,也即竞争对手的拼抢和客户的“反水”。在医疗、金融、交通等针对个人提供服务的产业而言,客户资料的保护尤为重要。
(2)合同条款、价格和支付信息:这些信息的泄露会给企业运营、商业谈判带来巨大障碍,因为竞争对手获取这些信息后,可以采取针对性策略以获取竞争优势。
(3)财务信息:无论是财务营收、现金流、利润、投资组合,还是人员工资、税务缴纳情况,都构成了企业运营的核心商业机密。财务信息的泄露可能会引起监管方的干预,也可能招来竞争对手的针对性部署与打击。
除此之外,工艺流程、图纸和配方,知识产权、软件代码和研究成果,商业计划和执行各种商业和研发的进展等,也都是非常常见的商业机密。对于医院而言,依据不同的诉求,患者、病案、财务、供应链等各种数据都可能成为对应的商业机密。
3、涉及公共安全、国家安全的信息和国家秘密
由于公共安全和国家安全在很多场合下难以区分和定义,这里统称为“重要数据”。在《数据安全管理办法》征求意见稿中,对重要数据的定义是:一旦泄露可能直接影响国家安全、经济安全、社会稳定、公共健康和安全的数据,如未公开的政府信息,大面积人口、基因健康、地理、矿产资源等,一般不包括企业生产经营和内部管理信息、个人信息等。
在医疗行业,可能涉及的国家机密,包括:重要领导人、秘密战线人员的健康信息;重要的医学和药物科研成果、工艺流程、配方;各种敏感卫生统计信息;传染病等各种卫生应急活动信息。
此外,如果个人隐私大规模泄露,扩展成群体性事件后就会上升为公共安全事件。由于医疗行业具有基础民生特性,很容易从一个普通安全事件演变为公共安全事件。而公共安全事件发酵,则有可能上升为国家安全事件。
从业务的角度看数据
从业务的角度看,很多数据虽然不涉及个人隐私、商业机密和国家秘密,但对业务起到强大的支撑作用。当数据遭遇破坏,就会影响业务正常运行。
1、业务数据
业务数据是业务应用程序在运行过程中产生和使用的大量数据,需要遵循相应的业务逻辑和安全控制。因此一个原始的假设是合理的:非业务程序缺省不应该具有访问业务数据的能力。
2、业务敏感数据
业务数据中会包含大量隐私、商业机密或者重要数据,这些敏感数据需妥善处理,确保安全,非业务应用程序应无法查看敏感数据。
3、意外更新的业务数据
业务数据的意外更新会给业务系统运行带来巨大的、不可预测的影响。业务数据应仅被业务程序所更新,这应作为业务数据更新的基本守则。倘若非业务程序需要更新业务数据,必须经过严谨的审批流程。
4、运行支撑环境数据或系统数据
业务程序和业务数据需要在特定的环境支撑下才可以运行,比如Oracle数据库。当支撑Oracle数据库运行的数据受到破坏,业务系统运行自然不可延续。
5、复制数据
当业务数据经过复制和加工以提供其他用途,这些数据就脱离了业务数据的原有特征,形成了独立的复制数据集合。如果将这些数据导入特定业务程序,则构成了新的业务数据集合。
6、失控数据
当数据通过交换和共享平台流动到了其他部门或者其他机构,从本质上将不再受到本部门或本机构的控制,也就成为了失控数据。
数据治理和分级分类
知道有哪些数据,才可以进行分级分类。有了分级分类,才知道如何给数据加载适当的安全措施。要完成这个工作,就需要进行数据治理和分级分类。
1、暗数据发现
数据如同冰山,大部分潜藏于水面以下,不为人所知,Gartner将其称为“暗数据”。显然,暗数据发现不能依赖于人工,否则巨大的人力成本会把庞大的数据安全治理项目拖垮。
2、数据分类
数据发现为数据分类奠定了坚实基础。数据分类可以从运维、安全、业务、利用等多个角度进行。相对来说,从安全角度进行数据分类会比较简单,我们称之为数据安全治理。
(1)简单分类:
业务数据和非业务数据。这是最容易实践的安全分类方法,不需要对数据本身具有太多了解。这种分类虽然简单,但可以解决实践中的大部分安全问题,其隐含的逻辑是:业务数据是敏感的,任何非业务程序系统访问业务数据都需要经过独立授权,无论是更新、删除还是增加。
(2)隐私分类:
基于隐私和用户信息的分类。在相当多的场合下,如果可以实现匿名化,就可以解决100%的数据安全问题。隐私分类是很容易实践的安全分类方法,前提是识别出所有可以标记出主体识别的信息,比如身份证、社保号码、电话号码、姓名、组织机构名、指纹等。在海量数据中,我们无法识别这些隐私数据,但在暗数据发现的支持下可以很容易做到。
隐私分类一般可以分为以下几类:
▐ 绝对隐私,单个或少量个体泄露就可以带来巨大杀伤力的隐私数据,如国家领导人、公众人物、超级大客户等;
▐ 强隐私,可以精确定义个体的数据,如身份证、姓名、电话号码、人像、指纹等;
▐ 弱隐私,无法独立识别出主体的数据,如年龄、性别、职业、公司、小区等数据。
在分辨出隐私类数据之后,安全措施的加载就比较简单:所有隐私类数据必须经过业务程序处理;如需投放至非业务系统,必须经过脱敏或降敏。
(3)变更分类:
基于业务运行支撑的分类。数据的意外变更会对于业务运行产生什么样的影响?变更破坏之后的可恢复性如何?变更分类可基于以上考虑进行分类:更新、删除、增加、对象删除或者更新。一般来说,主体数据和参考数据的删除、主体数据的标志性变更和参考数据的变更会对业务带来巨大影响,而交易数据的一般性变更、删除、增加对于业务的影响不会太大。比如说,药品条目数据的删除、药品价格的变更,会让业务无法继续或者产生巨大错误,而一条3天前的处方记录被删除,一般不会立刻对业务产生不良影响。
当数据集合中预见到敏感信息不多的时候,基于变更分类的数据分类是一种确保安全又容易实践的分类方法。
(4)业务分类:
基于业务主体性质的个性化分类。要完成业务分类,必须对数据和业务有通透了解。不过一般情况下,大家会“绝望”地发现,机构里根本就没有这样的人来完成这个工作;即使有,高昂的成本也不是普通机构可以承担的。此时你需要一个“救星”:暗数据发现和分类产品。
3、数据分级
当完成了数据分类之后,数据分级就变得比较简单,无非是对数据贴上敏感度标签。简单的数据分级,可以仅仅赋予“敏感级别”即可。如,0:可公开数据,非敏感数据;1:内部公开数据;2:普通敏感数据;3:敏感数据;4:机密数据等。
除敏感级别外,可以增加重要程度、更新影响等维度,以更好地支撑数据分级。
“重要程度”分级如,0:不重要;1:大规模数据泄露;2:少量数据泄露;3:个体数据泄露。
“更新影响”主要用来衡量数据对于业务的支撑力度,0:不重要,数据的变更和删除不会影响业务运行;1:一般,数据的变更和删除会影响部分业务运行;2:重要,数据的变更和删除会导致关键业务或者全体业务的不可运行。