2022.10.28

数据安全分类分级是数据治理最重要的工作之一

随着数据的井喷式增长,数据治理越来越成为数字化转型中的重要基础性工作。

根据2021年4月发布的《国家数据资源调查报告(2020)》显示,2019年中国数据产量总规模为3.9ZB,同比增加29.3%,占全球数据总产量(42ZB)的9.3%。

数据资源主要由行业机构及个人持有的各类设备所产生,其中行业机构一直占据数据资源生产的主体地位——2019年,国内行业机构数据产量达到3ZB,占全国数据总产量的76.9%。庞大且快速增长的数据量,对数据的充分挖掘和有效利用提出新的要求,数据治理的命题由此而生。

数据治理概念主要存在两种趋势,一种是偏向数据管理的狭义数据治理,侧重于数据资产管控体系;另一种是偏向数据工程的广义数据治理,对狭义数据治理的概念进行了延伸,侧重于技术支撑平台的研究。比如Gartner指出,在2021年之前,企业主要采用数据中心、数据湖或者数据仓库这种统一战略;而2023年之前,75%的数据库将迁移至云平台上,并且人工智能、动态元数据也将增强数据治理能力。

同时,还存在大数据治理的概念,即围绕数据资产、共享开放、安全与隐私保护等大数据技术应用,构建更大的数据治理体系。

今年7月,中国信通院发布的《数据治理研究报告》就指出,我国数据治理体系理应涵盖数据安全保障、用户权益保护以及数据价值释放三大部分,下一步立法重点是促进数据价值释放。

在数据治理赛道上,涌现出了多种类型的玩家,成立于2014年12月的御数坊就是其中一个。此前,36氪曾报道过御数坊的多轮融资情况。

作为专注于数据治理和数据安全领域的咨询和软件服务商,御数坊主要瞄准能源、金融、通信、制造、政府等传统领域客户,为企业提供全生命周期的数据治理解决方案。

在近期进展上,御数坊的创始人兼CEO刘晨向36氪介绍,2021年底,御数坊完成了奇安信领投的数千万元A轮战略融资,核心产品DGOffice首批获得信通院数据安全产品-数据分类分级产品评测,客户行业也从能源大型企业向银行证券、汽车制造等行业不断延伸。

近期,36氪再次采访到了刘晨,他向我们分享了御数坊的最新变化,结合不同产业的数字化转型进程,介绍了数据治理赛道的技术趋势、业务难点等话题。

以下是专访对话节选(经36氪编辑):

36氪:从上一轮融资后,公司在业务、技术等方面有哪些变化?

刘晨:最主要的变化是显著提升了软件产品的开发和推广,客户软件产品软件落地情况取得比较大的提升。另一方面,增加了数据安全方面的专业能力,包括软件和咨询服务。

比如我们的数据治理平台DGOffice推出了数据安全分类分级能力。因为2020年以前,《数据安全法》、《个人信息保护法》等法律还没出台,那时候的数据安全需求还不是那么强烈。我们在2020年下半年增加了数据安全团队,加大这方面的开发。

除了专业方面,在市场开拓上,在能源、金融和汽车制造三个主要行业,我们都有客户拓展。

2020年之前,国网、南网是我们的主要战场,占60-70%的比例。现在我们的能源行业客户中,在保持国网和南网的老客户基础之上,在石油、石化、发电等综合性能源集团都有深度推展,也已签约500万级规模的数据治理项目,充分获得客户认可。

金融行业中,2020年前我们银行和证券的客户比较少,而经过一段时间的努力,我们已经在为近10家头部金融机构提供数据安全和数据治理解决方案。

汽车制造行业方面,我们在2020年时基本还没有客户。这两年汽车及制造业数字化转型需求比较旺盛,所以数据治理也有相应的需求。我们目前在汽车和制造这两个领域也有近10家客户。

36氪:进入新的行业,需要花更多成本理解行业know-how吗?

刘晨:刚刚开始做数据治理的客户,还是更需要通用型的方案,没有一定要很深的行业know-how。到第二、三期要结合业务领域做深度治理的时候,才会对行业know-how有要求。

而且,组织机构数据、人力资源数据、财务数据等方面,具有行业可复制性。所以在最开始进入这个行业的时候,我们不太需要投入在有 know-how 方面的积累,更多还是通用型的方法和产品。而随着与客户合作的深入,行业know-how也会自然积累起来,我们会进一步结合行业的业务需要打造更加针对性、体现价值的解决方案。

36氪:「DGOffice数据治理办公室」作为御数坊的核心产品,目前在应用上有什么特点和优势?

刘晨:「DGOffice数据治理办公室」产品在融资后,对各个模块有从前端到后端的体系化提升,并且各个子产品之间可以横向打通。包括其中的数据质量中心、数据安全中心、元数据中心等都可以作为独立的子产品对外推广。

DGOffice可以根据客户的需求去灵活地拆解和组合。比如客户关注数据资产目录的构建,这时候就选择元数据、数据资产中心模块;如果客户关注数据由谁管理的职责问题,就可以用数据权责中心,帮助企业从0到1地建立数据认责;关注数据质量的,也可以选择数据质量中心。以数据权责为基础,我们可以构建起协同化的数据资产盘点、数据标准管理、数据质量提升等场景,有效解决业务部门参与度低、数据治理业务价值不清晰的问题。

在数据安全方面,如果客户有数据分类分级的需求,可以提供元数据中心和数据安全中心,这样就能把元数据采集过来,然后做智能化的分类分级,自动打好安全等级的标签,或者识别敏感数据。我们目前给金融机构做的数据分类分级落地,规模最大的会有5千万字段以上,在数据采集能力、定级效率、智能化定级准确度等方面,御数坊已经积累了充分的实战经验。

36氪:当前,数据安全分类分级也算数据治理中的一个重要环节,不同背景或类型的企业在选择分类分级方案时,会有哪些不同的关注点?

刘晨:从用户角色来讲,存在两类不同的用户群体。甲方企业里做数据安全工作的,一种是以前的数据团队,一种是安全团队。比如,企业里CIO拿到数据治理的需求后,有的会安排给新一点的数据团队,延伸出来做一个安全业务;有的会安排给以前的信息安全团队,往数据侧做一些延伸,形成数据安全的专项。

这两种团队在选择方案时,关注点就会有点不一样。安全团队都是偏攻防的技术思维,对业务场景、业务含义、数据加工的细节过程还需要深入了解。同时,数据团队很熟悉元数据、数据资产目录,但是不熟悉安全领域的风险监测、合规等内容。

整体来看,目前还没有形成行业性的趋势,确定由哪个团队负责数据安全工作。无论是哪个团队做,其实目前都处于一个对数据安全整体做规划思考的阶段,然后再局部地先从数据分类分级开始落地。

36氪:目前数据安全分类分级面临哪些实际难点?

刘晨:现在行业最大的难点应该是分类分级的工作。分类分级的工作做完后,后面防泄漏、脱敏、加密等数据保护的手段才能依据这个结果做好数据安全保护。

从宏观的政策法律法规角度,其实还是很利好这个领域发展的。《数据安全法》《个人信息保护法》出台以后,各个行业也在制定一些安全相关的管理办法,比如重要数据资产目录、数据安全分类分级的指南等,银保监会、证监会都有这种要求。

对于分类分级来说,落地的困难就在于缺少行业权威性的分类分级标准,且这个标准还需要具备细粒度。目前的行业分类分级标准更多是指引性的内容,有宏观和中观指导的作用,但具体落地层面,企业则需要直接回答这是什么数据、是什么等级的问题,这就需要去建立一个权威性的标准。

目前这类标准在银行、证券和电信行业是有的,可能在落地层面需要做细化和适度调整;其他行业有一些初步的管理办法,但粒度还较粗指导落地上是有困难的。

另一方面,作为一个跨数据和安全两项工作的交叉点,数据和安全两个团队都还没有形成完善的解决方案。再加上技术落地中,分类分级需要落到字段级,字段类型多、数量大,行业标准又有缺失,这就是一个很大的难点。如果企业分类分级落地不好,数据安全其他部分都会受到影响。

另外,在我们现在接触到的客户中,普遍现象是客户目前还会关注数据安全的整体规划,比如数据安全的组织、制度流程等,以及关注数据安全的风险评估或能力评估。

36氪:甲方企业对数据安全分类分级的需求点是什么?

刘晨:我们去年签的一个头部证券公司,是比较典型的例子。

最开始是证监会有行业指引,要求去做数据安全分类分级。客户开始找到行业集成商,去做人工的数据分类分级的梳理。基本上分级到表这个阶段,当时可能有七八千张表,没有到字段这个级别。但是按照证监会的要求要做到字段级,这七八千张表可能就会有几十万个字段,这个效率如果再靠人工做就会很低。所以那时候我们就介绍了我们分类分级的智能化能力,也做了一个 POC,对方还是很认可的。

但当时没有直接决定采购,因为当时数据团队不清楚整体数据安全的规划应该怎么做。所以我们进一步帮客户形成了一个三年的数据安全整体的初步规划,包括在哪些场景,有哪些技术工具的落地,以及组织上的一些建议等。客户理清整体的数据安全工作思路之后,采购了DGOffice数据安全中心,进行分类分级落地。

36氪:刚刚提到的用智能化手段去做数据分类分级,现在行业里智能化的实际水平和效果如何?

刘晨:从效果和交付两个方面看——交付方面,我们是非常标准化的。安排一个技术工程师和一个咨询顾问,在两周到一个月内完成交付。比如之前我们参与一个大行的项目,当时整个有300多个系统、2600多个数据库、7200万字段,我们在三周内完成了相关部署、字段采集和敏感数据的识别。

准确率方面,在银行证券领域,我们的准确率在85%以上,电网也在85%以上。其他行业随着落地实践和语料库的积累,详细地梳理了这个行业的数据资产和标准后,准确率也会在85%以上。

整个行业来看,我觉得智能化目前还处于探索阶段,有效地落地的案例还比较少。目前我们在分类分级、资产梳理、数据标准落地等,做了一些尝试,还需要进一步深化和探索更多应用场景,智能化一定是数据治理的未来。

智能化数据治理的难于落地的原因大概有两个方面。一方面是人才供给——懂治理的人,懂算法的极少;懂算法的人基本上不会做治理。复合型的人才其实是非常稀缺的。

另一方面是客户需求,大部分做治理的人核心能力在数据平台的建设,并不精通算法,无法深度地评价智能化方案的优劣,只能从结果去评估。但目前这个领域大家都在探索,真正落地的少。所以甲方都是保持观望的态度。从交付方式来看,大企业可以通过人员外包服务的方式解决数据梳理类工作的交付问题,虽然效率低、成本高,但仍能满足工作要求,所以对智能化的需求还不够迫切。而如果企业面临的是监管机构数据治理的比较紧迫的合规需求,要求企业在短时间内把海量数据处理好,这时候智能化数据治理会有有一些用武之地,例如刚才提到的大型银行几千万字段的敏感数据发现的例子。

36氪:数据治理的成果和价值,应该如何去体现?

刘晨:数据治理的价值体现有三种方式。

一种就是最开始设定好价值预期。先把制度、组织建立起来,对数据资产做一些初步梳理,可能要避免对业务价值有过高预期,因为这个阶段是数据治理的初步导入阶段,很难直接体现出业务价值。

第二种,是在后期可以结合业务场景,识别一些痛点问题并解决它,这种模式业务部门的获得感非常强,甚至可以计算出可量化的经济价值。

第三种,按照外部的数据管理成熟度等国标去建设。第一期初评,可能数据治理能力水平在1.5,经过两三年建设,能达到2.5,再去申请工信部的DCMM评估标准,也能体现数据治理的价值。

36氪:行业里还有哪些业务场景是更有可能体现出数据治理价值的呢?

刘晨:我觉得专业方向上,就是元数据、资产目录、数据标准、数据质量、数据安全分类分级、数据安全的风险监测等,结合起来形成整体的数据治理能力。在技术能力上,可能要突破的就是自动化、智能化的能力,来提高效率。

第二,就是通过产品+服务,能更好地让甲方的业务部门和管理人员真正参与到数据治理当中。我们把咨询的方法论所形成的业务场景和管理场景,沉淀到系统当中,让甲方更容易上手,业务部门更容易去理解。设定了职责,按照职责在系统上使用,有个相应的流程去驱动,就会很容易上手开展数据治理工作。这是我们的「协同化」数据治理理念。

另一方面,最近以互联网公司为背景的技术人员在探讨数据治理的也非常多。他们提的数据技术栈等概念中也有数据治理,强调开发与治理的融合,但这种模式比较适合自研能力较强的甲方客户,对于大部分传统行业客户,推行起来有一定困难。

36氪:整个数据治理行业的发展,跟不同产业的数字化转型进程之间是一种什么关系?

刘晨:我觉得把已经有的数据用好,去支撑数字化转型是必须的,这里面数据和数据治理的重要性是毋庸置疑。但数字化还包括了把现在没有通过自动化手段支撑的业务能力支撑起来,这一部分中,数据治理就不是最重要的。更多是建立数据采集的能力或构建一个业务系统,用数据把业务线运行起来,这时数据治理会后置一些。

比如对于自动化生产线的调度系统,想治理其中的数据是不现实的,因为它出厂的时候都预置好了,想改变传感器的数据格式、含义是不行的。机器产生的数据要跟着厂商走,这方面做管理域数据治理的思路就不完全一样。

不同行业的数据治理进度也是不一样的。

从行业实践的速度来看,金融机构做数据治理会快一些;国企央企更多处于思考认知,以及做整体规划和现状评估的阶段,也就是偏咨询,产品方面初步实践。

最早的是银行和通信运营商。银行要结合监管报送,通信运营商是结合数据仓库的建设和应用,他们最早能追溯到04、05年的时候就开始做数据治理了。

银行在早期有监管要求,跟国际咨询公司对接得也比较多,所以银行是系统化的打法,从咨询的梳理,到标准的制定,再到系统建设去落标。通信运营商在早期阶段更多偏技术化的打法,管理配套一开始不足,陆续有所提升。

到了2010年前后,银行业开始把数据治理的要求往全行业去推广,而其他行业都没有全行业的要求。所以银行在数据质量标准评估上有全行业的布局。

延续这种方式,银行又在2018年出台了数据治理的行业指引,从行业监管要求到中间监管,需要满足监管要求的现场检查,再到咨询、平台落地。里面既有工具的供应商,也有咨询服务的供应商,也有实施的供应商,整个生态相对是比较成熟和完整的。

证券行业做得比较晚,基本到了2015年左右在证券行业的风险管理规范里提到行业数据治理的要求,成立了行业的数据治理小组,出台了行业数据模型等。

国网、南网大概从08、09年开始,结合数据仓库的建设做数据治理。从14、15 年开始,开始体系化地做数据治理。当时的背景是ERP一体化的业务系统上线之后,做完之后发现存在数据孤岛,制约着这些系统横向数据的打通,数据中心进一步建设也会有质量问题,这就倒逼着客户开始做数据治理。像国家能源集团、石油石化等头部能源企业从12、13年也开始起步做数据治理。到了14、15年,国家开始编制大数据标准,2018年出台了DCMM的成熟度评估模型,所以有更多行业开始重视数据治理工作。

2018、19年数据中台火热,结合数据中台,客户对数据治理重视程度进一步提升。随着2020年数据要素、数据交易所的出现,2021年《数据安全法》的出台,对于数据安全分类分级的关注就越来越多了。

在不同行业发展的阶段,我们接触到的客户基本上在要到大几十亿接近百亿的这种营收水平,可能才会有比较明确的数据治理需求显现出来。

36氪:未来,数据治理可能会在什么业务或技术方向上有创新性突破?

刘晨:还是要结合业务价值,找到不同企业关心的重点业务场景或数据应用场景。每个企业可能关注点不一样,但也会有共性。

比如国资委下辖企业受国资委监管,商业银行面对银保监会的监管报送场景等,都可以形成紧密结合业务的专项治理方案。在具体业务领域,比如营销、物资等管理职能领域的数据治理,也可以对通用性方案进行创新。

技术创新方面,数据治理可能往实时数据、物联网数据、非结构化数据等数据类型上去变化。以前的数据治理往往都在管理领域,面向一些管理指标,比如人员基础信息、客户信息、供应商信息等。但比如车联网传感器的信息,以及文档、视频、图像、语音等数据的治理,这部分也是可以做一些突破尝试的。



上一篇:我国工业关键信息基础设施安全产业链供需角度分析与建议

下一篇: 如何保护智能车辆远离网络攻击?