导语:当前推动数据从资源变为要素的核心条件正逐步完善,涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰。
目录
综述:数据要素——基础逐步筑牢,产业变革在即
-
数据要素:2015 vs 2022,关注三大差异点
-
法律法规逐步完善,护航数据要素市场发展
-
标准持续丰富,涵盖流通、交易等多个环节
-
数据+流通+安全,全生命周期技术体系逐步形成
数据:覆盖多环节的产业链逐步清晰
-
涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰
-
参与主体:涉及供应商、监管方、需求方等多方
-
市场规模:2021 年达到数百亿元级别
数据供给:以“数据资源化”构筑数据要素产业链起点
-
数据采集:数据资源化首要环节,关注采集合法化与标准化
-
公共数据:逐步进入要素市场,逐步扩大开放范畴
-
企业数据:数据链反哺产业链,第三方采集商价值凸显
-
个人数据:关注隐私保护,鼓励个人数据流通应用
-
市场格局:数字化转型建设商与大数据基础服务商各具优势
-
数据整理:数据资源化核心环节,搭建数据要素标准体系
-
产业概览:以数据标准化为核心落脚点,强化数据要素资源管理
-
市场格局:数据加工服务商占主导,数据治理服务商有望加速成长
-
数据聚合:数据资源化枢纽环节,强调数据要素互通共享
-
数据库:数据上云成为重要趋势,非关系型数据库快速发展
-
湖仓一体:数据湖、数据仓库呈现湖仓一体发展趋势
-
数据平台:一体化平台或将加速数据要素市场化进展
-
数据分析:数据资源化应用环节,实现数据价值深度挖掘
数据流通:“5+5”构建流通框架与市场环节
-
数据权利与确权:数据要素流通交易的基础
-
数据登记:确认数据合法性的保障
-
数据定价&收益分配:量化数据估值,确定数据收益
-
数据交易:培养数据要素市场的关键
-
数据监管:保障数据要素安全流通流转
数据要素:2015vs2022,关注三大差异点
数据特性:从资源到要素,逐步成为核心。数据从原始数据到成为生产要素需要经历数据资源化、数据资产化、数据要素化三大过程,首先是通过整理从无序变为有序,成为具备潜在利用价值的资源,其次是通过确权等环节成为能够流通的资产,最后是运用于生产,直接产生价值,成为生产要素。这一过程与DIKW模型描述的数据与智慧之间的关系相对应,在DKIW模型中,数据仅是基于对客观事实的记录,数据被组织后形成可被理解的信息,人类通过理解信息获得知识,基于知识推演出因果并进行判断,形成智慧。从数据产生价值的过程中可以看出,将数据运用于生产是数据从信息变为知识和智慧的重要过程,通过这一过程产生的价值是数据产业价值的核心来源,确权、定价、数据产品化则是价值变现的重要途径。我们认为当前推动数据从资源变为要素的核心条件正逐步完善。
信息化建设:步入大数据应用阶段,为数据要素发展打下良好基础。信息化建设是数据产生的来源、数据资源积累、应用的基础。从当前各个行业信息化建设的历程看,我们认为我国各个行业信息化建设逐步深入,重点行业经历了21世纪初的电子化、初步信息化,到2015年以来的大数据等技术逐步应用,信息化程度不断深入。从数据资源的丰富度看,我国产生的数据量从2012年的0.4ZB增长至2021年的6.6ZB,数据量快速累积,数据要素利用的基础已经基本具备。
政策关注:从“互联网+”、“数字经济”到“数据要素”。政策从互联网+逐步向数据要素推进。“互联网+”政策在推动构建互联网自主技术体系和产业生态的同时推动了数字经济的发展。通过“互联网+”的建设,网络、应用、产业、安全基础逐步夯实,为数据资源的积累和利用打下良好的基础,互联网+与数字经济、数据要素政策一脉相承。从政策侧重点看,“互联网+”相关政策侧重互联网与传统产业的深入融合,数字经济政策在早期以信息化建设和鼓励电子商务发展为主。随着我国数字经济建设的逐步深入,政策对统筹打造全国数据要素市场体系,促进数据要素市场化配置等主题的关注度逐步提升。我们认为当前随着基础设施逐步完善,政策进一步关注核心要素数据的价值,聚焦数据的产业政策有望加速落地。
数据范畴:从政务数据到更广泛的公共数据,应用逐步丰富。数据类型可以划分为公共数据、商业数据、个人数据。《国务院关于积极推进“互联网+”行动的指导意见》中,在创新政府网络化管理和服务中提及推动公共数据资源开放。而近两年的数据条例则从主体、目的、行为角度对公共数据进行了界定。如《上海市数据条例》中将政务、公共事业等组织在履行公共管理和服务职责中产生的数据界定为公共数据;《重庆市数据条例》则将政务数据、公共服务数据纳入公共数据的范畴。从数据范畴看,数据资源的开发范畴正从政务数据的领域进一步拓展。如《上海市数据条例》中提出鼓励各类企业开展数据融合应用,加快生产制造、科技研发、金融服务、商贸流通、航运物流、农业等领域的数据赋能,推动产业互联网和消费互联网贯通发展。《重庆市数据条例》中提出鼓励自然人、法人和非法人组织将数据依法汇聚到公共数据资源体系。
法律法规逐步完善,护航数据要素市场发展
法律法规逐步完善,护航数据要素市场发展。在政策逐步加强对数据要素关注的过程中,数据相关的法律逐步完善。2017年颁布的《网络安全法》和2021年颁布的《数据安全法》等基础法律法规明确了数据跨境流动应当进行安全评估。2021年8月,全国人大通过的《个人信息保护法》立足于数据产业发展和个人信息保护的需求,建立了个人信息合法处理的规则。2022年颁布的《数据出境安全评估办法》则进一步明确了数据出境的具体流程和要求,提出应对数据跨境流动采用分层分类管理的治理规则。相关法律法规体系框架的日益完善,保障了数据安全,使得数据可以安全、有序、自由地流动。
各重点应用行业在数据合规基础法律框架基础上,提出针对性规范及指导性文件。在工业领域,2020年3月,工业和信息化部印发《工业数据分类分级指南(试行)》,规定了工业企业对工业数据进行分类梳理和标识并形成企业工业数据分类清单的要求。在政务数据领域,2022年国务院办公厅发布《全国一体化政务大数据体系建设指南》,提出“2023年底前,全国一体化政务大数据体系初步形成,基本具备数据目录管理、数据归集、数据治理、大数据分析、安全防护等能力。”在金融领域,2017年7月9日,中国保监会《保险业务要素数据规范》,明确了保险业务数据要素流通的基本规范。2020年2月,中国人民银行发布《个人金融信息保护技术规范》,对个人金融信息保护提出了明确的需求。2021年,人民银行发布《金融业数据能力建设指引》,明确提出要提升金融机构数据安全能力建设。
政策明确数据要素会计处理方式,数据要素市场化发展有望提速。2022年12月9日,财政部印发《企业数据资源相关会计处理暂行规定(征求意见稿)》,明确了数据要素会计处理方式。具体来看,根据数据资源的持有目的、形成方式、业务模式,以及与数据资源有关的经济利益的预期消耗方式等,企业应当对数据资源相关交易和事项进行会计确认、计量和报告:1)企业内部使用的数据资源:符合《企业会计准则第6号——无形资产》规定的定义和确认条件的,应当确认为无形资产,并对数据资源进行初始计量、后续计量、处置和报废等相关会计处理。企业在持有确认为无形资产的数据资源期间,利用数据资源对客户提供服务的,无形资产的摊销金额一般应当计入当期损益。2)企业对外交易的数据资源:企业日常活动中持有、最终目的用于出售的数据资源,符合《企业会计准则第1号——存货》规定的定义和确认条件的,应当确认为存货,并对确认为存货的数据资源进行初始计量、后续计量等相关会计处理。企业出售确认为存货的数据资源,应当按照存货准则将其成本结转为当期损益;同时,企业应当根据收入准则等规定确认相关收入。对于不符合企业会计准则相关资产定义和确认条件的数据资源,企业利用此类数据资源对客户提供服务的,应当根据收入准则等规定确认相关收入。3)信息披露等其他要求细则:企业应当按照外购无形资产、自行开发无形资产等类别,对确认为无形资产的数据资源相关会计信息进行披露。企业应当按照外购存货、自行加工存货等类别,对确认为存货的数据资源相关会计信息进行披露。企业对数据资源进行评估的,应当披露评估依据的信息来源,评估结论成立的假设前提和限制条件,评估方法的选择,各重要参数的来源、分析、比较与测算过程等信息,包括数据类型、规模、应用场景、转让限制等。
标准持续丰富,涵盖流通、交易等多个环节
标准持续丰富,覆盖多个环节。从标准的丰富看,形成了覆盖多个环节的标准、规范。各地在制定各环节的数据要素标准之前一般会先制定标准体系框架,规定整个标准体系的总体结构与要求,以及基础、数据、技术方法、产品及服务、行业应用、管理、安全和质量与评价等标准分体系的构成与要求。
数据流通环节标准:国家标准侧重提升数据要素流通效率,覆盖多个细分环节。数据要素流通环节包括数据登记、数据定价、数据交易共享和数据服务运营等,建设涵盖各方面的数据要素流通标准可以加快数据要素流通,充分发挥数据要素价值。同时,各省市积极开展数据要素流通环节的标准研制工作,如2019年12月贵州省市场监管局发布《基于区块链的数据资产交易实施指南》,规定了基于区块链的数据资产交易规范,适用于对数据资产交易方记录,对数据资产交易流程记录,对数据资产交易溯源,构建区块链分布式、多方可信促进资产流通。安全标准较为丰富,涉及数据安全、技术安全、平台安全。除去以上针对细分环节的标准,还有涉及数据要素全生命周期的环节,如数据基础设施、数据安全、数据咨询服务和数据人才培训等,其中我国围绕数据安全、技术安全、平台安全等方面的标准规范较为丰富。
重点行业标准:政务标准较丰富,重点行业持续更新。数据行业应用标准从大数据为各行业能提供的服务出发,是各领域根据其特性研制的专用数据标准,包括政务、金融、工业等领域。政务行业标准较丰富,如2019年12月,山西省电子政务信息标准化技术委员针对政务信息资源数据共享交换平台发布了涉及总体框架、目录编制规范、部门接入规范、交换规范、资源中心设计规范、共享网站功能指南、安全技术规范的多个标准。2018年12月杭州市数据资源管理局发布《政务数据共享安全管理规范》,规定了政务数据共享的总则、基本要求、数据归集安全、数据传输安全、数据存储安全、数据处理安全、数据共享安全和数据销毁安全,适用于非涉密政务数据共享安全管理。
数据+流通+安全,全生命周期技术体系逐步形成
数据要素技术可按照作用分为4类,分别为维护数据安全、提升数据质量、加强数据标准化、提高交易效率。维护数据安全技术包括隐私计算、区块链、密码技术。
1)隐私计算:包含三大主流方向
在处理与分析计算数据的过程中,隐私计算能够保持数据不透明、不泄露、无法被计算方以及其他非授权方获取。与传统数据使用方式相比,隐私计算的加密机制能够增强对于数据的保护、降低数据泄露风险,并保证在安全的前提下尽可能使数据价值最大化。隐私计算是涉及密码学、智能科学、硬件技术的交叉融合技术,当前主流的隐私计算技术有三大方向:一是多方安全计算;二是联邦学习技术;三是可信执行环境技术。不同技术往往组合使用。
2)区块链
区块链是一种分布式的数据结构,利用块链式数据结构验证与存储数据、同时使用分布式节点共识算法生成和更新数据,并且区块链技术具备了去中心化的特性,使得区块链技术不会被第三方中心所控制,不可篡改,保证区块链数据较强的公信力,满足数据流通过程中保证数据安全、增强透明度的需求。在数据确权方面,数据确权是数据交易的前提,可以使用区块链技术进行数据登记,实现数据资产的唯一性确权。2021年,北京国际大数据交易所上线了数据交易平台IDeX系统,该系统功能之一为使用区块链技术,对上架的数据产品进行登记。在数据交易溯源方面,数据资源在链上交易的完善信息记录实现了数据唯一化,以此为基础可以对数据进行跟踪。当用户对数据交易有疑问的时候,便可通过区块链方便的查询某个用户、某个数据或某个时刻的交易记录。在数据交易记录方面,区块链为去中心化的分布式数据库,可以利用区块链的不可篡改性改善交易过程的记录问题。由于区块链中每一个节点都有一份相同的副本,并且副本的任何改变都要通过所有节点的共识,修改区块链中记录的内容非常困难,因此区块链可以帮助记录数据交易过程中的关键性数据或者证据。
3)密码技术
采用密码技术对信息加密,是最常用和有效的安全保护手段。目前广泛应用的加密技术主要包括:对称算法加密和非对称算法加密。对称算法加密的主要特点是通过相同的密钥对信息进行加密和解密,最常用的是DES算法。非对称算法加密避免了对称加密的密钥配送问题,其通过公布出去的公钥加密,自己保有的私钥解密。最常用的是RSA系统。密码技术可用于数据脱敏,对敏感信息进行数据的变形,实现敏感隐私数据的可靠保护。数据脱敏规则包括使用随机值、数据替换、对称加密、平均值、偏移和取整等,常常多规则配合使用。
4)机器学习:提升数据质量
机器学习使用计算机模拟或实现人类学习活动,从数据中自动分析获得模型,并利用模型对未知数据进行预测。基于学习方式可以分为监督学习、无监督学习、强化学习等。在数据标注中,使用基于机器学习的半自动标注方法,主要用于提升训练精度、减少整体标注成本、加快模型开发效率。半自动标注方法包括预训练模型和主动学习等。预训练模型,先对小批量数据进行标注学习训练,得到一个预训练模型,然后以学习结果去标注剩下的数据集,往复循环,逐步提高精度。主动学习,即网络具有一定自主决策能力,可主动地提出一些标注请求,将经过筛选的数据提交给人类专家进行标注,节约标注成本,提升效率。
涵盖供给、流通、应用,全方位的数据要素产业链逐步清晰
数据要素可分为供给、流通、应用环节。数据要素从产生到发挥价值,涉及众多细分环节,从《“十四五”数字经济发展规划》中提出“充分发挥数据要素作用”的具体要求看,包括强化高质量数据要素供给、加快数据要素市场化流通、创新数据要素开发利用机制。我们将数据要素的全价值链总体划分为供给、流通、应用三大环节。不同环节所涉及的具体能力要求有所不同,在《“十四五”数字经济发展规划》中,针对数据要素供给环节,提出数据质量提升工程,侧重从数据资源、主体、标准化三大维度切入提升数据质量;在数据要素流通环节,提出数据要素市场培育试点工程,聚焦于确权及定价、数据交易平台的试验与培育。
数据要素供给:形成数据资源,为数据从资源向资产转化打下基础。数据要素供给,包含采集、整理(数据标注、数据清洗、脱敏脱密、标准化)、聚合(数据传输、存储、集合汇聚等)、分析几大环节,从原始的数据为起点,以形成可流通、利用的数据资源为终点,为数据向资产转化打下重要的基础。在这一环节内,通过建设标准化体系、发展数据处理技术,加强数据分类分级管理有助于增强数据处理能力,提升数据质量,是数据全产业链的基础环节。我们认为,有效提升数据质量的厂商,有望在供给环节形成竞争优势。
数据要素流通:数据成为生产要素的关键。数据资源本身具备利用的价值潜力,而要素流通则是其从数据资源变为生产要素,实现价值的关键。数据要素流通涉及的环节包括确权登记、定价交易、交付清算,其中涉及的产业机遇不仅包括交易链条本身的各个环节,还涉及到与之相关的配套服务,如咨询评估、经纪、交付等服务。一方面,数据要素流通需要市场主体的积极参与,提供交易产品,确权及交易的支持技术、服务;另一方面,也需要监管主体不断完善交易管理、规则制定、争议仲裁等机制,为数据要素流通创造良好的市场环境。我们认为,有效提升交易效率的厂商,有望在流通环节形成竞争优势。
涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰。围绕提供高质量数据的主题,数据采集、整理(数据标注、数据清洗、脱敏脱密、标准化)、聚合(数据传输、存储、集合汇聚等)、分析等厂商构成了数据要素产业链中的供给环节;围绕提升数据要素交易效率的主题,确权登记、定价交易、交付清算及相应的服务厂商构成了数据要素产业链中的流通环节;围绕数据价值挖掘的主题,各个细分行业的数据应用逐步深入。我们认为当前涵盖供给、流通、应用的全方位的数据要素产业链逐步清晰。
参与主体涉及:供应商、监管方、需求方等多方
数据供给:数据产出行业集中度高,2021年五大行业占比65%左右。数据供给可拆分为采集、整理、聚合、分析四个环节,分别对应了数据产品供应商(负责提供原始数据)、数据加工处理服务商(负责数据预处理,将非结构化数据处理成结构化数据)、数据资源集成商(负责数据集合)和数据分析技术服务商(负责数据分析)四大参与主体。根据中国网络空间研究院发布的《国家数据资源调查报告(2021)》,2021年,我国数据产量高达6.6ZB,同比增长29.4%。在行业分布上,个人持有的各类设备共产生1.4ZB数据,全国各类行业机构共产生5.2ZB数据,其中,主要分布在政府、互联网、媒体、公众服务及专业服务、交通等行业,上述五大行业数据产量占全国行业机构数量总产量的65%左右。
数据流通:厂商集中在数据产品供应商,数据交易经纪服务商厂商较少。数据流通可以拆分为三阶段。第一阶段:需要完成数据登记确权,参与主体为数据质量评估商。第二阶段:包括数据产品、挂牌上市、撮合交易,涉及到数据产品供应商(提供数据产品)和数据交易经纪服务商(负责交易撮合、交易经纪,起到中介的作用)。第三阶段:包括合约交付和交易结算,参与主体仍为数据交易经纪服务商。其中从交易场所来看,数据交易可分为场外交易和场内交易,因此经纪服务商也可以分为场内经纪服务商和场外经纪服务商。由于场内交易体系建设较晚,因此目前仍以场外交易为主,场内交易在迅速发展。
市场规模:2021年达到数百亿元级别
数据供给:当前中国数商行业企业数量为192万家,数据产品和服务供给不足。从市场规模来看,2021年,数据供给环节(采集、存储、加工)的市场规模达到385亿元。根据国家工信安全发展研究中心,2021年中国数据要素市场规模约为815亿元(不含数据应用),其中,数据供给环节占比47.2%。从数商企业数量来看,存在明显的供需不匹配问题,缺少标准化和规划化产品。高质量数据产品的背后是高质量数商。根据上海数据交易所官网,截至2022年11月,上海数据交易所累计挂牌数商仅89个。根据《全国数商产业发展报告》,截至2022年11月,中国数商行业企业数量达到192万家。其中,中国数商产业主要集中在长三角、珠三角、京津翼、川渝地区,四大区域合计占比达到56.8%。
数据流通:目前仍以场外交易为主,场内交易持续发力。从市场规模来看,根据国家工信安全发展研究中心,2021年中国数据流通(交易、分析、数据服务)市场规模约为380亿元,占中国数据要素市场规模的46.6%。从市场占比来看,根据上海数据交易所研究院,2022年,场外交易占全部交易的比重约为2%。预计到2025年,场内交易占比将达到1/4-1/3。场外交易平台集中度低,场内交易以省市级交易所为主。2014年1月,中关村数海大数据交易中心平台成立,拉开了场内交易的序幕;2015年4月,全国首家大数据交易所贵阳大数据交易所获批成立;2022年11月,深圳数据交易所正式揭牌成立,至此,北上广深四大一线城市均开启了新的数据流通探索。截至2022年11月,全国数据交易所已超40家。
以“数据资源化”构筑数据要素产业链的起点。数据要素供给是整个数据产业链的基座和起点,即通过“数据资源化”使无序、混乱、海量的原始数据成为有序、有使用价值、标准化的数据资源,主要包括数据采集、数据整理、数据聚合、数据分析四大环节。
1)数据采集:是数据资源化的首要环节,也是整个数据要素产业链的源头,旨在以合法合规的方式实现原始数据收集;根据数据来源的不同可分为政府数据采集、企业数据采集、个人数据采集三类,产业链公司主要包括富士康、海康威视等采集硬件厂商以及万达信息、探码科技、神策数据等大数据厂商;
2)数据整理:是数据资源化的核心环节,包括数据标注、清洗、脱敏脱密、标准化治理等细分环节;数据整理环节的核心功能是实现数据资源的标准化,以提升数据资源的可用性,主要包括美林数据、神策数据等数据治理厂商以及百度众测、阿里众包等互联网公司;
3)数据聚合:是数据资源化的枢纽环节,包括数据存储、聚合等细分环节,是连通数据采集、整理与数据分析、应用的中枢;数据聚合环节的核心功能是实现数据资源的互联互通、开放共享,以增强数据资源的规模效应与产业价值,在实际应用中聚合对象既包含原始数据又包含标准化数据,产业链公司主要包括达梦数据、人大金仓、PingCAP等数据库厂商,阿里云、华为云等云厂商以及星环科技、思迈特、友盟等大数据平台厂商;
4)数据分析:是数据资源化的应用环节,旨在通过对数据资源的详细研究、概括总结实现数据功能的最大化开发,包括商业智能(BussinessIntelligence,BI)分析、知识图谱、边缘计算、智能决策等服务,产业链公司主要包括星环科技、帆软软件、第四范式、明略科技等企业。
我国数据要素供给环节发展较为成熟,数据要素产业基础已基本夯实。据国家工信部统计,2021年我国数据采集、整理、聚合、分析的产业规模分别为45、160、180、174亿元,2022年11月,我国数据采集、整理、聚合、分析四个环节的数商企业数量占比分别49.9%、7.5%、25.5%、17.1%,是数据要素市场中发展较为成熟的产业环节。
数据采集:数据资源化首要环节,关注采集合法化与标准化
数据采集是数据要素供给的首要环节。数据采集是数据整理、数据聚合、数据分析的业务基础,决定了数据要素供给的范围和质量,一般可分为线下采集与线上采集两种方式。1)线下采集:多通过问卷调查、用户访谈、实地调研等方式进行人工数据采集;2)线上采集:多利用API接口、传感器、智能设备、爬虫技术等方式实现自动数据采集,包括数据库采集、系统日志采集、网络数据采集、感知设备数据采集四大类。伴随信息化程度不断深入与数据采集范畴的不断扩大,数据采集呈现自动化、智能化、网络化的三大发展趋势。
根据数据主体差异,数据采集对象包括公共数据、企业数据、个人数据三类。1)公共数据:指政府及公共机构在开展活动中依法收集的各类数据及衍生数据,如自然资源数据、经济社会数据、政务服务数据等;2)企业数据:指企业在生产经营管理活动中产生或合法获取的各类数据,包括企业主体数据、经用户授权的企业数据;3)个人数据:指能够识别自然人身份的特征数据以及自然人参与经济活动、社会活动产生的行为数据。
公共数据:逐步进入要素市场,逐步扩大开放范畴
公共数据逐步进入要素市场,高价值数据集安全有序开放。2021年3月发布的国家“十四五”规划明确提出,要“扩大基础公共信息数据安全有序开放,优先推动企业登记监管、卫生、交通、气象等高价值数据集向社会开放,开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用”,2022年3月,全国首部以公共数据为主题的地方性法规《浙江省公共数据条例》正式实施,率先开启了公共数据进入要素市场的的区域性探索。我们认为,伴随公共数据的安全有序开放,未来公共数据采集将呈现合法化、共享化、价值化三大特征,公共数据有望加快进入要素市场。
1)合法化:收集公共数据应当遵守网络安全、数据安全、个人信息保护等法律、法规以及国家标准的强制性要求;可以通过共享获取数据的,不得重复收集;共享数据无法满足履行职责需求的,可以向公共数据主管部门提交数据需求清单,由公共数据主管部门与相关公共管理和服务机构协商解决。
2)共享化:公共数据按照共享属性分为无条件共享、受限共享和不共享数据;公共管理和服务机构应当对其收集、产生的公共数据进行评估,科学合理确定共享属性,并定期更新;需要通过共享获取数据的,应当向数据提供单位的同级公共数据主管部门提出申请,明确应用场景,通过统一的公共数据共享通道以接口调用、批量数据使用等方式获取数据。
3)价值化:公共数据的数据要素属性有望通过数据授权运营凸显,探索由公共数据管理机构统一授权运营,通过建立公共数据成本核算机制,参照行政管理类、资源补偿类收费标准和流程,指导对市场化主体进行收费。
企业数据:数据链反哺产业链,第三方采集商价值凸显
企业数据采集是数据要素市场的重点。企业数据采集主要包括内部数据采集、外部数据采集和定制化数据采集等三种类型:1)内部数据采集:主要通过数据采集系统、日志收集系统、基于数据库和表的采集技术等方式,实现企业内部业务数据的离线采集;2)外部数据采集:主要通过开放API接口、爬虫技术、传感器应用等方式,实现竞品数据、行业数据等外部数据的收集;3)定制化数据采集:主要通过专业的第三方数据采集厂商,针对企业的定制化需求提供数据采集服务,并形成高价值密度的数据集产品。作为数字经济主体,企业数据链有望反哺产业链加速发展,企业数据采集是数据要素市场的核心重点。
个人数据:关注隐私保护,鼓励个人数据流通应用
个人数据采集遵循五大原则,隐私保护是采集的关注重点。2021年11月《中华人民共和国个人信息保护法》正式实施,强调“个人信息保护原则是收集、使用个人信息的基本遵循”,并将生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息列为敏感个人信息。个人数据采集应严格遵循合法公开、目的限制、最小数据、数据安全、限期存储五大原则。随着隐私保护意识提升与个人信息保护相关法律法规的健全,我们认为,个人数据采集和使用将更加规范,在国家鼓励个人数据参与流通应用的背景下,“个人数据信托”机制,有望成为保护个人数据安全,提升个人数据收益分配的有效途径。
市场格局:数字化转型建设商,与大数据基础服务商各具优势
数字化转型建设商具备业务一体化优势,大数据厂商数据理解深厚。数据采集的市场主体包括采集设备提供商、数字化转型建设商、数据采集解决方案供应商(即大数据厂商)三类。1)采集设备提供商:主要为数据采集提供传感器、采集器等专用采集设备和智能设备,主要包括富士康、海康威视、新大陆等硬件厂商;2)数字化转型建设商:主要为企业提供数字化转型建设方案,同步建设企业数据采集系统,主要包括太极股份、中软国际、万达信息、软通动力等综合数据服务商;3)数据采集解决方案供应商:专门针对数据采集需求提供数据采集产品及服务,主要包括探码科技、点通数据、倍赛等大数据基础服务厂商。
数据整理:数据资源化核心环节,搭建数据要素标准体系
产业概览:以数据标准化为核心落脚点,强化数据要素资源管理
数据整理是实现数据到数据资源转变的核心环节。数据整理是指对采集、存储的数据进行筛选和处理,提升数据的可用性,为数据资源聚合、挖掘、分析奠定基础,主要包括数据清洗、标注、脱敏、标准化治理四大细分环节。数据整理作为数据资源化的核心环节,其根本目的在于提供高价值密度、高可用性的数据要素资源,以标准化治理为核心的数据要素标准体系构建有望成为该阶段的建设重点。
1)数据清洗:是指利用相关技术将“脏”数据(数据库中残缺、错误、重复的数据)转换为满足质量要求的数据,是数据资源化过程中提升数据质量的重要手段;数据清洗大致可分为去除/补全缺失数据、去除/修改格式和内容错误数据、去除/修改逻辑错误数据、去除重复多余数据、关联性验证五个环节;得益于大数据产业的高速发展,2016年起以贵阳大数据清洗基地为代表的多家数据清洗基地相继落成,我们认为,伴随数据要素市场化进程加速,数据质量管理的重要性将更加凸显,数据清洗需求也将加速增长。
2)数据标注:是指通过分类、画框、描点、区域、注释等方式,对图片、语音、文本等数据进行处理的过程,是数据资源化过程中提升数据利用效率的重要步骤;根据数据类型的不同,数据标注可分为图像标注、语音标注、文本标注、视频标注四大类,其中图像标注多应用于车辆车牌、人脸识别、医疗影像、机械影响等领域,语音标注多用于语音输入、语音合成、声纹识别等场景,文本标注多用于新零售、客服、广告营销、金融等行业数据,视频标注多用于智能驾驶、智能安防、智能家居等业务场景。
3)数据脱敏:是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,是深化数据要素安全应用的重要前提;数据脱敏可分为静态数据脱敏和动态数据脱敏两大类,静态数据脱敏是指对完整数据集进行大批量、一次性的整体脱敏,多采用ETL技术进行脱敏处理;动态数据脱敏是指对外部申请访问的敏感数据进行实时脱敏处理,多采用中间件技术对外部的访问申请和返回结果进行即时变形转换处理。
4)数据标准化治理:是指在数据驱动的业务与生产环境中,围绕具备更高可用性的数据标准与数据模型构建的完整数据系统工程,是数据整理环节的最终落脚点;根据2018年发布的首个数据管理领域国家标准GB-36073,数据标准化治理已成为DCMM数据管理能力成熟度评估模型的重要组成部分;DCMM自低到高分为初始级、受管理级、稳健级、量化管理级、优先级五个层级,截至2022年6月,DCMM贯标已覆盖全国电力、通信、金融、政务、IT、工业制造等领域的252家企业,其中二级企业共124家(占比49%),三级企业共94家(占比38%),四级企业共28家(占比11%),五级企业共3家,数据标准化治理水平仍有较大的提升空间。
市场格局:数据加工服务商占主导,数据治理服务商有望加速成长
数据加工服务商占主导,数据治理服务商有望加速成长。1)数据加工服务商:专注于数据的清洗、标注、脱敏等加工服务,为数据分析应用提供高质量数据基础;2)数据治理服务商:主要从数据全生命周期的视角,为企业提供数据的标准化治理服务,提升企业自身的数据管理能力。根据上海数据交易所发布的《2022全国数商产业发展报告》,截至2022年10月国内数据加工服务商数量(121,598家)远超数据治理服务商(13家),我们认为,随着数据要素在经济活动中逐渐发挥重要作用,企业对数据管理能力的要求将进一步提升,数据治理服务商有望加速成长。从具体细分环节来看,参与厂商构成具有一定差异:
1)数据清洗:主要参与厂商包括九次方大数据、数据宝、吉佳通达、三维天地等大数据企业,其中九次方大数据、数据宝分别成立了贵阳大数据清洗基地、满天星数据清洗加工标注基地,吉佳通达、三维天地等公司主要为用户提供数据清洗平台产品。
2)数据标注:主要参与厂商包括Testin云测、倍赛、京东众智、百度众测、阿里众包等企业,其中Testin云测、倍赛采用自建模式,通过自建工厂或基地提供数据标注服务;蚂蚁众包、阿里众包采用众包模式,通过搭建众包平台汇聚标注兼职人员力量;京东众智、百度众测、龙猫数据、数据堂则采用自建+众包的组合模式,比如百度在山西建立了人工智能基础数据产业基地,同时拥有数据标注开放平台,兼具两类业务模式优势。
3)数据脱敏:主要参与厂商包括安华金和、比特信安、神州数码、海量云图、启明星辰、天融信等企业,其中安华金和、启明星辰、天融信等信息安全服务商,通常以整体安全服务解决方案的形式提供数据服务,安华金和是Gartner2020年《数据脱敏市场指南》中唯一入围的中国安全厂商;比特信安、神州数码、数博智云等数据服务商,通常以提供数据脱敏产品、服务为主要业务形态。
4)数据治理:主要参与厂商包括亿信华辰、美林数据、四方伟业、云坤科技、普元信息、神策数据、华傲数据等企业,其中亿信华辰、美林数据、四方伟业等企业是数据要素供给的全链厂商,业务布局涵盖数据采集、数据聚合、数据整理、数据分析等全业务环节;普元信息、云坤科技主要关注数据采集、数据聚合、数据整理等环节;神策数据、华傲数据主要关注数据整理、数据分析等环节。
数据聚合:数据资源化枢纽环节,强调数据要素互通共享
数据聚合是数据要素互通共享的枢纽环节。根据聚合范畴的不同,数据聚合可分为数据库、数据湖、数据仓库、数据平台等多种业务形态:1)数据库:按照数据结构不同可分为关系型数据库、NoSQL数据库、NewSQL数据库;2)数据仓库:是指用于存储、分析、报告的数据系统,与数据库相比数据仓库中的数据按照一定主题域进行组织;3)数据湖:是指集中式数据存储库,允许以任意规模存储所有结构化和非结构化数据,解决了数据分散、存储散乱、数据孤岛众多等问题;4)数据平台:是指通过内容共享、资源共用、渠道共建、数据共通等形式来进行服务的网络平台。我们认为,数据要素互通共享将成为数据分析利用的重要支撑,云数据库、湖仓一体平台、大数据平台等产业形态有望加速发展。
数据库:数据上云成为重要趋势,非关系型数据库快速发展
数据库上云成为重要趋势,非关系型数据库加速发展。数据要素化持续带动数据规模高速增长与数据类型不断丰富,同时数据计算也将朝高并发、低时延的趋势深度发展。综合考量数据要素化带来的数据与计算变化,我们认为,面向数据要素的数据库存储将呈现显著的云化趋势,云数据库能够按需分配计算、存储和带宽等资源,具有按需付费、按需扩展、高可用性、存储整合等灵活性优势;同时大量图像、视频、社交信息等非结构化数据高速增长,带动非关系型数据库占比快速提升。据沙利文预测,2025年我国数据库产业规模将达到682.3亿元,2021-2025年复合增长率约为21.1%,云数据库将成为重要增量。
国产数据库参与厂商包括传统数据库厂商、初创数据库厂商、云数据库厂商和跨界数据库厂商四类。1)传统厂商:以达梦数据、人大金仓、南大通用等企业为代表的传统数据库厂商,是我国最早参与数据库研发、使用企业,在数据库领域具有深厚的技术沉淀;2)初创厂商:以巨杉、PingCAP、偶数科技、星环科技等企业为代表的初创厂商,依托于新兴的数据库技术与需求,近年来实现蓬勃发展;3)云厂商:以阿里巴巴、腾讯等企业为代表的云数据库厂商,得益于互联网业务和开源技术的快速发展,积极搭建自研云数据库平台,迅速占领云数据库市场份额;4)跨界厂商:以中兴、浪潮等企业为代表的跨界厂商,积极布局企业级数据库市场。
湖仓一体:数据湖、数据仓库,呈现湖仓一体发展趋势
湖仓一体成为数据湖、数据仓库的重要发展趋势。普通的数据湖(DataLakes)在数据质量、一致性/隔离性、混合处理追加读取等方面不如数据仓库,普通的数据仓库(DataWarehouses)在多源、异构数据融合方面劣势较为明显。湖仓一体(Lakehouse)兼容了数据仓库和数据湖的优势,在数据湖的低成本存储上实现数据仓库的数据结构和管理功能,包括事务支持、模式执行和治理、商务智能BI(BusinessIntelligence)支持、存储与计算分离、多种数据类型支持、各种工作负载支持等。
国内湖仓一体厂商主要包括云厂商和大数据厂商两大类。1)云厂商:以华为云、阿里云、金山云、腾讯云、移动云、百度智能云为代表的云厂商,凭借基础资源优势打造云原生的湖仓一体平台,兼具云数据库与湖仓一体平台的产品优势;2)大数据厂商:以火山引擎、星环科技、偶数科技、滴普科技、亿信华辰为代表的大数据厂商,也基于自身在大数据聚合、分析方面的业务理解,推出湖仓一体产品,为下游用户提供高效的数据聚合方案。
数据平台:一体化平台,将加速数据要素市场化进展
大数据平台打通各数据环节,推动多源异构数据互联共通。大数据平台采用流、批、湖、仓一体化方案,实现多源异构数据的大规模聚合。以星环科技的TDH大数据平台为例,TDH平台内置8款独立的存储引擎,实时流处理采用实时流计算引擎Slipstream,结构化数据的批处理、数据湖、数据仓库采用关系型分析引擎Inceptor,宽表存储、文本存储、对象存储等非结构化数据采用宽表数据库引擎Hyperbase。我们认为,一体化大数据平台在多源异构数据聚合方面具有突出的技术优势,或将成为多类型数据要素聚合的重要载体。国内大数据平台厂商包括:思迈特、星环科技、友盟、网易猛犸、神策数据等多家企业。
数据分析:数据资源化应用环节,实现数据价值深度挖掘
2025年数据分析市场规模有望突破1300亿。数据分析是指通过对数据资源的详细研究、概括总结以实现数据功能的最大化开发,包括商业智能(BussinessIntelligence,BI)分析、知识图谱、边缘计算、智能决策等细分市场。参考沙利文、艾瑞咨询、亿欧智库、IDC对数据分析细分市场的市场规模预测,2025年BI分析、知识图谱、边缘计算、智能决策的市场规模分别为94、246、629、353亿元,合计市场规模有望达到1322亿元。
BI分析进入智能BI时代,参与者包括BI解决方案商和大数据厂商两大类。BI分析平台的架构自下而上包括基础服务、数据接入、数据处理、数据可视化、内容呈现五个层级;市场参与者包括BI整体解决方案厂商、具备BI功能的大数据厂商两大类:1)BI整体解决方案厂商:分为传统BI厂商和敏捷BI厂商,主要包括帆软软件、远观数据、思迈特、网易数帆、奥威软件等企业;2)具备BI功能的大数据厂商:包括以亿信华辰、火山引擎、友盟为代表的数据存储与处理厂商,以美林数据、优易数据为代表的数据管理厂商,以及以全天智能、明略科技、易观数科为代表的数据分析与可视化厂商。
知识图谱(Knowledge Graph,KG)围绕大数据知识图谱、行业知识图谱两类产品展开,参与厂商包括图数据存储商与 KG 建模训练商两大类。1)通用知识图谱:面向开放领域,强调知识图谱的广度,通常难以形成完整的全局性的本体规范;2)行业知识图谱:面向特定行业,主要用于辅助各种复杂的分析应用及决策支持场景,已广泛应用于政务、金融、医疗、农业、电力等下游行业。市场参与者包括图数据存储商与 KG 建模训练商两类,其中图数据存储商包括明略科技、海致星图、星环科技等企业,KG 建模训练商包括明略科技、科大讯飞、达观数据、国双科技等企业。
边缘计算高速发展,产业生态日益完善。边缘计算是指在数据源附近的网络边缘执行数据分析处理以优化云计算系统的方法,产业链上游为服务器、边缘网关、边缘计算终端、边缘计算平台等基础软硬件设施提供商;产业链中游为云服务厂商、电信运营商等边缘云建设服务商;产业链下游为行业垂直系统集成商、产业链综合服务商、边缘计算专家等系统集成商。据亿欧智库统计,2021年我国边缘计算市场规模为427.9亿元,其中边缘硬件市场规模为281.7亿元,软件与服务市场规模为146.2亿元,据亿欧智库预计,2025年我国边缘计算市场规模有望达1,988亿元,其中硬件市场规模1,359亿元,软件与服务市场规模629亿元。
2025年智能决策应用渗透有望超60%,智能决策时代或将加速到来。智能决策是指利用机器学习、深度学习、联邦学习、运筹学等技术,实现精准营销、销量预测、供应链管理、风险控制等业务环节的智能决策,已实现在金融、零售、制造、能源等行业的初步应用。根据IDC发布的《2021年中国智能决策解决方案市场份额》报告,2021年中国智能决策解决方案市场规模达8.9亿美元,同比增长66.4%,据IDC预测,到2025年,超过60%的中国企业将实现智能决策技术的应用,员工的工作效率和生产力较2021年将提升25%。目前国内主要参与厂商包括第四范式、同盾科技、邦盛科技、杉树科技等企业。
数据要素流通市场建设包括政策与法律法规、流通制度、模式、技术和标准五方面。其中,政策与法律法规是培育数据要素市场、促进数据要素安全流通的重要保障;流通制度是支撑数据要素流通宏观政策主张走向具体落地实践的主要途径和载体,有助于实现“数据可用不可见,数据不动价值动”;流通模式是融合政策、法律法规、制度、技术、标准和实现数据要素市场化配置的关键环节;流通技术为培育高质量的数据要素市场提供基础性技术支撑;流通标准是衔接政策法律法规、制度和技术的重要治理工具。
数据要素流通市场化发展涉及数据权利、登记、定价、交易、监管五个环节。基于数据要素流通框架,站在市场化整体发展路径角度,数据要素流通市场化发展涉及数据权利、数据登记、数据定价(收益分配)、数据交易、数据监管五个环节。其中,数据资产登记是数据要素流通的必要前提,解决权属链识别、市场准入和数据资产盘点等问题;数据评价和数据资产评估是实现数据价值流通的必经之路,解决数据要素全生命期质量和价值度量等问题;数据交易是推动数据要素流通、释放数据价值,培育数据要素市场的关键环节;数据监管在数据要素流通全过程制定数据安全合规监管监测体系,是保障数据要素安全流通流转的关键。
数据权利与确权,数据要素流通交易的基础
数据权属确定(确权)是数据要素的流通交易基础。数据权属界定不明确,将导致数据在流通、交易、使用过程中的可解释空间大,甚至出现大量数据集在黑市进行交易情况,造成数据隐私泄漏,市场规范性遭到破坏。因此,数据确权是整个数据要素流通交易的基础。数据权利主要包括数据持有权、加工使用权、经营权及其相关权利事项。数据往往由自然人和企业共创,是社会网络的共同产出,其权利呈现相对化趋势,加上数据可复制、易共享的特征,数据权利的确定与传统物权、决定权都不相同。1)数据持有权:根据国家发展和改革委员会《数据基础制度观点》,数据持有权的权能至少涵括自主管理权,具有私益性;2)加工使用权:是指企业自我使用、处理加工数据的权利;3)经营权:是指企业对数据的开发、交易和处分的权利。其中,数据使用权和经营权须具有一定的排他性才能够确认为资产,即企业控制的资产必须带来其它企业不能获得的经济收益。
国内外在数据权属问题上均进行了充分的法律制度探索。欧盟最早进行体系性构建,确立了“个人数据”和“非个人数据”的二元架构;美国未针对数据的综合立法,而是将个人数据置于传统隐私权的架构下,利用“信息隐私权”来解决互联网对私人信息的威胁;日本严格界定数据保护范围,不对数据另行设置私权限制,尊重数据交易契约自由;俄罗斯规定数据主体为“处理人”,具有数据知情权,更正、中止、删除权,可携带权等权利;印度将数据视为“信托”问题,由“数据受托人”承担主要责任。国内数据确权尚处于起步阶段。目前,中央及部分地区陆续出台相关文件,建立相关平台,筹划数据确权发展。例如,深圳创设数据权,明确数据权的财产权属性与数据权的内容;广州要求重点在数据确权先行先试,全面开展对数据确权相关法律法规的预研;北京筹建北京国际大数据交易所,明晰数据权利取得方式及权利范围等。
基于“三分原则”,根据由易到难和效益更大化两条标准得到数据确权路径。基于“三分原则”,可以得到数据产权内容矩阵。在产权矩阵的基础上,根据“由易到难、层层推进”,以及“对有助于实现社会和个人效益更大化的数据优先确权”两条原则,得到确权的顺序路径。例如,企业数据构成最复杂,且准公共品的企业数据产权束内容最多(包含公有、基础数据、衍生数据产权),因此确权顺序排在最后。最终得到数据确权的顺序为图中A→B→C→D→E→F。此环节主要由区块链(存证、追溯)、现代密码、数据水印等技术支持。
2026年,全球数据量预计达175ZB,数据确权市场前景广阔。目前,国内数据确权暂未形成明确的商业模式。但是从数据量上看,据IDC数据,2025年,全球数据量总和预计高达175ZB(1泽字节相当于1万亿GB)。2017年,中国的数据产生量约占全球数据产生量的23%,按照该占比计算,2025年,中国数据量约为40.3ZB,数据确权市场前景广阔。
数据登记:确认数据合法性的保障
数据登记指的是将数据相关信息及权利在数据登记系统上予以记载和公示。登记的目的在于合法性确认,申请所持有数据成为资产的企业自愿在登记平台上备案形成存证,为潜在的数据权益纠纷和数据来源争议留存证据,并发挥唯一标识数据的作用。
数据资产登记体系有登记目的、依据、机构、登记者、对象、载体、审查、效力八个要素。从流程上理解,数据登记是登记者基于特定登记目的的需求,就某一登记对象,向登记机构提出登记申请,登记机构根据登记制度,开展登记审查后将登记对象记载于登记载体中,取得数据资产登记证书,并最终产生登记效力。其中,登记目的是保护参与主体的合法权益和资产流通的安全与效率;登记者是数据资产的合法持有者;登记机构接受登记者的申请,按制度完成登记和管理载体;登记依据是登记行为的规范和操作标准;登记对象是登记者拥有和控制的、经过加工处理以后可以作为可流通可交易的数据产品及其权属和交易记录;登记载体是登记者、登记机构、相关第三方的电子化信息沟通交流平台;登记审查指对登记者提供的登记材料进行审核,包括形式审查与实质审查两类;登记效力是对主体与关系的设立、变更、终止事实作出法律确认,包括创设效力和确认效力。
国外尚未明确数据登记概念,国内率先确立数据资源与数据产品两种数据要素。虽然欧盟、美国对于数据确权相关制度规范探索深入,但并未明确提出数据登记核心概念。相对而言,国内认为数据资产登记是解决数据要素流通“确权难”问题的重要基础,也是完善数据要素流通制度的重要一环,而对数据要素的深入理解是制定数据登记模式的前提。目前,我国将数据要素分为数据资源和数据产品两个类型。1)数据资源:指经过初步加工处理后、可以再次开发利用并创造价值的数据要素;2)数据产品:指再加工后的、可直接交易产生收益的数据要素。
基于两种数据要素类型,衍生出数据资源和数据产品两种登记模式。1)数据资源登记模式:对数据资源进行确权登记。由于数据要素可复制性、非排他性等特质,目前针对该模式的确权登记仍存在实施难度较大、权属关系界定模糊的问题,仅有部分组织机构进行了该模式的研究与实践;2)数据产品登记模式:对用于交易的数据商品进行登记,确保产品的合规性。该模式已有多家数据交易所和交易机构作出实践,其中包括上海数据交易所、广州数据交易所以及北京国际大数据交易所数据资产登记中心。
数据登记时重点关注数据基本信息、来源、收益途径、权属关系等内容。1)数据基本信息:包括名称、所属行业类别、数据类型、哈希值等;2)数据来源:若外购或授权得到,可提供交易凭证或许可文件,若爬取得到,需提供爬取对象的基本信息,包括但不限于网址或数据库地址、授权许可关系等;若由企业自生,简要描述产生于生产流程中的哪一环节等;3)数据实现收益途径:包括数据用途、稀缺性、开发可行性等;4)数据权属关系:是否享有使用权或经营权;5)法律情况:说明数据是否涉密及是否存在法律争议;6)审计:登记机构通过线上随机采样或现场核验等方式进行审计,核验通过后颁发数据资产证书,完成资产登记。整个环节涉及技术主要包括区块链、哈希技术、知识图谱等,保证了数据登记权力链和流通链安全可追溯。
数据登记相关规范制度和标准正逐步建立健全。目前,上海数据交易所发布了《上海数据交易所数据产品登记规范(试行)》,旨在明晰数据产品持有者,维护数据交易参与方的合法权益。规范主要涉及登记申请、登记撤回与变更、登记撤销和登记管理等内容。同时,国家也建立了相关的数据登记标准体系,持续健全市场监管环境。
数据定价&收益分配,量化数据估值确定数据收益
我国基本确立了由数据评价与价值评估两个环节组成的数据资产定价模式。数据定价指的是依据数据质量、成本、应用评价结果,使用相应方法对被评估数据进行量化估值。依据《数据资产评估指导意见(征求意见稿)》《信息技术大数据数据资产评估》团体、国家标准征求意见稿,我国已通过全面分析数据的技术属性和财务属性,初步形成了包含数据评价与价值评估两个环节的数据资产定价基本模式:1)数据评价环节:包括质量要素、成本要素、应用要素三部分的技术评价;2)价值评估环节:由于数据资产无实物形态且具有非货币性,可类比无形资产,采用成本法、收益法、市场法对数据资产价值进行评估。
价值评估环节的成本、收益和市场三种评估方法各有优劣。1)成本法:是无形资产的评估中反映企业经济效益的最基本方法,确定商品价格的方式是考虑单位产品的可变与固定成本,加上单位商品的交易利润以确定产品价格;2)收益法:收益法是评估大数据资产价值的首要方法,该法第一步确定预期收益率,第二步依据所选的预期收益进行不同的公式计算出预期收益,最后则基于预期收益进行商品价格的计算与确定;3)市场法:以稳定的市场价格为前提,参照市场上类似数据交易案例的实施价格,并结合技术水平、数据类型、价值密度等因素进行调整,最终得到数据资产价格。
静态定价策略与动态定价策略相结合的方法,更适合不完全市场下的数据定价实践。事实上,由于数据资产具有重置成本难确定、价值可持续挖掘、数据使用寿命不易估计、交易市场规模小等特点,并不能完全等同无形资产定价。在目前的不完全市场下,数据价格受数据量、数据种类、数据深度、数据完整性和数据实时性等多因素影响。因此,采用静态定价策略与动态定价策略相结合的方式或更为科学。静态定价策略包括固定定价、差别定价、拉姆齐价格;动态定价策略包括自动计价、协商定价、拍卖式定价。
国内数据交易平台/交易所更偏向于动态定价,国外更偏向于静态定价。从目前的现有的大数据交易平台、交易所的实际运行情况看,国外更偏好静态定价,且以固定定价方式为主;而国内的交易所和交易中心更偏好动态定价,且多数采用协商定价的方式完成交易。在实际的定价过程中,涉及知识图谱、区块链(存证、追溯)、自然语言处理、机器学习等技术,这些技术保证了数据要素流通价值链的统一可度量。
完善理论框架和实现动态定价或是数据定价模式的研究重点。目前,对于数据定价的研究主要依赖于特定假设,许多实际问题仍缺乏有效的解决途径。完善理论框架和实现动态定价或是数据定价的研究重点。1)完善理论框架:单一模型在数据定价中存在不足,应充分考虑利润、市场供求、数据产品特征和成本结构等的多指标体系,以成本导向的定价为价格下限、顾客导向的定价为价格上限、市场导向的定价为价格参照、利润和消费者福利最大化为目标。此外,也可结合大数据的价值特点,建立大数据定价的理论体系,实现多种定价手段联合定价;2)实现动态定价:数据要素的价值具有波动性,而目前市面上大多数定价方法为静态定价。因此,在实际进行数据定价时,需要充分结合市场情况、数据类型、预测模型进行数据要素的动态定价。
在数据确权、定价的基础上,交易平台和数据卖方按照收益分配机制实现数据价值。收益分配机制包含两部分。一部分是数据交易平台收益分配机制,包括:1)交易分成收益分配机制:在数据交易完成后大数据交易平台与数据卖方按约定好的比例分成相应的中介费用;2)保留数据增值收益权分配机制:大数据交易平台对数据保留增值收益权并以此为基础收费的方式。另一部分是大数据交易卖方收益分配机制,包括:1)一次性交易所有权收益分配机制:在数据交易中一次性转移数据占有权、使用权、处分权、收益权;2)多次交易使用权收益分配机制:即只针对数据使用权进行反复多次的交易,带来更多收益;3)保留数据增值收益权分配机制:数据卖方决定是否需要保留对收益权的占有,并决定按多少比例进行合同约定。
数据交易:培养数据要素市场的关键
数据交易对象包括“大数据&衍生品”和“传统数据&衍生品”两种数据商品。数据交易是数据供应方和需求方之间以数据商品作为交易对象,进行的以货币或货币等价物交换数据商品的行为。其中,数据交易的对象是数据商品,包括用于交易的原始数据或加工处理后的数据衍生产品。按照交易对象的不同,数据交易可分为两种:1)以大数据或其衍生品作为数据商品的数据交易;2)以传统数据或其衍生品作为数据商品的数据交易。基于参与数据交易市场的主体和行为,可构造出如下数据交易市场的基本框架图。
数据交易制度包括交易所制度、数据经纪人制度和数据空间制度。1)交易所制度:数据交易所类似于股票市场的场内交易,是数据交易双方集中交易的市场化场所,能够有效的促成买卖双方的公平交易,降低交易风险,同时,具备不可替代的高效性和规范性。2)数据经纪人制度:数据经纪人指的是通过匹配、沟通和撮合,促成买卖双方的数据交易并赚取佣金的中介机构或个人。该制度有利于盘活闲置数据资源,匹配市场供给需求,促进数字经济的快速流通。3)数据空间制度:数据空间是一个虚拟空间,促进受信任的商业生态系统中安全和标准化的数据交换和数据链接。数据空间目前仍处于倡议阶段,提供研究活动、制定标准、构建生态等功能。
数据交易市场模式类比传统要素流通交易市场模式进行探索与发展。主要包括四种模式直接搜索市场,交易商市场,经纪人市场,拍卖市场。目前国内的数据交易市场纷繁复杂,互有优劣。直接搜索市场在数据量小的交易中具备优势,但存在交易不透明的缺点;交易商市场能容纳较大数额的数据交易,但仍需提升数据增值服务;经纪人市场能够保障数据主体的权益,但是个人隐私权难以保障;拍卖市场可以确保交易公平,但是相关生态仍未成熟。这几种市场的共同隐患是隐私保护问题。
不同的交易市场催生不同的服务运营模式与之相适应。在不同的交易市场中,服务运营模式也不尽相同,具体可分为数据直供服务、数据加工服务、数据银行模式和数据信托模式。1)数据直供服务:数据要素流通市场早期形成的服务模式,随着数据服务形态逐步智能化和高效化,这种服务将逐渐退出历史舞台;2)数据加工服务:随着算法技术的持续发展,逐步衍生出智能、全面、独具中国特色的数据加工服务,能够对数据进行脱敏、去标识化,确保敏感数据交易的安全性;3)数据银行模式:需要定义数据标准化流程,将不同来源的数据进行结构化和标准化处理之后,再封装成为数据资产产品或服务,以便后续流通;4)数据信托服务:可以横跨货币市场、资本市场、实业产业,有着广阔的发展空间。
数据交易过程涉及技术包括数据元件技术、数据空间技术、数据隐私技术等。在数据交易和提供数据增值服务的过程中,始终存在着数据流通和数据安全的矛盾。而上述四种技术能有效缓解这一矛盾。1)数据元件:具备安全属性和价值属性,能够实现数据的风险隔离、安全管控和提升数据价值密度;2)数据空间技术:从本质上而言是建立数据生产者、处理者和消费者之间的信任,保护数据主权,促进数据流通,消除数据孤岛;3)数据隐私技术:能够在处理与分析计算数据的过程中保持数据不透明、不泄露、无法被其他非授权方获取。
数据监管:保障数据要素安全流通流转
数据监管是在数据要素流通全过程制定相关的数据安全合规监管监测体系。数据监管的目的是保障数据要素安全流通流转。在数据监管环节,主要采用爬虫技术、应用日志流量分析技术、数据水印、区块链技术等。为保障各方数据权益和促进数据流通,各国正在逐步构建数据相关立法模式和探索数据分级分类方案。
欧盟采用统一监管模式,致力于保护数据主体的人格权和隐私权。欧盟是世界上起步最早的数据治理组织,其数据监管模式具有参考价值。通过明确权利义务、统一立法标准、设立专门机构、设置数据保护官等手段,调动欧盟、成员国、数据控制者等多方力量保障数字时代公民的隐私权利,形成了欧盟与成员国二级共建、具有统一性和独立性的监管模式。2018年,《通用数据保护条例》出台,强调了监管机构的独立性和权威性,细化了数据控制者和处理者的权利义务,要求企业设置数据保护官加强内部监管。2022年2月,公布《数据法案》草案,明确提出搭建全面监管框架,强化用户获取和使用数据的权利,并要求成员国依靠独立监管机构审查行为者获取数据的权利和义务,深化了对数据的二级监管机制。
美国数据立法遵从分散立法模式,寻求数据权利保护与数据自由流通之间的平衡。美国从较为自由的数据监管模式逐步收紧。国家安全层面,美国先后颁布《美国外国投资风险审查现代化法》、《美国澄清海外合法使用数据法》,以严控关键技术和敏感个人数据领域的外商投资;数据开放层面,美国颁布《美国信息自由法》《美国开放政府数据法》等促进非敏感数据的流通;个人数据保护方面,美国在多个领域均有立法保护,如金融行业的《美国金融消费者保护法》,电信行业的《美国计算机欺诈和滥用法》;数据跨境流动方面,美国先后颁布《信息安全港框架协议》《隐私盾协议》,以规范存储在国外的数据。
早期,我国主要通过制定规范性文件,将个人数据作为网络空间安全的一部分进行规制。我国陆续出台了《关于维护互联网安全的决定》《关于加强网络信息保护的决定》《信息安全技术公共及商用服务信息系统个人信息保护指南》等规定和指南,分别从个人数据资料处理监管范围,打击网络信息违法犯罪行为,个人数据测评监督机制等方面进行了规定。
目前,设立数据流通相关监管法律是数据监管的重点。随着数字经济的发展,规范性文件的效力与可操作性受到局限。为此,我国出台了《网络安全法》《数据安全法》《个人信息保护法》三大数据监管相关基础法,从不同角度明确了各方的权利义务,规定了主要监督部门,细致划分违法行为的处罚标准及范围,构建起我国数据监管的基本法律框架。框架一方面加强了数据人权保护,另一方面增强了对关系国家安全、公共利益等重要数据的监管,形成了较为全面的数据监管体系。在三大基础法的框架之下,2022年6月,国家互联网信息办公室起草了《个人信息出境标准合同规定(征求意见稿)》。此外,在数据合规基础法律框架基础上,各重点行业相关法规和司法解释也陆续出台。
来源:华泰证券
大佬观点
本篇文章来源于微信公众号: 数字金融网