搜索
返回
济邦观点 | 公共数据产品开发及类型辨析

李浪子,济邦咨询  经理


这是【公共数据授权运营专题】的最后一期。前两期我们综合分析了央地两级政策体系与执行情况,对海量信息去芜存菁,力求对公共数据授权运营的基本概念、模式、流程以及发展展望做出清晰解读。


本篇,我们延续公共数据授权运营的话题,聚焦在公共数据运营的终端形态——公共数据产品,对公共数据产品的关键底层原则、开发的两级市场以及典型性的产品呈现形式作深入剖析,并尝试以交通领域公共数据为例,解读目前市场上的主要公共数据及相关产品形态。


一、公共数据产品开发的几个关键前提


1. 数据产权的结构性分置


早在2022年12月,中共中央、国务院发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)中,明确要求根据数据来源和生成特征,界定数据生产、流通、使用过程中各参与方享有的合法权利,探索建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制。


公共数据的持有权与加工使用权指公共数据伴随公共部门提供的公共服务而产生的数据持有权,以及相应的数据加工、治理等加工使用权。


而经营权对应着的是数据产品,因此,基于公共数据产生的数据产品经营权自然归属于产品的生产与加工部门,而非政府与公共部门的职责范畴,其本质具有市场属性。数据产权的结构性分置,保障了公共数据产品在市场上的自由流通。


2. 公共数据开放程度的梯度属性


公共数据按照对外的开放程度,分为无条件开放、有条件开放与保密数据(不予开放)。对于依法需要保密的公共数据不予对外开放,而对于在一定条件下或者通过特殊手段可以提供给社会使用的公共数据列为有条件开放,其他不涉及保密要求应当向社会主动开放的公共数据便是无条件开放数据。


因此,为了满足社会对公共数据的使用需求,同时充分发挥公共数据的要素价值,依据合理机制并通过必要手段合法获取、使用与开发数据是非常重要的一点。这同样对当下公共数据资源的供给模式及产品形态产生了深远影响。


3. 原始数据不出域、数据可用不可见


“数据二十条”中,对于公共数据的使用还有一条关键性原则,即在推进公共数据确权授权过程中,在确保个人隐私和公共安全的前提下,公共数据需遵循“原始数据不出域、数据可用不可见”的原则,以模型、核验等产品和服务的形式向社会提供。


各地方试点实践中,都明确将此项要求作为地方公共数据管理办法、公共数据条例等地方性法规、规章的重要原则性条款。这一点便要求了公共数据产品开发需要兼顾数据安全与高效利用,通过数据的脱敏、匿名化确保数据安全,通过使用数据沙箱、API接口等多种方式实现数据的高效利用。


二、公共数据产品开发的两级市场


各行业的分级市场常根据市场容量、经济状况、交易阶段、行政级别等不同对市场进行区分,如资本市场针对金融资产的不同交易阶段划分为一级市场(发行市场)和二级市场(交易市场)。公共数据产品开发按照公共数据授权运营机制要求,也存在一二两级市场。


1. 一、二级市场结构


所谓一级市场,即政府按照规范程序授权给数据运营机构,运营机构对数源单位提供的公共数据,在授权范围内对公共数据进行整理、清洗、脱敏等处理,实现一级产品开发。并按照相关要求,依托统一的公共数据资源登记平台登记存证,最终实现上架交易。


一级市场可以称为数据资源市场,其产品形态是对原始公共数据的粗加工,旨在解决数据的安全性与合规性问题,主要流通方式为原始数据集或数据API接口。


所谓二级市场,是指市场主体(开发主体)将通过合规渠道获取的一级市场开发交付的初级公共数据产品进行二次开发,融合多源数据,以提升数据产品和服务价值,满足市场终端多样化需求。


二级市场可以称为数据产品市场,重心在初级数据产品的再开发及市场化,产品形态与市场需求紧密结合,应用场景、盈利模式清晰,有效发挥数据要素的乘数效应。


2. 两级市场分置


根据国家数据局《公共数据资源授权运营实施规范(试行)》(公开征求意见稿)的有关要求,运营机构应在授权范围内依法依规开展业务,不得直接或间接参与授权范围内已交付的公共数据产品和服务的再开发工作。鼓励其他经营主体对运营机构交付的公共数据产品和服务再开发。


这里所谓的其他经营主体,便是运营机构以外的其他市场开发主体。这就意味着,待正式稿发布后,大有可能一级市场、二级市场将会严格分开,两级市场的主体不得重合。


运营机构授权运营,意味着将对某一行政范围内或某一特定领域拥有数据一级产品开发的专营权。按照各地方的运营实践来看,运营机构甚至还承担着一定的市场培育、市场维护的政府职能。因此,公共数据产品开发的两级市场机制,重点在维持再开发环节的市场竞争性,充分激发市场活跃度,防止权力滥用导致的竞争受限和市场垄断现象出现。


1733117493669499.jpg


图1 地方常见两级市场结构


三、数据产品有哪些类型


以上内容我们介绍了塑造公共数据产品交易机制的几条关键原则,也通过一、二级市场的辨析对两个阶段数据产品的差异做了解释。一级市场的产品具有程式化特征,只是对公共数据的粗加工,解决的是公共数据资源的合规供给问题。对于市场来说,二级市场产品的开发才具有较高的可参与空间与商业价值。那么,当前有哪些数据产品活跃在市场交易中?


通过整理各大数据交易所数据,我们发现,市场上公开上架交易的数据产品中,数据集、数据工具(应用)、数据服务以及综合数据产品是最为常见的类型。例如,上海数据交易所对目前上市数据产品便分为数据集、数据服务、数据应用;深圳数据交易所又分为数据产品、数据工具、数据服务;杭州数据交易所分为数据API、数据服务、数据报告、数据工具、数据集等等。


综合来看,各地分类基本是围绕数据本身、数据处理工具、数据相关服务三类展开,然后各有侧重进行衍生与细分。接下来,本文将对数据集、数据工具、数据服务三大类数据产品展开解读。


1. 数据集


数据集(Dataset),又称为资料集或数据集合,是由数据元素所组成的集合。在统计学和机器学习中,数据集常用于进行分析、构建模型或进行预测。它通常以表格形式出现,每一列代表一个特定变量,每一行都对应于某一成员的数据集。数据集可以包含不同类型的数据,如数值型数据、分类数据、文本数据等。


从数据调用角度,数据集的交易可分为原始数据集整体打包交易和API接口交易。对于公共数据而言,敏感性低可直接开放的数据可通过原始数据集打包形成数据产品直接上架。而对于敏感性较高,不适宜开放原始数据的数据集,则可通过选择数据API接口进行交易。


2. 数据工具


数据工具,即数据采集、处理、分析、存储、可视化、开发、应用等全流程配套工具。典型形式包括智能化系统平台、状态查询程序、数据统计分析程序、可视化管理系统、AI模型等等。


以交通出行为例,各类停车场管理APP或小程序,以及地方城市服务APP,普遍集成了智能化系统管理、分析、可视化与查询功能;监管部门通过智慧监控系统内置交通识别算法大模型,有效识别交通事故、违停等情况,显著提高了监管效率;智慧公交系统则为公交调度、乘客了解到站信息等提供支持。数据工具的供给方主要为市场各类IT公司。


3. 数据服务


数据服务是支撑数据开发应用的重要环节。数据服务的类别非常丰富,涵盖数据采集、分析、传输、存储、处理、咨询等多个服务环节。


例如大数据报告、智慧解决方案、咨询认证、数据评估、数据培训、算力服务、数据校验等等。数据服务是数据产品开发交易全流程的重要支撑,这类数据服务产品常由市场化咨询服务商提供。


四、以交通数据产品为例


综合以上产品类型总结可以发现,公共数据产品的授权运营与开发交易,在数据工具与数据服务方面,市场上已经形成了高效的解决方案与技术能力。但是这两者作用的有效发挥依赖于以数据集为基础的数据底层资源。可见,当下制约公共数据产品的广泛开发与应用,很重要的一个方面是如何实现平衡数据集的高效开放与信息安全。


结合国际经验,广阔的市场前景是当前市场对公共数据产品开发的共识与动力之源,但从当下各地实践情况来看,却存在收益率不确定及市场热情不足的情况。数据利用场景的模糊、目标用户不明确、持有者对自身数据价值认识偏差是制约公共数据产品开发的关键因素。


为此,基于交通领域数据的可利用性较高的特征,本文重点聚焦数据集型产品,试图整理目前较为火热的交通类数据产品供大家参考。


1. API接口类


API接口对于公共数据的适用性前文已有提及,在此不再赘述。API接口是应用程序编程接口(Application Programming Interface)的缩写,是一种预先定义的函数,目的是提供开发主体得以访问一组例程的能力。简单来说,API就是让不同的软件之间可以互相通信、协作的工具。接口的调用是实现公共数据“可用不可见”的重要方式。


对于交通领域来说,主要在状态核验、热力指数、实时查询、实施预测、地理信息调用、物流溯源等方面,通过API数据调用运用公共数据开发数据产品。


  1. 状态核验类


    状态核验类主要有以机动车为主体及其相关附加信息的一致性检验。如人车关系一致核验,可以通过核验指定人员/企业是否是指定车辆的所有人,确保所有权的一致性,这一过程为交通运输行业监管、金融机构对市场主体授信提供数据支持。


    又或者网约车行业,通过核验网约车行驶里程状态、事故情况、出险情况、营运资质等等,为保险部门提供保费设定依据等。


  2. 热力指数类


    热力指数体现某类数据信息的集中度、饱和度等指标。对于交通领域来说,通过汇聚轨交进出站、公交上下车信息,可提供轨交进出站热力、公交线路热力等产品;通过汇聚网约车位置信息、上下车位置信息,可提供网约车需求热力、网约车运力指数等产品;通过共享单车租还位置信息可提供共享单车租借便捷指数;通过汇集停车场停放情况、公共充电桩利用情况等可提供停车便捷指数、新能源充电利用率等指数产品。


    这类数据产品具有天然大数据属性,其数据量的大小直接影响指数质量。这类数据可为公共部门城市治理、企业商家选址、企业市场营销、网约车运力分配、共享单车投放、地图服务商导航线路推荐等提供数据支持。


  3. 实时查询类


    实时查询类基于实时信息的收集与分析,为用户提供实时信息查询服务。交通出行场景中,轨道交通和公共交通的线路运行情况、进站信息及发车间隔等可为大众出行提供信息资讯,为出行决策提供支持。基于充电桩、停车场运行数据,可提供充电、停车在线选择与预约服务。物流行业还可提供物流车辆实时位置信息,满足货物物流追踪需求。


    实时查询类信息常集成在地图服务商平台、城市服务平台等,可为地图服务商引流、生活服务商数据支撑等提供服务,也可为政府等公共部门公共服务提供支持。


  4. 实时预测类


    在实时数据的基础上,通过历史数据的整合分析,引入AI大模型预测等技术手段,还可提供实时预测类数据产品服务。例如以上各类动态交通数据,都可通过历史数据演化模拟,预测同时期此时段的动态情况。在海运领域,基于沿海海域地形、岸线、港口、礁石、潮汐、天气等海情数据,实时播报并阶段性预测,为海上物流运输、海上作业提供决策参考。


    与交通相关的气象数据领域,天气数据API服务可提供各种尺度、范围及时间的天气情况及预测数据,能为各类交通营运、地图服务、城市治理提供数据依据,还能在与天气密切相关的农业、太阳能光伏等行业找到商业价值。


  5. 溯源类


    产品物流追溯是通过一物一码实现商品从生产加工、包装仓储、渠道物流、终端销售、真伪查询到营销互动等产品全生命周期信息记录及追溯管理。基于交通物流信息的实时记录、存档的溯源数据产品在物流溯源领域有强大的市场需求。


  6. 地理信息类


    地理信息类数据产品同气象数据一致,属于交通领域相关数据产品,常在交通运输类数据专区中有重要市场地位。例如,厘米级的高精地图定位数据、地图即时更新的POI数据是新能源汽车自动驾驶行业的重要底层工具。


2. 原始数据包类


对于无条件开放,或经脱敏后可直接开放原始数据的公共数据,可直接作为公共数据产品对外交易。相较于通过API接口调取数据,直接提供脱敏后的原始数据集给市场主体,不仅有利于对数据的全局性把握,而且为市场应用提供了更广阔的空间与自由度,便于数据产品的二次开发。


以交通领域来说,常见的交通标志数据集、车牌数据集、历史交通流量数据集以及交通路侧感知数据等等是较为常见的公共数据产品,这些产品在自动驾驶领域有深入的行业应用,可为自动驾驶AI模型提供道路信息训练素材。


上海交易所上架交易的由仪征市恒源数据资产运营有限公司提供的仪征市公交运营数据产品。通过安装部署的智能车载调度终端、公交客流分析仪,以及调度人员的人工录入,积累了覆盖136条公交线路、274辆公交车以及日均1万左右人次客流量的公交运营原始数据。通过对这些原始运营数据进行清洗、去重、格式校验、筛选、整合等加工处理,并按照公交线路、站点等维度进行了分类管理,形成围绕公交运营相关的公交实时数据、历史公交站点客流、历史公交排班及调度等主题的数据集,总共大小170G。


该产品的主要市场规划方向为面向外部市场,主要服务于企业和政府采购。目标客户包括高德、百度等科技公司,以及交通管理部门、商业机构和广告公司。产品提供丰富的公交数据资源,支持实时监控、客流分析、线路优化和广告策略调整等功能,助力客户提升业务效率和决策能力,实现智能化管理。


五、展望


受限于安全管理机制的建设进程,目前大量市场主体所能使用的公共数据大都以API接口为主。少量数据集为相关市场主体在企业运营过程中自行收集的运营数据(这类数据在是以企业数据还是以公共数据开展市场交易仍存在一定的模糊地带)。


又或者各省市试点“依场景授权”模式,推崇先有场景后有申请审批。通过此渠道,遵循最小必要原则,实行“一场景一审批”方能获得特定原始数据集(经脱敏处理后)。可见,市场主体拿到原始数据包进行数据产品开发还不是主流方式。


但是,相信随着市场规模逐渐扩大,数据安全监管机制逐渐完善,交易机制的创新,市场将呈现出多样的、便捷的数据调取方式。加上盈利模式不断清晰,公共数据产品将出现一片新的蓝海市场。