探索数据资源化,大众报业集团完成20项数据资源登记

科技观察 |  2025-12-24 20:16:12 原创

汤代禄  陈圣琳  刘彬来源:大众新闻

微信扫码扫码下载客户端

12月24日,大众报业集团济南区域稿件数据集、青岛区域稿件数据集、淄博区域稿件数据集获济南市大数据局数据资源登记证书。至此,大众报业集团成功获济南市大数据局首批20项数据资源登记。

这些数据资源包括16项数据集和4项语料库。16个数据集是依托集团2024年2月上线的“大众”新媒体大平台积淀的经集团采编团队编发的山东各市区域数据集。4个语料库是依托集团2024年以来重点打造的山东金融云平台、国资国企云平台、健康山东云平台、山东大交通平台等重点行业平台经过专业审核的专业领域语料库。

2025年以来,大众报业集团在推进数据湖、媒资库的建设基础上,加强数据分类分级梳理,推进数据规范化管理,助力数据分析开发利用。本次数据资源登记,正是集团在前期数据治理基础上探索数据资源化的成果之一,也是继2024年7月集团获三项数据资产登记探索数据资产化,11月获三项数据知识产权登记探索数据产权化之后的又一新举措。

山东16市区域数据集 

4行业领域语料库

3月,大众报业集团、山东数字文化集团联合作为中共山东省委宣传部依托单位,承担山东省大数据局组织的数据要素综合试验区建设专项试点(传媒行业)任务。作为该项试点任务的重要探索,此次数据资源登记不仅是山东省传媒行业在数据资源确权机制上的实践,也为大众报业集团在数据要素的市场化配置改革奠定了制度基础。数据资源登记证书的颁发,相当于为数据赋予“合法身份”,在保障安全合规的前提下,打通数据从资源到资产的关键环节,显著提升数据可信度与流通效率,为后续数据交易、数据融资等创新应用扫清制度障碍,为构建数据产权制度、流通交易制度和收益分配制度提供了支撑,对推动数据要素市场化配置改革具有示范意义。

此次登记包括“数据集”和“语料库”两类数据资源。“数据集”是作为面向特定应用场景的结构化数据集合,是为了解决特定问题或训练特定模型而精心设计、收集、清洗、标注和组织的结构化或半结构化数据集合。“语料库”则作为经过语言学标注或整理的文本数据集合,专门服务于自然语言处理领域。两者共同构筑起数据资源体系化、专业化布局的“双翼”。

在实际应用中,常涉及三类数据登记。一是数据资源登记,指对数据资源的来源、内容、格式、权属等进行备案,赋予数据“身份认证”,目的是方便管理、确权溯源、促进共享流通。二是数据资产登记,是对符合资产标准(可控制、可计量、能产生效益)的数据进行经济性确认,目标是通过会计入表、价值评估、融资担保等取得收益。三是数据知识产权登记,针对具有独创性、可版权化的数据产品或数据库,进行著作权等相关知识产权登记,保护其智力成果属性。三者在流程上有递进但非必然连续的关系,比如先对数据进行资源登记(摸清家底),然后对符合条件的数据进行资产登记(评估入表),最后对其中具有创新性的成果申请知识产权登记(保护创新)。

大众报业集团此次规模化、系统化完成数据资源登记,标志着集团在数据要素市场化配置改革中迈出实质性步伐,展现了其在数据整合与战略布局上的前瞻性,也为传媒行业数据资源的确权与流通提供了重要实践范例。大众报业集团将以此次登记为契机,进一步推进数据流通模式探索、数据资产运营以及数据产品创新应用。

(大众新闻  汤代禄 陈圣琳 刘彬)

责任编辑: 张震