打造“传媒AI基础设施”

科普 |  2025-10-31 10:03:01 原创

微信扫码扫码下载客户端

者按:中国工程院院士李幼平,新华社原党组成员、原总工程师孙宝传近日在CNML、UCL和SSA国家标准的基础上,就传媒科技未来发展进行了深入思考。两位耄耋之年的前辈,持续关注传媒科技前沿,笔耕不辍,为后辈树立了终身学习的榜样。大众新闻获作者授权,现将二老最新文章《打造传媒Al的基础设施》分享给大家。

(图左:李幼平,中国工程院院士。图右:孙宝传,新华社原党组成员、原总工程师)

作者:李幼平 孙宝传

用进化论的思维模式和研究方法来探寻和诠释人类传媒演化史,其基本观点是:无论信息的形式为何,都可被转化为符号表征,而符号则是信息传媒的基因;传媒基因的变异及其复制机制的改善是传媒迭代进化的动因。在当今的数字时代,传媒的基因是数字符号,物理世界实现了数字化,物理信号变成了机器可读、可计算、可流通的数字符号,但依然无法让机器直接理解。我们正跨入智能时代,传媒的基因由数字符号升级为标记符号,物理世界将被标记化,物理信号变成机器“可理解、可信任、可交互的“自带语义标志的符号”。

从数字化到标记化,不仅是说法的改变或工具的更替,而是人类文明底层逻辑的一次重大跃迁。在数字化阶段,传媒是容器,人是解释者;而在标记化阶段,传媒开始具备“理解”和“生成”能力,传媒将从被动传播信息的工具,跃升成为人类认知的延伸甚至共创者,“人-媒体-世界”的的关系将重构。

诺贝尔经济学得主托马斯▪萨金特和任正非都认为,人工智能本质上是统计学的延伸,其核心是通过统计方法实现数据分析和决策优化。人工智能需要给机器喂食大量的训练数据,但原始数据要采用数据标注的方法加以标记,即给数据打标签、加属性、做对齐,转化成机器可以理解的语言,才可以运用到算法模型之中,以避免出现人工智能的畸形。数据标注的方法正从“人工”转向“算法+人工复核”。谁能在更低成本、更高质量、更公平的前提下,提升数据标注的效率,谁就能掌握人工智能“落地”的咽喉。DeepSeek之所以能做到“小资源上实现大效能”,是在算法、系统、数据上协同发力的结果。在数据标注方面,它采用了4个过滤器(垃圾、污染、去重、质量的四重过滤);3个加速器(数据采样、合成、加载的三度加速);2个安全阀(隐私与偏见、版权侵权与色情暴力的双线清除),把“过滤-合成-加载-安全”做成一条高吞吐、低冗余、可验证的工业流水线,让GPU吃到最干净、最营养、最对味的“数据口粮”。

标记化作为AI处理语言的基础环节,在新闻领域中广泛应用于内容生成、编辑优化、个性化推荐、流程管理等多个方面。它不仅可提升新闻生产的自动化和智能化水平,也为新闻内容的结构化、可检索性和多模态融合提供了技术支撑。从2006年新华社牵头制定的“中文新闻信息置标语言”国家标准(CNML),到2017年李幼平院士主导制定的“统一内容标签格式规范”国家标准(UCL),再到2025年王楠博士主导制定的“中文新闻语义结构化标注”国家标准(SSA),中国传媒科技工作者通过不懈努力,走出了重要而又艰苦的三步,我们期待后来者继续走关键的第四步:即制定新一代传媒人工智能基础设施,包括作为新闻业“基础语法”的“新闻标记规范”和作为新闻“标准词汇”的“新闻语义化知识图谱”。不仅要通过标记化让机器吃到优质的“数据口粮”,还要把标记化当成“合规门禁”和“信任资产”——既用显式标识履行对受众的告知义务,又用隐式标识打通跨平台追溯,最终实现“来源可查、责任可究、虚假可辟、信任可增、质量可升”的效果。


责任编辑:乔永华