打造“传媒AI基础设施”

科普 | 2025-10-31 10:03:01 原创

微信扫码扫码下载客户端

编者按：中国工程院院士李幼平，新华社原党组成员、原总工程师孙宝传近日在CNML、UCL和SSA国家标准的基础上，就传媒科技未来发展进行了深入思考。两位耄耋之年的前辈，持续关注传媒科技前沿，笔耕不辍，为后辈树立了终身学习的榜样。大众新闻获作者授权，现将二老最新文章《打造传媒Al的基础设施》分享给大家。

（图左：李幼平，中国工程院院士。图右：孙宝传，新华社原党组成员、原总工程师）

作者：李幼平孙宝传

用进化论的思维模式和研究方法来探寻和诠释人类传媒演化史，其基本观点是：无论信息的形式为何，都可被转化为符号表征，而符号则是信息传媒的基因；传媒基因的变异及其复制机制的改善是传媒迭代进化的动因。在当今的数字时代，传媒的基因是数字符号，物理世界实现了数字化，物理信号变成了机器可读、可计算、可流通的数字符号，但依然无法让机器直接理解。我们正跨入智能时代，传媒的基因由数字符号升级为标记符号，物理世界将被标记化，物理信号变成机器“可理解、可信任、可交互的“自带语义标志的符号”。

从数字化到标记化，不仅是说法的改变或工具的更替，而是人类文明底层逻辑的一次重大跃迁。在数字化阶段，传媒是容器，人是解释者；而在标记化阶段，传媒开始具备“理解”和“生成”能力，传媒将从被动传播信息的工具，跃升成为人类认知的延伸甚至共创者，“人-媒体-世界”的的关系将重构。

诺贝尔经济学得主托马斯▪萨金特和任正非都认为，人工智能本质上是统计学的延伸，其核心是通过统计方法实现数据分析和决策优化。人工智能需要给机器喂食大量的训练数据，但原始数据要采用数据标注的方法加以标记，即给数据打标签、加属性、做对齐，转化成机器可以理解的语言，才可以运用到算法模型之中，以避免出现人工智能的畸形。数据标注的方法正从“人工”转向“算法+人工复核”。谁能在更低成本、更高质量、更公平的前提下，提升数据标注的效率，谁就能掌握人工智能“落地”的咽喉。DeepSeek之所以能做到“小资源上实现大效能”，是在算法、系统、数据上协同发力的结果。在数据标注方面，它采用了4个过滤器（垃圾、污染、去重、质量的四重过滤）；3个加速器（数据采样、合成、加载的三度加速）；2个安全阀（隐私与偏见、版权侵权与色情暴力的双线清除），把“过滤-合成-加载-安全”做成一条高吞吐、低冗余、可验证的工业流水线，让GPU吃到最干净、最营养、最对味的“数据口粮”。

标记化作为AI处理语言的基础环节，在新闻领域中广泛应用于内容生成、编辑优化、个性化推荐、流程管理等多个方面。它不仅可提升新闻生产的自动化和智能化水平，也为新闻内容的结构化、可检索性和多模态融合提供了技术支撑。从2006年新华社牵头制定的“中文新闻信息置标语言”国家标准（CNML），到2017年李幼平院士主导制定的“统一内容标签格式规范”国家标准（UCL），再到2025年王楠博士主导制定的“中文新闻语义结构化标注”国家标准（SSA），中国传媒科技工作者通过不懈努力，走出了重要而又艰苦的三步，我们期待后来者继续走关键的第四步：即制定新一代传媒人工智能基础设施，包括作为新闻业“基础语法”的“新闻标记规范”和作为新闻“标准词汇”的“新闻语义化知识图谱”。不仅要通过标记化让机器吃到优质的“数据口粮”，还要把标记化当成“合规门禁”和“信任资产”——既用显式标识履行对受众的告知义务，又用隐式标识打通跨平台追溯，最终实现“来源可查、责任可究、虚假可辟、信任可增、质量可升”的效果。

责任编辑：乔永华