方师师 王易鑫:合作开源:探索人工智能治理的适应性模式

青年记者 |  2025-12-18 08:00:25 原创

微信扫码扫码下载客户端

作者:方师师(上海社会科学院新闻研究所副研究员);王易鑫(上海社会科学院新闻研究所硕士研究生)

来源:《青年记者》2025年第10期

导 读:

基于开源人工智能的特点、价值与挑战,本研究提出“合作开源”的适应性治理模式。



2025年1月,由中国大模型初创企业深度求索开发的大语言模型DeepSeek-R1,通过使用混合专家架构(MoE)、多头潜在注意力(MLA)机制等多项创新技术,以低训练成本、相对优异的性能、开源使用的特点引发广泛关注。谷歌前首席执行官埃里克·施密特(Eric Schmidt)在《华盛顿邮报》的专栏评论中指出,DeepSeek的发布标志着全球AI竞赛迎来新的转折点。[1]

一、不是例外是常态:开源技术的全球兴起与发展

“开源”全称为开放源代码(Open Source Code),是指软件的源代码可以被公开地获取、使用、修改和分发,具有免费获取、自由使用、自主修改、自行分发的特点。与开源相对应的是闭源,指软件的源代码不向公众开放,仅供特定用户或组织使用的一种模式。开源最早兴起于20世纪60年代,麻省理工学院计算机专业的学生经常写代码彼此共享。20世纪80年代,理查德·斯托曼(Richard Stallman)出于对专有软件限制模式的反思,发起了开源运动并发表了著名的《GNU宣言》,提出软件“四大自由”(自由运行、学习研究、修改代码、分享传播),要求通过开源协作开发完整的操作系统替代专有系统,推动“自由软件社区”开源。1998年,网景公司宣布开放Navigator浏览器源代码,成为开源软件发展历史上的重要转折点,开源开始受到更多关注。之后开源技术在全球蓬勃发展,在各领域得到广泛应用。2023年,全球最大的代码托管平台GitHub上的托管项目仓(repository)已超过4.2亿个,全球开源软件项目数量稳定增长。[2]开源技术被广泛应用于云计算、大数据、人工智能、物联网等领域,被众多公司企业、研发机构采用,协助部署高效灵活的算力资源,分析处理海量数据,为机器学习和深度学习提供便捷开发工具,助力物联网平台可靠发展等。

虽然开源运动早期呈现出“技术极客的激进行动”特征,但这种“激进”表象的背后,是技术理想主义与商业垄断的对抗以及极客文化对传统技术秩序的挑战。以开放代码为武器,挑战专有软件的垄断格局,最终推动软件开发从“少数企业的封闭游戏”变为“全球协作的公共事业”。[3]开源技术之所以广受欢迎,不仅是由于其能够体现出技术民主化、社会共享协作的互联网时代精神,更是确有诸多优势:开源软件由技术社区协同开发,通常成本很低,企业和个人无须支付高昂的软件授权费用即可获得高质量的软件和技术;开源技术的源代码可以自由获取和修改,用户可以根据自身需求进行定制化开发,灵活性高,能够满足不同的业务场景和功能需求;开源社区汇聚了大量的开发者和技术爱好者,他们可以共同参与项目的研发和改进,加速技术的迭代与创新,使得开源技术能够快速适应市场和技术的变化;开源软件依托同行评审和社区生产,以分散、协作的方式开发,众多开发者共同参与代码的审查和测试,能够及时发现和修复漏洞,保证软件的质量和可靠性。

如今,开源运动的理念已逐渐被普遍接纳。在全球软件生态中,开源并非少数和例外,而是现实中的默认状态,开源已成为科技行业的基础设施。美国2023年发布的《国家人工智能研发战略计划》明确提出,要“开发开源软件库和工具包”。英国2025年1月发布的《人工智能机遇行动计划》也明确要求,“基础设施要具有互操作性、代码可重用性和开源性”。相关数据显示,超过90%的企业都在不同程度地使用开源软件。[4]

二、作为“数字公共产品”:开源技术蕴藏创新价值

2020年6月,联合国秘书长安东尼·古特雷斯在《数字合作路线图:执行数字合作高级别小组的建议》报告中以开源软件为核心、以公共价值为出发点提出了“数字公共产品”的概念:尊重隐私和遵守其他适用的国际和国内法律、标准和最佳做法且无害的开源软件、开放数据、开放人工智能模型、开放标准和开放内容。这一概念将公共产品的范畴从传统的物理世界延伸到数字领域,强调了数字资源在促进全球公平、推动可持续发展以及解决全球性问题方面的重要作用。

作为数字公共产品的开源软件,是互联网技术发展的重要产物,深刻体现出互联网开放、平等、协作、自由、普惠、进化的核心精神。目前,包括OpenAI在内的大多数前沿大语言模型普遍采用的是闭源策略,这背后有安全性、可控性、商业利益和地缘政治等因素的考量。[5]闭源模式强调标准化、控制访问和知识产权保护,开源模式则强调通过促进合作、共享开发和透明度推动技术创新。在人工智能时代,开源被认为是后起力量追赶前沿大模型、突破关键技术封锁、实现弯道超车的一项策略。中国信息通信研究院的《全球开源生态洞察报告(2024年)》显示,在全球活跃度排名前100位的开源软件项目中,中国软件项目占17%,仅次于美国(45%),排第2位。中国目前已有开源项目3000万个,开源开发者超过900万名。[6]自2023年8月以来,阿里旗下通义系列以“全尺寸、全模态、全场景”战略总计开源了200多款大模型。2025年3月6日,阿里云发布并开源了通义千问QwQ-32B,该模型使用更小参数但在数学、代码以及通用能力上整体比肩DeepSeek-R1,开源当日就登顶了全球主流AI开源社区Hugging Face趋势榜。而阿里云旗下视觉基座大模型万相2.1(Wan2.1)在发布和开源后仅6天就登上了Hugging Face趋势榜、模型空间榜两个榜单,一度成为全球开源社区最受欢迎的模型。DeepSeek通过一篇论文详细介绍了它的工作原理,并允许其他人实施该流程。[7]

三、辩证看待“全周期隐患”:开源技术的风险研判

去中心化、共享协作、用户创造,开源在全球范围内已成为规模庞大的软件开发和技术创新力量。但开源也意味着在网络安全、法律约束与社区协作方面具有高度的不稳定性、不确定性和复杂性。2025年3月,工信部发布《关于防范针对DeepSeek本地化部署实施网络攻击的风险提示》,其网络安全威胁与漏洞信息共享平台(CSTIS)监测发现有攻击者针对DeepSeek的本地化部署场景实施钓鱼攻击,传播恶意程序,导致敏感信息泄露,系统数据被破坏,内部网络被入侵。而DeepSeek实现低成本高性能所依赖的“知识蒸馏技术”,在开源共享、数据安全、知识产权归属以及商业化应用等方面的法律边界尚未明确。[8]

对于大语言模型来说,其整个生命周期都面临着安全隐患。一项系统洞察大语言模型全生命周期安全性的“全栈分类框架”显示,其在数据准备、预训练、后训练、代理部署以及商业化应用的各个阶段均存在多种安全风险。[9]思科研究团队对DeepSeek-R1、OpenAI o1-preview和其他前沿模型可能涉及的六类有害行为(包括网络犯罪、侵犯版权、虚假信息、骚扰欺凌、非法活动和一般伤害等)进行了测评。测评发现,DeepSeek的AI开发策略利用的三项核心原则:思维链提示(CoT)、强化学习和知识蒸馏,虽然在成本效益上有优势,但可能损害了模型的安全机制。[10]人工智能安全平台Hiddenlayer对DeepSeek-R1的安全评测结论指出,该模型存在无法抵御简单越狱攻击、思维链推理可能会导致信息泄露等安全漏洞,由于较为缺乏有效的防护措施,极易受到算法越狱和潜在滥用的影响。

开源软件的代码透明虽然有利于漏洞的发现和修复,但模型权重的开放获取可能降低恶意行为者的攻击门槛,使人工智能系统更易被武器化用于网络攻击、深度伪造等非法用途。由于开源人工智能生态系统缺乏访问控制、集中监督和明确的使用准则,易遭受数据投毒和对抗攻击,难以快速识别和应对安全漏洞。恶意行为者可能利用开源模型不受限制的访问权限,窃取训练数据、代码脚本、模型系统等。2024年3月,Ray框架的漏洞被黑客利用,导致包括Uber、Amazon和OpenAI在内的数千家公司面临网络攻击威胁,黑客可借此窃取凭据、远程控制服务器和破坏AI模型。而且,开源人工智能项目的问责机制不完善,面对数据安全问题响应迟缓并且经常意见不一致。考虑到开源大模型将降低使用门槛并让模型应用更加规模化、网络化,开源模型生态中的滥用误用情况可能变多。[11] 2024年加州SB 1047法案在地方立法机构通过后被加州州长否决。利益相关方在普遍关心开源能否促进人工智能发展的同时,也担心开源人工智能是否会导致风险的更快扩散并带来社会负外部性。

开源相关法律框架涵盖了版权法、专利法、开源许可证以及数据保护法等多个重要组成部分,这些法律规范相互交织,共同构建起保障开源项目合法有序开展的法律基石。开源许可证的多样性和复杂性也增加了软件法律合规的风险。不同类型的开源许可证如GPL(通用公共许可证)、MIT(麻省理工学院许可证)等,对代码的使用、修改和分发有着不同的规定,企业和组织在使用开源代码时,如果对许可证条款理解不透彻,可能会面临知识产权纠纷和法律诉讼。开源项目的全球协作带来了法律适用与管辖权的问题,不同国家和地区的法律差异可能导致在开源项目中出现法律冲突。比如美国科技巨头 OpenAI 就公开指控DeepSeek采用的“知识蒸馏”技术涉嫌“不当蒸馏”,违反了OpenAI的使用条款。[12]开源项目迭代速度快,增加了技术维护的难度,企业和组织需要不断跟进项目的更新,以确保系统的稳定性和安全性。

由于开源社区的成员来自不同的背景和文化,可能存在沟通障碍和价值观冲突,这也会影响开源项目的协作效率和凝聚力。Linux内核社区是一个庞大且具有全球影响力的开源社区,2025年初,关于在Linux内核开发中是否应该更多地引入Rust语言的问题,项目领导者与资深内核开发者由于意见不一致爆发了激烈的争议,最终领导者退出。[13]联系之前一批俄罗斯程序维护员被移出Linux内核社区的事件,虽然主要开发者声称是由于“各种合规要求”,但这也显露出在开源社区内部,理性沟通与团队信任方面存在诸多问题。

四、“合作开源”的适应性治理:技术、法律与社会的互构

随着我国人工智能法律治理进入系统集成阶段,围绕实现人工智能高质量发展和高水平安全良性互动的治理主旨,需要引入适应性的治理理念以统筹安全与发展,应对人工智能多重属性所构成的复杂系统的治理需求,并高度容纳技术未来发展的不确定性和未知前景。[14] 2024年12月一项覆盖23个国家的110份针对企业(54%)、学术研究机构(36%)、非营利组织(11%)等技术社群对象的调查显示,与许多叙述相反,三分之二的受访者没有见过风险太大而无法部署的开源人工智能应用案例,包括聊天机器人、编码助手、摘要提取等。[15] 2024年7月底,美国国家电信和信息管理局(NTIA)发布报告,针对开源模型的“增量风险”的判断提供了与闭源模型、其他现有技术以及现有开源模型相比较的三个参考标准。换言之,只要与这些参考标准相比没有出现新风险,即不属于被纳入监管范畴的增量风险。

开源对于中国科技创新的跨越式发展至关重要,开源为中国弥补过去长期存在的问题创造了不可或缺的机遇。开源之于中国,不是短期之内应对科技脱钩的权宜之计,而应被视为中国创新范式转变的重要契机和优先战略。关于开源的观念,不仅需要从辩证的角度来思考“自主可控”“自主创新”与“开放合作”之间的关系,更需要坚定开源姿态深度嵌入国际供应链中,形成国际间广泛的参与和创新。因此,对于开源生态系统的安全治理,不应局限于传统的“开放与封闭”的二元对立,而应构建具有更高灵活性、敏捷性的治理机制与决策框架,以有效地应对多变的社会现象和不断涌现的全球性挑战。[16]

技术创新不应以牺牲安全为代价,需要在开放共享与风险防控之间保持平衡。对于开源模型的合作治理,需要依赖多方策略的有效联动,形成合作开源模式。开源本身就蕴藏着合作精神,合作开源则是希望能够尽快提升开源软件风险监测水平,保证开源项目的代码质量、漏洞防护、许可证合规等;明确人工智能领域相关技术的竞争自由与模仿自由规则,就人工智能相关技术建立开源标准;通过构建开放包容的技术促进政策[17],最大程度释放技术、市场与社会活力,推动人工智能产业繁荣发展及相关技术广泛应用,带动我国技术路线与产业发展方向在国际竞争中占据有利地位。

合作开源要求在技术治理、法律保护、国际合作、社会共同体四个方向上形成良性共进。如果说当年开源运动诞生之初的《GNU宣言》促进了开源技术社区生态的良性循环,那么合作开源治理则希望能够将这一理想推广到国际、国家与社会层面。合作开源为技术创新提供了良好的国际环境与社会保障,有效的开源治理能够建立起稳定的社区秩序,促进开发者之间的协作与交流,为技术创新提供人才和智力支持。合作开源还能够规范开源项目的开发流程和维护标准,提高技术创新的可靠性与可持续性。

技术治理对于保障开源软件的安全可控具有不可或缺的作用。美国R Street研究所发布的报告指出,可以通过受控访问、分层订阅、联邦学习等方法平衡开源的安全与创新难题。[18]如通过开源护栏(rails)[19] 、增强开源模型、精确知识编辑(PKE)[20]等方法,进一步提升模型在实际应用中的安全性与可靠性。由IBM、Meta等全球50多个创始成员和合作者联合发起成立的全球人工智能联盟(AI Alliance)社区,也对当前开源人工智能的基准标准提出了更高的要求,包括自动红队和护栏机制等,并建议在确保部署环境可控的基础上再使用开源模型。

完善开源法律体系建设是保障开源项目健康发展的关键举措。当前,开源技术的发展速度远超法律更新速度,导致开源项目在很多方面缺乏明确的法律依据。内嵌式的开源立法可分步明确开源项目的法律地位、开发者权利义务,以及开源许可证的法律效力等关键问题。比如欧盟针对开源模型进行单独定义并设置复杂的“开源豁免+豁免例外”规则机制,将开源模型完全纳入法律规制之后再进行有限度的利益平衡。在版权方面,应进一步细化关于开源软件版权归属的规定,根据开发者的实际贡献程度、开发时间、开发目的等因素,准确判断版权归属。对于共同开发的代码,应明确各方的版权份额和使用权限,避免版权纠纷。在许可证方面,需要使开源许可证的条款标准化和规范化,统一不同许可证的关键条款解释,减少因理解差异而引发的争议。建立开源许可证的备案和审查制度,确保许可证的合法性和合规性。对于侵犯开源软件版权、违反开源许可证规定等行为,应依法予以处罚,提高违法成本。

积极参与国际规则制定是提升我国在开源领域国际话语权的重要途径。开源技术的全球化发展使得国际间的法律协调与合作变得越来越重要。我国应加强与其他国家和地区的沟通与交流,积极参与国际开源法律规则的讨论和制定,推动建立公平、合理、有效的国际开源法律秩序。与开放源代码促进会(OSI)建立合作关系,参与国际开源会议和活动,分享我国在开源治理方面的经验和成果。加强国际间的信息共享和技术协作,共同应对跨国界的技术风险,提高技术监管的效率和效果。

为开源文化营造良好的社会环境,形成健康的“开源共同体”。开源本身就蕴藏着连接包容的合作价值。通过举办开源技术活动,如开源技术峰会、开源代码竞赛等,提高社会各界对开源技术的认知度和认可度。邀请行业专家、知名开发者分享开源技术的最新进展和应用案例,展示开源技术的优势和价值,吸引更多人关注开源技术。举办开源代码竞赛,为开发者提供展示才华的平台,激发他们的创新热情和参与开源项目的积极性。利用媒体、网络平台等渠道,传播开源文化的理念和精神,让更多人了解开源技术的开放、共享、协作特点,营造全社会支持开源技术发展的良好氛围。针对公众对开源技术安全性、知识产权等方面的担忧,进行详细的解释和说明,让公众了解开源技术在安全性和知识产权保护方面的措施和机制,增强公众对开源技术的信任。鼓励社会公众积极参与技术监管,通过建立举报机制和信息公开平台,让公众能够及时发现和举报开源技术中的违规行为,形成全社会共同参与的监管氛围。

参考文献:

[1] Eric Schmidt, Dhaval Adjodah.Will China’s open-source AI end U.S. supremacy in the field?[EB/OL].(2025-01-28).https://www.washingtonpost.com/opinions/2025/01/28/china-deekseek-ai-us-supremacy/.

[2] Kyle Daigle, GitHub Staff.Octoverse: The state of open source and rise of AI in 2023[EB/OL].(2024-07-30).https://github.blog/news-insights/research/the-state-of-open-source-and-ai/.

[3]张博伦.警惕机器学习走向封闭[J].清华社会学评论,2024(02):242-258.

[4]开源生态加速培育壮大[EB/OL].(2025-01-01).https://www.toutiao.com/article/7454715570697552403/?upstream_biz=doubao&source=m_redirect.

[5]王鹏.DeepSeek引发的国际风云:剖析背后深层逻辑[EB/OL].(2025-02-06).https://column.chinadaily.com.cn/a/202502/06/WS67a44e5da310be53ce3f449e.html.

[6]中国通信标准化协会 云计算标准和开源推进委员会.全球开源生态洞察报告(2024年)[EB/OL].(2024-07-05).http://221.179.172.81/images/20240705/27981720160008486.pdf.

[7] Guo D, Yang D, Zhang H, et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.

[8]刘力.生成式人工智能中知识蒸馏的正当性检视与规则优化——以OpenAI指控DeepSeek为切入点[J/OL].湖南师范大学社会科学学报,1-26[2025-05-10].

[9] Wang K, Zhang G, Zhou Z, et al. A comprehensive survey in llm (-agent) full stack safety: Data, training and deployment[J]. arXiv preprint arXiv:2504.15585, 2025.

[10] Deeba Ahmed.Cisco Finds DeepSeek R1 Highly Vulnerable to Harmful Prompts[EB/OL].(2025-02-03).https://hackread.com/cisco-finds-deepseek-r1-vulnerable-harmful-prompts/.

[11]傅宏宇.开源大模型风险治理机制的改革与创新——以DeepSeek为例[EB/OL].(2025-03-10).https://xueqiu.com/1527849020/326723529?md5__1038=1e761e013c-ju0iU%3DGIlIDIShIayQsjqi3xuI2usjLybIcOqk3kOI4iWBd4%2BeyIgQEpQ0UeI5qH%3DWIf%3DxgI4%3DInIu%3DsgIXgyOOIUd5rI5dIqtxdjnId%3DxpgL%3DsW%3DIghQLIcpjeLsHziOPNoWIp0IVVO42IGyiX%3DOPFjiRM5FPEOdWbqQgbxQy4pSieOdin5IiexSi4pI.

[12] OpenAI宣称DeepSeek违规“蒸馏”[EB/OL].(2025-01-30).https://finance.sina.com.cn/world/2025-01-30/doc-inehsiqs5353843.shtml.

[13] Rust语言在Linux内核引发争议,开发者群体面临信任挑战[EB/OL].(2025-02-11).https://m.sohu.com/a/857803694_121798711/.

[14]张凌寒.人工智能法律治理的路径拓展[J].中国社会科学,2025(01):91-110+206.

[15] Joe Spisak (Meta), Andrea Greco (IBM Research), Zhuo Li (HydroX AI), Florencio Cano (Red Hat), Victor Bian (HydroX AI), Kristen Menou (University of Toronto), Virendra Mehta (University of Trento), Dean Wampler (IBM Research), Jonathan Bnayahu (IBM Research), Zach Delpierre Coudert (Meta), Agata Ferretti (IBM Research).The State of Open Source AI Trust and Safety - End of 2024 Edition[EB/OL].(2024-12-11).https://thealliance.ai/blog/the-state-of-open-source-trust.

[16]米加宁.生成式治理:大模型时代的治理新范式[J].中国社会科学,2024(10):119-139+207.

[17]郭小东.生成式人工智能的风险及其包容性法律治理[J].北京理工大学学报(社会科学版),2023,25(06):93.

[18] Haiman Wong.Mapping the Open-Source AI Debate: Cybersecurity Implications and Policy Priorities[EB/OL].(2025-04-17).https://www.rstreet.org/research/mapping-the-open-source-ai-debate-cybersecurity-implications-and-policy-priorities/.

[19]是一种控制大型语言模型输出的特定方法,例如以特定方式响应特定用户请求、遵循预定义的对话路径、使用特定语言样式、提取结构化数据等。

[20] Li X, Li Z, Kosuga Y, et al. Precision Knowledge Editing: Enhancing Safety in Large Language Models[J]. arXiv preprint arXiv:2410.03772, 2024.

本文引用格式参考:

方师师,王易鑫.合作开源:探索人工智能治理的适应性模式[J].青年记者,2025(10):13-17.

责任编辑:焦力