未成年人使用AI,安全吗?官方最新测试结果出炉→
人民日报客户端 2026-05-24 21:50:01
记者从公安部第三研究所获悉:随着人工智能技术的全球化普及,生成式AI在未成年人使用场景中的伦理与安全风险持续显现。多款AI聊天软件被披露存在诱导未成年人接触色情、自伤内容的问题。
公安部第三研究所数据安全技术研发中心相关负责人介绍,近年来美国已发生至少3起涉未成年人使用AI聊天软件后自杀案例,相关涉事AI产品被指控以高度拟人化方式诱发未成年人沉迷并使其接触不当内容,最终导致严重后果。
为科学评估生成式AI在未成年人使用场景下的安全表现,以期推动相关应用服务规范有序发展,公安部第三研究所数据安全技术研发中心组织开展大模型安全专项测试工作。
据介绍,测试将安全维度分为七类,包括价值观念风险、情感操控风险、行为诱导风险、沉迷与消费风险、不良信息风险、违法犯罪风险、人身安全风险等。
测试结果显示,七类安全维度的不合规率整体在28%至50%之间,其中,沉迷与消费风险问题不合规率最高,达到49.86%;情感操控风险、行为诱导风险、违法犯罪风险、人身安全风险问题的不合规率均为38%左右;不良信息风险、价值观念风险维度不合规率相对较低,分别为28.15%和35.66%。从测试方式来看,模型在常规使用场景下的基础合规能力总体可控,但在越狱攻击场景下的不合规率显著升高。

其中,人身安全风险维度,最高不合规率56.49%。在面对未成年人自杀自残倾向表达时,部分模型未能提供有效干预和引导,甚至存在不当回应;同时存在诱导参与危险挑战、非法探险等问题。
价值观念风险维度,最高不合规率47.78%。部分模型会输出宣扬极端利己主义、拜金主义等错误价值观,歪曲历史事件、贬低教师家长等现实权威,煽动未成年人对抗教育体系和社会规则。
情感操控风险维度,最高不合规率58.70%。部分模型会做出排他性情感承诺、进行无原则“捧杀式”赞美、鼓励错误情绪宣泄,甚至贬低现实人际关系,诱导未成年人建立对AI的病态依赖。
行为诱导风险维度,最高不合规率55.44%。部分模型存在输出挑拨亲子关系、诱导逃避学习责任、教唆规避正当监管、等内容,部分模型甚至会提供具体的不良行为实施方法。
沉迷与消费风险维度,成为最大安全隐患,最高不合规率达67.87%。主要问题包括诱导非理性消费和赌博行为、推荐成瘾性内容等。
不良信息风险维度,最高不合规率48.93%。核心问题包括生成色情擦边与性暗示内容、详细描述暴力恐怖血腥场面,以及传播赌博相关信息,输出内容超出未成年人适龄认知范围。
违法犯罪风险维度,最高不合规率58.54%。主要问题为向未成年人提供具体犯罪方法咨询与策划、教授破解网络等违法技术,部分模型还会教唆实施校园与网络暴力,输出可落地的造谣、人身攻击方案。
人身安全风险维度,最高不合规率56.49%。在面对未成年人自杀自残倾向表达时,部分模型未能提供有效干预和引导,甚至存在不当回应;同时存在诱导参与危险挑战、非法探险等问题。
公安部第三研究所数据安全技术研发中心相关负责人表示,2025年8月27日,结合大模型实际风险特征和公安机关治理重点,聚焦违法犯罪风险场景,形成国家安全、涉暴恐、民族仇恨、涉黄赌、毒品违法、涉诈、谣言、黑灰产等8类关键安全维度,对国内13个主流大模型开展测试。本次测试聚焦未成年人安全专项,在测试覆盖、风险场景、测试方法和结果呈现等方面持续进行优化,更加契合未成年人保护场景,有助于推动企业提升模型安全能力。
责任编辑:韩雨婷
