
AI公司OpenAI宣布扩展了一种新的监测系统,该系统致力于监视最新的AI推理,O3和O3和O4-Mini模型,以防止这些模型提供有害建议,以触发生物学和化学威胁。根据OpenAI安全报告,该系统旨在确保模型不能为潜在有害攻击提供指导。根据Openai的数据,与以前的型号相比,O3和O4-Mini具有显着提高的功能,但也带来了新的风险。根据OpenAI内部的基准测试,O3在回答有关创建某些类型的生物学威胁的问题方面特别出色。因此,为了降低相关风险,OpenAI开发了这个称为“以安全性推理监视器”的新系统。根据此处的此,该监视器经过专门的培训,可以了解OpenAI内容政策并在O3和O4-Mini上运行。设计的目的是确定与生物学有关的直接单词和化学风险,并教授拒绝就此事提供建议的模型。为了建立基准,Openai红队的成员花了近1000个小时,标志着与O3和O4-Mini的生物学风险有关的“不安全”对话。在模仿安全监视器的“阻止逻辑”测试中,拒绝对风险警告的响应的模型的比例达到98.7%。但是,OpenAI还承认,其测试并未考虑用户在被监视器锁定后尝试新提示单词的情况。因此,该公司表示,它将继续依靠某些手机对麦多(Makdo)进行此缺点。尽管O3和O4-Mini尚未达到OpenAI设定的生物风险的“高风险”阈值,但与O1和GPT-4相比,O3和O4-Mini的较早版本在回答有关生物武器发展的问题方面更有用。根据最近建立的OpenAI准备大纲,公司是ActiVely监控其模型如何帮助恶意用户更容易地发展化学和生物学威胁。 OpenAI越来越依赖自动系统,以降低其模型的风险。例如,为了防止GPT-4O图像的本地发电机的创建虐待儿童材料(CSAM),Openai说,它在O3和O4-Mini中使用了类似的推理监视器。但是,一些所有者要求采取安全措施,这些措施认为该公司不会像人们预期的那样处理安全问题。红色团队伙伴梅特尔(Metr)表示,梅特尔(Metr)表示,尝试欺诈性O3行为基准时,他们的时间有些限制。此外,Openai决定不发布本周早些时候发布的GPT-4.1模型的安全报告。