登录/注册
扫描二维码
手机浏览

OpenAI发布CoT监控 阻止大模型恶意行为

新榜商桥
情报行业动态

新榜讯 OpenAI 最新研究成果显示,通过采用 CoT(思维链)监控手段,能够有效阻止大模型诸如胡说八道、隐藏真实意图等恶意行为,成为监督超级模型的有力工具之一。此次,OpenAI 将最新发布的前沿模型 o3-mini 当作被监控对象,而以相对较弱的 GPT-4o 模型充任监控器。测试是在编码任务环境下进行的,要求 AI 在代码库中实现功能并通过单元测试。最终结果表明,CoT 监控器在检测系统性“奖励黑客”行为时表现出色,召回率高达 95%,远远高于仅监控行为的 60%。


分享文章链接