03.如何量化OpenAI o1的骗钱能力？被科技媒体集体忽视的官方白皮书给了答案

OpenAI o1推出两周有余，市面上大多数讨论聚焦于其推理能力的优越性，也有一小部分声音质疑模型能力越来越强是否意味着更大的威胁？大多数质疑停留在无限推理之后的科幻化灾难场景，然而事实上，OpenAI早在模型发布之时，也同步释放了针对模型各类潜在威胁做出的测试白皮书“o1 System Card”，这期播客我们为大家深度解读这份白皮书，在缓和担忧的同时，也从客观的角度理解模型的能力的上限与不足。

这不是一期鼓吹OpenAI如何做的好的内容，我们尽可能将未被关注到但十分有价值的分析呈现出来，试图打破大模型领域信息的藩篱。

时间线

1:37 System Card白皮书具体是什么，它的受众是谁？

4:19 推理能力的加入使得模型更聪明，更好的服务意味着更好的欺骗

6:17 围绕结果的评估维度：不允许内容、越狱、幻觉、偏见

13:17 思维链过程性评估

18:19 外部红队攻击：评估AI抵抗越狱的能力

21:54 外部机构Apollo research专注“AI是否会欺骗人类”研究

28:01 外部机构METR对模型自动化能力的测试

30:19 OpenAI推出Preparedness Framework，测试模型的信息安全、CBRN、劝说能力Persuasion和模型失控Model Autonomy

53:04 MMLU（Massive Multitask Language Understanding）在多语言中测试大模型的准确性

提及

相关引用

assets.ctfassets.net

制作剪辑

大奎