OpenAI o1推出两周有余,市面上大多数讨论聚焦于其推理能力的优越性,也有一小部分声音质疑模型能力越来越强是否意味着更大的威胁?大多数质疑停留在无限推理之后的科幻化灾难场景,然而事实上,OpenAI早在模型发布之时,也同步释放了针对模型各类潜在威胁做出的测试白皮书“o1 System Card”,这期播客我们为大家深度解读这份白皮书,在缓和担忧的同时,也从客观的角度理解模型的能力的上限与不足。
这不是一期鼓吹OpenAI如何做的好的内容,我们尽可能将未被关注到但十分有价值的分析呈现出来,试图打破大模型领域信息的藩篱。
- 时间线
1:37 System Card白皮书具体是什么,它的受众是谁?
4:19 推理能力的加入使得模型更聪明,更好的服务意味着更好的欺骗
6:17 围绕结果的评估维度:不允许内容、越狱、幻觉、偏见
13:17 思维链过程性评估
18:19 外部红队攻击:评估AI抵抗越狱的能力
21:54 外部机构Apollo research专注“AI是否会欺骗人类”研究
28:01 外部机构METR对模型自动化能力的测试
30:19 OpenAI推出Preparedness Framework,测试模型的信息安全、CBRN、劝说能力Persuasion和模型失控Model Autonomy
53:04 MMLU(Massive Multitask Language Understanding)在多语言中测试大模型的准确性
- 提及
COT(Chain of Thought)| Ilya Sutskever Super Allignment | 夺旗比赛Catch the Flag | Theory of Mind | CBRN(Chemical, Biology, Radiology, Nuclear) | 模型自制Model Autonomy | BBQ Bias Benchmark for QA | European Nucleotide Archive | MMLU(Massive Multitask Language Understanding)
- 相关引用
- 制作剪辑
大奎