近期,Anthropic发布了一篇名为《Which economic tasks are performed with AI? Evidence from millions Claude conversation》——从数百万条Claude对话中探索AI能更为擅长的工作任务。这份报告给我们带来了一些启发,尤其是关于如何量化模型带来的经济价值,以及大家最为关心的,它们能取代哪些人类工作任务?更准确地说,应该是人们如何跟AI协作的问题,当然这期内容不止报告本身,我们也聊聊这份报告制作方Anthropic这家公司本身。
- 主播
孟醒:五源资本合伙人,滴滴前自动驾驶COO
大奎:Looki.AI品牌负责人
- 时间轴&关键概念
1:28 Anthropic是一家什么样的公司?
Star Gate
ADEPT
3:23 Sonnet 3.7的发布备受关注
5:07 Sonnet 3.7高达70%的准确率意味着什么?
imageNET
AlexNet
7:30 什么是SWE Bench?
8:16 报告如何展开研究?
Clio:www.anthropic.com
9:16 报告第一个结论:AI的使用广度大于深度
10:53 为什么大部分人使用AI浅尝辄止?
12:42 AI的垂直化是应该基于工种而不是行业
MCP
Cursor
Augment Code
Context window
RAG
Retrival
17:10 toB和toC的coding产品,哪一个想象空间更大?
MarsCode
19:35 toB行业负反馈大于正反馈
20:40 Anthropic是在一开始就考虑好做toB生意吗?
21:30 什么是federation learning联邦学习?
25:13 Sonnet3.7 为什么不是一个推理模型?
27:05 Sonnet从3.5升级到3.7对应用公司意味着什么?
deep research
30:07 第二个核心结论:极高端职业使用AI频率极低
Parallel legal
32:23 对精准度要求极高的行业如何克服模型幻觉问题?
Harvey AI
34:19 toB模型服务公司对RAG有极高要求
35:39 医疗行业和大模型的结合点
Co-pilot
Auto-pilot
41:12 报告第三个核心结论:增强型任务使用率57%高于自动化任务43%
43:40 重新认知人的需求变化
46:29 用“杨贵妃吃荔枝”类比人的需求变化
49:52 co-pilot和auto-pilot产品市场的发展趋势
55:26 当AI过剩,生产力会如何重新分配?
57:32 报告背景的补充
如果能通过技术不断进步来取代人,就需要迈过以下几个坎:
1. 技术能力是否达到取代人的水平
2. 技术水平达到后,人是否能够信赖机器
3. 获得信赖后,其价值是否足够大,导致人愿意为此改变流程
4. 以上都满足后,人是否愿意改变自己的习惯,真正融入日常的流程中去
以上框架的前提假设是人的需求是静态的,但实际情况是,人的需求会动态变化(不断地提更高的要求)。在不断满足动态需求的过程中,衔接需求与技术之间的桥梁就是copilot
关于autopilot和copilot:
1. autopilot可以直接达到 or 通过copilot渐进式达到
2. 当达到autopilot 1.0时,可能又需要借助copilot继续提升到autopilot 2.0
3. 以自动驾驶L4为例,可能技术是不断在升级到更好的autopilot形态,但有可能真正的终态是不出行就能解决问题(如脑机接口、VR等)