我在 Character.ai 做 Post Training|对谈前 C.AI 模型应用算法专家 Ted

我在 Character.ai 做 Post Training|对谈前 C.AI 模型应用算法专家 Ted

60分钟 ·
播放数6324
·
评论数35

活动预告🥳:12 月 7 日,我们会请到 Ted 做一场线上活动,大家记得翻到 shownotes 末尾查看报名信息!

在我 9 月份的硅谷行程里,我见过的印象最深、让我最有收获的人之一就是 Ted。

那个时候他正要离开 Character.ai,作为第四十多号加入的员工,他对于 C.AI 的产品、模型、训练等等的熟悉程度都非常高,这次很开心能把他请来,跟大家一起分享下美国最著名的 AI 公司内部是如何运作的,Post Training 的最佳实践是怎么做的,以及硅谷一众 AI 从业者的现状和认知等。

这期播客的内容基本代表了美国最一线的 AI 从业者的实践和认知,非常有代表性,希望对大家有帮助!

最后,我们的 AI 私董会也在持续报名中,目前已经聚集了一批市场上最好的 AI 创始人,欢迎点击链接报名(里面也有目前已加入的成员名单,可点击查看)

人类博物馆】

导游:曲凯,42章经创始人

28 号珍藏:Ted,前 C.AI 模型应用算法专家

Part 1 从内部视角看 C.AI

  • 01:06 为什么商业化一直没做起来?
  • 04:40 如果 C.AI 当时往 AGI 赌把大的,或者把产品交给字节系,能改写自己的结局吗?
  • 06:51 我们很认可 Talkie,但不想学 Talkie
  • 09:36 被收购后,你还相信 C.AI 类产品的未来吗?
  • 11:35 有人说「C.AI 不是真正的 AI 陪伴」,那它到底是啥?
  • 12:19 C.AI 为什么做得比别人好?

Part 2 我在 C.AI 做 Post Training 的这一年

  • 14:56 工作状态是 996(主动的哈,passion!
  • 17:15 Post Training 的核心是设计高效的迭代路径
    • 18:42 四种迭代路径,都有很多低垂的果实可以摘
    • 21:40 怎么评估和改善「模型变蠢」的问题?
    • 22:54 迭代中一个有趣的 EQ 涌现
  • 24:19 Post Training 到底是怎么个流程?
    • 25:37 介绍 Post Training 三大件:SFT(监督微调) 、RLHF(人类反馈强化学习)、DPO (直接偏好对齐)
    • 32:07 以上天花板极高,RAG 和 Prompt Engineering 我们几乎没做
  • 32:53 帮你拉开和同行差距的 2 道数据思考题:
    • 33:18 你微调用的数据,质量真的不能更高了吗?
    • 36:00 收集来的用户偏好数据,只能是点赞点踩吗?
  • 39:32 大家现在关注的几个技术难题,C.AI 是怎么做的?
    • 39:49 怎么做好评估?
    • 41:10 怎么做好意图识别?
    • 43:22 C.AI 的语音延迟基本是业界做得最好的,是怎么做到的?

Part 3 硅谷观察

  • 46:17 一个不被公开的秘密:ChatGPT 内部也是多模型混用?
  • 47:28 硅谷整体还是很乐观,推理侧仍然大有可为
  • 50:45 硅谷现状:
    • 51:01 做产品的想靠多模态赚钱
    • 51:06 搞算法的想复制 o1
    • 51:16 两边都在期待自动交互 Agent 解锁的想象空间
  • 53:48 复盘最近的硅谷求职记
    • 53:54 Post-train 人才极其抢手
    • 54:27 印象最深的是,面 Cursor 的时候,我甚至被允许用 Cursor 现场解题
    • 56:03 最喜欢被问到「你觉得我们的 idea 有多不靠谱?」
    • 56:45 如果我是面试官,我会考察面试者的这项直觉能力
  • 57:28 我很喜欢现在硅谷的氛围!当下可能是华人扬眉吐气的最好时机

活动预告🥳】

12 月 7 日,我们会请到 Ted 做一场线上活动,感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
展开Show Notes
好像听了一场满分的面试👍
Joes东
Joes东
7天前
这期质量太高了 从头到尾没有一句废话 比那些嘻嘻哈哈的节目强太多👍
猴子老师…猴子老师…谢谢你,无论如何…谢谢你,你无论做什么都会成功的,猴子老师,猴子老师世界上有你了不起,你是大善人
LearnWise
LearnWise
7天前
32:01 DPO 的过程中模型就是看一大批好的答案和不好的答案,类似于学生只看题目和答案,并不会自己做题目。RLHF 是模型会要做题目给出答案,然后奖励模型反馈这个答案好还是不好,类似于学生做题,老师批改。这两个的对比很像一句诗,纸上得来终觉浅,绝知此事要躬行。
陈皮皮屁:好精辟
听到最后一句话的时候,有点莫名的感动,谢谢曲凯,谢谢 Ted
domi_yVbI
domi_yVbI
7天前
最后一句好感人
HD271259z
HD271259z
5天前
一个产品好不好,听创造产品的人讲话就知道了😁超喜欢感谢创造cai的大家
推理大有可为
JASting
JASting
7天前
21:29 模型的不可控要用更高频次的测试去迭代,迭代过程中每个人会去迭代不同的方向。 ——任何不可控的事情都是一样。
周五还是周六啊,写的12月7号(周五),但是7号是周六啊
陈皮皮屁:啊感谢指正~!!勘误:活动时间是北京时间 12 月 7 号(周六,周六,周六)下午 14 点。
YeNight
YeNight
8天前
最近c.ai超火,包括但不限于ai心理咨询推荐、ai练口语推荐,这一期太巧啦,火速来听
NiCO酱和她的小布:` ·、最近? `,·[捂脸cry][捂脸cry]兜 哆久 了` ·.仁 现载兜 卖了` ·、ヾ` ·。 (´△`)(
我靠,最后一句直接起鸡皮疙瘩
Asherlee
Asherlee
4天前
讲的很细致了,数据方面可以说是讲了很多被忽视和扭曲的常识
HD541602t
HD541602t
6天前
好节目要多评价多支持!感谢嘉宾!
这一段 非常有意思~未来工作的“新模式”
汤布院
汤布院
7天前
猴子老师超绝气泡音哈哈
给猴子老师点赞👍
Nebula233
Nebula233
7天前
为了听猴老师的访谈所以下载注册了这个软件🧐
45:47 ASR说完总归省不掉的吧。第一个token出来就扔给LLM开始推理是不是不太对,顶多做prefix
堕落的猴子:就是提前做好prefix,其实用户说完最后一个字到真的结束这段话中间一般还有零点几秒的延迟(ASR的最后一步是通过VAD判断说话结束),然后如果最后几个字不影响推理输出,就不用走TTS再生成下一段语音。这些都是能通过预生成压缩出来的。
28:59 这种所谓的没使用用户数据的方式,似乎有那么点掩耳盗铃。
堕落的猴子:你说的没错,所以隐私友好的偏好对齐+数据飞轮还有很多值得提升的空间。可能我也没在播客里说清楚,我们SFT阶段并不会直接用任何用户和AI的对话来train。
猫Sir充电中:猴子老师好,听到你们数据分析时长的占比,挺震惊的,你们通常的数据分析方法和角度大概是什么样的呢?能否推荐一些账号或者资料,很想学习下