EP35 构建AI产品必听:关于LLM那些必须知道的事

EP35 构建AI产品必听:关于LLM那些必须知道的事

61分钟 ·
播放数5173
·
评论数33

本期节目主要来源于我们在 Podwise 产品中关于 LLM 的实战总结,以及分享如何正确的做一个 AI 产品,AI 产品的核心是什么?是算法吗?是人工智能吗?还是体验呢?欢迎收听本期节目,欢迎在留言区和我们分享、讨论 AI 产品,以及其他的一切。

更多节目内容信息和时间线参考下文的硬地笔记,谢谢收听!

本期 Sponsors

硬地笔记

00:00:49 大语言模型的基本概念和AI应用

00:02:09 LLM的应用领域和未来发展

00:06:05 自然语言处理及其在生成mind map中的应用

00:13:23 LLM生成内容的准确性与可信性

00:20:04 验证和总结的影响

00:21:52 结构化与对话式prompt的应用

00:27:44 如何输出和管理ChatGPT的内容

00:34:49 GPT的温度设置对输出的影响

00:37:06 迭代思维在AI工程中的重要性

00:44:02 AI能力的发展和商业模式

00:50:30 创新、数据量增长和 AI 的影响

00:51:33 开发者在面对市场竞争时的选择

00:56:56 AI 趋势和个人发展

00:58:11 AI产品的机会与挑战

硬地新知

  • LLM 的核心能力大致分为:生成(Generate)、总结(Summarize)、提取(Extract)、分类(Classify)、检索(Search)与改写(Rewrite)六部分。
  • 提到的产品 pdf.ai

欢迎关注我们

  • 官网:hardhacker.com
  • Discord 社区:discord.com
  • 用爱发电不容易,请我们喝咖啡☕️:afdian.net
  • 公众号:硬地骇客
  • 商务合作:hardhackerlabs@gmail.com 
展开Show Notes
山中异草
山中异草
2023.11.14
这一期太解渴了,当我自己做过一些,我才更佩服podwise的丝滑体验有多不容易。分享一下,我们正在做一个查询产品,它的查询需求高度模糊,但是查询的结果又指向高度精确。一开始我们也想用AI直接上,后来发现成本根本打不住。目前在尝试一种多层多轮的方法做,比如第一次先把自然语言的需求扔给AI,判断用户要找人找物还是找事件,然后根据AI理解的需求,sql查到一些东西,再扔给AI,AI再理解一下并改进sql,层层进逼最后找到东西,实际上就是在用户看不见的地方完成了多轮对话。这个时候,到底每一轮对话要收敛多少、反馈多少,精调起来就太难了。所以本期说的80%不AI太传神了,光做用户需求初级理解的功能就做了快一周。而且成本把控太不容易了,测试就是经费在燃烧。致敬podwise。
12:32 能目前感觉这一部分(highlights) 提取 的还可以再努力努力
一啸
:
这个是太需要努力的地方了 😂
小神仙大麦茶:还有一个就是 transcrips 那里 save to highlights 跨句子选择和跨段落(不同 speaker)就要整半天。°(°¯᷄◠¯᷅°)°。
4条回复
101 完了是 202,这么说不久就要出 404 了
0xSaito
:
再下一期是 808
小神仙大麦茶:哈哈哈哈哈哈哈哈
DDD_kBW5
DDD_kBW5
2024.1.05
想要文字版🤩
一啸
:
上 podwise.ai
1江水:有没有计划出客户端
01:48 恭喜啦 恰饭啦 是好的开始
子鹜
子鹜
2023.11.16
想请教下GPT3.5对于稍微超token的文章怎么总结效果好。找了好些代码看效果不大好
一啸
:
分段总结。可以参考 langchain 里的两种方法:map reduce 和 refine。
一啸
:
如果只是简单的总结,没有复杂任务,那现在的 assistant api 就可以让你一次完成,复杂的工作后台帮你做了。
3条回复
HD946975z
HD946975z
2024.10.10
1、LLM的能力?
* LLM 之前,其实我们也有AR,也有机器学习像什么图片识别、文字识别、语音转文字之类的,就典型的比如说 OCR 那种东西其实很早就有,但没有哪一个像今天的 LLM 一样应用场景很广泛,甚至可以说是有一点万能,主要原因在于 LLM 工作在人类文明和知识的最关键的载体之上,就是语言和文字。
* LM 的能力大致分类为 6 种:
* 生成
* LLM 写代码
* 总结
* 总结文章,总结邮件,整理会议纪要
* 提取
* 找出这篇文章里面提到的所有的书
* 分类
* 判断说这篇文章的这个内容是积极的还是消极的;还有股市里面,比如说它是利好的还是不利好;或者说这篇文章里面有没有政治敏感信息;
* 检索
* 找出这个公司的收入规模(最大区别是LLM 通过语义,而不是通过关键词匹配去检索的,检索的这个范围和准确度其实就会高很多,因为它可能这个文章里面完全没有这个收入规模这样的词,但是你通过 LLM 提问你就可以找到这个信息。)
* 改写
* 比如说对一篇文章进行润色,或者说改正错别字,哪怕是改正标点符号,包括翻译
* 其他能力:胶水、协调者
* 整个多模态的这个场景下面 LLM 作为它的一个协调者去协调不同的模型工作,因为 LLM 可以通过生成代码、生成提示词来驱动别的模型吗?从而协同完成 LM 能力之外的事情,这个也是很重要的一个能力,比如说现在我们不是可以通过 GPT 4,对吧?用自然语言去生成图片嘛?那这个其实 LM 在里面扮演的就是这样一个协调者的角色。

2、Pod wise如何做 mind map 大纲或者金句?
* mind map
* 以前:从一篇文档里面能够把那些知识点给它全部能够找出来,然后能够间谍出他们那个知识的关系,那最终我就可以把它画出整个脑图了。
* 首先从一篇文档里面去提取所有的知识点,这个可能今天不难,你通过 GPT 去提取,但是然后你再去找出这些知识点,它原本的那个逻辑关系,比如说是谁的父子关系这些,其实这个就难了,对吧?这个就它没有那么简单了。
* 当时我在做这件事儿的时候还去调研,去研究了很多像怎么去做知识图谱,甚至还有一些图的数据库,当时都有去看过,觉得应该用这种方式来解决这个问题。对,所以这是一刚开始我们的思路。
* xmind的思路:直接告诉大模型将这篇文档给我生成一个 minor map,然后就完事了
* 其他思考:
* 从产品的角度上来说,比如说你做了一个 minor map,要把它在你的产品里面集成起来,那我们肯定要去做很多产品层面的一些其他的事情。那不能说我扔一篇文档,然后让它独立的去生成一个 mind map,然后就完事了。但实际上我们还是需要将这个 mind map 能够,比如说和产品的其他部分能够融合起来,比如说大纲总结,是吧?你的大纲里面不是有一些 outline 呐?那样的时间线的一些内容,那最好我这个 Mini map 能够和那边的内容也要能够有些能够 match 起来,不能说两个看上去完全是独立的,没有任何关系的一个东西,那所以说这个时候就变成了对你大纲的内容最好也要能出现在你的 mind map 的某一集的内容之上,这个时候你就不能说单纯我就是给他发一条 generate 的指令,说你帮我生产 my map 就行了。
* 金句
* keywords 这些,其实就是刚才贵讲的什么提取 extract 这个范畴的一些东西了,因为这一块的话,其实核心就是说提取就是拟合性,就是要保留原文,就是这件事情其实是比较重要的。当然你说我让他去提取,比如博客里面的金句,那这件事儿,其实金句这个东西,什么东西叫金句?我觉得这件事情也是比较有意思的,就什么东西叫金句?其实我们人来说其实是能够定义这件事的,反正就是那些比较听上去有启发的,或者说反正我听上去很舒服的那些句子,对吧?嗯,那就人的这个感觉,对这个东西的感受是非常非常的明确。
* 但是今天的模型就不一定能有人的这种感受在里面,对一句话的那个感受有那么准确,就是当然可能未来也许也能够做到嘛?但是今天当然他也能够做的还不错了,就是说,但是不管他有多好,反正我的直觉是对这种东西的感受还是不如人的那么感受的那么好啊
HD946975z:3、LLM 生成的内容不太可信? * Google 发了篇论文,这个论文里面有一个结论,就是说 LLM 生成的内容是不会突破预训练的数据集的啊。嗯,那这个背后是什么意思呢?就是你可以认为说 LLM 并不真的存在智力涌现,它其实就是它的天花板,就是全人类的智慧。 * 就是假如说我把全人类生成的所有内容都预训练进去了,对吧?那它的这个生成的内容是不会突破这个数据集的,那你要说到这个,其实在我看来还这个问题相关的一个结论就是说它生成的内容实际上还是可控的,所以你要说它可不可信,我觉得他起码不会骗你,哈哈,就是更多,我觉得更准确的这个问题应该是讨论 LLM 生成的内容的准确率和性价比,因为说可不可信的话,起码我觉得在你给出的这个提示词正常的前提下, LM 是不会故意去误导我的。刚开始使用 LM 的时候,LLM 会给你编东西,会出现幻觉,但现在这种情况就已经非常少了啊。基本上很少看到大家在网上会讨论,一方面是因为 LM 本身能力的提高,然后另外一方面是大家对prompt使用的熟悉。 4、LLM的使用感受? * 在知识学习上面对 AI 的那个信任感的建立可能没有那么容易,它可能需要 AI 能够完全正确的持续反馈输出,才能够逐渐建立,只要有一次遇到了一些知识性的错误,可能就很容易去打破这种信任感,这个东西就很像那个自动驾驶,那个信任需要一点一点的建立,但是又很容易被破坏掉。 * 在做 potwise 的整个过程当中,像正则和 circle 两块,都是自己先写完代码,定义好数据结构过后,把数据结构直接复制给GPT,说根据这个结构帮我生成一个 create 语句,帮我生成一张表,然后我就拿去把表创建了,各种 SQL 其实都是这样完成的。今天发现挺靠谱的了,这些SQL 好像都能够运行的。 * 验证速度(持续验证这是一个挺重要的事情): * 代码去运行、去测试、去编译,这个过程本身就是一个验证的过程,可以很快得到反馈; * 总结这件事,那总结它其实基本上是一个不验证的事情,或者说那个验证成本是很高的,你的验证的方式无外乎不就是要回去读原文嘛,那我们需要总结的时候,很多时候是不太会去看原文的,所以说我们对总结来说,除非你是做总结的人 5、llm的提示词框架? * 这些框架它的 prompts 它普遍就会有几类内容,它会讲说我是什么角色,然后当前的任务背景是什么?任务的目标是什么?答,成任务的步骤是什么?以及必须要遵循的限制规则是什么?我感觉如果说你每个 prompts 都能用类似这样的方式去写的话,肯定会写得更完备嘛。 * 结构化的prompt: * 那种看上去非常长,很复杂,就是刚才 set 里提到的那种,可能它里面要分一些,整个flymock,有很多角色、步骤、任务的目标,这些东西都定义得很清楚 * 对话式的prompt: * 对话这一类的 problem 其实说白了就是经过多轮对话最后达成了某个目的,那就是我们平时普通人可能很多时候在 ChatGPT 里面去做的事情。可能很多时候都是堆话式的。 6、RAG?Agent? * rag 就是我要需要去抽取数据,然后去做embedding,然后最后再去生成内容,就是这条链路我们自己是没做的 * agent 说白了就是刚才介绍到的,我根据大模型的决策,然后能够去执行一些外部任务,比如去帮我们去买机票,还有做一些其他的事情 7、开发ai产品,注意力需要放在哪? * 定是在自己的具体的场景,但我说的 AI 产品其实更多的就是你是在做一个应用产的产品,对吧?你说你要去打造自己的大模型,那肯定就不是那么回事了,对吧?对,你做应用上面肯定是聚焦在自己的场景上,要解决自己的问题,那你肯定要去抽象的是自己的整个完整的工作流,那你最后一定会体会到 80% 的时间其实和大模型可能都是没有什么太大的关系的,只有那个 10% 到 20% 你才在关心那件事儿。对,当然不是说你10%, 20% 不重要,我们只是在说工作量的问题。当然那10%、 20% 的那个大模型给你产生的质量和效果可能是决定着你的生和死的问题,这个我们一定要明白这个道理。 * 现在 a i 其实还是要讲究成本的, * 产品建议: * 先去验证需求,先去做PMF,其实就是为了让这个事情变得可控,变得不是一个冒险。 * 以安全可控的方式来进行尝试。先验证需求,然后找好利基市场,然后找好PMF,再去投入。 * 真正你是一个人在干,你没有团队了。我觉得做 AI 产品可能不是一个最佳的赛道,因为其实你做一个真正带业务场景的 AI 产品,其实你的工作量不小,我觉得对一个人来说其实挑战是很大的一件事。关键是你的这个投入这么大,时间成本、各种机会成本全都可能会被搭进去。
Chee_wuuF
Chee_wuuF
2024.5.26
00:56 请教下,之前聊过Ai基础(101)的是哪一期
0xSaito
:
EP35 构建 AI 产品必听
HD243291g
HD243291g
2023.11.17
提到的播客地址能分享吗
一啸
:
https://podwise.xyz/dashboard/episodes/55667
来咯
24年5月,已经开始降价了
生生_dHVN
生生_dHVN
2024.6.05
这个播客的大纲是podwise生成的吗
阿晓Ocean
阿晓Ocean
2023.12.19
33:40 几个prompt调试测试平台没听清,可以列一下吗?感谢
学习了
Anetr
Anetr
2023.11.16
10:20 这个感觉不太准确?感觉只是把复杂度delegate给了llm,如果要自己实现一个llm来做知识点之间的关系不一定比graph db之类的实现简单吧
16:10 对,真人总结对能力也是很高的要求
16:29 信息价值的判断
evifeerf
evifeerf
2023.11.14
刚好上班路上听
多啦ABCD梦
多啦ABCD梦
2023.11.14
function calling挺好使,gpt4下的function calling还是比较稳定的, 自然语言to一个class function calling基本能cover