EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?

EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?

48分钟 ·
播放数1911
·
评论数15

今天特邀文字识别领域专家 常扬 老师做客,他将分享自己多年来在OCR技术领域的经验和心得。常扬老师将比较大型语言模型与专用模型,分析Mistral OCR模型的优缺点,对比CNN和Transformer在OCR任务中的表现。还将分享其团队在信息抽取和RAG技术应用方面的实践经验,以及如何根据不同场景选择合适的OCR模型和技术路线。如果你对人工智能、文字识别或信息抽取技术感兴趣,欢迎收听本期节目。

更多内容信息和时间线参考下文的硬地笔记,欢迎收听本期节目。

嘉宾介绍

常扬:专注分享AI人工智能领域技术与洞见。Techlead,复旦AI博士,拥有10+年AI研究经验、国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。

公众号:Techlead

本期赞助

Podwise.ai - Podcast knowledge at 10x speed 🚀

Apple Store 下载👉🏻 apps.apple.com

硬地笔记

00:00:48 LLM时代,OCR小模型还有用吗?

00:03:20 大模型与专有模型的区分及Mistral OCR的SOTA争议

00:06:12 大模型和小模型的合作模式:能力而非算力的协同

00:08:10 CNN与Transformer,谁在OCR中更胜一筹?

00:12:20 Transformer在OCR中的“幻觉”究竟是什么?

00:14:23 CNN-based OCR模型处理复杂排版的策略

00:17:41 如何通过场景专训提升OCR模型的识别率?

00:21:18 OCR模型的构建策略:单模型 vs. 多模型

00:27:14 在2C与2B中,OCR技术的应用有哪些不同?

00:30:26 为什么OCR是信息处理的关键第一步?

00:33:38 OCR与语音识别,这两个技术的根本差异是什么?

00:38:10 RAG技术在OCR和代码检索中的应用及成本控制

欢迎关注我们

  • 知识星球: t.zsxq.com
  • 官网: hardhacker.com
  • 小手册: book.hardhacker.com
  • 用爱发电不容易,请我们喝咖啡☕️: afdian.net
  • 公众号/小红书: 硬地骇客
  • 商务合作: hardhackerlabs@gmail.com
  • 另外,现在加入「硬地骇客」会员服务,即可在会员专属的微信群与其他朋友一起畅所欲言,成为会员也是对我们持续更新最大的鼓励!


展开Show Notes
flyisland
flyisland
5天前
本期的嘉宾非常棒,生动地展示了基于第一性原理的思维方式,受益良多

我也尝试模仿嘉宾的思维模式来回答一下博客中的问题。生物在漫长的进化过程中,空间感知的结构+算法的的训练时长,是文字感知的训练时长,的成千上万倍都不止。这说明,在大脑中,空间感知的这个模型的复杂度比文字感知的要复杂成千上万倍。因此我们去模仿他的时候,模仿文字感知要容易一些,模仿空间感知的难很多
Ian言:31:55 非常对。生物感知的进化不但时间长,而且积累还少,不像文字,有文字之后,为了传播知识就把它记录了下来,从甲骨到竹简,到书籍,再到互联网,都可以被作为训练数据
想问下嘉宾的 toC 产品是什么,最近正在为这个发愁,想测试一下
思考问题的熊:46:16 https://www.textin.com/ 听到广告部分找到了
就当我是张如城:哈哈,感谢老哥,我也说测试一下
黄海亮
黄海亮
5天前
所以现在OCR的sota是哪个?
打码2333:难道不是textin的文档解析嘛🤓
Ian言
Ian言
5天前
现在OCR领域,是合合强,还是睿琪强?
宇宙兔老大:合合吧?睿琪不是做花草识别的吗
Ian言:睿琪也做其他的
嘉宾也太强了(๑•̀ㅂ•́)و✧
合合信息 技术确实强👍
泰格杨
泰格杨
5天前
干货满满👍👍👍
Rain_TFvy
Rain_TFvy
5天前
很有收获
瞌睡了就来送枕头😁