S8E10 |  AI 喧嚣之下,数据双巨头的隐秘战争|硅谷徐老师

S8E10 | AI 喧嚣之下,数据双巨头的隐秘战争|硅谷徐老师

48分钟 ·
播放数17051
·
评论数25

一提起 AI ,大家首先想到的可能是各大科技巨头在算力和算法上的抢夺和竞争。但是在算力和算法背后,另一场没有硝烟的战争也在持续升温,那就是 AI 数据公司之间的博弈。就在几天前,大数据存储和云计算领域内两家最有影响力的公司 Snowflake 和 Databricks 分别召开了他们的年度峰会。
在峰会上两家公司分别介绍了自家数据生态的发展方向以及如何为企业提供更好的AI数据服务。但是出乎意料的消息是,峰会期间 Databricks 宣布重金收购这个领域3大开源数据社区之一 Iceberg 背后的商业公司 Tabular, 这让两家数据巨头之间的关系更加剑拔弩张,Databricks 颇有后来者居上的势头。

这期节目的两位嘉宾都是在 AI 数据领域有着丰富的经验和洞察的从业者。他们刚刚从 Snowflake 和 Databricks 的峰会现场回来,为我们带来了数据AI、企业级AI的共识转变的一些观察和思考。

内容涉及大量英文专业名词,「声动活泼」公众号上也同步整理了本期节目的要点,如果你喜爱本期节目或对节目内容感到好奇,欢迎在微信搜索「声动活泼」查看 最新文章

本期人物
丁教 Diane,「声动活泼」联合创始人、「科技早知道」主播
硅谷徐老师,AI 高管、连续创业者、斯坦福客座讲师,小红书和微信视频号:硅谷徐老师 |公众号:硅谷云| YouTube: Byte into Future
堵俊平: Datastrato AI 创始人 CEO
Jack Song:Uber 数据平台工程总监,曾任 Airbnb 人工智能平台工程总监、Mastercard 数据和人工智能的技术副总裁

主要话题
05:36 从 Snowflake 和 Databricks 峰会看数据生态新趋势:AI for data 和 Open data catalog

09:50 ] Open data catalog 大火 : 统一数据湖仓数据架构,为 AI 引擎和数据引擎承上启下
13:53 引擎多样化和数据管理需求驱动统一和独立的 open data catalog 生态
19:28 Databricks 收购 Tabular:会继续拥抱中立还是与商业利益捆绑?
23:14 Snowflakes 与 Databrick 暗暗较劲:Iceberg 社区会良性发展还是走向分裂?
25:10 Databricks 管理 Apache 社区 : 开源社区走向商业化是社区良性发展的重要标志
29:56 Databricks 营收增长迅猛:战斗力来自于其开源属性
31:25 从 data for AI 到 AI for data: GenAI 时代的数据服务新方向
40:17 Semantic search (语义搜索)是 AI 与 data 相互整合的一个突破口

所涉部分术语
Snowflake
Snowflake 是一家成立于 2012 年的美国云原生数据仓库公司,于 2020 年上市。它的核心产品是云数据平台 Snowflake,该平台改变了传统的数据仓库架构,专为云环境设计,提供了高度可扩展、高性能的数据存储和处理能力。

Databricks
Databricks 成立于 2013 年,由开源大数据项目Apache Spark的创建者们成立,是一家提供大数据处理和分析平台的公司。自成立以来发展迅猛估值已超过 400 亿美元,但仍未上市。

Iceberg社区
Iceberg 社区是一个开源数据湖格式项目,iceberg 专为大数据分析而设计,其目标是简化数据湖的管理,使得数据工程师可以像操作数据库一样操作数据湖中的数据。Tabular 是 iceberg 背后的商业公司,本次 Databricks 对 Tabular 的收购引发了公众对于 iceberg 的开源和中立属性的担忧。

Delta Lake
Delta Lake 是一个由 Databricks 开发并开源的数据存储项目,致力于提升数据湖的管理能力和性能。 Delta Lake 与 Iceberg 存在潜在的竞争关系。

Hudi (Hadoop Upserts and Deletes Incrementally)
与 Iceberg 和 Delta lake 类似,Hudi 也是开源的数据湖社区,它旨在提供高效的大型数据集上的插入、更新和删除操作,同时保持数据湖的灵活性和规模。

Open data catalog
开放数据目录是专门面向人工智能和机器学习领域的一类数据资源库或平台。这类开放数据目录专注于提供可用于训练算法、测试模型或驱动研究的高质量数据集。数据公司通过建立和维护这样的目录,促进数据共享,降低数据获取门槛,加速AI技术的研发和应用创新。

Semantic Search
即语义搜索,是一种前沿搜索技术。不同于传统搜索的关键词匹配,语义搜索利用人工智能对自然语言进行理解和处理,旨在理解用户查询背后的意图和上下文,从而提供更加准确和相关的搜索结果。

幕后制作
监制:Diane、雅娴、六工
后期:Jack
运营:George
公众号:东君、六工
设计:饭团

商务合作
声动活泼商务合作咨询

支持我们,加入新一年的播客创新
2021 年我们发起了「声动胡同会员计划」,这是一个纯支持项目,支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年,得益于这些支持,「声动活泼」的每档节目都不断突破,不仅荣登苹果中国的年度热门节目榜单,还在 CPA 和喜马拉雅等平台都榜上有名。2024 年全新付费节目「不止金钱」现已上线,欢迎收听。同时,新一季「跳进兔子洞」即将上线,敬请期待!
胡同

加入我们
声动活泼正在招聘全职「节目监制」、「人才发展伙伴」、「商业发展经理」,查看详细讯息请 点击链接。如果你已准备好简历,欢迎发送至 hr@shengfm.cn, 标题请用:姓名+岗位名称。

关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡声东击西吃喝玩乐了不起反潮流俱乐部泡腾 VC商业WHY酱跳进兔子洞不止金钱
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:ting@sheng.fm
声小音

欢迎扫码添加声小音,在节目之外和我们保持联系。

Special Guests: Jack Song and 堵俊平.

展开Show Notes
cacoschphou
cacoschphou
2024.6.22
25:16 正在牛津赶一个算法project report,然后听到了这期节目,buff叠上!
Dicaprixin:
丁教Diane
:
哇。我们都是什么高质量听众🥰
3条回复
Ming_Stacey
Ming_Stacey
2024.6.21
没参加上databricks会议的线上的virtual版本。正觉得遗憾,就听到了这期!👍
丁教Diane
:
哇!这个会你也有关注?
Ming_Stacey:可能是大数据看我每天处理的生物数据太乱七八糟了,从基因组到结构,所以发了snowflake和databricks的各种小“广告”?🤣
4条回复
胡贝侨
胡贝侨
2024.6.23
如果可以的话,可以再聊聊 Scale AI,不过可能 Alex Wang 不太可能参加😂
丁教Diane
:
哈哈,对也是华人创始人
有些不是一定要用英文表达的词语可以说中文 倍速的时候听起来会更顺畅 不然开了倍速 就变调了
NiCO酱和她的小布:` ·、还好 吧 感受 下萊 ye`· ,`·,
topsavor
topsavor
2024.6.23
db真的很猛,我们公司data相关的生态这几年已经基本从aws挪到db了。
Solace_uK4d:不过db最后还是给aws azure gcp这种互联网地产商打工。。。
丁教Diane
:
另一个看空amazon理由😂
3条回复
iamstone
iamstone
2024.6.22
shownotes 写的也太详细了吧
丁教Diane
:
谢谢我们的监制雅娴
segfault
segfault
2024.7.03
对db非常bullish
blackshady
blackshady
2024.7.02
46:01 这里的embedding榜单提的是哪个?
GuanruF
GuanruF
2024.6.25
请教一下elasticsearch和这几个公司的search有什么区别
CC023
CC023
2024.6.22
谢谢。