S5E02 硅谷徐老师|云数据存储和分析市场千亿美元机会的格局和前景What's Next|科技早知道

S5E02 硅谷徐老师|云数据存储和分析市场千亿美元机会的格局和前景

53分钟 ·
播放数9346
·
评论数38

Databricks 年初完成 G 轮融资,产品毛利比 Snowflake 还高?

继去年 Snowflake 上市之后,Databricks 于今年 2 月宣布完成 10 亿美元融资,估值高达 280 亿美元,近年内亦有上市计划。独角兽出现,大厂布局,仅头部两家公司之和就有着千亿美元市场的「云数据处理和分析」行业似乎是 Saas 行业最热的领域。

在这期节目中,我们讨论了诸如 Databricks 创始初期开源与闭源的选择和优劣对比;同样提供云数存储和分析服务,Databricks 和 Snowflake 有何异同,处于上下游关系的二者在业务上怎样「相互渗透」,其不同收费模式的优与劣;而营收远高于 Snowfalke 的 Teradata,为何估值远低于前者,云服务和 on-prem 的商业模式差别究竟有多大;以及从整体上看,云数据存储和分析赛道的竞争格局呈现了出何种面貌。

这是 What's Next 科技早知道 SaaS 专栏的第一期节目。客座主播是我们的老朋友 徐皞,他是硅谷人工智能创投家。嘉宾是曾在 Databricks 担任高级产品经理的 Yifan Cao,他也谈到了自己在 Databricks 的工作体验。

欢迎收听。

P.S. 声动活泼联合「哈佛商业评论」共同推出的播客节目「新增长学院」,现已在 苹果播客喜马拉雅小宇宙APP 等音频平台上线,欢迎订阅。

听众福利
欢迎在评论区分享你对本期节目的各种想法或观点,我们将在小宇宙APP和 @声动活泼 相关微博的评论区选出 10 位听友,分别送出著名脱口秀演员黄西(Joe Wong)3 月 28 日在北京「幽默小区脱口秀」的专场门票 1 张。更多信息请见 Mar 28th 黄西英语脱口秀专场(New) ,活动时间截止到 2021 年 3 月 25 日。

【主播】
徐皞,硅谷连续创业者、高管、投资人、斯坦福商学院客座讲师,「科技早知道」主播,推特账号(@H0wie_Xu),公众号(硅谷云)

【嘉宾】
Yifan Cao,前 Databricks 高级产品经理、目前供职于 Apple

【主要话题】
04:24 从 on-prem 转到云端,SaaS 商业模式的兴起
09:28 「短期内大家会高估开源的价值、低估商业的难度」
17:35 Snowflake 和 Databricks 的区别与相似之处
22:46 Snowflake vs Databricks: 上下游的双方相互竞争
25:17 从不同收费模式看谁的毛利更高
34:25 云数据存储和处理赛道上的竞争格局
42:47 机器学习的发展趋势

【相关节目】

【延伸阅读】

  • Apache Spark:一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。
  • Spark Summit:Apache Spark 旗下的社区活动,拥有来自 250 多个组织的超过 1000 位贡献者,是大数据中最大的开源社区。2013 年首次举办。
  • Databricks:Databricks 由 Apache Spark 的创始人建立,成立于 2013 年,重研发尖端系统,以从大数据中获取价值。Databricks 的目标是从 Spark 开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。
  • On-Premises:通常简写为 on-prem,指运行在企业本地自建环境中的软件或解决方案。
  • API:全称为 Application Programming Interface,指应用程序接口。
  • Databricks 在 2021 年 2 月的融资新闻:Databricks raises $1B at $28B valuation as it reaches $425M ARR
  • Snowflake:完全基于云构建、充分利用云特性的企业级 SaaS 数据仓库产品,具有灵活性(即买即用)、高安全性、极致扩展性和弹性等特点,支持多租户、事务、标准 SQL 语法和半结构化、非结构化数据。于 2015 年开始上线使用。
  • Cloudera:美国软件公司,向企业客户提供基于 Apache Hadoop 的软件、支持、服务以及培训。
  • Hortonworks:一家位于美国加州帕拉奥图的商业计算机软件公司,专注于 Apache Hadoop 的开发和支持。Apache Hadoop 是一种框架,能分布式处理跨计算机集群的海量数据。
  • 闭源:作为开源的反义词而出现的一个术语,指被用于任何没有资格作为开源许可术语的程序。
  • Product/Market Fit:产品市场匹配度,指产品和市场达到最佳的契合点。
  • Tableau Software:数据分析与可视化工具。
  • Data Warehouse:数据仓库。 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
  • Data Lake:数据湖是多结构数据的系统或存储库,它们以原始格式和模式存储,通常作为对象 blob 或文件存储。
  • Lakehouse:一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。Lakehouse 使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
  • Delta Lake:一个开源的存储层,为数据湖带来了可靠性。 提供 ACID 事务、可伸缩的元数据处理以及统一的流和批数据处理。 它运行在现有的数据湖之上,与 Apache Spark API 完全兼容。
  • ETL:Extract, transform, load. 用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
  • BI:Business Intelligence,商务智能,一整套的解决方案,对象往往是企业的经营问题。
  • TensorFlow:一个免费的开源机器学习软件库。
  • PyTorch:一个基于 Torch 库的开源机器学习库,用于计算机视觉和自然语言处理等应用。
  • DataRobot:一款高度自动化的机器学习平台。由 Jeremy Achin,Thoman DeGodoy 等人创建,该平台声称已经消除了对数据科学家的需求。
  • Teradata:关系数据库管理系统之一,主要适用于构建大规模数据仓库应用程序。
  • Zscaler: 成立于 2008 年的网络安全公司,通过云平台提供安全服务。
  • Amazon Redshift:亚马逊旗下的一种完全托管的 PB 级云中数据仓库服务。
  • BigQuery:Google 推出的一项 Web 服务,该服务让开发者可以使用 Google 的架构来运行 SQL 语句对超大数据库进行操作。
  • GCP:全称为 Google Cloud Platform,谷歌提供的云端平台服务,包含了运算(如 Compute Engine、Google Kubernetes Engine)、资料分析(如 BigQuery、Cloud Dataflow)、以及 API 管理(如 Apigee API 平台、API 数据分析)以及机器学习(如 Cloud Machine Learning Engine)等众多产品。
  • Yifan 提及的 Databricks 的「竞争对手」:Dataproc、Amazon EMR、Azure HDInsight、Amazon SageMaker、Kubernetes、Domino Data Lab、RStudio
  • 提及的其它术语:HDFS、MapReduce、Hive、Python、SQL、Batch computing、PySpark、Exploratory Data Analysis

【后期】
Luke,陈太太

【监制】
Amanda

【音乐】

  • Super 1-Cospe
  • Wholesome-Kevin MacLeod
  • Hundo P-Wesky
  • Spider Theory-Sage Oursler

【关于我们】
网站:shengfm.cn
社交媒体:声动活泼
邮件:admin@sheng.fm
国内打赏支持:www.shengfm.cn
国外打赏支持:www.shengfm.cn

Special Guest: Yifan Cao.

展开Show Notes
Pioneer1
Pioneer1
2021.3.25
51:52企业缺的应该不是模型,是数据,干净的数据,有用的数据。
奔跑的iceman:赞同,数据治理很重要
E_an
E_an
2021.3.24
第二期来了~好详细的shownotes!硅早老听众,坐标国内二三线小城市,之前听好多前沿话题都是觉得离自己还有些距离,但是这期讲到Spark对一个前大数据开发的太近了,勾起了我的回忆,哈哈哈哈哈,现在甚至还有点怀念写SparkSQL了
Toni
Toni
2021.3.24
#一起声动活泼 我也想看这周黄西的脱口秀演出!
May_4bEB
May_4bEB
2021.3.24
46:23#一起声动活泼# 确实对于非高科技公司,大数据云存储机器学习仿佛非常遥远。作为一个外行,这期节目让我开始联想这些技术服务就我所在的医疗行业能带来多大便利,可以推动病历电子化,医院联网,医疗大数据的应用的进程,期待
Amanda_Tse:哈罗,请添加微信 amd_tse领取周末的脱口秀演出票
panpan2021
panpan2021
2021.3.25
老实说,这期可能因为专业的不同,一些具体的内容真心听不懂。saas和开源软件,10年前听说过,也浏览过绿盟之类的网站。不过总体还是接触的少。主持人讲的一句话倒是非常同意,不要高估开源,不要低估商业。觉得还是很有感触,其他的先慢慢消化吧!水平有限!
晴空ivy
晴空ivy
2021.3.24
喜欢!可以多多上线类似节目吗?
Yaoyao2020:专栏类吗?
May_4bEB
May_4bEB
2021.3.24
#一起声动活泼# 好奇为啥Zscaler会导致网页反应速度变慢
Amanda_Tse:纯属好奇,你有没有改变网络其它设施设置,比如说,之前用海外专线,之后不用了?
schippi
schippi
2021.3.25
#一起声动活泼# 作为一个小白,为了脱口秀门票也是拼了😂,前后听了两遍,第一遍听完的反应是都啥玩意,各种听不明白,第二遍边听边做笔记,强迫自己听进去,发现还是很有收获。如今数据作为一种重要的资源,日益被人们所重视,从而产生了许多的商业机会,Databricks和Snowflake同在SaaS行业,代表了两种对数据截然不同的态度,从而形成了一种上下游的关系,服务的也是不同的客群,有趣的是两家在业务上的重合又引发了新一轮的讨论从而对行业造成新的影响。之前听过一句话“数据的价值在于整理“,两家公司从To B进而再由B To C,其中有无限的可能和想象空间,数据已然作为一种驱动力在改变着人们的生活。
Amanda_Tse:哈罗,请添加微信 amd_tse领取周末的脱口秀演出票
爆爷
爆爷
2021.3.25
自己公司也是做云服务产品的 想了解一下更多云服务专题☺️☺️☺️
worry
worry
2021.3.25
非互联网企业真的需要机器学习去处理他们的商业数据么?相比于Excel,用pandas包估计都足够满足需求,今年科技企业的算法岗大幅度缩水,国内的ai独角兽都在经营上出了大问题,还画ai的饼有用吗?
Yaoyao2020
Yaoyao2020
2021.3.24
#一起声动活泼 第二集来了,还是专栏第一集。虽然我不懂saas,但我想要赠票🙋
来了!
星期五
星期五
2021.3.31
作为从业者,感觉有部分和对数据湖和数仓的理解不太一致
Capybaraa
Capybaraa
2021.3.27
07:35这学期才开始学大数据的小白直呼听不懂
Pioneer1
Pioneer1
2021.3.25
大型 code switching 现场(非贬义)。听到「包裹」的时候蒙了一下,原来是指 package😂,进一步佐证了code switching是能帮助交流的。
Amkwtl
Amkwtl
2021.3.25
有嘉宾的推或微博吗 想关注一波
Amanda_Tse:show notes 嘉宾信息那里有,推是H0wie Xu
Amkwtl:thanks
Yaoyao2020
Yaoyao2020
2021.3.24
#一起声动活泼
叶冬
叶冬
2021.3.24
好快的第二期
PodcastLeo
PodcastLeo
2021.3.24
🙋‍♂️
Waoooooo
Waoooooo
2021.4.02
非常希望认真听听,但是二位英文太good了,我见过的interpreter也没这么说话的(微笑😊)