S5E02 硅谷徐老师|云数据存储和分析市场千亿美元机会的格局和前景
What's Next|科技早知道 - Podcast tekijän mukaan 声动活泼
Databricks 年初完成 G 轮融资,产品毛利比 Snowflake 还高? 继去年 Snowflake 上市之后,Databricks 于今年 2 月宣布完成 10 亿美元融资,估值高达 280 亿美元,近年内亦有上市计划。独角兽出现,大厂布局,仅头部两家公司之和就有着千亿美元市场的「云数据处理和分析」行业似乎是 Saas 行业最热的领域。 在这期节目中,我们讨论了诸如 Databricks 创始初期开源与闭源的选择和优劣对比;同样提供云数存储和分析服务,Databricks 和 Snowflake 有何异同,处于上下游关系的二者在业务上怎样「相互渗透」,其不同收费模式的优与劣;而营收远高于 Snowfalke 的 Teradata,为何估值远低于前者,云服务和 on-prem 的商业模式差别究竟有多大;以及从整体上看,云数据存储和分析赛道的竞争格局呈现了出何种面貌。 这是 What's Next 科技早知道 SaaS 专栏的第一期节目。客座主播是我们的老朋友 徐皞,他是硅谷人工智能创投家。嘉宾是曾在 Databricks 担任高级产品经理的 Yifan Cao,他也谈到了自己在 Databricks 的工作体验。 欢迎收听。 P.S. 声动活泼联合「哈佛商业评论」共同推出的播客节目「新增长学院」,现已在 苹果播客、喜马拉雅、小宇宙APP 等音频平台上线,欢迎订阅。 听众福利 欢迎在评论区分享你对本期节目的各种想法或观点,我们将在小宇宙APP和 @声动活泼 相关微博的评论区选出 10 位听友,分别送出著名脱口秀演员黄西(Joe Wong)3 月 28 日在北京「幽默小区脱口秀」的专场门票 1 张。更多信息请见 Mar 28th 黄西英语脱口秀专场(New) ,活动时间截止到 2021 年 3 月 25 日。 【主播】 徐皞,硅谷连续创业者、高管、投资人、斯坦福商学院客座讲师,「科技早知道」主播,推特账号(@H0wie_Xu),公众号(硅谷云) 【嘉宾】 Yifan Cao,前 Databricks 高级产品经理、目前供职于 Apple 【主要话题】 [04:24] 从 on-prem 转到云端,SaaS 商业模式的兴起 [09:28] 「短期内大家会高估开源的价值、低估商业的难度」 [17:35] Snowflake 和 Databricks 的区别与相似之处 [22:46] Snowflake vs Databricks: 上下游的双方相互竞争 [25:17] 从不同收费模式看谁的毛利更高 [34:25] 云数据存储和处理赛道上的竞争格局 [42:47] 机器学习的发展趋势 【相关节目】 #45 股神加持云端独角兽 Snowflake,SaaS 的黄金 10 年来了? 【延伸阅读】 Apache Spark:一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。 Spark Summit:Apache Spark 旗下的社区活动,拥有来自 250 多个组织的超过 1000 位贡献者,是大数据中最大的开源社区。2013 年首次举办。 Databricks:Databricks 由 Apache Spark 的创始人建立,成立于 2013 年,重研发尖端系统,以从大数据中获取价值。Databricks 的目标是从 Spark 开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。 On-Premises:通常简写为 on-prem,指运行在企业本地自建环境中的软件或解决方案。 API:全称为 Application Programming Interface,指应用程序接口。 Databricks 在 2021 年 2 月的融资新闻:Databricks raises $1B at $28B valuation as it reaches $425M ARR Snowflake:完全基于云构建、充分利用云特性的企业级 SaaS 数据仓库产品,具有灵活性(即买即用)、高安全性、极致扩展性和弹性等特点,支持多租户、事务、标准 SQL 语法和半结构化、非结构化数据。于 2015 年开始上线使用。 Cloudera:美国软件公司,向企业客户提供基于 Apache Hadoop 的软件、支持、服务以及培训。 Hortonworks:一家位于美国加州帕拉奥图的商业计算机软件公司,专注于 Apache Hadoop 的开发和支持。Apache Hadoop 是一种框架,能分布式处理跨计算机集群的海量数据。 闭源:作为开源的反义词而出现的一个术语,指被用于任何没有资格作为开源许可术语的程序。 Product/Market Fit:产品市场匹配度,指产品和市场达到最佳的契合点。 Tableau Software:数据分析与可视化工具。 Data Warehouse:数据仓库。 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 Data Lake:数据湖是多结构数据的系统或存储库,它们以原始格式和模式存储,通常作为对象 blob 或文件存储。 Lakehouse:一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。Lakehouse 使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。 Delta Lake:一个开源的存储层,为数据湖带来了可靠性。 提供 ACID 事务、可伸缩的元数据处理以及统一的流和批数据处理。 它运行在现有的数据湖之上,与 Apache Spark API 完全兼容。 ETL:Extract, transform, load. 用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 BI:Business Intelligence,商务智能,一整套的解决方案,对象往往是企业的经营问题。 TensorFlow:一个免费的开源机器学习软件库。 PyTorch:一个基于 Torch 库的开源机器学习库,用于计算机视觉和自然语言处理等应用。 DataRobot:一款高度自动化的机器学习平台。由 Jeremy Achin,Thoman DeGodoy 等人创建,该平台声称已经消除了对数据科学家的需求。 Teradata:关系数据库管理系统之一,主要适用于构建大规模数据仓库应用程序。 Zscaler: 成立于 2008 年的网络安全公司,通过云平台提供安全服务。 Amazon Redshift:亚马逊旗下的一种完全托管的 PB 级云中数据仓库服务。 BigQuery:Google 推出的一项 Web 服务,该服务让开发者可以使用 Google 的架构来运行 SQL 语句对超大数据库进行操作。 GCP:全称为 Google Cloud Platform,谷歌提供的云端平台服务,包含了运算(如 Compute Engine、Google Kubernetes Engine)、资料分析(如 BigQuery、Cloud Dataflow)、以及 API 管理(如 Apigee API 平台、API 数据分析)以及机器学习(如 Cloud Machine Learning Engine)等众多产品。 Yifan 提及的 Databricks 的「竞争对手」:Dataproc、Amazon EMR、Azure HDInsight、Amazon SageMaker、Kubernetes、Domino Data Lab、RStudio 提及的其它术语:HDFS、MapReduce、Hive、Python、SQL、Batch computing、PySpark、Exploratory Data Analysis 【后期】 Luke,陈太太 【监制】 Amanda 【音乐】 Super 1-Cospe Wholesome-Kevin MacLeod Hundo P-Wesky Spider Theory-Sage Oursler 【关于我们】 网站:shengfm.cn 社交媒体:声动活泼 邮件:[email protected] 国内打赏支持:https://www.shengfm.cn/donation 国外打赏支持:http://www.shengfm.cn/donationSpecial Guest: Yifan Cao.