估值380亿美元的数据湖引领者,Databricks是如何发展壮大的?
阿尔法公社
重度帮助创业者的估值天使投资基金
━━━━━━
阿尔法公社说 :Databricks起步于加州伯克利的开源项目 ,由多位科学家创业者创立,亿美元经过多年发展 ,数据目前是湖引何估值380亿美元的超级独角兽 。它的展壮联合创始人兼CEO ,Ali Ghodsi接受了投资人Matt Turck访谈 ,估值详细谈了Databricks从0到380亿美元的亿美元发展壮大历程 ,包括如何做产品,数据如何进入市场 ,湖引何如何管好团队,展壮以及他作为领导者的估值修炼过程,欢迎创业者们参考。亿美元
Databricks是数据一家正在崛起的企业软件巨头 。2021年 ,湖引何它连续获得两轮10亿美元级别的展壮大额融资,估值跃升到380亿美元 ,它在数据和人工智能领域具有全球雄心 。
Databricks是一个非典型的创业故事 ,它由七位联合创始人创办 ,其中大部分是学者。它从Spark开源项目起步,现在引领了数据湖范式 ,这将加速其与主要竞争对手Snowflake的竞争。
本文是投资人Matt Turck与Databricks联合创始人兼CEO Ali Ghodsi的对话实录,Matt Turck在2015年就与Databricks的联合创始人Ion Stoica有过对话 ,对于Databricks的情况相当熟悉 。在本文中Ali Ghodsi将透露Databricks从一个开源项目到大型公司的成长经历 ,以及在团队,产品 ,进入市场,扩张等方面积累的洞见 ,Enjoy。
科学家创始人们推动Databricks起步
Matt Turck:我们谈一下Databricks的起步,AMPLab 、Spark和Databricks,这一切是如何开始的?
Ali Ghodsi:我们当时正处于人工智能革新的风口浪尖:Uber刚刚起步,Airbnb 、Twitter处于早期 ,Facebook还不是巨头。他们声称 ,使用20世纪70年代诞生的机器学习算法实现了很好的效果。
以当时的常识来想这不可能是真的 ,我们觉得那些算法不可能Work ,但他们说 ,“不 ,我们得到了非常厉害的结果。”当仔细观察后,我们的想法被颠覆了——他们确实获得了惊人的结果 。以现代硬件和大量数据为支撑 ,运用上世纪的算法依旧可以获得令人难以置信的产出 ,我们对此感到震惊 。我们想 :"需要使之普适化" 。例如,在Facebook ,他们可以提前检测到情侣分手,如果地球上的每个企业都有这种技术 ,这会对现有商业产生巨大影响。这就是AMPLab的起点。
Matt Turck:当时AMPLab的Spark是怎么来的?
Ali Ghodsi :图灵奖得主之一戴夫·帕特森当时是伯克利的教授 ,他非常相信人们应该聚在一起 ,打破孤岛。伯克利的教授们放弃了自己的私人办公室,和所有学生一起在巨大的开放区域办公。
他们试图解决的机器学习问题以当时的技术背景来说是很有挑战性的 。AMPLab里做机器学习的人 ,做数学的人 ,不得不使用Hadoop,数据的每一次迭代都必须运行MapReduce,这样光是做一次迭代就需要20到30分钟。所以当时我们决定 :"联合起来,建立一个反应快速的基础架构 。”我们在数据上做了很多迭代 。因此,不只是做一次 ,不只是一个SQL引擎 ,而是可以做递归机器学习的东西 ,并可以极快地找到数据中的内涵模式。
Matt Turck:Databricks创始故事的特殊之处在于,你们有七 、八个联合创始人。回过头看,拥有这样一个大的创始团队利与弊是什么 ?
Ali Ghodsi:肯定是有利有弊的。如果你知道如何真正让由七个人组成的紧密小组真正信任对方,并在一起工作得很好 ,就会发生令人惊讶的事情。我认为Databricks的成功很大程度上归因于我们互相的信任。
创业早期的创始人,即使只有两个人,他们也会争吵,然后可能会在一两年内分裂 ,这就是问题所在 。我们找到了一种方法 ,使大家真正了解对方的长处和短处,使这段创业旅程成为一种乐趣 。
人们总说CEO是地球上最漫长的工作 ,我从来没有这种感觉。我有很多联合创始人和我在一起,他们一直都在,这对我们来说绝对是一种力量 。如果我们没有这些人 ,就不会有现在的成就。
从开源项目到公司,
从0到100万美元ARR
Matt Turck :你们是如何从学术性的开源项目(Spark)变成一家公司 ,然后从0做到1000万美元ARR的 ?这背后是否有任何决定性的时刻 ,或其他特别的增长手段?
Ali Ghodsi :我们从0到100万美元ARR的旅程非常特别 ,与其他的旅程非常不同。我们经历了三个阶段,第一个阶段是PMF(产品与市场契合)阶段,当你有了一个产品 ,你能找到它与用户之间的契合点么 ?这对任何公司都存在挑战 。
你一旦你找到PMF ,接下来就得弄清楚什么是能将该产品与市场联系起来的渠道,你的产品或许符合市场需求,但怎么通过渠道销售呢?事实上 ,我们一开始在这方面走了弯路 ,花了几年时间才确定正确的发展方向。在这几年里,为了弄清楚Databricks的正确模式我们进行了大量的实验。
接下来 ,让我们从产品开始,然后再谈谈渠道。
产品方面 ,我们有在伯克利建立的开源技术,但这不一定符合大企业的需要,因为在大企业,他们没有来自伯克利的博士。因此 ,我们需要为他们大简化问题,我们开始在云中托管它 ,但事实证明 ,即使是云版本对他们来说也太复杂了 ,无法使用 。
因此,我们开始与用户一起进行迭代。我们在这之后削减了很多特性和功能,甚至可以说重新构建了一个产品。我们问自己:"如果我们知道现在的一切 ,回去再做一次,会怎么做?"
于是,我们重新做了另一个开源项目 ,Delta ,你可以把它看作Spark为大型企业所做的非常简单和自动化的软件。当我们在伯克利时,我们的产品设想是提供尽可能多的功能和设置项 ,因为可能是一个博士在用它做研究。但当我们把产品在企业中推广时 ,我们意识到不是每个人都有博士学位,大家不知道如何使用它。这就是早期我们遇到的问题 。在渠道方面 ,错误在于 ,我们在早期真的是非常相信这种产品主导的增长。
关于销售,当时我们的设想是 ,有了一个简化的产品 ,我们把它做成基于云的产品,就会有人会使用它 ,会为它刷信用卡,我们会非常成功 。我们可以雇用销售人员 ,给年轻人打电话进行推销,我们不会雇佣企业的销售人员 。我们更喜欢这种模式,它更便宜,更简单 。
但那是一个错误。你不能凭空选择你的渠道。你有一个产品和相应的市场,必须找到正确的渠道来连接它们。
如果你的解决方案是一个基于人工智能的大数据处理系统,那么对你的大企业客户来说这是真正的战略投资,你希望在企业中做决定的人说出:“我将购买Databricks 。”这些人是组织中的高管,而真正懂产品的数据科学家则并没有发言权 ,因为他们比前者低了五个级别。所以 ,你必须能够接触到企业高层,并用他们能理解的语言和他们沟通,说清楚你的产品对于他们的作用。此外,你还需要与负责采购执行人员交谈,以便交易能够顺利完成 。因此,我们需要改变我们的渠道 ,更加关注企业方面。否则,我们就不会达成目标。
Databricks如何开发产品,
数据仓库VS数据湖
Matt Turck :我们一会再继续谈进入市场 。现在让我们先谈谈产品 ,我在Databricks观察到的令人着迷的事情之一是,你们发布新产品并将其转化为一个平台的速度 。从Spark到机器学习到AI工作台再到Lakehouse,请向我们介绍一下产品的思路——一个产品如何导致另一个产品的出现 。
Ali Ghodsi:我们从Spark开始起步 ,它让用户可以访问所有数据;于是人们开始在企业中创建数据库,并在其中积累了大量数据。但过了一段时间,企业高管会问:“我不在乎我们获得和存储了多少数据,你能用这些数据为我做什么?” 这就是我们试图建立其他应用程序的原因。
起初我们的收入很少,然后我们意识到它太复杂了,有太多的选项和配置。我们就问自己:"如果必须重做,必须简化,会做什么 ?"这种思路后的第一个创新是Delta ,它重新定义了Spark,以一种真正企业友好的简化方式 。但最初我们没有将它开源 。
我们开始关注人们在用这些数据做什么,然后很自然地由上往下看:很多人对数据科学和机器学习感到兴奋,但问题是机器学习的生态系统太分散了 ,每所大学都在提出新的理论和进展,每个公司都在想下一个新技术和产品。大企业的数据科学家们想要使用这些新产品,但IT部门却说:“我们无法支持这些新技术。”所以我们建立了MLflow ,它基于一个想法 :“我们如何把所有这些项目放在一起 ?什么是机器学习中的粘合剂 ,可以把所有的生态结合起来 ?”所以我们现在也添加了许多数据科学和机器学习的实际使用案例 。
接下来 ,我们想:“如果拓宽数据库的用途 ,不仅仅是数据科学家和机器学习工程师 ,而是真正广泛的用例,应该怎么做 ?” 这就是我们开始重视商业分析师的原因 。
商业分析师习惯于像Tableau那样的操作软件 。如果他们想做一些更复杂的事情,只能使用SQL。因此,我们在四年前开始致力于构建数据仓库能力,把它建立在我们称为Lakehouse的核心基础设施中,然后在前年较大规模的推广 。
我们的秘诀是 :看企业的问题 ,弄清楚那是什么,通过实际的客户问题来深入了解它,把问题带回来 ,解决这个问题 ,在云中与客户快速迭代 。一旦它有了产品的市场适应性,就把它开放出来。建立巨大的开源势头,几乎像一个B2C病毒式的形式 。然后 ,用基于云的SaaS版本将其变现。
这是受AWS的启发 ,当创立Databricks时,我们认为AWS是地球上最好的云计算开源公司 。他们本身不进行开发,其盈利模式基于开源软件,托管它并在上面赚很多钱 。我们只是在这一点上进行了调整和演变。我们认为 :“这是一个伟大的商业模式。我们将在云上托管开源软件 。但不同的是,我们将自己创建开源软件。这样一来,就获得了相对于其他任何想做同样事情的人的竞争优势。”否则 ,任何人都可以建立任何开源软件并在云中托管它。
Matt Turck :接下来,让我们从Lakehouse开始 ,了解一下数据湖和数据仓库的演变,以及Lakehouse是如何在这两个领域中取得最好的成绩。
Ali Ghodsi:这很简单 。人们在数据湖里存储所有的数据 :数据集,视频 、音频、随机文本,这既迅速又便宜 。利用各种各样的数据集,你可以基于数据湖进行AI创新,AI与数据湖密切相关 。如果你想做BI,而不是AI,你就使用数据仓库,数据仓库和BI有一个单独的技术堆栈,但是它其实和AI一样 ,有很多同样的数据集。
BI用于回答过去的问题 ,比如上个季度的收入是多少;AI用来问关于未来的问题 ,哪些客户将会回来?所以 ,这意味着需要两个独立的堆栈 ,你必须有两个数据副本 ,而且你必须管理它们,这造成了很多复杂性。但当年的FAANG(硅谷几个顶尖互联网巨头的联合简称)可不是这样做的 ,他们有一个统一的平台。所以,我们的想法是把这两个统一成一个平台—Lakehouse 、人工智能数据湖--提出关于未来的问题。这两者的结合将使企业能够更快地发展。它是数据工程师、数据科学家和商业分析师的平台,这样他们就可以在整个企业内一起工作 。所以这是一个用于AI和BI的数据平台 。
Matt Turck :实现这一点靠的是什么重大的技术突破么?是Delta Lake ?还是Iceberg?那是如何工作的?
Ali Ghodsi:是的, 我认为有四个技术突破是在2016 、2017年同时发生的,Hudi、Hive ACID 、Iceberg、Delta Lake,我们贡献的是Delta Lake 。问题是这样的,在数据湖里有人们收集了所有的数据 ,这些数据非常有价值,但很难对它们进行结构化查询。之前的传统方式是利用SQL数据库 ,然后应用在BI领域 。因此 ,你需要一个单独的数据仓库。
为什么这么难?因为数据湖是为大数据、大数据集建立的 ,它并不是为真正的快速查询而建立的。它太慢了 ,而且没有任何方法来结构化数据,并以表格的形式展现数据,这就是问题所在 。那么,你如何把像一个大的数据块存储的东西,变成一个数据仓库?这就是这些项目的秘诀。我们找出了解决这些数据湖效率低下的方法 ,并使用户能够直接从数据湖的数据仓库中获得相同的价值 。
Matt Turck:这种方法有什么取舍吗 ?
Ali Ghodsi :事实上并非如此,我们做到了鱼与熊掌可以兼得。我知道这听起来很疯狂,但试试就是如此。我们减少了很多在80 、90年代由数据仓库供应商发明的技术,调整它们,使它们在数据湖上工作 。你可以问 :“为什么这在10或15年前没有发生 ?” 因为开放标准的生态系统并不存在 ,它是随着时间的推移慢慢出现的。所以,它从数据湖开始,然后有一个很大的实际技术先导突破。我们在这里谈论的 ,是数据的标准化格式。他们被称为Parquet和ORC,但这些是数据格式,行业要将所有的数据集标准化。
这些类型的标准化步骤是需要的 ,以获得数据湖的突破 。这有点像USB ,一旦你有了它,你就可以把任何两个设备相互连接起来 。所以 ,正在发生的事情是,开源领域的一个生态系统正在出现,在那里你可以在数据湖的范式中做所有的分析 。最终,你将不需要所有这些自八十年代以来的专有旧系统,包括数据仓库和其他类似系统。
Matt Turck:我会针对这个再问问题,业界有很多关于Snowflake和Databricks之间即将发生大冲突的议论 ,作为这个领域的两个巨大的公司,你对未来的看法是,数据湖最终成为范式 ,然后随着时间的推移,其他一切都被吸收?还是你认为未来更多的是混合,用户可以用数据仓库做某些事情 ,数据湖做其他事情?
Ali Ghodsi:我将从两个方面回答这个问题 。首先,人们把这说成是零和博弈,但你认为谷歌云会淘汰AWS和微软云 ,还是AWS会淘汰其他云?没有人这么认为 ,对吧。他们会共存 ,都将获得成功。
数据空间是巨大的。将会有很多供应商参与其中 。我认为Snowflake将获得成功 ,他们现在有一个伟大的数据仓库,可能是市场上最好的数据仓库。而它肯定会与Databricks共存 。事实上,Databricks与Snowflake共存于可能70%的客户中 。我认为这种情况将继续存在 ,人们将使用数据仓库进行商业智能 。
但是,如果长期来看,我认为数据湖的范式将获胜。为什么?因为数据太重要了 ,人们所有的数据都在这些数据湖中,而且更多的数据正在进入数据湖中 。公有云计算供应商也有动力推动更多的动力让人们把数据存到他们的数据湖中,因为这对他们来说是既得利益。因此,任何使其真正有价值的解决方案 ,都将是未来的趋势。所以,我认为从长远来看 ,越来越多的人将倾向于这种数据湖的范式。