Databricks, Inc.创立于2013年,总部位于美国加州旧金山,在加拿大,英国,荷兰,新加坡,澳大利亚,德国,法国,日本,中国和印度运营,是一家大数据与AI公司,它与存储在公共云中的公司信息进行交互。
Databricks, Inc.美股百科
Databricks, Inc. 是一家全球数据、分析和人工智能 (AI) 公司,由 Apache Spark 的原创者于 2013 年创立。该公司率先提出了数据湖屋(data lakehouse)概念,这是一个革命性的平台,将数据仓库和数据湖的功能相结合,使组织能够管理传统业务分析和 AI 工作负载的结构化和非结构化数据。
Databricks 公司已迅速发展成为数据和 AI 生态系统的重要参与者,到 2021 年,已有超过 5,000 家组织使用其产品。Databricks 提供全面的基于云的平台,帮助企业构建、扩展和管理数据和 AI 解决方案,包括生成 AI 和机器学习模型。其平台为各种数据任务(例如数据处理、机器学习建模、仪表板生成和生成 AI 解决方案)提供统一的界面。
Databricks 致力于开源技术和创新。该公司创建了多个开源项目,例如 Delta Lake、MLflow 以及最近的 DBRX。DBRX 是 2024 年 3 月推出的开源基础模型,在发布时成为最快的开源大型语言模型 (LLM)。如今,Databricks 为全球 10,000 多家组织提供服务,其中包括 60% 以上的财富 500 强企业,并继续突破数据智能和 AI 技术的界限。
Databricks, Inc.产品百科
Databricks 提供全面的产品和服务,旨在帮助组织管理、分析和从数据中获取见解。主要产品包括:
1、Databricks Lakehouse Platform
Databricks Lakehouse 平台是结合数据仓库和数据湖最佳功能的核心产品。它为数据存储、处理和分析提供了统一的环境。 关键组件:
- Delta Lake:为数据湖带来可靠性的开源存储层
- MLflow:用于管理机器学习生命周期的开源平台
- Koalas:在 Apache Spark 之上提供类似 pandas 的 API 的项目
2、Databricks SQL
Databricks SQL(以前称为 SQL Analytics)是一个基于 Lakehouse 架构的无服务器数据仓库。它允许分析师使用标准 SQL 查询数据集或使用连接器与流行的商业智能工具集成。 特征:
- 无服务器架构,适用于可扩展的 BI 和 ETL 任务
- 与传统数据仓库相比,性价比高出 12 倍
- 统一治理和开放格式
3、Databricks AI
Databricks AI 包含一系列用于构建、部署和管理 AI 和机器学习解决方案的工具和服务:
Mosaic AI:
- 用于构建 RAG 模型的 AI Vector Search
- 用于部署、管理和监控模型的 AI Model Serving
- 用于创建自定义 LLM 的 AI Pretraining 平台
DBRX:
- 基于 MegaBlocks 研究项目构建的开源混合专家 (MoE) 模型
- 以代币/秒计算速度极快
AI Assistant:
- 提供随时待命的专家来帮助解答问题并更快地部署项目
4、Databricks Unity Catalog
Unity Catalog 是跨云平台的数据和 AI 资产统一治理解决方案。它可实现数据的无缝管理,为数据治理提供单一事实来源。 主要特点:
- 跨云和跨平台治理
- 统一访问控制和审计
- 与现有数据目录和治理工具集成
5、Databricks Workflows
该产品简化了批量和流数据工作流程的管理:
- 无缝基础设施扩展
- 集成测试和软件开发标准
- 支持批量和实时数据处理
6、Databricks Clean Rooms
Clean Rooms 是一个协作环境,允许组织安全地共享和分析数据,而无需暴露原始信息:
- 可在 AWS 和 GCP 平台上使用
- 实现组织之间的安全数据协作
7、Databricks Compute
Databricks 提供各种计算选项以满足不同的工作负载和要求:
- All-Purpose Compute:用于交互式分析和开发
- Jobs Compute:用于计划或自动数据处理任务
- SQL Compute:针对 SQL 工作负载进行了优化
- Delta Live Tables (DLT) Compute:用于构建和维护数据管道
- Serverless Compute:自动管理和扩展计算资源
这些产品在 Databricks 数据智能平台上协同工作,为跨多个云提供商的数据工程、分析和人工智能开发提供了全面的生态系统。
Databricks, Inc.融资百科
- 2013年9月25日,A轮融资,Databricks获得 Andreessen Horowitz 领投,Alfred Chuang(个人)跟投的1400万美元投资。
- 2014年6月30日,B轮融资,Databricks获得 New Enterprise Associates 领投,Andreessen Horowitz和DCVC跟投的3300万美元投资。
- 2016年12月15日,C轮融资,Databricks获得 New Enterprise Associates 领投,Andreessen Horowitz和SineWave Ventures跟投的6000万美元投资。
- 2017年8月22日,D轮融资,Databricks获得 Andreessen Horowitz 领投,New Enterprise Associates、Battery Ventures、Geodesic Capital和Green Bay Ventures跟投的1.4亿美金投资。
- 2019年2月5日,E轮融资,Databricks获得 Andreessen Horowitz 领投,New Enterprise Associates、Battery Ventures、Coatue、Microsoft等跟投的2.5亿美金投资。
- 2019年10月22日,F轮融资,Databricks获得 Andreessen Horowitz 领投,New Enterprise Associates、T. Rowe Price、Coatue、Tiger Global Management等跟投的4.0亿美金投资。
- 2021年2月1日,G轮融资,Databricks获得 Franklin Templeton Investments 领投,New Enterprise Associates、T. Rowe Price、Salesforce Ventures、Andreessen Horowitz、Tiger Global Management等22家机构跟投的10.0亿美金投资。
- 2021年8月31日,H轮融资,Databricks获得Counterpoint Global领投,New Enterprise Associates、Andreessen Horowitz、Insight Partners、Tiger Global Management、Gaingels等25家机构跟投的16亿美金投资。
- 2023年3月3日,Databricks完成H+轮融资,Vantage Legacy Capital独家参与。
- 2023年7月31日,Databricks获得Irving Investors独家参与的二级市场投资。
- 2023年9月14日,Databricks完成T. Rowe Price领投的5亿美金 I 轮融资,Andreessen Horowitz、Tiger Global Management、Fidelity Management and Research Company、GIC等13家机构跟投。
- 2024年2月27日,Databricks获得来自Bossanova Investimentos和Firestreak Ventures的风险投资资金。
- 2024年12月17日,Databricks 完成 Andreessen Horowitz、DST Global、GIC、Insight Partners、Thrive Capital 和 WCM Investment Management 领投的100亿美金 J 轮融资。估值620亿美金。
- 2025年1月13日,Databricks 获得53亿美金债务融资授信,由Goldman Sachs、Morgan Stanley、Citigroup、Blackstone Group、J.P. Morgan等共同参与。
Databricks, Inc.历史百科
Databricks创立于2013年,源自加州大学伯克利分校的AMPLab项目,该项目涉及制作Apache Spark,Apache Spark是在Scala之上构建的开源分布式计算框架。
2017年11月,该公司通过集成Azure Databricks被宣布为Microsoft Azure上的第一方服务商。该公司深深扎根于开源,并启动了Delta Lake,这是一个开放源代码项目,旨在为机器学习和其他数据科学用例带来可靠性的数据湖。
2020年6月,Databricks收购了Redash,这是一款用于数据可视化和构建交互式仪表板的开源工具,旨在帮助数据科学家和分析师可视化并构建其数据的交互式仪表板。
2021年2月,Databricks与Google Cloud合作,提供了与Google Kubernetes Engine和Google BigQuery平台的集成。
2021年10月,Databricks收购了德国无代码公司8080 Labs,其产品bamboolib可以实现无代码的数据探索。
2023年3月,为应对OpenAI的ChatGPT的流行,该公司推出了一款名为Dolly的开源语言模型,以克隆羊Dolly命名,允许开发者创建聊天机器人。Dolly使用较少的参数来实现与ChatGPT类似的效果,但Databricks尚未发布正式的基准测试来证明其机器人是否与ChatGPT的性能相匹配。
2023年5月,Databricks收购了数据安全公司Okera,扩展了其数据治理能力。
2023年6月,Databricks以14亿美元收购了开源生成式AI初创公司MosaicML。交易于同年7月完成。
2023年10月,Databricks以1亿美元收购了数据复制初创公司Arcion。据悉,作为其第六次收购,Databricks以超过10亿美元的价格收购了Tabular,一种用于开源AI的数据管理系统。
2024年3月,Databricks旗下Databricks Ventures参与了Unstructured Technologies, Inc.的4000万美元B轮融资。
2024年6月4日,数据与人工智能公司Databricks今日宣布已达成协议,收购由Ryan Blue、Daniel Weeks和Jason Reid创立的数据管理公司Tabular。通过将Apache Iceberg™和Linux Foundation Delta Lake的原始创始团队聚集在一起,这两个是领先的开源湖仓格式,Databricks将引领数据兼容性的发展,使组织不再受限于其数据所属的格式。
Databricks, Inc.美股投资
等待Databricks, Inc. IPO上市。
1F
Databricks是2013年由加州大学伯克利分校(UCB)负责开发开源Apache Spark数据处理框架的团队创建的,他们为数据科学团队提供了一个统一的分析平台,以便与数据工程和业务部门合作构建数据产品。
Databricks公司还创建了Delta Lake,MLflow和Koalas,这是横跨数据工程,数据科学和机器学习的流行开源项目。Databricks开发了一个基于Web的平台以与Spark配合使用,该平台提供了自动化的群集管理和IPython样式的笔记本。 除了构建Databricks平台外,该公司还共同组织有关Spark的大规模开放式在线课程,并为Spark社区举办规模最大的会议-Data + AI Summit,前身为Spark Summit。
全球有5,000多家组织在使用Databricks。
Databricks产品:
Databricks开发和销售基于现代Lakehouse数据架构的云数据平台。 Databricks的lakehouse基于开放源代码Apache Spark框架,该框架允许用户对半结构化无模式数据运行分析查询。
Databricks的Delta引擎于2020年6月推出,它是一个新的查询引擎,它位于Delta Lake之上,以加速SQL处理并提高整体性能。它与Apache Spark和MLflow兼容,后者也是Databricks的开源项目。
2020年11月,Databricks引入了SQL Analytics,允许用户直接在数据湖上运行BI和分析报告。 分析师可以直接使用标准SQL查询数据集,也可以使用新产品连接器直接与流行的BI工具(如Tableau,Qlik,Looker和ThoughtSpot)集成。公司将Databricks用作数据工作负载的集中平台,例如机器学习,数据存储和处理,流分析和商业智能。
目前Databricks提供四种产品:
其中,MLflow和Delta Lake是2019年10月份在阿姆斯特丹的Spark+AI欧洲峰会上发布的新产品。
Databricks的统一数据分析平台(UDAP)是一个基于云进行管理和优化的Spark服务,可以直接从亚马逊云服务上获得,也可以从Azure云上以微软支持服务的形式获得。最近,Databricks向UDAP添加了上述新的功能,使其性能超越了Spark、Notebook和其他基本功能。
Databricks产品的开源版本都可以直接在网上下载,但是怎么使用这些产品来为我们工作却并不是一件容易的事情。Databricks以SAAS的形式向客户提供产品,并且负责解决使用中遇到的所有问题。当然,“订阅”这些服务是收费的。