2024 数据库年度总结

在上周五完成最后一个每周行业动态[49]之后,才发现距离春节只剩一个月了,2024也即将过去,要不就整体回顾一下这一整年所看到的数据库领域现状与变化吧。

当红辣子鸡:向量数据库与AI

AI(或者说LLM)所展现的能力,似乎还没有看到上限。而基于此的,面相各行业的应用,也在蓬勃发展。数据库和这个领域最大的结合点,就是向量存储与搜索了。在这一年里,几乎所有的主流数据库,都推出或增强了相关功能。Forrester 也率先发布了独立的 Vector Database Wave ,对各个数据库的向量处理能力做了评估。

Forrester 的 Vector Database Wave

在今年的Q3,Forrester 发布了独立的 Vector Database Wave,其中 Zilliz(对应开源产品名:milvus)凭借完整、高效的向量数据处理能力处于绝对领先的位置。后续厂商分别有:DataStax、Microsoft、Amazon、Oracle、Pinecone 等[30]

现在,几乎所有的数据库或云厂商也都在投入“向量”技术,这类 AI 技术与应用也都在快速演进,向量存储与应用的竞争还远没有结束。

各个数据库或云厂商发布的 Vector 功能

再过去的2024年,各个数据库厂商都争相发布了自己在向量方向的支持。具体的:

  • 百度云发布了独立向量数据库产品: VectorDB[14]
  • TiDB 发布了 Vector Search (Beta),将向量能力与 TiDB 做了很好的融合[10]
  • pg_vector 发了最新的 0.8 版本,并且在大量的项目中被广泛使用[11]
  • Azure 发布自己的向量数据库扩展 DiskANN,并在多个数据库产品中使用[29]
  • MariaDB也在11.6版本开始全面支持向量特性[12]
  • OceanBase 4.3.3 版本发布,支持了向量数据存储与索引功能[31]
  • MySQL 9.0 也开始支持向量存储[13]
  • 此外,几乎所有云厂商的 PostgreSQL 产品都支持了 pg_vector 插件

分布式数据库:数据库领域的“金色飞贼”

在整个关系型数据库领域,分布式数据库的市场份额应该是比较有限的。但是,因为其解决的是一个非常困难的问题,而且是大型用户通常需要解决的问题,所以,“分布式数据库”在 RDBMS 领域一直都是一个关键的“组件”。

在中国,主要的分布式数据库厂商有:OceanBase、TiDB、TDSQL、GoldenDB、PolarDB 等,这些产品在一些垂直场景各有优势。在今年07月,IDC发布了《中国金融行业分布式事务型数据库市场份额》报告[7],则很好的反应这个现状:

  • 腾讯 TDSQL 获得整体市场份额第一[9]
  • OceanBase则获得了金融行业本地部署市场份额第一[8]
  • 阿里云在公共云市场的分布式数据库部署,取得第一:参考
  • GoldenDB 获得银行本地化部署细分市场第一[33]

从这些数据中,可以看到中国金融行业分布式数据库的情况[7]:整体市场空间约为 2.2 亿美元,同比增长12.1%,其中公共云占比约为30%,专有云占比为70%。

由于 TiDB 更加坚定的开源、国际化策略,在这次数据中并没有看到 PingCAP 去太多的宣传。TiDB的重点则在Cloud、国际化、Vector Serach等方向。

国产数据库与信创

随着全球局势变得更加不确定,对抗思潮的不断推高,更加“自主可控”的基础技术已经变得越来越重要了。在今年的9月,“中国信息安全测评中心”发布了最新一批的安全可靠产品认证名录[36]。相比往期目录,经过认证的数据库数量是增加了,并且额外新增了分布式数据库目录。

本次目录中的集中式数据库

集中式数据库主要厂商有华为 GaussDB、金仓、神通、海量、瀚高、华为 TaurusDB。

本次目录中的分布式数据库

分布式数据库厂商很多,包括了 PingCAP TiDB、达梦、PolarDB、金仓、GBase、神通、虚谷、TDSQL、GaussDB、GoldenDB、OceanBase等。

开源与商业

在今年初,最为广泛使用的缓存数据库 Redis 改变了其原有的开源协议:将从Redis 7.4版本开始转而使用RSALv2+SSPLv1,不再使用BSD协议[25]

很快,在Linux基金会下很快启动了Valkey项目,该项目同时获得了如Amazon、Google、Oracle等厂商的实际支持[26]。而今年,AWS也正式在自己的云平台上正式支持了Valkey[27],此外,阿里云PolarDB也发布了Redis协议接口支持(Orca)[28]

此外,今年,CockroachDB 对开源协议做出了重大调整,对于使用开源的用户进一步做出限制。具体的,可以理解为对于小企业(年收入1000万美金,似乎也不是很小…)免费使用,年收入超过1000万美金的企业则需要付费[34]

PostgreSQL在经历一场缓慢的崛起

依旧,PostgreSQL在经历一场缓慢的崛起,MySQL则在原地踏步。在2022年的总结中,就曾给出了这个结论[50],而这个趋势似乎越来越明显。

根据Stack Overflow在2024年的调研数据[51],PostgreSQL已经成为最受开发者欢迎的数据库。在海外,由于云厂商在不断增加对PostgreSQL的投入;在国内,由于国产数据库对于PostgreSQL的青睐。看到,PostgreSQL 崛起的趋势也越来越明显。

虽然,在DB-Engines的排名中,MySQL依旧优势很大,但,过去的一年,MySQL在引入创新版后,发布8.1/2/3/4、9.0版本,但,MySQL最大的进步本身,大概就是版本迭代的模式变化,而这种变化给MySQL创新带来的效果还没有出现。在9.0版本中MySQL虽然发布了vector但功能还非常不完善,而 PostgreSQL 的 pg_vector 已经被广为使用了。

在由 JetBrains 发布的 《State of Developer Ecosystem Report 2024[47],也可以看出类似的趋势。该数据显示:

  • 从2019到2024年,MySQL 的采用量从60%下降到52%
  • 从2019到2024年,PostgreSQL 的采用量从30%增长到45%

数据库领域的融资事件

受大环境的影响,除了AI或大模型相关技术除外,最近两年融资市场都非常冷清。但在过去的2024年,在数据库领域,依旧有非常多的亮眼的融资事件。

达梦数据库上市:首日公开交易,发行价为86.96元/股,当日收盘价为240元(对应市值182亿),盘中最高报313元(参考);而到今年年底,达梦的股价一直 350~400 元上下波动,市值则高达250~300亿之间。

PostgreSQL托管初创公司Tembo获$1400万美元A轮融资[1] ,该公司以开源产品的形式提供完整的PostgreSQL生态产品托管服务,同时提供Tembo Cloud以云产品形式提供托管服务。

OpenAI 收购 实时分析数据库开发商Rockset[2],其估值约为5~10亿美金,以增强大模型在实时数据搜索与分析的能力。

ClickHouse 收购 PostgreSQL 数据同步公式 PeerDB [3],具体收购金额并没有透露,但具报道,PeerDB在2023年曾完成了360万美元的种子轮融资[4]

开源时序数据库 GreptimeDB宣布完成数百万美元的新一轮融资。GreptimeDB是一款Rust 语言编写的时序数据库,具有分布式,开源,云原生,兼容性强等特点,帮助企业实时读写、处理和分析时序数据的同时,降低长期存储的成本[5]

K1 100%收购 MariaDB。K1是最大的小型企业软件投资公司,总部设在加州曼哈顿海滩。MariaDB 是一个独立的 MySQL 分支,由 MySQL 的创始人 Michael Widenius 发起并创建[15]

Supabase 完成C轮8000万美元融资,该平台以PostgreSQL为中心,向开发者提供各类服务的平台,包括数据库、认证服务、存储、实时事件同步、向量数据库等 [24]

ApertureDB 融资$8百万美元,致力于构建AI时代的多模数据流服务,帮助企业更加敏捷的构建上层的智能化的服务[31]

Gartner 的数据库魔力象限

在今年的12月,也就是前几天,Gartner 正式对外发布了 2024 数据库魔力象限[48]。今年,依旧由Google、AWS、Azure、Oracle领跑;MongoDB、DataBricks、Snowflake则又向左上角前进了一些。

阿里云则依旧保持在领导者象限。华为云则在时隔两年后,再次进入该象限。

分布式数据库厂商 SingleStore 进入,而 Yugabyte 跌出。

云厂商们的重要发布

AWS re:Invent 发布新的数据库产品 Aurora DSQL ,提供了跨区域、强一致、多区域读写的能力,同时具备99.999%(多区域部署)的可用性,兼容PostgreSQL;同时发布的还有 DynamoDB 也提供类似的跨区域强一致的能力[6]

阿里云李飞飞发布由Data+AI驱动的多模数据管理平台DMS[22];RDS 产品则主打“降本增效”发布了自研倚天ARM版、集群版、新增了加速 IO 方案(BPE)等,PolarDB 则发布了 Redis 协议接口

字节火山云 veDB MySQL 发布透明HTAP支持,当前处于邀测阶段。采用了MySQL plugin 架构方式,在内核侧自动分流AP 和 TP 请求,如需手动分流,可以使用Proxy[19]

腾讯云开源了 TXSQL [17]; TDSQL 再创 TPC-DS 世界纪录,以7260万QphDS的性能和37.52元/kQphDS的性价比打破榜单纪录,性能提升282%,成本降低37% [32]

在 Oracle CloudWorld 上,Larry发表主题演讲《Open MultiCloud Era & AI + Cloud Security》,坚定的走多云、私有云战略,发布了Oracle@Google、Oracle@Azure、Oracle@AWS等方案 [16] 

GCP的主要发力方向为 AlloyDB;同时也在增强其基础产品的能力,例如 Cloud SQL for SQL Server 现提供两种版本 Enterprise Plus 和 Enterprise。

微软云 Azure 的重点依旧是 Cosmos DB 和 SQL Database。在向量数据库上,Azure多款数据库发布DiskANN向量索引[42]

华为云数据库持续在垂直行业、学术、高校等生态上继续投入。基于 openGauss 的项目获得中国通信学会科学技术奖(科技进步类一等奖)[45]。在今年的11月份,华为云将原 GaussDB for MySQL 再次更名为 TaurusDB[52]

OceanBase开发者大会发布 4.3 发版,高调进入实时分析 AP 领域,同时将支持行存 & 列存一体化、新向量化引擎、物化视图等能力,同时宣布了OB Cloud将作为独立的数据库厂商,登陆阿里云精选市场 [23] 

相比其他数据库,PingCAP 投入了更多资源到 AI (LLM 或者 GenAI,不管叫什么吧)方向上去进行探索,除了支持初步的向量存储之外,TiDB 还可以使用 AutoFlow 和 LlamaIndex 开始的构建一个基于知识库的聊天助手。虽然这个功能与一般意义的“数据库”不那么相关,但是也能看到TiDB的执行力和投入之坚决[35]

其他

腾讯云 TDSQL 再创 TPC-DS 世界纪录

腾讯云 TDSQL 再创 TPC-DS 世界纪录,以7260万QphDS的性能和37.52元/kQphDS的性价比打破世界纪录,性能提升282%,成本降低37%。通过自研MPP和并行执行框架,TDSQL显著提升资源利用率和计算效率,广泛应用于30多家金融机构 [32]

WeSQL-基于S3的MySQL数据库

这算是一个非常酷的探索。正如 ApeCloud 创始人曹伟所说,“数据库可以做的方向不多”,ApeCloud 在发布了开源数据库的云原生管控平台之后,与今年的11月又开源了一个有意思的产品:WeSQL,基于S3的MySQL数据库。WeSQL 目前属于探索阶段,如果数据存储量很大的测试环境,可以考虑该方案降低存储成本[37]

AI与数据库的其他结合

此外,其他方向诸如,Text2SQL、数据库优化等方向,也有一些厂商在做更多的探索,例如,AWS Redshift 正式支持(GA)自然语言生成SQL功能,该功能由 Amazon Q 实现,可以再Redshift Query Editor中使用该功能 [21] ,Copilot for Azure新增了对Azure SQL、 Azure Database for MySQL的支持等。

图数据库

图数据库是大模型生态的一部分,在过去的一年,各个图数据库厂商也借势迅速发展。

Neo4j 宣布其年度经常性收入(ARR)已超过2亿美元,并在过去三年中实现了ARR翻番。Neo4j 在快速扩张的图技术市场中的领导地位,以及最近几年图技术对于提升生成式AI(GenAI)结果的准确性、透明性和可解释性至关重要作用,是增长的核心因素[38]

在今年,ISO 颁布了新的 ISO/IEC GQL(图查询语言)标准[40],作为图数据库领域的“SQL”,填补了现有标准在处理图数据时的不足。NebulaGraph 则是首个支持该标准的分布式数据库图数据库[39]

学术会议与奖项

今年,在主要的数据库学术会议中,国内的厂商也有很多亮眼的表现。包括:

  • PolarDB 获得 SIGMOD Industry Track Best Paper 《PolarDB-MP: A Multi-Primary Cloud-Native Database via Disaggregated Shared Memory》[43]
  • 阿里云 PolarDB 获2024年度中国计算机学会(CCF)科技进步一等奖 [41] 
  • KaiwuDB 在国际权威数据库性能测试 benchANT 获得时序数据库场景第一名[46]
  • 基于 openGauss 的项目《面向大型企业规模应用的开源数据库》获得中国通信学会科学技术奖(科技进步类一等奖)[45]
  • 腾讯云 TDSQL 获得深圳市科技进步一等奖[44]
  • 此外,在今年,主要的大数据库厂商在 VLDB/ICDE/SIGMOD等学术会议上均由论文发布。

关于

关于作者

关于作者:周振兴,NineData 联合创始人 & 技术副总裁 ;Oracle ACE ;《高性能MySQL 第三、四版》译者;曾任阿里云数据库资深技术专家

参考链接

Leave a Reply

Your email address will not be published. Required fields are marked *