文/张从祥
编辑/王小坤
在给国内某全国性股份制银行做完数据库集群改造后,阿九(化名)终于松了一口气。
“我们公司协助客户又一次完成了国产数据库集群的扩容,目前该项目已正式上线且运行稳定,悬着的心可以放下来了。”
阿九是国内数据库企业的从业者,也是此次银行数据库扩容项目的参与人。谈到项目推进中的难点时,阿九说道:“金融机构一直都是数据库行业的常客,银行系统对于数据响应的要求十分苛刻,他们需要7*24小时的本地化服务,这就要求我们的产品要时刻保证数据库安全稳定地运行,必须不能出错。”
金融机构在数据库采用方面历来以稳健著称,也正因如此,最早进入国内市场的数据库品牌如Oracle、DB2等长期雄踞于此。在过去的很长一段时间里,企业们为了保证数据量的平稳运行,也不得不以高额的费用忍痛购买。但这一切随着数字经济时代的到来,尤其是“十四五”规划之后,作为三大基础软件之一的数据库行业掀起了一股轰轰烈烈的国产化浪潮,国内的数据库明星企业和产品加入市场竞争,开始擢取份额。各大数据库厂商,一方面通过集中式数据库产品追赶国外的脚步,形成现有市场的替代;另一方面通过分布式数据库产品解决以Oracle为代表的集中式产品在大数据场景下解决不了的高并发问题,形成新赛道的创新。
打败诺基亚的,绝不是另一款功能机,而是以苹果为代表的智能机。当国内数据库行业大多以“去IOE”替换为目标时,SequoiaDB巨杉数据库聚焦于“数据湖”到“湖仓一体”架构的技术方向,围绕金融银行业开始了规模化的行业应用。根据官方数据显示,巨杉数据库的金融银行客户数量已经突破100家。
“想要超越市场已经成熟的上一代产品,需要聚焦于创新,而不是在它(代指Oracle们)已有的赛道及场景下比高低。”SequoiaDB巨杉数据库技术合伙人许建辉说道,“发挥分布式发展从数据湖到湖仓一体的差异化技术优势,解决原有集中式数据库无法处理的数据增量问题,伴随数字经济发展,中国的数据库产业前景十分巨大。”
数字经济时代,数据就是石油,是支撑起各行各业往前走的燃料。据中国信通院测算,2020年中国数据库市场规模约241亿元,占全球数据库市场规模的5.2%。预计到2025年,中国数据库市场规模将达688亿元,年复合增长率为23.4%。
图片来源:IC photo
2020年以来,随着达梦、巨杉数据库、PingCAP等企业先后获得新一轮融资,资本市场闻风而动。根据36氪不完全统计,过去的两年中,有超过40家数据库公司获得资本的青睐。
“差异化和技术壁垒是主要的”,谈到数据库赛道的投资逻辑时,汉能PE执行董事黄嘉成表示,“首先要多看赛道,其次是要仔细甄选,基于数据库企业的资金、产品周期等进行多轮判断,才会最终出手。”
“你可以先知先觉地领导产业,后知后觉地苦苦追赶,或不知不觉地被市场淘汰。”由于信息化水平起步较晚,中国第二代集中式数据库产品从1999年开始商业化,与国外数据库公司相比迟了20年,以至于近些年出现了诸如国产数据库应该如何追赶国际产品的讨论。有目标的追赶才能超越,甚至掌握话语权。中国数据库产业的发展,只能循着国外市场的脚步?还是可以形成同期竞争格局?为了搞清楚国产数据库发展的前世今生和未来,本篇内容从国产数据库的发展路径和企业们的动作试图解开以下问题:
1、国内数据库行业起步晚、门槛高,现如今行业发展至哪一阶段了?
2、去IOE之后,国产数据库企业们还有机会吗?
3、数据库行业的未来将会有怎样的趋势,争做开源还是闭源?
英雄奔向黄金期
一个极具世界性意义的历史时刻一旦发生,就会决定之后几十年甚至几百年的历史进程。
1978年,中国人大复校,萨师煊创立全国首个以“信息”命名的学系:中国人民大学经济信息管理系,担任第一任系主任。并于同年在黑板上向来自全国各地的大学生们写下了“数据库”三个字。彼时的中国,几乎没有人知道数据库是为何物,更不知道这三个字代表什么将会如何影响中国的数字化进程。
1979年萨师煊将自己的讲稿汇集成《数据库系统简介》和《数据库方法》并在当时的《电子计算机参考资料》上发表。这是中国大陆最早的数据库学术论文,萨师煊也因此被称之为中国数据库学科的奠基人之一。后一年,在萨师煊中国人民大学开设了中国第一个数据库系统课程。
1982年,萨师煊起草了国内第一个计算机专业本科“数据库系统概论”课程教学大纲。而后一年他和弟子王珊编制的《数据库系统概论》,这是中国大陆第一部系统阐明数据库原理、技术和理论的教材。即便是现在,也是每个学数据库的人都要学习的教材。
在积极倡导和推进中国数据库行业发展进程的路上,萨师煊老前辈可谓是不遗余力。1984年天津第三节全国数据库学术会议上,萨师煊提议评选优秀研究生论文,并个人出资奖励了6位获奖研究生。这一举措成为了我国数据库界的佳话,而“萨师煊优秀学生论文奖”也成了中国数据库界的最高奖励,许多获奖者都成为了国内外知名的数据库专家。
随后1999年,王珊和国内最早一批开展数据库教学、科研、专家开发者联合成立了人大金仓,这是国内第一家数据库公司。
在当时的中国,十分注重信息化和科技力量,对于数据库的研发和投入也逐步增多。甚至有业内人士评价道,如果说萨老前辈开始授课称之为中国数据库启蒙期,那么当全国各地高校和行业需求的增多,则让其直接步入了黄金期。最为著名的就是,国家高技术研究发展计划,简称863计划。“发展高科技,实现产业化”成为了当时仁人志士投身于我国科技发展的最终愿景。
也正因如此,国内的许多数据库早期英雄,开始奔向行业发展的黄金期。
当我们回顾中国数据库行业的发展历史时,就能够看到,中国早期的数据库行业发展基本依靠高校中的科研人才和政策资金。无论是武汉华中科技大学的达梦数据库,还是南开大学的南大通用,甚至是浙江大学的神州通用,都是拥有高校背景。
但那个时期,学术科研和产业应用发展还未接轨,以至于学术科研的目的就是为了教学和人才培养,而在现实产业如银行、电信等业务中对于数据库的需求完全由国外厂商代替。
或许是由于这一原因,再加上近些年国产替代的呼声愈发强烈,国内的数据库企业也开始摸着石头过河,开始进行了自我的更迭和优化。
国产数据库的帕累托改进
一个真正具有世界历史意义的时刻,一个人类的群星闪耀时刻出现以前,必然会有漫长的岁月无谓地流逝而去。在这种关键的时刻,那些平时慢慢悠悠顺序发生和并列发生的事,都压缩在这样一个决定一切的短暂时刻表现出来。
图片来源:IC photo
这是奥地利小说家、诗人茨威格在《人类群星闪耀时》中的名言。放在国产数据库的话,这一时刻,或许就是信创。“国产数据库想要替换国外数据库厂商的话,最好的契机是信创。”汉能PE黄嘉成表示。
我们知道,在过去的很长一段时间里,中国对国外IT产品(包括软件和硬件)的依赖程度非常高,在一些关键技术和关键标准的构建上经常处于较为被动的态势。而为了解决这个问题,我国明确了“数字中国”建设战略,抢占数字经济产业链制高点。其中,信息技术应用创新产业(简称:信创)成为了国内数据库行业发展的转折点。
信创之下,以数据库为代表的国产软硬件迎来一波爆发潮。所谓信创,即从“关键环节、部分市场”走向“全产业链、全行业”的信息技术升级,构建中国自主的IT标准和生态。
在我国计算机水平飞速发展之下,渐渐地人们发现,计算机不仅要承担结果的纯计算,还要实时承担交易过程和结果记录。OLTP(On-Line Transaction Processing联机事务处理过程)广泛出现在银行、证券交易、电信计费的现实场景之中。而当时,以Oracle为代表的数据库公司,在国内赚的盆满钵满。
反观国内,作为三大基础软件之一,数据库在我国早期的发展过程中,由于其使用者多为银行系统和电信公司,这二者尤其不能出错。因此,早期的一些国产数据库产品在国内经常面临:根本得不到落地使用的机会;使用者没有时间成本陪跑试错;无使用者更谈不上产品迭代的三座大山。
随着移动互联网的飞速发展,自“十四五”规划以来,金融银行业金融银行伴随着高并发的数字场景,开始了轰轰烈烈的数字化转型。
“在追赶的方面,第二代的数据库已经获得了不错的成绩。”SequoiaDB巨杉数据库许建辉说。
“而第三代数据库方面,国外Snowflake以数据仓库为起点逐步发展非结构化数据湖,Databricks以非结构化数据湖为起点逐步提升数仓分析能力,巨杉基于国内需求直接发展多模数据湖的实时处理能力并逐步加强分析性能。中国跟海外形成不同的发展轨迹,最终都指向“湖仓一体”这以技术方向。”
去IOE之下,有限的游戏or无限的游戏
去IOE,是阿里最先提出来的畅想。
什么是IOE?I是以IBM p系列为代表的小型机,O是以Oracle代表的数据库,E是以 EMC为代表的中高端集中式存储。
去I是指去除小型机设备和集中式技术架构,改用X86平台和分布式架构。去O是指去除以Oracle甲骨文代表的商业数据库,替代为以MySQL为代表的开源数据库。去E是指不再使用以EMC易安信为代表的集中式存储,改用X86服务器本地存储或开放通用的存储。
相较于传统IOE的数据库架构,去IOE能大幅节省商业授权的成本,且X86架构PC服务器的功耗小于小型机,有助于节能减排。
但如果细想下来,真的能去IOE吗?去IOE真的能让企业省钱吗?去IOE后,国内数据库市场是增量还是存量?
中国移动通信集团浙江有限公司信息技术部副总经理兼云计算中心主任王晓征此前公开表示:“去IOE不能从字面上去理解,不能为去而去。”
曾有机构算了一笔账,发现去IOE所投入的成本并不低于购买昂贵的IOE。这中间需要企业投入巨量的人力物力,代价不见得比当年用IOE要小。再加上一些IOE的老客户,如银行尽管也都在摸索如何去IOE,但并没有很迫切的需求,只是作为减少成本和新技术的尝试。
“如果是纯以去IOE为目的,我认为整个数据库市场属于是存量市场。”SequoiaDB巨杉数据库许建辉说道。“但是我们的思考是如何极致地发展分布式的功能,解决新的数据增量的问题。我认为数字经济的发展空间有多大,分布式数据库的机会就有多大,有着近乎无限的发展机遇。”
究竟要不要去IOE,取决于是想要有限的游戏还是无限的游戏。有限游戏的目的在于赢,而无限游戏却想让游戏永远玩下去。有限的游戏有明确的开始和结束,而无限的游戏没有开始,没有结束,甚至没有赢家,它的目的在于将更多的人带入游戏中去,从而延续游戏。
未来去向何方
“没有哪位艺术家可以连续二十四小时不间断地在艺术创作之中,那些独具特色、注入生命力的传神之笔常常在不可多得的稍纵即逝的灵感闪现中生成。”
当国外的数据库公司Snowflake创造上市日暴涨111.6%的交易神话时,我们或许可以思考,国内数据公司的下一个爆点在哪里?未来又将迈向何方?
目前,第二代数据库行业呈现出两类市场:OLTP(On-line transaction processing,联机事务处理过程)和OLAP(On-line analytical processing,联机分析处理过程)。越来越多的行业人士认为,相较于OLTP事务型数据库而言,OLAP分析型数据库市场的成长空间更为广阔。目前来看,OLTP承载着企业的核心交易系统,是企业的刚性需求,所以占据国内数据库市场的绝大部分比重,但随着企业数字化转型,OLAP可助力企业对海量数据的高效分析,有望迎来爆发增长。
当然了,随着企业对数据时效性要求的提升,企业端客户希望海量数据的实时交易处理与分析计算二者兼得,因此OLTP与OLAP两种数据库功能上逐步趋于融合,构建数据湖和数据仓库融合第三代数据库。如Snowflake、Databricks注重于Lakehouse“湖仓一体”,进一步将数据边界扩展到结构化数据以外的半结构化、非结构化领域,驱动全维度的数据业务发展。
而关于国内数据库的未来是属于开源还是闭源,不同的人有不同的看法。汉能PE黄嘉成认为,在未来,数据库是一个需要不断适应生态、场景的底层基础软件,开源社区的核心价值在于能够集合全球开发者进行快速迭代,在所有场景中打磨产品,最终形成行业标准。这也是他近期参与《 2022中国云计算生态蓝皮书》的撰写,访谈众多数据库厂商后总结的心得。
SequoiaDB巨杉数据库许建辉认为,无论是开源还是闭源最终都要回归到产品本身。“开源、闭源都是已经被证明有效的商业模式,与开源聚焦于开发者兴趣获取用户漏斗的模式不同,企业级闭源的商业模式,更聚焦于行业头部客户的长期需求,更适合2B方向的发展。这一模式需要团队创始人和核心团队对行业有深度洞察,具备企业基因,巨杉的核心团队平均数据库从业长达20年,因此我们选择企业级闭源模式。”
而关于数据库未来的发展,汉能PE黄嘉成表示很乐观:“我们总结了一些关于数据库的发展趋势,这个在蓝皮书中很容易查看得到,另外就是,国产数据化浪潮已起,未来的发展仍将持续看好。”
注:本文发布于36氪“ICT行业观察”专栏。因为我们相信这是一个技术改变世界的时代,我们崇尚硬科技和时代齿轮的相互碰撞,也目睹了许多想要用技术改变世界的极客,他们的思想和产品理应得到行业的记录。作为文字工作者,我们希望用简单的话语,将发生在时代浪潮下的更迭与转变写下。欢迎有料的企业及创业者们,向我们讲述自身的硬科技故事。