设为首页 - 加入收藏
广告 1000x90
您的当前位置:主页 > 教程 > 数据库 > 正文

《国产分布式数据库应用现状调研报告(2023)》

来源:未知 编辑:天选资讯 时间:2023-04-03

  近年来,国产数据库呈现出百花齐放的发展态势,其中又属分布式数据库产品占据了最大比例,显然这是行业的发展共识,也是广泛的需求所向。那么,当产品落地应用、当国产化替代的齿轮开始转动,国产分布式数据库的真实表现如何?是否符合产业的期望?是否适配普遍的需求?未来还需要在哪些方面发力?

  基于上述考量,dbaplus社群策划了本次“国产分布式数据库应用现状调研”,希望汇集广大数据库从业者的经验和建议,从现状出发,分析真实诉求,洞察发展趋势,给国产数据库全产业链的高质量发展提供一些参考和启发,一起破解信创时代给予企业和厂商的共同课题。

  自2022年12月至2023年2月,dbaplus社群以匿名的问卷调研形式,对DBA/运维工程师(34.3%)、研发工程师(21.49%)、架构师(15.4%)、技术经理/主管(12.8%)、技术总监(6.4%)、CXO/总经理(1.83%)等数据库相关从业人员进行线上发放及定向邀约的采访调研,受访者覆盖互联网/IT、金融、通信、制造、交通、政务等重点行业,全面涵盖央企/国企、事业单位、民企/私企、外企人员。回收问卷共862份,剔除无效问卷170份,获得有效问卷692份,经过对有效数据的统计,并结合dbaplus社群数十位数据库技术专家的分析和意见,总结得出此份《国产分布式数据库应用现状调研报告》。

  1、分布式数据库在国内发展迅速,已广泛应用于国内企业,且云化部署已成常态;

  2、企业选型分布式数据库基本围绕4+1要素,即:可靠性和稳定性、整体成本、产品功能和易用性、兼容性,以及分布式数据库最具吸引力的可扩展性;

  3、稳定性保障、运维复杂度、改造成本,是企业使用分布式数据库的主要难点;

  4、分布式数据库整体使用成本比传统数据库略有下降,但也有部分企业出现成本大幅上升的情况;

  5、国产分布式数据库产品的应用率和关注度显现向头部集中的趋势,OceanBase和TiDB位列第一梯队;

  7、国产分布式数据库厂商整体满意度达及格线分),OceanBase、TiDB、GaussDB名列厂商优质服务评分前三;

  8、国产分布式数据库生态建设仍有较大发展空间,需加强文档体系、技术社区的建设和完善,数据库专业人员亟需补充和强化;

  9、OceanBase、TiDB、GaussDB、TDSQL、达梦等国产数据库,在企业未来重点考察使用的数据库排名中名列前茅。

  调研结果显示,大部分受访者所在企业已经部署了分布式数据库,占66.92%的大比率,而计划部署和正在部署的企业也占15%以上,仅10%左右的企业仍然未有计划使用分布式数据库。

  调研中有63.87%的受访者所在企业采用了“集中式数据库+分布式数据库”组合的业务系统部署架构,另有18.9%仅采用分布式数据库,而仅采用传统集中式数据库的则以17.23%列于最少占比。

  针对已经部署了国产分布式数据库的企业,我们进一步了解到他们的应用场景主要集中在传统交易业务OLTP(34.01%)、互联网业务(24.40%),以及数据决策分析OLAP(20.33%)这三方面。

  上述三项调研结果可以充分说明,分布式数据库已经在国内企业得到了广泛应用,其应用背景主要源于三大因素:

  业务驱动:随着近年来企业数字化转型的不断深入,业务对数据库的高可用性、并发处理能力、弹性扩展等方面有了更进一步的要求,企业通过引入分布式数据库可满足业务需求;

  政策牵引:近年来国家和行业层面不断出台各种政策文件牵引分布式数据库产品的发展与落地,例如2021年11月15日工信部印发的《“十四五”软件和信息技术服务业发展规划》中明确提出了“加速分布式数据库、混合事务分析处理数据库、共享内存数据集群等产品研发和应用推广”;

  技术逐渐成熟:近年来我国的数据库厂商和产品进入蓬勃发展期,伴随着场景应用的逐步增多,分布式数据库产品自身迭代加速,技术成熟度比前十年有了长足的进步,国内数据库厂商和产品已多次进入Gartner魔力象限及TPC-C、TPC-H榜单,这使企业对分布式数据库有了更强的信心。

  2、可扩展、高可用的优势,以及数据一致性的增强,是企业应用分布式数据库的重要原因

  由图表4可知企业选用分布式数据库的原因,目前国内企业选用分布式数据的根本出发点仍在于其所提供的技术先进性可以弥补传统数据库在海量数据处理能力、高并发处理能力以及高可用性等方面的不足,体现了分布式数据库在动态扩展能力、分布式并行计算以及多副本高可用等方面的显著优势。

  上述结论同样在后续的调研题目中得到印证,受访者认为分布式数据库最吸引人的特性依次为“可扩展性”、“高可用性”和“数据一致性”。其中“可扩展性”和“高可用性”是分布式数据库相对于传统数据库的优势所在,而“数据一致性”虽然在传统观念上被认为是分布式系统的一个弱项,但随着分布式数据库技术发展,越来越多的分布式数据库能够基于分布式协议实现全局的数据多副本强一致性。分布式数据库在数据一致性方面的不断加强,让越来越多企业可以放心将分布式数据库应用在核心交易系统上,这也成为分布式数据库能落地于越来越多应用场景的关键所在。

  对于已经部署分布式数据库的企业,我们对其部署形态进行了调研,结果显示企业数据库云化部署已经是目前分布式数据库部署的最常见形态,其中私有云占36.60%,混合云占27.36%,公有云占16.82%,而纯软件部署的分布式数据库只占13.31%。

  这充分说明了经过十几年的发展,云计算技术已步入发展成熟的阶段,由此推动了将数据库部署到云上,通过云服务形式来提供数据库的数据查询与管理能力的需求。云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、易运维性和资源隔离等特点。国内的云厂商,如阿里云、腾讯云、华为云等很早就已经推出了不同类型的RDS与DRDS服务。目前国内企业出于对数据安全的考量,部署数据库多数仍以私有云形态居多,但随着未来企业面向互联网业务的增多以及公众对于公有云信任的增强,私有云+公有云的混合云部署形态将会成为企业数据库的主要部署形态。

  数据库存储着企业关键的业务数据资产,若数据丢失,将会对企业造成不可估量的经济损失,尤其是金融行业,其事务特点决定了对数据保护以及数据库服务的可用性有更高的RTO和RPO要求。

  以上表格和数据均来源于《JR/T 0205-2020 分布式数据库技术金融应用规范灾难恢复要求》

  从本次调研数据可见,33.46%的企业采用两地三中心的数据库容灾架构,采用同城异地容灾以及同城双中心容灾的分别有12.75%以及17.01%,本地同数据中心主备容灾的也有22.37%。由此可见,当前国内企业对数据库的容灾建设十分重视,对核心系统的数据保护和可用性保障投入非常大。

  调研中仅有5.18%的企业采用三地五中心的容灾方案,我们认为虽然这种方案可以提供城市级别的数据容灾保护,但过于高昂的建设成本、严苛的网络带宽和时延要求是主要的实施障碍。此外,值得注意的是仍然有近10%的企业没有针对自身的核心系统建设容灾方案,一旦这些无容灾保护的数据库停机,业务将可能受到长时间的影响,建议企业后续多加注意和改善。

  5、国产分布式数据库产品的应用率和关注度显现向头部集中的趋势,OceanBase和TiDB位列第一梯队

  中国信息通讯研究院于2022年7月发布的《数据库发展研究报告》显示,截至2022年6月,中国数据库厂商数量已经达到116家,仅次于美国位列全球第二。但我国数据库企业从业技术人员不足2万人,数据库企业员工数量平均约为200人,其中员工数量少于100人的数据库厂商超过一半。

  在厂商数量大但研发交付实力普遍不高的现状下,国内数据库产品的应用率和关注度显现出向头部集中的趋势,预估未来国内数据库市场将会经历一段“大鱼吃小鱼”的竞争过程。

  本次调研中从企业使用端反馈过来的信号也非常明显,我们对企业已经或计划部署的国产分布式数据库产品进行了调查,其中OceanBase、TiDB、GaussDB、TDSQL、达梦这五款数据库产品均被超过10%的企业选用,而排名第一的OceanBase(19.60%)以及排名第二的TiDB(18.52%)成为了第一梯队。

  结合上述统计以及本次调研收集样本量前三的行业数据,我们对互联网/IT、金融、通信行业已经或计划部署的国产分布式数据库产品做了进一步分析:

  互联网/IT行业:排名前三的分别是TiDB、OceanBase、PolarDB。互联网/IT行业的研发、架构、运维等方面的技术掌控能力相对比较强,更倾向于选用开源的数据库产品。TiDB是国内业界开源较早的产品之一,在互联网/IT行业关注度较高;

  金融行业:排名前三的分别是OceanBase、TiDB、GaussDB。OceanBase之所以会被更多金融行业客户选用,与其身上的金融属性息息相关,毕竟OceanBase最早应用于支付宝业务,对金融行业的高可用性以及密集交易场景有天然的优势;

  通信行业:排名前三的分别是GaussDB、OceanBase、TiDB/TDSQL。通信行业也是国内信息化/数字化较早的行业,GaussDB作为通信设备厂商华为孵化出的数据库产品之一,具备其他数据库产品相对缺乏的通信行业基因,在通信行业中应用比较广泛。

  在本次调研收集到的样本中,来自央企/国企和民企/私企的受访者较多,我们也针对这两大类企业已经或计划部署的国产分布式数据库产品做了进一步分析:

  央企/国企:排名前三的分别是OceanBase、GaussDB、达梦。央企和国企在早年使用了大量Oracle的信息化系统,并且普遍青睐原厂商的服务,因此在如今的数据库国产化替代中更倾向于使用与Oracle兼容性较好的OceanBase等厂商;

  民企/私企:排名前三的分别是TiDB、OceanBase、GaussDB。民企/私企与上述央企/国企相比,历史包袱相对较少,此前应用MySQL居多,因此对TiDB、OceanBase、GaussDB等开源或存在开源版的国产数据库产品接受程度较高。

  1、在企业选型分布式数据库的主要考虑因素中,OceanBase、TiDB、GaussDB匹配度最高

  对分布式数据库选型的考量,受访者最关注的是产品的可靠性和稳定性,占比达18.57%,远高于其他因素,可见稳定是一切的前提和基础仍然是企业使用分布式数据库的普遍共识。其次,整体成本、产品功能及易用性、兼容性依次位列于第二、三、四位,也是分布式数据库选型的主要考量因素。

  根据以上四项主要考量因素,我们结合受访者所在企业正在使用的国产分布式数据库产品进行了进一步分析,得出以下排名供选型参考:

  对于分布式数据库的整体使用成本,根据已经部署了分布式数据库的受访者反馈,成本略有下降的占多数,为35.31%,其次是29.16%的人表示与原有支出持平,21.41%的人表示有了大幅下降,值得注意的是还有14.12%的人表示成本不降反涨,有了大幅上升。

  分布式集群在业务使用初期,如对大量业务做数据整合和治理,在成本层面的收效会更加明显,会节约很多冗余的服务器资源成本,也就是成本会比预期低很多;

  部分用户对分布式数据库的预期过高,有点偏向于“银弹”的设计思想,会采用ALL-IN的方式解决一切问题,在成本方面投入明显要多一些;

  分布式集群因内部节点通信的协议实现,对资源的要求相对较高,对基础资源配置,如CPU、内存和磁盘IO都提出了更高要求,否则单一节点的资源瓶颈可能会对整体集群性能造成负面影响。在同等业务规模和容量的情况下,投入的资源成本持平或者会多一些;

  分布式集群是一种全新的数据库设计方案,需要一定的学习成本,对企业自身的体系设计和维护方面都有较高要求。在节点规模和数量上,由于多数据副本的设计,与原本数据管理方式的成本考量存在较大差异。

  近年来,我国不断推进以数据为新生产要素的数据经济的发展,同时,国家、行业和地方性法律法规也相继出台,促使企业对自身数据安全愈加重视。数据库作为企业数据存储和应用的主要载体,在数据存储、数据通信、身份识别/鉴权、访问控制、数据分级、安全审计、防篡改等方面都具备不同的数据安全管理能力。在本次调研中,我们也对受访者希望国产分布式数据库具备的数据安全管理能力进行了调查。

  结果显示,23.56%的受访者认为应该优先实现数据库内存储加密,19.36%认为应该加强在数据传输阶段的加密,另外也有19.19%认为数据访问的安全审计最为重要。这三项实际分别对应了整个数据存储、通信传输以及访问使用的三个环节,可见这三个环节是目前企业在数据安全层面最为关注的。

  运维工具是数据库服务可持续能力的一把标尺,主要包含三个方面,分别是监控工具、同步和导入导出工具、诊断工具。

  监控工具好比运维的眼睛,能看得见、看得清是基础需求,但是目前普遍情况是商业数据库的软件监控自成一套体系,开源方向基于生态建设的方案较大、产品兼容性差异大。对于分布式数据库而言,若想更好地融入,提供一体化的接入管理工具是破局之道;

  对于数据同步和导入导出工具,数据能够流进流出是重要的考量,比如异构数据库中的数据需要同步到分布式数据库,同时分布式数据库自身也支持导入导出,这样才能保证整个数据体系的数据是可流动的;

  而诊断工具,则是能够提供一种机制来进行异常发现和分析,能和分布式数据库“有效沟通”,从而更好地发现问题和后续处理。这需要深入地分析问题,是一种持续的强需求能力,下文展开单独讨论。

  调研结果显示,21.86%的受访者对“可视化的监控工具”的需求最为强烈,17.69%和14.12%对“异构数据在线同步工具”和“数据导入导出工具”的需求较高。

  此外,在“常用的调优诊断工具/能力”的调查中,分别有25.19%和22.79%的受访者表示对执行计划信息和运维报告的关注度较高,这些也反映了受访者对数据库产品成熟度的合理期望。

  执行计划信息之所以更受关注,我们分析是因为SQL是研发人员使用数据库的基础语言,而SQL的执行效率和性能会直接影响数据库整体性能;同时,执行计划信息是分布式数据库在原有数据库生态之上的有效补充,如作为特性化SQL的差异化补充,这是现有的开源生态方案难以适配的,需要通过分布式数据库厂商提供一体化的运维工具方案。

  而运维报告也受到较高关注,主要原因在于商业数据库如Oracle等已经提供了一套完善的诊断方法论和工具,如ASH、AWR,在兼容协议的情况下,可以保持同样的使用模式,同时在开源数据库领域如MySQL等,对于诊断方向的粒度和能力实现相对有限,也是希望运维报告能作为分布式数据库的一种有效补充。

  调研结果显示,企业在使用国产分布式数据库时普遍认为以下三个问题最棘手,这三个问题在收集样本量上非常接近。

  第一,可靠性和稳定性。数据库是整个应用系统的核心,一旦瘫痪意味着承载应用和业务中断,因此数据库的可靠性和稳定性尤为重要。

  第二,运维与备份复杂度提升。使用分布式架构会导致整个数据集群运维和备份等操作的难度增大,同时运维人员也会担忧迁移到国产分布式数据库后,运维技能和方式与原来相比有过大差异,无法对数据库进行有效运维。

  第三,对原有应用系统升级的改造成本较高。企业已经建设的应用代码和架构可能与分布式数据库并不兼容,需要进行相关改造,两者兼容性越低,改造的工作量和成本越大。

  因此,我们认为国产数据库厂商应当加强对上述问题的攻关,不断优化数据库产品的可靠性和稳定性,联合社区研发更多运维、备份和迁移相关的工具,以便用户更好地使用分布式数据库。

  SQL兼容性是业务迁移到分布式数据库绕不开的议题,SQL兼容度高意味着更低的业务逻辑改造成本和更稳定持续的业务服务保障。目前行业内主流的三类数据库技术栈协议包括Oracle、MySQL和PostgreSQL,本次受访中43.78%和31.34%的人更倾向基于MySQL和Oracle的SQL兼容性,PostgreSQL则占据了19.39%,在近些年也有较快的发展。

  通过以上数据可以看出,在大多数企业中,很可能会基于多种数据库技术选型来满足当前的业务需求,如Oracle与MySQL或PostgreSQL组合,主要是基于业务现状,考虑到会导致的迁移风险与成本,核心/复杂业务仍运行在传统商用数据库上,所以商用与开源共存的现象也会相对普遍;相较于传统行业,互联网行业的业务包袱会轻一些,所以直接使用MySQL与PostgreSQL等开源数据库的技术栈组合更多。

  在SQL兼容性方面,如果能够兼容多种SQL协议,对于业务接入和选择的空间会更大,同时一体化的接入方案对研发也会更加友好。

  将核心业务迁移到国产分布式数据库是一项重大的工程,并非所有的迁移都是简单的数据库替换,更多的是关于整个技术堆栈的替换,并且涉及整个业务链路自上而下的信息传递。

  对于将核心应用系统迁移到国产分布式数据库中可以接受的停机时间,仅有11.43%的受访者可以接受24小时以内。从整体上看,受访者对于国产分布式数据库的迁移能力抱有很高期望,而期望停机时间在分钟级和2小时以内的受访者高达27.74%和24.70%,意味着很多业务需要实现在线平滑迁移,这对于多数国产分布式数据库来说是一个很大的挑战。

  在受访者的高期望之下,目前国产分布式数据库厂商提供的产品和服务整体表现如何?本次调研,我们也对部署了国产分布式数据库的企业用户进行了相关调查。

  对于供应商售后响应速度,35.74%的受访者表示在报送问题后供应商能在当天到达现场,更有21.69%表示供应商可在半小时内到场,而次日到场的也达到22.11%,这反映出大多数供应商对售后服务建设非常重视。不过我们同时也看到,还有20.45%的厂商到场时间不确定或者存在联系不到的情况,这方面需要优化。

  从企业用户对供应商的打分情况来看,总体满意程度较高,以10分为满分计算,整体满意度的平均分达到7.76分。经过近年来的高速发展,我国数据库厂商的产品实力和服务能力都有了大幅提升,企业对厂商的满意度已经达到合格线以上。尽管与国际传统数据库大厂还存在一定差距,但我们坚信随着国产分布式数据库应用场景增多、厂商对产品迭代更为迅速,以及国内针对国产数据库的第三方服务与工具生态建设的进一步成熟完善,企业用户对供应商的满意度将会持续提升。

  基于上述打分情况,高于平均分的8-10分可视为高分率分数段,我们结合受访者所在企业正在使用的国产分布式数据库产品进行了进一步分析,综合得出获得优质服务评分的供应商排名,前三名如下:

  5、厂商需加强文档体系、技术社区的建设和完善,让从业者更有效掌握数据库产品

  在本次调研中,近半数的受访者认为要掌握一种数据库的开发和运维技能,最有效的途径是借助完善丰富的文档体系和活跃的技术社区。

  在我国信息化发展初期,Oracle之所以能在国内取得实际市场的统治地位,与其完善丰富的文档体系和活跃的技术社区密不可分。借助文档和社区,能对Oracle进行体系化的学习和针对性的问题讨论,就此培养出大量熟悉Oracle的开发者和数据库管理员,也由此推动了Oracle自身产品的不断成熟。目前,不少国产数据库厂商对产品文档和社区建设还缺少足够的投入,例如产品文档中存在不少错漏或前后不一致的表述,这些都是各厂商后续仍需改进的地方。

  6、未来企业重点考察使用的数据库排名中,OceanBase、TiDB、GaussDB、TDSQL、达梦等国产数据库名列前茅

  最后,受访者综合对产品稳定安全、SQL兼容性高、业务迁移成本低、产品易用、运维便捷、技术生态活跃、拥有完善服务体系等因素的考量,选出了未来将重点考察使用的数据库,具体排名如下:

  从位列前六的第一梯队可见,OceanBase、TiDB、GaussDB、TDSQL、达梦这五款国产数据库依次占据一席之位,仅MySQL一款国外开源数据库位于第三位。由此可见,大多数受访者对国产数据库的信任和期望达到了前所未有的高度,越来越多的国产数据库落地于企业更多应用场景中将指日可待。

  近些年来,国内分布式数据库发展迅速,从本次调研收集到的数据可见,企业数据库云化部署是目前分布式数据库部署的最常见形态。同时,经数据分析发现,分布式数据库选型的4+1要素值得关注,分别是可靠性和稳定性、整体成本、产品功能和易用性、兼容性、可扩展性。

  综合来看,分布式数据库生态建设还有较大发展空间,如运维生态工具期望以监控工具和迁移工具为主,同时需要完善文档体系和技术社区建设。此外,核心业务实现在线平滑迁移是分布式数据库的重大挑战和机遇。最后,在面向未来的数据库选型中,国产数据库成为了越来越多企业的选择。

  3)截至2022年6月,中国数据库厂商数量已达116家,仅次于美国位列全球第二

  企业对分布式数据库选型主要关注4个因素,分别是可靠性和稳定性、整体成本、产品功能和易用性、兼容性,同时,可扩展性是补充因素,被认为是分布式数据库最具吸引力的特性。

  1)稳定性和可靠性优先:多数受访者认为可靠性和稳定性是使用分布式数据库时最棘手的问题;

  2)整体成本未达预期:分布式数据库的整体使用成本与预期存有一定差距,并没有达到成本大幅下降的普遍成效,大多数受访者反馈成本只有略微下降或持平,对原有应用系统的升级改造成本较高;

  3)产品功能和易用性有待完善:其中数据安全功能愈加受到重视,数据存储加密、数据传输加密和安全审计受关注度最高;

  4)SQL兼容性需求清晰:大多数受访者更倾向基于MySQL和Oracle的SQL兼容性;

  5)可扩展性是分布式数据库的天然优势:可扩展性被认为是分布式数据库最具吸引力的特性。

  1)运维工具期望以监控和迁移功能为主:可视化的监控工具需求最为强烈,其次是异构数据在线同步工具和数据导入导出工具;

  2)国产数据库厂商整体满意度达及格线以上:我国数据库厂商的产品实力和服务能力已经有较大提升,在企业用户的满意度打分中获得了7.76的平均分(满分10分);

  3)需要完善文档体系和技术社区建设:国产数据库厂商需加强文档体系和技术社区的建设和完善,让从业者更有效掌握数据库产品,同时助推国产数据库更迅速的迭代、更广泛的应用。

  1)数据库专业人员亟需补充和强化:虽然我国数据库厂商数量居于全球第二位,但我国数据库企业从业技术人员不足2万人,数据库企业员工数量平均约为200人,其中员工数量少于100人的数据库厂商超过一半;

  2)核心业务在线平滑迁移是重点业务需求:将核心应用系统迁移到国产分布式数据库,多数受访者可接受的停机时间在2小时甚至分钟级以内,这意味着很多业务需要实现在线平滑迁移。

相关推荐:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

织梦模板大全 dedecms.codesdq 联系QQ:121673232 邮箱:121673232@qq.com

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms

Top