一、数据库是信息系统的核心
获取与分析信息,是人类推动社会进步的关键过程。如何持续提 高信息处理的能力,是人类社会的持续性命题。在计算机发明之后, 信息可经过其电子化编码后转化为数据。人类开始探索利用计算机算力优势,实现对数据的高效存储与计算,从而大幅提升信息处理效率。 人类首先尝试开发出各类特定计算机应用程序完成相关工作,但由于各类特定应用程序复用性差,人类逐渐围绕数据存储和计算功能、抽象出满足组织信息化需求、逻辑关联的数据库。
数据库是支持一个或多个应用领域,按概念结构组织的数据集合, 其概念结构描述这些数据的特征及其对应实体间的联系。数据库中的数据按一定的数据模型组织、描述和存储,具有较小冗余度、较高 数据独立性和易扩展性,并可为各种用户共享。数据库由于综合成本低、处理能力高,扮演各类信息系统的核心角色。
六十余年发展过程中,数据库共经历前关系型、关系型和后关系型三大阶段。前关系型阶段数据库的数据模型主要基于网状模型和层次模型,在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。关系型阶段提出关系模型概念,论述范式理论作为开启标志,期间诞生了一批广泛应用的关系型数据库,该阶段技术脉络逐步清晰、市场格局趋于稳定。后关系型数据库阶段由于数据规模爆炸增长、数据类型不断丰富、数据应用 不断深化,技术路线呈现多样化发展。随着各行业数字化转型不断深 入,5G、云计算等新兴技术快速发展,传统数据库的应用系统纷纷优化升级。全球市场格局剧烈变革,我国数据库产业进入重大发展机遇期。
二、数据库关键技术及发展趋势
数据库管理系统作为能够使用户定义、创建、维护和控制访问数 据库的软件系统,其整体架构与技术路线不断深化发展,如今呈现集中式与分布式并存,数据模型不断拓展等技术现状。
(一)数据库管理系统典型架构
数据库管理系统由于不同产品实现细节不完全相同,此处仅对部分主流数据库产品做进一步抽象处理得出上述架构。数据库大致可以 由内核组件集与外部组件集共同组成,其中外部组件集以数据库配套 的独立支撑软件为主。
存储组件是负责数据持久化存储的组件,对数据库的日志、索引、 堆数据等内容进行管理。在新一代的存算分离体系下,数据库堆数据 的存储可能是由外部的分布式存储系统承担;计算组件又可以称为协调组件、服务组件,负责响应数据库访问请求,并将 SQL 语言解析成为数据库对应的内部任务。计算组件在分布式、集群等架构下也承 接大部分的计算任务;管理组件用于对数据库全生命状态的管理,以及各类中心化任务承接;网 络组件管理整个数据库管理系统的网络通讯的组件。数据库的网络通讯有内部和外部之分。内部一般指在集群环境或者分布式环境下的各节点之间的高速数据交换。外部一般指的是各个数据库通过对外访问协议与存在于客户端的驱动进行互联的网络交换;驱动组件是支撑数据库能正常提供服务的配套独立组件,数据库管理系统基于其通用特性,往往可以对不同语言开发的软件提供数据服务。但是由于数据库本身只对外提供网络通讯协议,对协议的封装则由客户端侧的不同驱动组件完成。
(二)数据库技术发展历程
从 20 世纪 60 年代至今,数据库的发展历程大致分为以下三个阶段:
1.前关系型阶段(1960-1970):网状层次数据库初尝探索
1963 年开发出世界上第一个数据库管理系统也是第一个网状DBMS集成数据存储。网状 DBMS 的诞生对当时的信息系统产生了广泛而深远的影响,解决了层次结构无法建模更 复杂的数据关系的建模问题。
同时期为解决“阿波罗登月”计划处理庞大数据量的需求,北美航空公司开发出 GUAM软件。其设计思想是将多个小组件构成较大组件,最终组成完整产品。 这是一种倒置树的结构,也被称之为层次结构。随后 IBM 加入 NAA, 将 GUAM 发展成为 IMS系统成为最早商品化的层次 DBMS。
2.关系型阶段(1970-2008):关系型数据库大规模应用
第一阶段的 DBMS 解决了数据的独立存储、统一管理和统一访 问的问题,实现了数据和程序的分离,但缺少被广泛接受的理论基础, 同时也不方便使用,即便是对记录进行简单访问,依然需要编写复杂 程序,所以数据库仍需完善理论从而规模化应用落地。第二阶段开启的标志是一 篇论文提出基于集合论和谓词逻辑的关系模型,为关系型数据库技术奠定了理论基础。这篇论文弥补了之前方法的不足,促使 IBM 的 San José实验室启动验证关系型数据库管理系统的原型项目 System R,数据库发展正式进入第二阶段。1974 年,Ingres 原型诞生,为后续大量基于其源码开发的 PostgreSQL、Sybase、Informix 和 Tandem 等著名产品打下坚实基础。 1977 年,Oracle 前身 SDL 成立。1978 年,SDL 发布 Oracle 第一个版本。
20 世纪 80 年代,关系型数据库进入商业化时代。1983 年,IBM 发布 Database2 (DB2) for MVS,标志 DB2 正式诞生。1985 年,Informix 发布第一 款产品。1986 年,美国国家标准局(ANSI)数据库委员会批准 SQL 作 为数据库语言的美国标准并公布标准 SQL 文本。1987 年,国际标准 化组织(ISO)也做出了同样决定,对 SQL 进行标准化规范并不断更新, 使得 SQL 成为关系型数据库的主流语言。此后相当长的一段时间内, 不论是微机、小型机还是大型机,不论是哪种数据库系统,都采用 SQL 作为数据存取语言,各个公司纷纷推出各自支持 SQL 的软件或 接口。同年 5 月,Sybase 发布首款产品。
20 世纪 90 年代,Access、PostgreSQL 和 MySQL 相继发布。至此,关系型数据库理论得到了充分的完善、扩展和应用,在后关系型 阶段,关系型数据库仍在发展演进,从未中止。
3.后关系型阶段(2008-至今):模型拓展与架构解耦并存
进入 21 世纪,随着信息技术及互联网不断进步,数据量呈现爆发式增长,各行业领域对数据库技术提出了更多需求,数据模型不断 丰富、技术架构逐渐解耦,一部分数据库走向分布式、多模处理、存算分离的方向演进。谷歌在 2003 至 2004 年公布了关于三篇技术论文为分布式数据库奠定基础, Mike Stonebraker 提出“one size does not fit all”并依照此理念推出多种数据模型、存储介质的数据库,数据库发展正式进入第三阶段。
数据模型不断拓展。步入互联网 Web 2.0 和移动互联网时代,许 多互联网应用表现出高并发读写、海量数据处理、数据结构不统一等 特点,关系型数据库并不能很好地支持这些场景。另一方面,非关系型数据库有着高并发读写、数据高可用性、海量数据存储和实时分析 等特点,能较好地支持这些应用的需求。因此,一些非关系型数据库也开始兴起。为了解决大规模数据集合和多种数据类型带来的挑战, NoSQL 数据库应运而生,其访问速度快,适宜处理互联网时代容量大、多样性高、流动性强的数据。
分布式架构逐渐成熟。由于传统基于集中式数据库在应对海量数据及复杂分析处理时,存在数据库的横向扩展能力受限、数据存储和计算能力受限、不能满足业务瞬时高峰的性能等根本性的架构问题。 利用分布式计算和内存计算等新技术设计的分布式数据库能够解决上述遇到的性能不足等问题。分布式数据库的数据分散在网络上多个互联的节点上,数据量、写入读取的负载均衡分散到多个单机中,集群中某个节点故障整个集群仍然能继续工作,数据通过分片、复制、 分区等方式实现分布存储。每个数据节点的数据会存在一个或者多个副本,提供数据冗余。当某个数据节点出现故障时,可以从其副本节点获取数据,避免数据的丢失,进而提升了整个分布式集群的可靠性。 为保障分布式事务在跨节点处理时事务的原子性和一致性,一般使用分布式协议处理。;使用 Paxos、Raft 等协议同步数据库的事务日志从而保障事务的 一致性。分布式数据库技术架构大致可分为如下三类:
以 Apache Cassandra 、Apache HBase 为代表的分布式存储为基 础的数据库,底层存储基于分布式文件系统具备了分片或者分区存储 的能力,扩大了普通存储设备的存储系统的上限。
以 Greenplum 为代表的 Shared-Nothing 架构,通过多节点协同工 作扩大分布式存储能力的同时,相应的还通过 MPP 架构可以支持多 级并行计算处理,增强查询和分析能力。
以 Kylin 为代表的多维数据库产品,以及以 OpenTSDB 为代表的 时序数据库,使用其它分布式数据库作为后台存储,通过构建相应的 数据模型和索引技术,扩展成为新的数据库。
其他还包括分库分表等中间件解决方案,严格来说不属数据库系 统,但是提供类分布式数据库解决方案,适用于合适的业务场景对分 布式数据库的需求。
(三)数据库技术发展趋势
大数据时代,数据量不断爆炸式增长,数据存储结构也越来越灵 活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式 愈发丰富,这些变化均对数据库的各类能力不断提出挑战,推动数据库技术的不断演进,总结起来体现为三个方向:1)多模数据库实现 一库多用、利用统一框架支撑混合负载处理、运用 AI 实现管理自治, 提升易用性、降低使用成本;2)充分利用新 兴硬件、与云基础设施深度结合,增强功能、提升性能;3)利用隐私计算技术助力安全能力提升、区块链数据库辅助数 据存证溯源,提升数据可信与安全。
1.趋势一:多模数据库实现一库多用
后关系型阶段,数据结构越来越灵活多样。面对这些多种结构的数据,应用程序对不同数据提出了不同存储要求, 数据的多样性成为数据库平台面临的一大挑战,数据库因此需要适应多类型数据管理的需求。多模数据库支持灵活的数据存储类型,将各种类型的数据进行集中存储、查询和处理,可以同时满足应用程序对于结构化、半结构化和非结构化数据的统一管理需求。未来在云化架构下,多类型数据管理是一种新趋势, 也是简化运维、节省开发成本的一个新选择。
2.趋势二:统一框架支撑分析与事务混合处理
业务系统的数据处理分为联机事务处理与联机分析处理两类。企业通常维护不同数据库以便支持两类不同的任务,管理和维护成本高。因此,能够统一支持 OLTP 和 OLAP 的数据库成为众多企业的需求。产业界当先正基于创新的计算存储框架研发HTAP 数据库,其能够基于统一套引擎同时支撑业务系统运行和分析决策场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。
3.趋势三:运用 AI 实现管理自治
面对大规模数据和不同的应用场景,传统数据库组件存在业务类型不敏感、查询优化能力弱等问题。目前有研究通过将传统数据库组 件用机器学习算法替代,来实现更高的查询和存储效率,自动化处理各种任务。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和 升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、 安全无失。
4.趋势四:充分利用新兴硬件
最近十几年,新兴硬件在经历学术研究、工程化和产品化阶段发展,对数据库系统设计提供了广阔思路。期间最主要的硬件技术进步是多处理器、多核、大内存和 固态硬盘,多处理器和多核为并行处理提供可能,SSD 大幅提升了数据库系统的 IOPS 和降低延迟,大内存促进了内存数据库引 擎的发展; GPU 适用于特定数据库操作加速,如扫描、谓词过滤、大量数据的 排序、大表关联、聚集等操作。随着新型硬件成本逐渐降低,充分利用新兴硬件资源提升数据 库性能、降低成本,是未来数据库发展的重要方向之一。
5.趋势五:与云基础设施深度结合
云计算技术 的不断发展催生出将数据库部署在云上的需求,通过云服务形式提供数据库功能的云数据库应运而生。云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、 易运维性和资源隔离等特点,具体有两种形态,一种是基于云资源部署的传统数据库;另一种是基于容器化、微服务、Serverless 等理念 设计的存算分离架构的云原生数据库。云原生数据库能够随时随地从 多前端访问,提供云服务的计算节点,并且能够灵活及时调动资源进行扩缩容,助力企业降本增效。未来,数据库将深度结合云原生与分布式特点,帮助用户实现最大限度资源池化、弹性变配、 超高并发等能力,更加便捷、低成本实现云上数字化转型与升级。
6.趋势六:隐私计算技术助力安全能力提升
随着数据上云趋势显著,云数据库面临的风险相较于传统数据库更加多样化、复杂化。如何解决第三方可信问题是云数据库面临的首要安全挑战。当前云数据库数据安全隐私保护是针对数据所处阶段来制定保护措施的。这些传统技术手段可以解决单点风险,但不成体系,且对处于运行或者运维状态下的数据则缺少有效的保护。近年来以同态加 密等密码学为代表的软件解决方案和以可信执行环境为代表 的硬件方案为数据库安全设计提供许多新思路。密码学方案的核心思路是整个运算过程都是在密文状态,通过基于数学理论的算法来直接对密文数据进行检索与计算。硬件方案的核心思路是将存放于普通环 境的加密数据传递给 TEE 侧,并在 TEE 侧完成数据解密和计算任务。未来,此类数据库将围绕算法安全性和性能损耗等问题,逐步突破,进而提供覆盖数据全生命周期的安全保护机制。
7.趋势七:区块链数据库辅助数据存证溯源
数据库管理员或黑客对数据库历史记录的修改是一个经常爆发的问题。区块链具有去中心化、信息不可篡改等特征,数据库能够长期留存有效记录,所有历史操作均不可更改并能追溯, 适用于金融机构、公安等行业的应用场景。区块链数据库由于要容忍节点拜占庭行为而不得不采用代价更高的共识算法成为落地应用的一大挑战。由于没有统一的协调者,如何保证区块链网络分片时分布式系统的安全性,高并发下的并行控制如何保证 ACID 也都是设计者不可忽视的问题。未来,提升区块链数据库性能将成为学术界与工业界共同探索的命题。
三、数据库产业发展
全球数据库产业生态成熟壮大,在发展过程中,逐渐细分出数据 库产品、数据库服务和数据库支撑体系三个细分产业。
(一)数据库产业概述
数据库产品主要由关系型数据库、非关系型数据库、混合型数据库及数据库周边工具构成。数据库服务是指围绕数据库的咨询规划、 实施部署和运维运营等环节,为数据库系统的正常、高效、持续、安全使用提供信息技术服务工作。数据库支撑体系由从事数据库学术研究、人才培养、开源社区、评测认证等工作的相关主体共同构成。
(二)数据库产品
1.企业主体大部分仍处于发展初期阶段
成立时间呈现两个热周期。国内由于顶层设计加码,掀起一股国产数据库的浪潮。2012 年, 大数据成为国家级发展战略。政策利好与资本关注 为我国数据库产业不断注入新活力,国产数据库产业迎来第二轮浪潮。
地域分布以一线城市为主。总部分布情况代表企业所在城市对数据库产业的重视与发展程度;员工数量普遍在百人以下。我国数据库虽然数量众多,但平均从业人员数量较少,仍在快速发展阶段;平均专利数量不足五十个余,仍有较大发展空间。
2.产品类型仍以关系型为主,非关系型产品正在快速发展
我国数据库产品数量分布呈现以关系型为主,非关系型及混合型 数据库为辅的局面。数据库产品根据研发方式不同,分为完全自研和基于开源二次研发两类。
我国关系型数据库产品多数基于 MySQL 和 PostgreSQL 二次开 发而来;我国非关系型数据库产品发展势头良好,逐渐受到国际认可。非关系型数据库中以基于开源数据库品进行二次开发为主,时序数据库因其存储处理海量时序数据的特性,常应用于工业控制、物联网、车联网等领域。
3.市场份额正逐渐倾向云上,线下市场迎来激烈竞争
线上市场呈现快速增长。随着云计算技术不断成熟,云上数据库市场快速增长;线上市场格局巨头涌现。我国头部云服务商处于领先地位, 云上数据库作为云基础设施的延续与发展,具备天然先发优势;存量市场替换空间可观,线下市场迎来激烈竞争。随着市场倾向的变化,传统部署市场替换国外数据库空间巨大。随着技术层面的分布 式改造需求不断以及市场层面自发选择国产产品倾向,国产数据库市场份额有望得到大幅提升,各企业纷纷抢抓战略机遇,不断迭代打磨产品能力,抢占市场份额。国产数据库供给能力得到大幅提升,产品功能逐渐完善,集群规模与日俱增,性能表现不断攀升,市场竞争程度较为激烈;初创企业和巨头陆续投身开源市场。开源已成为数据库产业的共识,开源有助于扩 大人才规模及上下游生态影响力,通过运营开源社区快速获得反馈并加快产品开发、提升产品质量,同时反哺社区开发者及独立软件开发商等生态伙伴,能够达到多方共赢目的。
(三)数据库服务
很长一段时间内,我国数据库服务工作主要以附属技能的形式由应用开发商和硬件服务商提供保障。随着数据库对于企业的重要性越来越高,企业对于以数据库为核心的专业服务的需求也越加迫切,独立的数据库服务厂商开始崭露头角,并形成了一个专业化的数据库细分服务领域。
1.头部企业主体发展时间较长
数据库服务产业主体主要由多年来在电信、金融、政务等重要行业提供外包 IT 运维服务的企业构成,成立时间普遍十年以上,核心成员多为早期提供服务的专家,由于企业数据库技术体系庞杂,需要服务提供商能够提供横向主流数据库产品 和纵向多版本技术服务覆盖能力,服务行业技术壁垒较高。
2.服务工作范围广,缺乏行业规范和指引
数据驱动时代,企业开始利用海量实时数据分析业务发展、了解客户行为和优化配置资源,并据此制定企业发展战略。数据库系统作为数据存储的主要载体,数据库服务贯穿企业 IT 系统的整个生命周期。按照信息系统建设的不同阶段,数据库的服务范围主要覆盖规划 设计、实施部署、运维运营三个方面。
由于数据库服务产业正处于快速变革期,玩家众多,能力水平参差不齐,服务过程缺乏行业规范和指引,导致众多数据库应用单位面临各类选型和实施问题。通过编制发布团体标准期望为国内的数据库服务生态体系提出更全面和专业的评估标准。
3.服务市场集中在重点行业,环境变革倒逼各主体转型升级
服务市场主要集中在金融、电信、政府、制造、交通五个行业。云计算改变传统服务市场格局。在云计算逐渐成熟之后,与云上 数据库市场份额迅速扩大。而云上数据库的咨询、部署、运维等服务 工作则直接由云计算公司负责,所以云计算公司将改变传统服务市场 格局。由于服务工作定制化程度较高,相对标准化云产品,属于劳动力密集型工作,所以从综合成本角度出发,未来云上数据库服务市场 部分将由云计算公司依靠自身资源储备负责,另一部分云计算公司将与线下服务公司进行合作,形成优势互补,共同完成相关工作。
服务企业向产品企业转型。如今随着分布式云数据库兴起,数据库运维要求不断提升,数据库服务商除了提供传统的驻场与远程运维类服务外,围绕数据库开发、测试、运维等环节也提供多种类型的数据库周边工具。为了拓展业务范围,提升企业利润总额, 认识到可以利用自身服务能力积累与经验,对数据库产品供应商形成 差异化优势,顺势推出自有数据库产品,进一步加剧了数据库产品市 场竞争激烈程度。
(四)数据库支撑体系
当前数据库支撑体系由于数据库技术路线不断演进,也正处于变革和创新的高发期。
1.学术研究仍以关系理论为重点,国内研究水平逐渐提升
学术界公认的数据库领域顶级会议主要有 VLDB、SIGMOD 和 ICDE。从这些会议的研究方向看,当前以关系型数据库为主,非关系型数据库为辅。综合分析全球论文研究主题,除了关系型数据库,图论、图数据 库、查询优化、机器学习、分布式处理、时序数据、流数据、时空数 据、云数据库等代表当前火热的技术方向。此外,数据安全、隐私保 护也是每年不可或缺的研究主题;我国在全球数据库领域学术影响逐渐提升。
2.领域内各类组织形成,产业热度不断提高
数据库支撑体系各类组织主要分为以下四类:一类是由具备官方背景的研究组织,用于 汇聚国内数据库理论研究头部力量;第二类是数据库从业人员牵头发 起的面向数据库技术爱好者的用户组织,用于进行各类专题技术交流和讨论;第三类是由数据库企业组建,针对自身特定产品讨论的官方技术社区,;第四类是汇聚数据库整体行业信息的第三方技术社区,用于搭建领域内线上交流平台。
3.多层级数据库人才培训体系正在快速形成
高校教育注重普适教育,重视社会人才发展大趋势需求。通过原 理性知识传授、数据库系统应用实践等教学方式,为数据库产业发展 提供了大量储备人才。
培训机构是数据库人才认证获取的主要途径。培训机构累计为合作伙伴培训学员超 5 万人次,其中获得 Oracle、MySQL、PostgreSQL 认证学员数千人,为企业输送专业 DBA 万余人。培训方式为厂商授 权培训中心或联合认证培训中心等,培训知识主要面向数据库工程实践和应用。
企业培训基于人才培养时间成本、人才可用性等考量因素,多渠道聚集人才。一方面,数据库厂商开始建立自己的认证体系,并形成 了不同级别的培训课程和认证考试;另一方面,一些企业开始加强与院校的产教融合尝试,通过与高校进行教材编撰、实训开发、专业共建、人才共建等合作项目,在高校提前培养数据库相关储备人才。
4.数据库领域受资本市场高度追捧
近些年随着国产数据库概念的火热与应用需求多样化带动的技术变革,国内外各路资本纷纷注入数据库产业,形成“百舸争流”的旺盛态势。
四、数据库典型行业应用动态
通过 IT 监管环境、数据业务复杂性、核心业务数据类型、 成本敏感性、科技能力储备情况五个维度对五个典型行业进行分析:
通过分析,金融行业和电信行业在五个维度方面表现相同,所以其数据库应用现状和未来发展趋势类似。
(一)金融行业&电信行业
传统金融机构(银行、证券、保险)和电信运营商作为支撑国民经济正常运行的关键行业,两 个行业的重要数据库系统由于支撑大量涉账业务,业务正确性和连续 性关系国计民生,在强监管压力下,对数据一致性要求极高,所以主要应用以关系型数据库为主。
目前金融和电信行业在数据库应用方面呈现五个新需求:一是随着移动互联网的发展,数据量呈现急剧增长,这对数据存储和管理提出了更高要求;二是随着普惠金融落地,其对业务连续性能力更加重视;三是随着电子支付的大面积普及,需要面临高并发业务和高用户量带来的系统压力;四是面临互联网金融对传统金融业务的冲击以及提速降费要求,业务创新要求进 一步强烈;五是防止潜在供应链风险,技术层面存在国产化需求。根 据上述需求分析,金融和电信行业在数据库应用方面正在呈现三大趋 势:
一是大部分存量数据库将向分布式架构升级。金融和电信行业核 心业务数据类型均为关系型数据库,在当前信息科技背景下,此类集中式数据库所面临的业务体量将呈现爆发性增长。同时由于单一硬件 能力增长有限,所以无法依靠纵向升级硬件扩展存量数据库能力上限。 而与集中式事务数据库相比,分布式数据库采用多种模式实现数据的 分散存储,将压力分散到不同服务器上,并不断通过增加存储或计算 节点来实现弹性升级,克服了集中式数据库的诸多缺点。
二是应用大量非关系型数据库助力创新业务落地。金融机构和电 信运营商拥有庞大客户群体的各类数据,覆盖客户、账户、产品、交易等大量的结构化数据,以及海量的语音、图像、视频等非结构化数据。这些数据背后蕴藏的丰富全面的信息资源,能够有效赋能其自身业务发展。而这些数据的价值挖掘,均需应用到图数据库、文档数据库等非关系型数据库,所以 未来将会有大量非关系型数据库助力金融和电信创新业务落地,
三是产品选型逐渐倾向国产数据库供应商。金融和电信行业数据库产品类型以国外商用产品和国外社区开源产品为主, 但当前受国际单边保护主义影响,国外商用数据库产品存在潜在供应链风险。面对强监管的要求,金融和电信行业对于风险的容忍度极低, 所以各机构在选型方面均开始倾向国产数据库。国产数据库产品功能、性能水平不断增强,产业供给能力整体进入上升周期,增强了金融和电信机构选型国产数据库产品信心。
(二)政务行业
数字政府能力的提升,需依赖强大的现代 化的智能治理基础设施,而数据库作为支撑数据存储和计算的核心组件,是智能治理基础设施的重要组成部分。
当前我国在提升社会治理的数字化治理水平过程中,主要呈现两大特点:一是个体、企业和社会等被治理对象数量庞大、日趋复杂, 而当前我国智能治理基础设施仍以传统关系型数据库为主,效率较低, 亟需变革更新;二是智能治理要求各层、各机构政府人员深度应用信 息科技工具,而当前信息科技工具应用普遍需要较高门槛,政务行业 科技能力储备情况较普遍较低,导致数据基础设施建设完成之后,应 用效果不佳,难以达到预期效果。
当前政务行业在数据库应用方面正在呈现两大趋势:
一是大范围应用空间型、关联型数据库等产品。社会治理普遍基于空间位置和人、物、企业等实体的关联关系进行,而传统关系型数据库在面对空间位置和实体关联关系的分析和建模能力不足。当前空间型数据库和图数据库的快速发展提高了空间位置数据和实体关联 关系分析的存储和分析效率,将是未来智能治理中数据库的重要应用方向。
二是利用各类工具组件,做到数据库应用“平民化”。为达到政务 人员深度应用信息科技工具目的,一方面在加强政务人员信息化能力 同时,数据库应用过程也需尽量做到“平民化”,包括但不限于具备 可视化建模能力、支持特定政务领域解决方案模板、流程式指引等。
(三)制造业
随着政策环境的铺垫和工业互联网基础设施的逐步完善,工业大数据迎来重大发展机遇。当前物联网技术正逐步渗透工业领域,不断增长的传感器、飙升的数据量以及更高的大数据分析需求对原有的数据库系统提出了新的需求,包括增加扩展性、实现与大数据技术生态的友好对接、降低大规模应用价格、充分利用边缘计算设备能力。
未来工业行业在数据库应用方面将呈现两大趋势:
一是应用大量时序数据库。随着物联网场景的丰富以及人们对信息全面掌控的需求,基于时间序列数据类型的应用越来越多,工业业 务对于查询的要求已经不仅仅是满足于一些基础的条件查询或是插 值查询,查询会大量扩展到基于时间的维度,而时序数据库更契合此类场景。
二是逐步向边缘计算发展。工业领域是 IoT 的重要试验田。当数 据过于庞大,集中化的处理方式就很难响应实时的数据分析需求,这 就带来了数据计算向边缘的发展,需要实时响应的监控就通过边缘设 备及时的处理并反馈,需要用于大规模分析的数据再进行集中存储, 这种分级的处理方式能够有效地提升时效性数据的价值,同时减轻存 储系统的负担,当前许多工业数据库正在研发边缘计算版本。
(四)互联网
当前我国互联网行业发展进入调整期,上市企业营收政府大幅放缓,总市值持续波动,投融资低位徘徊,行业格局出现分化。互联网 行业为充分发挥新要素、新模式、新动能等方面的优势,对底层 IT系统中的数据库提出了多项新要求,以性能好、造价低、迭代快为核心。
未来互联网行业在数据库应用方面将呈现三大趋势:
一是利用内存数据库加速业务效率。随着动态随机存储器容量的上升和单位价格的下降,使大量数据在内存中的 存储和处理成为可能,Redis、Memcached 等内存数据库逐渐成熟, 应用范围越来越广。未来几年,随着非易失性存储器件(NVM)逐 步投入商用,新硬件将会给内存数据库带来更大的发展机遇。
二是开源数据库应用更加广泛。开源数据库具有获取方便、成本低等优势,同时互联网企业科技能力强、对于成本敏感等特点,所以 开源数据库产品在互联网行业已被广泛应用。当前越来越多的数据库 企业将开源作为一种商业运营策略,所以开源数据库市场将更加丰富, 为其进一步在互联网领域广泛应用提供了条件。
三是初创公司利用云数据库促进其快速发展。互联网创业公司一 般具备人数较少、资金有限、场地不足等特点,无法投入大量资源用 于建设 IT 基础设施。当前各大云计算公司推出众多云数据库产品,由于利用了云资源的优势,云数据库具备弹性好、计费模式便捷、套 件生态好等特点,符合互联网创业公司的应用需求。互联网创业公司 未来将更大面积应用云数据库。
五、总结与展望
数据库作为提供数据存储与处理能力的软件产品,是各机构信息系统的关键部件,是助力数据价值释放的核心引擎。随着数据跃升为生产要素,数据重要性进一步提高,我国数据库产业也迎来新一轮变局。
从产业角度看,宏观政策利好推动了存量数据库市场上行,我国数据库产业进入蓬勃发展的初期,产品供应商、服务提供商、支撑产 业从业者均积极行动,各自发挥技术、渠道、运营等优势,寻求对于 自身最优的发展路径;另一方面云基础设施的发展成熟将接近一半的传统数据库市场转移到了线上,云计算企业利用既有基础设施优势, 成为最大获益者。
从技术角度看,一方面数据应用的变化倒逼数据库具备更大数据存储容量、更多数据计算模型、更快数据业务响应能力,整体技术发展进入后关系型阶段,架构设计逐渐分布式化、模型构建逐渐场景化; 另一方面,人工智能、新型硬件、区块链、密态计算等关联技术的创 新正在催生新型数据库设计模式,传统数据库功能边界正被逐渐突破。
在数据库产业和技术的变局过程中,供给侧、应用侧、生态侧均 处于机遇与挑战并存的状态。未来一段时期,我国数据库行业将围绕 两个核心命题进行发展:
一个是缩小“高要求的存量数据应用需求”与“仍处于发展初期 阶段的供给能力”之间的差距。在存量数据应用需求方面,国际数据库产品已经为我国数据库行业树立了发展的目标与方向,相比之下, 我国数据库产业供给能力仍处于发展初期,与应用方既有的使用预期仍存在差距。预计我国数据库行业未来围绕“技术”和“生态”两条 主线,一方面利用资金、开源、人才、场景等资源完成技术成熟度达标,另一方面补足运营、服务、渠道短板,完成生态成熟度达标。
另一个是探索“创新型数据应用需求”与“数据库技术产品演进 路线”的合理映射关系。创新型数据应用需求是更长周期内数据库产 业发展的牵引力,但是数据库技术产品如何演进、从而满足创新型数据应用需求并不存在成熟的路线图,所以未来数据库技术产品将在一 段时间内呈现较强的随机演进状态。为解决这一核心命题,数据应用 方与数据库供给方必须利用产业平台、人才互通等手段,完成深度融合与绑定。
“明者见于无形,智者虑于未萌。”当前我国数据库产业的发展格局,是紧跟时代步伐顺应历史规律、着眼全球提升国际综合竞争力、 立足国情推动新旧动能接续转换的外在表现。我们相信,以数据库为代表的新型数据基础设施不断创新发展,对于全面建设社会主义现代 化国家的征程,将起到重要的推动作用。未来已来,拭目以待。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。