AWS数据库 缓存 数据仓库迈向真正无服务器化与新量子芯片

2023-11-30 07:50:48 字數 3088 閱讀 4766

美国拉斯维加斯现场报道》aws re:invent 2023今日(27)在美国拉斯维加斯展开,其公用运算部门(utility computing)资深副总裁peter desantis在晚间首场主题演讲中,首度披露旗下三款云计算服务在无服务器功能方面皆有新的进展,包括aurora数据库服务、elasticache缓存服务与redshift数据仓库服务,终于在技术持续精进之下,达到他们心目中真正无服务器化的里程碑;同时也如以往发布硬件芯片的惯例,首度披露错误率仅0.1%的新量子芯片。

amazon aurora是兼容于mysql与postgresql的云计算数据库服务,aws在2023年推出aurora的首款无服务版本,接着在去年2023年推出aurora serverless v2第二版,赋予云计算数据库服务更大的线上扩展能力,不过虽然诉求数据库用户可在服务不中断的情况下扩展数据库,但仍有一定容量的限制。

aurora serverless数据库服务之所以能实现线上扩展容量,desantis表示,主要是依赖虚拟化技术。aws开发了一个称之为caspian的虚拟层,由caspian heat management system来管理实体主机如何分配虚拟内存给数据库。aurora所使用的每一台实体主机配置容量256gb的内存,虽然aurora数据库打开服务可以使用256gb内存,但实体主机的内存并不会因此而被完全占用,caspian管理软件会依据每个aurora数据库服务运行所需配置适当的物理内存容量,因此每台实体主机皆可承载多个aurora数据库服务,如此就可以极大化利用计算资源。

在上述机制下,当一台实体主机所承载的aurora运行所需内存超过256gb,迫于内存物理限制就必须转移到另一台主机。desantis指出,如此机制尚无法达到无服务器化可以自动扩展调整的最高境界,因此aws继而运用数据库分区(sharding)技术,将单一数据库分配到不同主机,以达到水平扩展的能力。

数据库分区并不难实现,desantis表示,但要达到自动分配的境界,最难突破的关键在于数据路由与数据库分区弹性扩展的设计。为此aws开发出一个数据请求路由层(request routing layer),它采取轻量化设计,具有快速反应扩展的特性,加诸分区弹性扩展设计,则可达到跨区域执行数据库切片与重组,并确保数据库的可靠度。

由于上述两项技术的创新突破,desantis指出,aws终于能在今年推出真正无服务器化的aurora数据库服务,称之为amazon aurora limitless database,意指可不受单一数据库的容量限制,皆可自动扩展配置而不影响数据库运行。

除了aurora limitless database,aws今天也推出缓存服务无服务器版本elasticache serverless。desantis表示,这依赖第三项创新技术突破,也就是减少时钟误差范围(reducing clock error bounds)。分布式运算系统的数据同步需要依赖同步计时,他指出主要的三种做法,分别为wall clock(现实世界时间)、logical clock(逻辑时间)与单一timekeeper服务器,其中wall clock方式会因不同时钟的差异而导致计时同步不可靠。

为了提供准确的同步计时,aws在2023年推出amazon time sync service,结合卫星通信与原子钟参照,提供与世界协调时间(utc)误差仅1毫秒(millisecond)的同步计时。但是,desantis指出,时间误差1毫秒代表着总延迟时间是2毫秒,也即每秒500次交易的延迟速度,而这对于缓存的同步来说太慢了。为此,aws以nitro网络加速芯片为基础设计一个分布式计时网络,并搭配备援电力模块与原子钟,安装在一个标准48u机柜,终于将同步计时误差由毫秒缩短至微秒(microsecond)等级,其elasticache serverless p50的延迟仅500微秒,并可支持最大5tb内存容量。

至于在2023年推出的数据库仓储服务无服务器版本redshift serverless,也有更进一步的精进。desantis表示,数据库仓储不只是要应对数据量,也得应对运算任务多样化的需求。redshift serverless是由请求管理(request management)系统来判断实体主机的负荷量,如果有运算需求较大的etl(extract, transform, load)任务产生,若既有的主机无法承担,请求管理系统就会将其分配到新的主机,但若既有的主机可以承担,虽然该etl任务可以分配到既有主机,但由于运算需求大,完成运算的时间较久,也会因此牵累该主机的其他运算任务,导致时间拖延。

为了解决redshift serverless上述问题,aws在请求管理系统导入机器学***功能,desantis指出,其实数据分析任务有80%是雷同的,因此先以机器学习创建好这80%任务的模型,将其内置在请求管理系统的缓存,加速其快速分析任务类型,同时,有另一个模型用来学习属于个别企业组织惯用习惯的另外20%任务,让请求管理层可以在接到任务时分析与**其类型,据以分配合适的计算资源。而有了这项ai功能后,amazon redshift serverless next-generation ai-driven scaling and optimizations也提供用户自行设置机器学习的政策,以在数据分析运算时间与运算成本之间有所取舍。

此外,aws历年来皆会利用re:invent的首日晚间主题演讲发布其在硬件芯片的着墨,今年也不例外,desantis首度公开发布新的量子芯片,他表示,aamzon量子运算团队在量子纠错有重大的进展,以逻辑量子位元的方式,将位元反转(bit-flip)与相位翻译(phase-flip)错误分开,desantis指出,借由被动纠错方法,已可将错误率降低100倍,达到0.1%,也即千分之一的错误率,而硬件过热也预期可减少6倍。不过,他也说,虽然新芯片在量子纠错方面有重大的进展,但现在尚于量子运算发展非常早期的阶段。

amazon elasticache serverless目前已可提供服务,amazon aurora limitless database与amazon redshift serverless next-generation ai-driven scaling and optimizations则提供预览。

数据仓库与数据分析架构 驱动数据驱动决策

数据仓库与数据分析架构的设计和实施对于驱动数据驱动决策至关重要。这种架构旨在有效地存储 管理和分析大规模数据,以支持组织内的数据驱动决策制定。以下是构建这样一种架构的关键要素和优势 关键要素 数据收集与整合 数据源多样性 从各种内部和外部数据源收集数据,包括数据库 日志 传感器数据 社交 市场调查等...

谷歌云为数据仓库 “BigQuery ”添加 11 个区块链

bigquery 是谷歌的数据仓库服务。企业公司可以用它来存储数据并进行查询。它还提供一些可以查询的公共数据集,包括谷歌趋势 美国社区服务人口信息 谷歌分析等。 年,谷歌推出了比特币数据集,作为该服务的一部分,同年晚些时候,它还增加了以太坊。年月,它继续扩大区块链的覆盖范围,增加了比特币现金 das...

云数据库为何能打败传统数据库?

关注八百客,了解更多。云数据库?传统数据库?为什么现在以云数据库为主?前言 在信息化时代,数据被视为企业和个人可持续成长的重要资源。随着传统数据库面临越来越多的挑战,云数据库作为一种创新的解决方案,给我们提供了更加灵活 高效和可靠的数据管理方法。云数据库不仅满足了数据存储量和处理能力的快速增长,而且...