面对海量数据,档案存储难题怎么解决?

2023-11-15 12:25:05 字數 3925 閱讀 5461

档案信息化时代的海量数据存储技术

随着各行各业信息化应用的深入,各类非结构化的归档电子文件越来越多地移交至档案馆,海量信息存储的需求在不断增强,这不仅需要用海量存储设备进行存储备份,更需要提供数字化档案信息的网络化服务利用,这就需要借助网络的**存储技术来获得更可靠的、更安全的存储空间,提供更快速的访问。

那么,数据存储技术都有哪些呢?快跟一起来了解下吧~

1、直连式存储(das)技术

das 是一种传统存储方式,是在本地网络上将存储设备(磁盘、磁带、磁盘阵列、磁带库等)通过 scsit 接口的电缆一对一地直接连接到服务器或者客户端的打展接口上。

das本身没有独立的操作系统,而是依靠其宿主设备——服务器或者客户端的操作系统来完成对数据的存储与管理。服务器和存储设备之间的连接通道是独立、专用的。存储设备只能由与其日接相连的服务器通过一个智能的控制器来访问。该方法主要是为克服主机上多动器槽的缺陷。当服务器需要更多的存储量时,只要多连接一个存储器就行了。该方法同时还允许一台服务器成为另外一台的镜像。这个功能是通过将服务器直接连到另一台服务器的界面上来实现的。

das 的优点是数据存储速度快,所有数据能够时刻**,为用户提供快速的访间电应。不足之处在于大量占用服务器资源。当用户数增加或者服务器上的应用程序运行繁忙时,服务器就成了数据存储与访问的瓶颈,当网络上存储设备和服务器被添加进来,das环境将导致服务器和存储孤岛数量的激增,产生巨大的管理负担,并导致资源利用率降低。由于受到服务器扩展能力的限制,不可能进行无限度的扩容,容量会受到一定的限制。因此,它比较适合数字化信息量较小的档案馆使用

2、网络附属存储(nas)技术

nas 是一种基于文件级别的存储结构,存储设备直接连接到局域网上,具备文档存储功能,一个附加的层被用来对共享的存储文件进行寻址,系统通常使用网络文件系统(network file system,nfs)或者通用互联文件系统(common internet file system, cifs),这两者都是基于 ip 的应用。它将存储设备从服务器上脱离出来,完全独立于网络中的主服务器,而连接到现有的网络上,通过网络共享方式给各客户机提供网络数据资源服务,客户机完全可以不经过服务器而直接访问存储设备上的数据。nas 服务器一般由存储硬件(如硬盘驱动器阵列)、操作系统以及其上的文件系统等几个部分组成。

nas 的优点在于几台不同的服务器可以共享一个独立的存储设备。与 das 不同,nas不仅实现了异构操作环境下的数据共享,而且即插即用,可以**节容且具有良好的扩展性,而日每台服务器不再需要自已的在储设备,使车储能力得到更加充分有效地利用,降低了存储设备的成本。服务器可以使用不同的操作系统平台,只要它们都能支持 ip 协议即可。

nas 的典型组成是使用 tcp/ip 协议的以太网文件服务器,数据是以文件作为操作对象。存储的介质可以是磁盘、磁盘阵列、光盘、磁带。

3、存储区域网(san)技术

san 网络是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。san 的交换式架构使任何一个存储单元都可以通过多个交换机连接到各个服务器上,这样就为访问存储单元的路由提供了冗余度,为通信提供了更多的路由,消除了某台交换机损坏而导致的单点失败。san 构成的子网专门用于在储,不占用服务器运算处理的网络带宽。san 设条通常由 raid 阵列、磁带库、光盘库和光纤交换机组成。san 和服务器的数据通信通过命令而非 tcp/ip,是以数据块的形式提供对共享数据的访问,这样服务器可以访问数据中的任何一部分,而文件级的访问只能访问一个文件,一个文件通常包含若干个数据块,san 提供了很高的可靠性和很强的连续处理业务的能力,适合用在处理速度较快的数据环境中。

一个 san 系统通常由接口(如 scsi、光纤通道、escon 等)、连接设备(如交换设备、网关、路由器、集线器等)和通信控制协议(如 ip 和 scsi等)三个基本组件,及附加的存储设备和独立的 san 服务器组成。其特点在于∶

san 提供了一个专用的、高可靠性的基于光通道的存储网络,它允许独立地增加它们的存储容量;

san 提供了一种与现有 lan 连接的简易方法,允许任何服务器连接到任何存储阵列,这样不管数据存放在**,服务器都可直接存取所需的数据,也使管理及集中控制更加简化,特别是对于全部存储设备都集群在一起的时候;

san 通过同一物理通道支持广泛使用的 scsi 和 ip 协议,不受现今主流的、基于 scsi存储结构的布局限制;

运行备份操作就无须考虑它们对网络总体性能的影响;

光纤接口提供了 10 km 的连接长度,这使实现物理上分离的、不在机房的存储变得非常容易;

san 初始构建成本比较高,因此适合有海量数据且具有良好经济实力的省市级档案馆使用。

4、内容寻址存储(cas)技术

das 和 nas 是基于文件访问的,san 是基于块(block)寻址的,比较适用tb 级数量的交易型或整合型的网络应用环境,而 cas 则是采用内容寻址方式来进行数据存储的,主要是针对非结构化、固定内容、静态数据(如文档、电子邮件、影像、video/audio流**、cad 图纸及各种数据交易历史记录等)等内容对象的存储而设计的。由于一个内容数据的大小是没有任何上限的,因此,cas 使用一个内容地址来存放和读取此内容对象。cas 设备中组织和存储的数据方式对外部应用系统是不可见的,对用户它是一个存储数据的"黑盒子",用户也不用关心它是如何存放数据的,只需要通过 cas 提供的专有应用程序接口(application programming interface,api)来实现对 cas 设备上的存取或访问。目前,很多提供内容存储解决方案的厂商大都开发了专门访问 cas 设备的应用程序,这使用户在存取和访问 cas 设备中的内容时与通常的文件操作方式相一致。

与 cas 设备配套的管理软件提供了许多功能来确保数据的完整性、有效性和安全性,如为每个文件设置保存期,可预防人为的或故意的修改和删除;保证同样内容的文件不会重复保存,只要进行修改,便成为新的文件,因此可以保证文件的真实性;采用单点无故障的结构以防止技术变化带来的影响。所有这些特点,都与档案这一"固定内容"的数据的管理要求相吻合,因此非常适合存储永久保存的、使用频率不高的数字化档案信息。

小结

档案馆在构建存储解决方案时,可以考虑将 san 和 cas 存储技术联合使用,采用分级存储解决方案,将访问频率和访问速度要求较高的数字化档案信息存储在 san 构建的网络中,而将做长期保存和访问频率较低的档案信息存储在 cas 的存储设备中,这样不仅能够满足用户对档案的利用需求,也能够满足档案馆对长期保存数字化档案信息的安全保存要求,降低管理复杂度。

数字档案管理面向全网征稿

征稿栏目有“数字之窗”、“档务科技”、“档论经纬”、“数字档校”,及档案从业者的故事等,入选即得豪礼、发布即付稿费,欢迎各位踊跃投稿。投稿邮箱:[email protected]

来稿内容须为原创、紧扣主题,邮件题目栏按“时间-姓名-《文章名》-(栏目投稿)”式样注明,正文标明***不得抄袭、一稿多投,若五日后无反馈,可自行处理。(查阅征稿详情)

编辑:san投稿邮箱:[email protected]加微信入**流。

数据湖架构 海量数据的管理与分析

数据湖架构是一种用于管理和分析海量数据的灵活 可扩展的系统设计。数据湖不同于传统的数据仓库,它接受各种类型和格式的数据,包括结构化数据 半结构化数据和非结构化数据,将它们存储在原始格式中,并提供强大的分析和查询能力。以下是数据湖架构的关键组成部分和特点 数据采集和存储 数据源接入 数据湖从各种数据源...

金仓面对面 智慧档案建设先行者

金仓面对面。为加速信息技术应用创新与行业场景深度融合,传播行业数字化转型前沿声音,借鉴吸取新理念新经验,人大金仓特别推出 金仓面对面 栏目,特别邀请行业伙伴 行业专家 行业用户进行访谈,分享可复制的行业标杆案例,推动新技术新产品的落地应用,更好地服务千行百业数字化转型升级,持续为数字中国建设贡献金仓...

我国档案馆发展面临数字化向智能化的转折

中国青年报客户端讯 中青报 中青网记者 王聪聪 第二届全国档案馆馆长论坛月日在北京召开。论坛以 加强档案资源建设,记录伟大复兴历史 为主题。国家档案局副局长 档案馆副馆长魏洪涛希望能加快档案工作现代化建设步伐 加强档案资源建设工作 注重人才培养和实施人才强档工程。北京市委副秘书长王灏说,北京的档案资...