分布式存储简介

W_法 4月前 ⋅ 431 阅读

存储系统发展概述

         存储系统经历了从单机到多机,从集中式到分布式的发展过程。本节将对这一发展过程进行简单梳理,为进行分布式存储的研究打好基础。

单机文件系统

        单机文件系统用于操作系统和应用程序的本地存储(存储和计算分离)。以读操作为例,应用程序访问操作系统后,调用操作系统提供的接口方法,通过SCSI从本地磁盘读取数据。

        单机文件系统当前技术已经比较成熟,典型的文件系统有:Ext2、Ext3、Ex4、NTFS、FAT、FAT32、XFS、JFS。单机文件系统仅解决了本地存储与访问问题,无法解决数据在服务器之间共享。 https://community.emc.com/thread/148914?start=0&tstart=0

网络文件系统

        分布式存储概念最早可以追溯到二十世纪八十年代的网络文件系统。这一时期历史背景是以太网技术蓬勃发展,主要研究重点是如何实现网络环境下的文件共享,从而解决客户端与文件服务器的交互问题。这一阶段的主要成果包括CMU/IBM合作研制的AFS文件系统和SUN公司推出的NFS文件系统。https://community.emc.com/thread/148914?start=0&tstart=0

存储系统

        在二十世纪九十年代,存储系统开始独立于计算机系统快速发展(存储和计算分离),存储区域网络SAN兴起,研究重点转变为解决存储系统的可扩展性和面向SAN(Storage Area Network,存储区域网络)的共享文件系统。

面向对象并行文件系统

        在二十一世纪初,面向对象的、并行的文件系统发展起来。伴随着高速网络技术的发展,对存储系统的扩展性提出更高的需求,急需突破容量和性能方面的瓶颈。相应的,研究重点主要集中在对象存储技术,如何进行高效的元数据管理和提高数据访问的并发性。这一阶段可谓是百家争鸣,尤其是开源系统异常繁荣,包括PVFS,Panasas,Lustre,Ceph,GFS(Google File System)等。对象存储(Object-based Storage一种新的网络存储架构,综合了NAS和SAN的优点,同时具有SAN的高速直接访问和NAS的分布式数据共享等优势,提供了具有高性能、高可靠性、跨平台以及安全的数据共享的存储体系结构。

云文件系统

         最新阶段是2010年前后的云文件系统。随着云计算和大数据从概念到落地,数据呈现爆炸式增长趋势。据Gartner预测,到2020年,全球数据量将达到35ZB,等于80亿块4TB硬盘。数据结构变化给存储系统带来新的挑战。非结构化数据在存储系统中所占据比例已接近80%。

       云存储要求弹性扩展、高可用、高性能、多租户和QoS保证,大数据则有4V(Volume、Velocity、Variety、Value)特征,这对数据存储和管理提出新的挑战。在这一阶段,研究重点是EB级大规模存储系统,数据高可用性方法(如复制、HA、纠错码),高效智能存储技术(如消重、压缩、分层),以及新型的计算存储融合系统和应用感知(Application-aware,比如虚拟化)存储。

        http://www.chinastor.com/a/jishu/FS/0203200112016.html

        https://community.emc.com/thread/148914?start=0&tstart=0

       云存储是在云计算(Cloud Computing)概念上延伸和发展出的新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。

        云存储对使用者来讲,不是指某一个具体的设备,而是指一个由多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。

        http://www.talkwithtrend.com/Article/131685 云存储(服务)

什么是分布式存储

        随着云计算和大数据从概念到落地(2010年前后),作为存放企业数据资源的存储系统,不但要满足业务所需要的高性能、高可靠性等基本诉求,更要满足未来业务的发展、提升业务的敏捷性,帮助业务更快更好地适应竞争环境的需要。(外部环境日益严峻)

        计算与存储在过去的很长一段时间在非均衡发展。摩尔定律设想单位面积晶体管数据量每18个月将增加1倍,对应单位价格的计算性能将翻2倍以上。回顾过去20年,处理器和网络带宽分别提升3000倍和1000倍,但磁盘和内存带宽仅提升120倍,远落后于摩尔定律。阿姆达尔定律认为,计算机系统中对某一部件采用更快的执行方式所获得的系统性能改进程度,取决于这种执行方式被使用的频率,或所占总执行时间的比例。可以理解程,系统最慢部分(存储)的执行效率将决定和制约整个系统的效率。

        从20世纪80年代到21世纪的前十年,计算和存储经历了一次分离的变革。由于晶体管的计算能力与基于机械硬盘的处理性能差距越来越大,以及存储数据的重要性不断增加,为便于提升资源利用率,导致了计算、存储的架构分离,也就是SAN的诞生及发展。

         https://weibo.com/ttarticle/p/show?id=2309351002704228283146336645

         但随着云计算、大数据时代的到来,这种计算、存储分离的架构面临的挑战和问题也越来越突出:

         (1)计算和存储架构的人为分离,导致系统成功居高不下;

         (2)SAN的集中式机头成为制约系统扩展性的单点瓶颈;

         (3)SSD存储介质的应用,使得SAN控制机头可能成为系统性能瓶颈;

         针对大多数企业事务型IT应用而言,更加关注数据的“即时处理”,而非“存储/归档”,因此存储与计算融合的架构再次符合业务应用的根本诉求。而通过Scale-Out存储机制,可实现服务器集群环境下DAS直连硬盘的资源池化和虚拟化,推动计算与存储从“物理分离”向“物理融合”与逻辑分离的架构演进,也就是“分布式存储”。(《云计算架构》,顾炯炯)

         杨传辉老师的《大规模分布式存储系统》一书使用的分布式存储系统的定义是:“分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务”。

       StorPool 网站对分布式存储的描述如下:“Storing data on multitude of standard servers, which behave as one storage system although data is distributed between these servers.” StorPool 网站认为分布式存储是软件定义存储(Software-Defined Storage,SDS)的升级版,并在以下方面表现出优越性:

– distributed storage systems can run compute workloads on the same physical servers. I.e. they can build efficient Hyper-Converged Infrastructure (HCI);

DSS can scale-out, i.e. they make one shared storage system out of many, many nodes. Old-fashioned SDS solutions were scale-up systems, which formed 2 node clusters in an active-passive or mirrored configurations;

DSS systems can achieve performance which is impossible for SDS 1.0 solutions. And this performance is achieved with extremely low usage of compute power (CPU & RAM). This is one of the reasoned why a DSS can run in a hyper-converged manner, unlike old-fashioned SDS solutions.

– Finally the usability and functionality of a good distributed storage system is qualitatively different than using generation 1 SDS. To give it with an analogy – SDS 1.0 has the usability of a button cell/mobile phone. DSS systems have the usability of a modern touch-screen smart phone.

        https://storpool.com/blog/what-is-distributed-storage-system

为什么研究分布式存储

       (1)微观上,冯·诺依曼结构不被打破,关于存储的研究就不会结束;

       (2)宏观上,随着云计算大数据时代的到来,现有存储结构不能很好的满足海量数据存储、高性能等需求;

       (3)从自身角度,针对数据存储的研究,可以为后期扩展到其他方向提供坚实的基础。

        需要说明的是,这里研究的“存储”仅指指软件方面的“存储”,而非对各种存储设备的研究,就像构建在不同服务器架构之上的操作系统一样。


注意:本文归作者所有,未经作者允许,不得转载

全部评论: 0

    我有话说: