云数据管理

来源：二三娱乐

1）《高级数据库技术》主要考察考生对数据库高级技术的掌握（可以参考教材内基本内容，不涉及深入的理论推导等），更重要的是考察对新技术、新概念的跟踪和了解（例如当前的云数据管理等）；

随着云计算中大数据集高效管理、海量数据中特定数据的快速定位、云端海量数据精准查询等迫切需求的日益显现,Web数据管理正逐步向云数据管理阶段发展,一个新的云数据管理研究领域正逐渐形成。

云数据管理在云计算概念上延伸和发展出来的一个新的概念。云数据管理使更大数据量的处理成为可能，被称为下一代的因特网计算和下一代的数据中心。云计算是是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展，是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术，网络服务提供者可以在数秒之内，处理数以千万计甚至亿计的信息，达到和“超级计算机”同样强大的网络服务。云数据管理是指通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。

当前云数据管理领域成熟的产品有：

(1) GFS。

一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。BigTable是非关系的数据库,是一个稀疏的、分布式的、持久化存储的多维度排

序Map。Bigtable的设计目的是可靠的处理PB级别的数据，并且能够部署到上千台机器上。Bigtable已经实现了下面的几个目标：适用性广泛、可扩展、高性能和高可用性

适用于大规模数据密集型应用程序的可扩展分布式文件系统

多个部署GFS的集群已经建成

(2) HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式。

(3) Sector/Sphere

Sector/Sphere是一个分页式存储系统与并行处理引擎。与HDFS/Hadoop及Google的GFS/MapReduce类似。

Sector/Sphere由名字中描述的两部分组成。

Sector是一个高效、高伸缩性并且安全的分页式文件系统。

Sphere是一个高效的并行数据处理引擎，他处理来自Sector的数据文件，提供非常

好用的接口定义处理流程。

(4) Amazon S3

Amazon S3，全名为亚马逊简易储存服务（Amazon Simple Storage Service），由亚马逊公司，利用他们的亚马逊网络服务系统所提供的网络线上储存服务。经由Web服务界面，包括REST, SOAP, 与BitTorrent，提供用户能够轻易把档案储存到网络服务器上。

(5) OpenStack的Swift

(Swift) 是开源的，用来创建可扩展的、冗余的、对象存储（引擎）。 swift 使用标准化的服务器存储 PB 级可用数据。但它并不是文件系统 (file system) ，实时的数据存储系统 (real-timedata storage system) 。 swift 看起来更像是一个长期的存储系统 (long term storage system) ，为了获得、调用、更新一些静态的永久性的数据。比如说，适合存储一些类型的数据：虚拟机镜像，图片存储，邮件存储，文档的备份。没有“单点”或者主控结点 (master point of control) ， swift 看起来具有更强的扩展性、冗余和持久性。

云计算是一项正在兴起中的技术。它的出现，有可能完全改变用户现有的以桌面为核心的使用习惯，而转移到以Web为核心，使用Web上的存储与服务。人类有可能因此迎来一个新的信息化时代！云计算绝不仅仅是一个计算的问题，它需要融合许许多多的技术与成果。现有的许多研究问题将来必然是云计算的一部分，例如Web数据集成、个人数据空间管理、数据外包服务、移动路网上的研究以及隐私问题的研究，都会成为未来云计算的重要组成部分。但是现实中云计算也面临着诸多挑战。

首先，云计算和云数据管理中一个跨领域问题就是供应商要在功能和开发代价上作权衡。目前，早期的云计算提供的API比传统的数据库系统的限制多得多。他们只提供一个极小化的查询语言和有限的一致性保证。这给开发者带来更多的编程负担，同时对于一个功能完备的SQL数据库允许服务供应商提供更多的预期服务和服务级别协议也是很难达到的。

其次，易管理性在云计算中极其重要，这也带来新的挑战。和传统的系统相比，受工作负载变化幅度大和多种多样的共享设备的因素影响，云计算中管理任务更加复杂。大多数情况下，由于云系统中机器数量太大，数据库管理员和系统管理员很难对所有机器进行全面周全的人工干预。所以迫切地需要自动管理的机制。本来混合负载就很难调优，但在云平台中这种调优是不可避免的。

20世纪90年代末，研究学者们开始研究自我管理技术。云数据管理系统需要自适应的在线技术，反过来系统中新的架构和API（包括区别于传统SQL语言和事务语义的灵活性）又促进了颠覆性的自适应方法的发展。接着，云计算和云数据管理的庞大规模同样带来了新的挑战。现有的SQL数据库不能简单地处理放置在云中的成千上万的数据。在存储方面，是用不同的事务实现技术，还是用不同的存储技术，或者二者都用来解决还不确定。在这个问题上，目前在数据库领域内有很多提议。就查询处理和优化而言，如果搜索一个涉及到数千条处理的计划空间需要花费很长时间，那么这是不可行的，所以需要在计划空间或搜索上设限。最后如何在云环境中编程还尚不清楚。因此，需要更多的了解云计算和云数据管理的限制问题（包括性能限制和应用需求）来帮助设计。

此外，在云基础架构中，物理资源共享带来新的数据安全和隐私危机。它们不能再依靠机器或网络的物理边界得到保障。因此云计算为加速这方面现有的工作提供了难得的机遇。要想成功，关键在于能否准确瞄准云的应用场景以及能否准确把握服务供应商和顾客

的实际动向。

最后，随着云计算越来越流行，预计有新的应用场景出现，也会带来新的挑战。例如，可能会出现一些需要预载大量数据集（像股票价格、天气历史数据以及网上检索等）的特殊服务。从私有和公共环境中获取有用信息引起人们越来越多的注意。这样就产生新的问题：需要从结构化、半结构化或非结构的异构数据中提取出有用信息。同时，这也表明跨“云”服务必然会出现。在科学数据网格计算中，这个问题已经很普及。而联合云架构不会降低，只会增加问题的难度。综上所述，可以看出云计算和云数据管理平台服务本身在适当场景下巨大的优势，同时还有所面临的技术难题亟待解决。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文