搜索
您的当前位置:首页正文

基于MPP-Hadoop混合架构高校数据集成系统研究

来源:二三娱乐
计算机技术与发展第28卷摇第8期摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇Vol.28摇No.8

2018年8月Aug.摇2018COMPUTERTECHNOLOGYANDDEVELOPMENT

基于MPP-Hadoop混合架构高校数据

集成系统研究

(1.武汉邮电科学研究院,湖北武汉430074;

3.东南大学,江苏南京210019)

邓涵元1,2,卢摇山2,程摇光3

2.南京烽火软件科技有限公司,江苏南京210019;

摘摇要:随着数字化校园的建设,传统的数据集成系统在海量数据环境下数据查询和加载的效率均有所下降,且难以对非结构化、半结构化数据进行融合和分析。针对以上情况,依托高校大数据平台,从各个异构系统中抽取出数据,结合Ha鄄doop和MPP技术的优势,设计并实现了一个基于MPP-Hadoop混合框架的高校异构数据集成系统,融合多种不同结构数载入MPP数据仓库,进行数据融合,并与传统数据仓库产品Oracle搭建的现有高校数据集成系统进行数据加载和数据查询效率方面的对比评测,验证了系统的有效性并且为学生的学习生活、心理等各方面的管理工作提供一定的技术支持和指导。

关键词:数据集成;高校大数据;MPP;Hadoop;GreenPlum

中图分类号:TP302摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇摇文章编号:1673-629X(2018)08-0160-04doi:10.3969/j.issn.1673-629X.2018.08.034

据,提升了数据查询和加载的效率。以某高校为例,从学生的门禁刷卡系统和校园网系统中抽取出学生的行为轨迹数据,

ResearchonUniversityDataIntegrationSystemBasedon

MPP-HadoopMixedArchitecture

(1.WuhanResearchInstituteofPostsandTelecommunications,Wuhan430074,China;

2.NanjingFiberHomeSoftwareTechnologyCo.,Ltd.,Nanjing210019,China;

3.SoutheastUniversity,Nanjing210019,China)

DENGHan-yuan1,2,LUShan2,CHENGGuang3

Abstract:Withtheconstructionofdigitalcampus,theefficiencyofdataqueryandloadingofthetraditionaldataintegrationsysteminthemassivedataenvironmentarereduced,anditisdifficulttointegrateandanalyzeunstructured,semi-structureddatainthemassivedataen鄄vironment.Forthis,relyingonuniversitylargedataplatform,combiningtheadvantagesofHadoopandMPPtechnology,wedesignandimplementasystemofheterogeneousdataintegrationbasedonMPP-Hadoophybridframework,whichintegratesmanydifferentstructuredataandenhancestheefficiencyofdataqueryandloading.Andtakingauniversityasanexample,thestudentstrajectorydataisextractedfromthestudent爷saccesscardsystemandthecampusnetworksystemandisloadedtoMPPdatawarehouse.Thesystemwillbecom鄄paredwiththetraditionaluniversitydataintegrationsystembuiltbyOracledatawarehouse,anditsvalidityisverified.Technicalsupportandguidancetostudents爷life,study,psychologyandotheraspectsofmanagementisprovided.Keywords:dataintegration;universitybigdata;MPP;Hadoop;GreenPlum

0摇引摇言

高校信息化从20世纪80年代开始,在21世纪引入了数字化校园的概念。数字化校园是构建一个包括

教学、科研、管理、服务于一体的数字环境,能够提升传统校园的工作效率,实现教学科研的全面信息化,提高教师的教学质量,提升学校对于各个机构和系统的管

收稿日期:2017-07-31摇摇摇摇摇摇修回日期:2017-12-14摇摇摇摇摇摇网络出版时间:2018-03-07基金项目:国家自然科学基金(61602114);国家“863冶高技术发展计划项目(2015AA015603)

作者简介:邓涵元(1994-),女,硕士,研究方向为数据集成、数据挖掘;卢摇山,博士,副教授,研究方向为计算机、数据集成;程摇光,博士,教

授,博导,研究方向为网络空间安全监测和防护、网络大数据分析。

网络出版地址:http://kns.cnki.net/kcms/detail/61.1450.TP.20180307.1422.036.html

摇第8期摇摇摇摇摇摇摇摇摇摇摇邓涵元等:基于MPP-Hadoop混合架构高校数据集成系统研究·161·

理水平[1]。随着数字化校园的建设[2],在高校的各个系统中均积累了大量的数据。由于各个异构系统的建设时期不同,采用的标准规范、技术路线编程语言等也不同,因而形成了一个个的“数据孤岛冶。这些“数据孤岛冶造成了高校资源分散、存储冗余、管理成本高、决策支持弱、各职能部门无法进行协同工作。

于是将各信息系统的数据整合、汇聚到数据集成系统上就显得尤为重要,这有利于从不同的角度来分析学生的生活、学习、心理等各方面的成长情况,有利于学校各个职能部门的管理和协调。据调研,目前,某高校每年均有约2万名学生入学,积累了大量的数据;这些数据不仅数量级大,数据结构也多样,既有学生的基本信息、成绩信息、校园卡消费记录等结构化数据,也有上网记录等非结构化或半结构化数据。

传统的数据集成大多只是简单地以集成后能够查询使用为目的进行数据集成。当前研究者对校园数据集成和分析做了多方面的研究。吴振涛[3]提出了基于数据仓库的通用的校园数据集成框架,为高校的数据仓库建设提供了一个整体框架和模型;王晶春[4]对高校数据集成广泛应用的几类框架进行综合的比较,提出集线器总体架构模式;李兰友等[5]提出了基于ODI技术的高校数据流转运中心架构模式。然而,这些研究都是基于传统的数据集成技术,大多是主机加集中存储的架构。软件方面则主要选择Oracle相关数据库产品来搭建数据仓库。而随着数据的迅猛增长以及数据类型复杂程度的增加,传统的数据仓库产品的不足也逐渐凸现出来:处理数据量小,投资成本高,扩展性差,数据加载和查询效率低,针对非结构化数据的特征提取、多数据融合分析遇到困难。

针对以上问题,结合Hadoop和MPP技术,文中设计并实现了一个基于MPP-Hadoop混合框架的高校

异构数据集成系统,将数据融合、汇总、分析,提高数据查询和加载的效率,提高扩展性,并通过实验验证该系统的有效性。

1摇相关技术

1.1摇Hadoop

Hadoop[6]是一个分布式的系统基础架构,能够充分利用集群进行高速运算和存储。Hadoop有高可靠1.2摇MPP数据库

性[7]、高效性、可扩展性、高容错性等优势[8]。

Hadoop的优势在于能十分高效地处理大量的非结构化或半结构化数据。但与传统的关系型数据库相比,在处理复杂的多表关联分析、数据分析挖掘以及易操作性方面还存在差距。

MPP(massiveparallelprocessing)[9]数据库本质上仍然是一个关系型数据库。它可以将任务并行地分散到多个工作节点上,磁盘存储系统和内存系统均为每个节点独有,不与其他节点共享,是share-nothing[10]模式,各个节点之间通过网络互相连接,彼此协同计算,将各自的结果汇总到一起得到最终结果。与传统的关系型数据库相比,MPP数据库在数据处理方面,具有采用分布式架构[11]、处理数据量大、更大的I/O能力、扩展能力好、采用列式存储[12]、节约存储空间等优势。

2摇系统设计与实现

2.1摇系统框架设计

该面向高校的异构数据集成系统结合Hadoop和MPP两种技术的优势,架构设计如图1所示,总体上分为数据层、应用层和数据源层。

图1摇异构数据集成系统框架

摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第28卷·摇16摇2·

摇摇(1)数据源即包含来自各个异构系统的数据,大致可以分为两块,一是来自传统的结构化数据,二是来自海量非结构化或者半结构化的大数据(如上网日志数据)等。

(2)数据层包括数据存储平台和ETL数据预处理

所示。

HadoopMPP平台两部分ETL数据预处理平台从本地FTP服务器中抽取相关基础数据,抽取方式分为全量抽取和增量抽取两种。全量抽取将所有的初始数据抽取到目标数据库中,增量抽取针对新增数据,时间间隔为24小时自动抽取。抽取后的数据需要进行清洗、转换和加载,去除噪声数据、转换数据格式、生成新的数据等。处理后的数据一部分进入传统的数据库中,一部分存储到Hadoop的HDFS中,再将两部分的数据整合、汇聚到MPP数据仓库中,完成数据的基本存储功能。

成起来实现查询已经不能满足现实要求(3)在大数据背景下,简单地将异构的数据源集

,应用层的功能除了查询和展示结果外,还有分析和挖掘、生成报表等。在高校应用场景下,主体主要是教师、学生以及职工,应用层将以不同的主体,不同的数据分析需求实现不同的功能。

理,构建元数据模型(4)元数据管理对各个来源的数据进行集中管

,能够更加有效地对数据质量进行把控,更高效地进行数据集成分析和挖掘。2.2摇系统实现

传统的数据仓库基本上都基于Oracle产品[13]据加载速度、数据查询效率在海量大数据情况下变慢,数

甚至无法加载或者查询。GreenPlum是EMC推出的大规模并行处理(MPP)的数据库软件,是一个基于PostgreSQL的开源分布式数据引擎,是目前业界研究和应用比较广泛的数据仓库引擎之一。它具有高并发支持、良好的线性扩展能力、高性价比、高可用性等优势。结合学生行为轨迹数据的特点,选用GreenPlum作为数据仓库来搭建面向学生行为轨迹数据分析的数据集成系统,并与传统数据仓库Oracle产品搭建的数据集成系统进行对比。

在x86平台上分别搭建Hadoop集群平台和MPP数据库平台。Hadoop集群由1台控制节点和3台数据处理节点组成,操作系统采用Linux5.5,Java环境的JDK版本为jdk-1.7。MPP分布式环境由一个Master(配置主节点2个)和多个CPU内核Segment、8GB(内存数据节点,节点之间使用千兆网)组成,每个节点络连接。操作系统为Linux5.5,选择的MPP数据库版本为Greenplum-db-4.1.1.3,将具有高并发性、高可用性优势的MPP数据库作为数据仓库对海量数据进行集中的管理和存储,结合Hadoop集群的高速存储和运算的特点,搭建系统的物理组网架构,如图2

ETL图2摇物理组网架构

3摇学生行为轨迹数据应用分析

大学生群体作为一个特定的、庞大的社会群体,其轨迹行为具有很强的规律性。对于个体而言,掌握其行为轨迹规律对于掌握其学习、生活的规律和习惯有一定的帮助,对于出现的异常能够起到一定的指导作用。而对于群体而言,了解校园热点地区分布[14]学校的后勤工作有一定的指导作用。对学生轨迹的相,对似度进行分析,对于了解学生的线下社交[15]现、排除孤独症患者等有一定的意义,为学生心理健康、好友发的管理工作提供一定的依据。据了解,某高校有在校本科生2万余名,每名学生每天均产生大量的轨迹数据,在数据加载和查询方面进行对比评测。3.1摇数据源选择

目前,某高校宿舍、图书馆、体育馆均设有门禁设备,但是某些区域如教学楼没有门禁,而且门禁可能存在代刷、漏刷的现象,所以,单以门禁记录来研究学生的轨迹不够准确。通过调查发现,该高校教学区、宿舍、食堂、休闲区域均有wifi部署,随着校园移动设备用户的爆炸式増长,产生了大量的wifi位置记录数据。而且,wifi数据对研究学生的校园行为的位置,具有覆盖范围广、定位精度高、成本低等特点。但是,单以wifi数据来研究学生的轨迹数据,则可能存在学生进入某区域未使用wifi连接网络造成轨迹数据缺失的情况。故结合校园卡门禁刷卡数据和wifi上下线信息,能够比较真实地反映学生的轨迹信息。

该实验选取的数据来自某高校大一学生2016年一学期即4个月的wifi上下线日志数据,约1500万条,以及学生校园卡刷卡记录,约600万条,总量大小为65.4GB。

摇第8期摇摇摇摇摇摇摇摇摇摇摇邓涵元等:基于MPP-Hadoop混合架构高校数据集成系统研究·163·

3.2摇数据清洗及预处理

由于获取的校园学生wifi登录数据信息量大且复杂,包含字段较多,而真正有价值的只有几个字段,因此首先需要对原始数据进行过滤和筛选。为获取学生行为轨迹数据,主要有用的字段是学生学号、wifi登录时间、校园位置Id、刷卡时间、刷卡位置Id。

(1)对获取到的原始数据进行统计分析,系统中

统后,测试对比多表连接查询语句(join)的查询性能,如表3所示。

表3摇查询效率对比

数据库类型数据节点个数查询时间/s

176现有系统

2113

文中系统

487

842

(2)将同样的数据分别加载到现有系统和文中系

存在一定时间内反复刷卡或者反复登录的情况,设置时间阈值驻t=1min,过滤掉连续刷卡以及在某个时间反复连接wifi的数据。

摇摇从实验结果来看,与传统数据库的处理方式相比,文中系统在数据加载和查询效率上有明显的提升,并且具有良好的扩展性,查询效率随着数据节点的增加息,只保留学生的数据(2)根据用户名过滤到教职工以及其他账号信。

时所在校园位置的(3)门禁刷卡记录的原始数据中记录了用户登录

ID号;wifi上下线日志数据中存储的位置信息用经度(longtitude)和纬度(latitude)字段表示,结合百度地图API[16]和文献[14]提出的基于校园环境的逆地址解析算法进行校园位置的转换。

经过清洗后存储到数据库中的变量名及变量的含义如表1所示。

表1摇变量名及含义

变量名变量含义sId学生学号LoginTimewifi登录时间LocalId校园位置IdSwipTime刷卡时间SwipLocal

刷卡位置

3.3摇性能对比评测3.3.1摇将预处理后的数据采用外部表的方式分别加载到

数据加载

原系统和现系统中,加载速度对比如表2所示。

表2摇数据加载速度对比

指标原系统

现系统数据节点个数248数据加载所需时间/s

918128

83

51

3.3.2摇(1)数据查询

节点与现有系统进行查询复杂度对性能影响的比较在硬件配置相同的情况下,该系统采用4个

,在查询复杂度Q3>Q2>Q1的情况下,查询效率对比如图3所示。

图3摇数据查询效率与复杂度的关系

近乎呈线性增长的趋势。但是在数据量不大的情况下,现有系统查询处理效率不比文中系统低,在海量数据处理的情况下,文中系统能够体现出强大的处理能力。故搭建的异构数据集成系统在高校的海量数据环境下在数据处理和分析上具有明显的优势。3.4摇学生行为轨迹数据分析

为了分析学生轨迹变化,引入统计学中相似度的概念。相似度使用以度量两组数据变化趋势相似程度的一个数值亮度,其取值范围为[-1,1]。相似度的计算方法基于统计学中相关系数的概念。

相关系数是变量之间相关程度的指标,相关系数(r(X,Y)=

1]。Var[Cov(X,Y))的取值范围是[-1,

学生每月的轨迹数据进行拟合该参数的值表示变量之间线性相关的程度X]Var[Y],观察相关系数的变化。对i,若是波动较大,则可查看学生当前周和月的轨迹变化曲线,判断学生的行为轨迹是否正常。

另外,结合可视化技术比较不同学生的行为轨迹数据,构建班级社交网络,发现学生的社交关系,避免大量的问卷以及人工调查的繁琐工作,分析出学生的社交情况,便于对社交能力弱的学生提供帮助,结合心理资源库中的测评结果,筛选较为孤僻的学生,能够为

高校中的学生心理健康教育工作提供指导。

4摇结束语

结合MPP和Hadoop技术,将数据从业务系统中抽离出来,提出一种基于MPP-Hadoop混合架构的高校数据集成的系统框架,实现业务系统间的数据共享,充分发挥数字化校园的整体协同功能,解决了传统数据库在海量数据情况下数据加载慢、数据查询效率低、难以融合多种异构数据源进行分析等问题。并以学生行为轨迹数据的分析为例,验证了系统的有效性,为学生的管理工作提供支持。

参考文献:

[1]摇方摇园,高润生,徐国徽.数字化校园环境下的一卡通系统

(下转第169页)

摇第8期摇摇摇摇摇摇摇摇摇摇摇毛驾燕等:一种面向智能家居老人看护系统的实现方案·169·

4摇结束语

在物联网技术不断发展和空巢老人无人看护的环境下,设计实现了一种面向智能家居的老人看护系统。采用Zigbee技术、异常值处理、特征提取实时地获取传感事件序列,基于Zigbee开源协议栈Z-Stack2007和智能网关实现传感节点部署采集和异构网络互联互通;利用固定时间滑动窗口法和隐式马尔可夫模型预测老人基本日常行为ADLs,并提供历史记录查询和远程监控功能。实验结果表明,该系统能有效减少通信开销,降低传输时延,实现了智能家居环境下老人的看护。

参考文献:

[1]摇秦摇丽.《2016中国智能家居产业发展白皮书》发布[J].

电器,2016(4):32.

[2]摇王摇怡,鄂摇旭.基于物联网无线传感的智能家居研究[3]摇ESCHJ.Asurveyonambientintelligenceinhealthcare[J].

ProceedingsoftheIEEE,2013,101(12):2467-2469.[4]摇BILGINBE,GUNGORVC.Performanceevaluationsof

ZigBeeindifferentsmartgridenvironments[J].ComputerNetworks,2012,56(8):2196-2205.

[5]摇WANGWei,HEGuangyu,WANJunli.ResearchonZigbee

wirelesscommunicationtechnology[C]//Internationalcon鄄ferenceonelectricalandcontrolengineering.Yichang,Chi鄄na:IEEE,2011:1245-1249.

[6]摇张摇毅,徐菲菲,雷景生,等.基于CC2530和ZigBee技术

智能家居系统的设计与研究[J].上海电力学院学报,[J].计算机技术与发展,2015,25(2):234-236.

[7]摇孙建书.ZigBee网络能耗优化机制的研究与实现[D].北

京:北京邮电大学,2015.

[8]摇HUYang,TILKED,ADAMST,etal.Smarthomeina

hometechnologies[J].JournalofReliableIntelligentEnvi鄄ronments,2016,2(2):93-106.

[9]摇COOKDJ,CRANDALLAS,THOMASBL,etal.CA鄄

-69.

SAS:asmarthomeinabox[J].Computer,2013,46(7):62

2017,33(2):191-195.

box:usabilitystudyforalargescaleself-installationofsmart

[10]COOKDJ,YOUNGBLOODM,HEIERMANEO,etal.

MavHome:anagent-basedsmarthome[C]//ProceedingsofthefirstIEEEinternationalconferenceonpervasivecompu鄄tingandcommunications.FortWorth,TX,USA:IEEE,

[11]KWAPISZJR,WEISSGM,MOORESA.Activityrecogni鄄

tionusingcellphoneaccelerometers[J].ACMSIGKDDEx鄄plorationsNewsletter,2010,12(2):74-82.

[12]李云洁.基于连续型传感器数据的人体动作识别[D].上

海:东华大学,2015.

[13]SINGLAG,COOKDJ,SCHMITTER-EDGECOMBEM.

2003:521-524.

Recognizingindependentandjointactivitiesamongmultipleresidentsinsmartenvironments[J].JournalofAmbientIn鄄telligence&HumanizedComputing,2010,1(1):57-63.

[14]宋摇涛.CS体系的传统二层结构与流行三层结构的比较

分析[J].硅谷,2012(9):135.

[15]SHIWeisong,CAOJie,ZHANGQuan,etal.Edgecompu鄄

ting:visionandchallenges[J].IEEEInternetofThingsJour鄄nal,2016,3(5):637-646.

蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚蕚

(上接第163页)

160.

摇[J].华中师范大学学报:自然科学版,2017,51(S1):156-telligentSystemsandApplications,2017,9(4):61-68.

frameworkinHadoopcluster[J].InternationalJournalofIn鄄

[2]摇沈培华,王映雪,蒋东兴,等.清华大学数字校园建设与思

考[J].管理信息系统,2002,75(2):18-19.

[3]摇吴振涛.基于数据仓库技术的数据集成在数字化校园中的

应用[J].电子设计工程,2016,24(9):28-31.

[4]摇王晶春.数字化校园数据集成总体架构浅析[J].长春理工

大学学报:自然科学版,2015,38(3):148-151.

[5]摇李兰友,陈摇立,陈建红.基于ODI的数字校园数据集成

研究与应用[J].南京工程学院学报:自然科学版,2016,14(2):29-34.

[9]摇CHANGF,DEANJ,GHEMAWATS,etal.Bigtable:adis鄄

tributedstoragesystemforstructureddata[J].ACMTransac鄄tionsonComputerSystems,2008,26(2):205-218.[10]音摇春.大数据时代数据库技术研究[J].广东通信技术,[11]辛摇晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运

135-145.

2015,35(3):12-14.

营商网络数据共享平台研究[J].电信科学,2014,30(4):

[12]周润松.大数据MPP产品测评研究[J].软件和集成电路,[13]赵摇闯.构建数字化校园数据仓库的方案研究[D].长春:

东北师范大学,2009.

[14]杜胜兰,李摇枫,黄长青,等.基于轨迹数据的武汉大学学

生行为规律分析[J].测绘地理信息,2017,42(1):91-95.应用[J].大数据,2017,3(2):78-91.

[15]鲁鸣鸣,张摇丹,王建新.基于校园一卡通数据好友发现及[16]杜传明.百度地图API在小型地理信息系统中的应用[J].

测绘与空间地理信息,2011,34(2):152-153.2016,23(8):36-37.

[6]摇王摇峰,雷葆华.Hadoop分布式文件系统的模型分析[J].

电信科学,2010,26(12):95-99.

[7]摇GAUTAMJV,PRAJAPATIHB,DABHIVK,etal.Em鄄

piricalstudyofjobschedulingalgorithmsinHadoopMapRe鄄duce[J].CyberneticsandInformationTechnologies,2017,17[8]摇JENAB,GOURISARIAMK,RAUTARAYSS,etal.A

surveyworkonoptimizationtechniquesutilizingmapreduce(1):146-163.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top