分布式过程实时数据集成方法及其实现

来源：二三娱乐

第３６卷　第３期　计算机工程　２０１０年２月　３６　Ｎｏ．３　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｆｅｂｒｕａｒｙ　２０１０　・软件技术与数据库・　文章编号：１ｏｏ０—＿３４２８（２ｏ１０）０３—＿００５５—＿０３　文献标识码：Ａ　中圈分类号：ＴＰ３１１．１３　分布式过程实时数据集成方法及其实现　薛尧予，王建林，赵利强　（北京化工大学信息科学与技术学院，北京１　０００２９）　摘要：针对异构生产装置数据采集、集成和管理中的数据集成问题，提出一种分布式过程实时数据集成方法，给出系统体系结构和数据　集成原理。采用Ｈａｓｈ．ＡＶＬ树的数据结构对生产数据进行描述，利用ＸＭＬ技术对实时数据及访问请求进行封装，实现统一的数据访问接　口。该方法应用到某石化企业综合自动化系统，对１００个数据点进行并发访问时，数据更新周期小于３　Ｓ，结果证明了分布式数据集成方　法可以满足对现场生产装置异构实时数据进行集成的要求。　关健词：实时数据；数据集成；ＸＭＬ技术；Ｈａｓｈ－ＡＶＬ树　Ｉｎｔｅｇｒａｔｉｏｎ　Ｍｅｔｈｏｄ　ａｎｄ　Ｉｔｓ　Ｒｅａｌｉｚａｔｉｏｎ　ｏｆ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓ　Ｒｅａｌ—ｔｉｍｅ　Ｄａｔａ　ＸＵＥ　Ｙａｏ－ｙｕ，ＷＡＮＧ　Ｊｉａｎ－ｌｉｎ，ＺＨＡＯ　Ｌｉ－ｑｉａｎｇ　ｆＣｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｅｍｉｃａｌ　Ｔｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ　１　０００２９）　｜Ａｂｓｔｒａｃｔ］Ｃｏｎｓｉｄｅｒｉｎｇ　ｔｈｅ　ｄａｔａ　ｉｎｔｅｇｒａｔｉｏｎ　ｐｒｏｂｌｅｍ　ｉｎ　ｄａｔａ　ａｃｑｕｉｓｉｔｉｏｎ　ｄｅｖｉｃｅｓ，ｉｎｔｅｇｒａｔｉｏｎ　ａｎｄ　ｍａｎａｇｅｍｅｎｔ　ｏｆ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｐｒｏｄｕｃｔｉｏｎ，ａｎ　ｉｎｔｅｇｒａｔｉｏｎ　ｍｅｔｈｏｄ　ｏｆ　ｄｉｓｔｒｉｂｕｔｅｄ　ｐｒｏｃｅｓｓ　ｒｅａｌ—ｔｉｍｅ　ｄａｔａ　ｉｓ　ｐｒｏｐｏｓｅｄ　ｍｅａｎｗｈｉｌｅ　ｔｈｅ　ｓｙｓｔｅｍ　ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄ　ｔｈｅ　ｐｒｉｎｃｉｐｌｅ　ｏｆ　ｄａｔａ　ｉｎｔｅｇｒａｔｉｏｎ　ａｒｅ　ｇｉｖｅｎ．Ｈａｓｈ—ＡＶＬ　ｔｒｅｅ　ｉｓ　ａｄｏｐｔｅｄ　ｔｏ　ｄｅｓｃｒｉｂｅ　ｔｈｅ　ｐｒｏｄｕｃｔｉｏｎ　ｄａｔａ．ＸＭＬ　ｉｓ　ａｐｐｌｉｅｄ　ｉｎ　ｔｈｅ　ｍｅ￣ｏｄ　ｔｏ　ｕｎｉｆｙ　ｄａｔａ　ａｃｃｅｓｓ　ｉｎｔｅｒｆａｃｅ．Ｔｈｅ　ｍｅｔｈｏｄ　ｉｓ　ｕｓｅｄ　ｉｎ　ｔｈｅ　ａｕｔｏｍａｔｉｏｎ　ｓｙｓｔｅｍ　ｏｆ　ａ　ｐｅｔｒｏｃｈｅｍｉｃａｌ　ｅｎｔｅｒｐｒｉｓｅ．Ｆｏｒ　ｔｈｅ　１　００　ｄａｔａ　ｐｏｉｎｔｓ　ｉｎ　ｔｈｅ　ｃｏｎｃｕｒｒｅｎｔ　ｔｅｓｔ，ｔｈｅ　ｕｐｄａｔｉｎｇ　ｐｅｒｉｏｄ　ｉｓ　ｌｅｓｓ　ｔｈａｎ　３　Ｓ．Ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｍｅｔｈｏｄ　ｏｆｒｅａｌ—ｔｉｍｅ　ｄａｔａ　ｉｎｔｅｇｒａｔｉｏｎ　ｃａｎ　ｉｎｔｅｇｒａｔｅ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｒｅａｌ—ｔｉｍｅ　ｄａｔａ　ａｎｄ　ｍｅｅｔ　ｔｈｅ　ｄｅｍａｎｄｓ　ｏｆｐｒｏｃｅｓｓ　ｉｎｄｕｓｔｒｙ．　［Ｋｅｙ　ｗｏｒｄｓｌ　ｒｅａｌ—ｔｉｍｅ　ｄａｔａ；ｄａｔａ　ｉｎｔｅｇｒａｔｉｏｎ；ＸＭＬ　ｔｅｃｈｎｏｌｏｇｙ；Ｈａｓｈ—ＡＶＬ　ｔｒｅｅ　１概述　统一封装，使得上层用户可以以统一的方式进行访问。　很多流程工业企业存在多种生产装置并存的特点，同时　流程工业对数据的实时性要求较高，这就给这些异构实时数　据的集成和优化带来了很大的困难。目前在流程工业中生产　装置数据集成所采用的方法主要有基于虚拟视图的方法、基　于数据存储的方法和基于设备访问的方法【ｌ　Ｊ，但上述几种主　实　流方法都具有各自的特点和适用范围。实时数据库的出现在　时　数　一定程度上解决了常规数据存储方法对于实时数据集成方面　据　集　的不足，但由于国内外相关产品种类较多、功能单一、成本　成　较高，并不非常适合解决当前的种种问题；以ＯＰＣ（ＯＬＥ　ｆｏｒ　系　统　Ｐｒｏｃｅｓｓ　ａｎｄ　Ｃｏｎｔｒｏ１）技术为代表的基于设备访问的方法具有　核　心　很好的性能表现，实时性好，接ＶＩ标准统一、开放，但因为　技术发展等原因使得ＯＰＣ设备在一定时期内还不能完全取　代传统设备，需要找到一种方式作为过渡来替代它，在经济　性较好的基础上解决实时数据集成的难题。因此，本文针对　目前流程工业的现状研究过程实时数据集成方法，提出一种　合理、可行且成本低的新思路以解决企业信息化道路上所面　图１　分布式数据集成系统架构　临的数据集成难题。　实时数据集成系统的核心在于将实时数据在设备及用户　２分布式实时数据集成系统架构　与核心接１３模块的访问层中实现统一。这种方式屏蔽了装置　在流程工业中，为了实现生产装置异构数据的集成，分　的异构性，且涉及的层更少，降低系统的复杂性的同时有效　布式系统是一种非常好的选择。而采用分布式系统，异构是　基金项目：国家自然科学基金资助项目（２０６７６０１３）；北京市自然科学　不可避免的。本文提出了一种新的基于分布式结构过程数据　基金资助项目（４０８２０２２）　的集成方法，如图１所示。系统的主要功能可以分为２个部　作者简介：薛尧予（１９８２一），男，博士研究生，主研方向：企业综合　分：一部分是数据采集，即对生产异构装置的实时数据的采　自动化；王建林，教授、博士生导师；赵利强，博士研究生　集；另一部分是统一接口，即对不同数据源不同数据格式的　收稿日期：２００９—０９—０５　Ｅ—ｍａｉｌ：ｗａｎ￣ｌ＠ｍａｉｌ．ｂｕｃｔ．ｅｄｕ．ｃａ　一５５—　地提升了可靠性。由于在设备层与核心的接１３模块中实现了　数据的集成，因此，用户层有很好的灵活性以及扩展性，从　而节省成本，降低应用开发的难度。　哈希表中的　ｂｕｃｋｅｔ：　２．１系统访问模块　用户通过多分辨率访问模块访问数据库，实时访问模块　从设备读取实时数据。数据库分别为历史磁盘数据库和内存　实时数据库，它们都是通过实时数据管理系统的接口软件来　实现数据的存储、交换及访问。中间层即实时数据管理系统　核心作为一个对象化和模块化模式的集合，统一完成数据的　压缩、存储、访问等功能。　图２　Ｈａｓｈ—ＡＶＬ树的示意图　３．２设计实现　Ｈａｓｈ—ＡＶＬ树的基本的ＸＭＬ结构描述如下：　＜ｈａｓｈａｖｌｔｒｅｅ　ｎｏｄｅ　ｉｄ＝ｎ　实时访问模块从异构装置采集数据，经事务处理模块、　压缩模块存入内存实时数据库，用户可以由多分辨率访问模　＜ａｖｌ块访问实时数据（例如某一装置的实时曲线），此实时数据即　取自于内存实时数据库。对于历史数据，由数据压缩模块对　内存实时数据库中的数据进行二次压缩存入磁盘历史数据　库中。　２．２数据压缩模块　数据压缩模块中的压缩算法对系统实时优化有至关重要　的作用。文献【２］对化工实时数据采集、集中管理和压缩存储　等问题进行了分析和研究，提出了一种增量型的ＳＤＴ压缩　算法，利用ＳＱＬ数据库存储压缩数据，并利用ＬＺＷ算法进　行二次无损压缩，提高了存储的压缩效率。因此，压缩模块　采用该文献中的压缩算法及策略。　３基于Ｈａｓｈ・ＡＶＬ树的数据结构设计　３．１　Ｈａｓｈ－ＡＶＬ树　为了实现分布式异构实时数据的集成，如何设计数据结　构来满足采用高效、快速的查询要求是一个关键的问题。Ｈａｓｈ　表由于其速度快的优点在数据查询中有着广泛的应用　Ｊ，只　要能够较好地解决其自身的Ｈａｓｈ冲突问题，便可以达到设计　目标。对相同Ｈａｓｈ值的数据查找若采用顺序查找方式，则效　率非常低。目前数据库索引方法比较多，包括Ｂ＋一树、ＡＶＬ　树和ＳＢ一树等，但都不能很好地解决数据库的多键值查询问　题。若采用ＡＶＬ树来解决冲突，则对具有相同Ｈａｓｈ值的数　据的查找将变成ＡＶＬ树的查找，比链式的顺序查找效率将提　高很多。将Ｈａｓｈ表和ＡＶＬ树结合，采用复合结构能够兼顾　２种数据结构的优点，具有非常高的查询效率。　ＡＶＬ树查找较快，但插入、删除时，由于要调整树的形　态而效率较低。不过考虑到生产数据集成的实际情况，树的　结构一旦形成，改动不会很频繁，改动的内容相对整个树来　说也非常少。因此，采用Ｈａｓｈ—ＡＶＬ树能够很好地满足实际　需要。用Ｃ语言结构体来描述Ｈａｓｈ—ＡＶＬ树，代码如下：　Ｔｙｐｅｄｅｆ　ＢＩＮＴＲＥＥＢＡＳＥＮＯＤＥ　ＡＶＬＴＲＥＥＮＯＤＥ；　ｔｙｐｅｄｅｆ　ｓｔｒｕｃｔ　ＨＡＳＨ—ＡＶＬＴＲＥＥｓｔ｛　ＡＶＬＴＲＥＥＮＯＤＥ＊＊ｐｐＨａｓｈ表元；　，半索引表指针　／　ＵＩＮＴ　ｕＨａｓｈ表元Ｃｏｕｎｔ；　／　索引表的大小　／　ＵＩＮＴ　ｕＮｏｄｅＣｏｕｎｔ；　／　表中实际节点的个数　／　ＵＩＮＴ　ｕＣｕｒＨａｓｈ表元Ｎｏ；　当前要执行的Ｈａｓｈ表元序号　／　ＡＶＬＴＲＥＥＮＯＤＥ　ｐＣｕｒＥｎｔｒｙ；　／・当前Ｈａｓｈ表元中下一个要执行的节点条目　／　）ＨＡＳＨ—ＡＶＬＴＲＥＥ；　可见，Ｈａｓｈ—ＡＶＬ树和Ｈａｓｈ表的唯一区别就是Ｈａｓｈ—ＡＶＬ　树中的每个Ｈａｓｈ表元指向的是一棵ＡＶＬ树。Ｈａｓｈ—ＡＶＬ树的　结构如图２所示。　一５６一　ｔｒｅｅ　ｒｉｇｈｔ　ｎｏｄｅ　ｉｄ，ｌｅｆｔ　ｎｏｄｅ：ｉｄ，ｐａｒｅｎｔｎｏｄｅ＝ｉｄ，　ｎｏｄｅ　ｃｏｕｎｔ＝ｎ＞ｂａｌａｎｃｅ＜／ａｖｌ　ｔｒｅｅ＞　＜ｈａｓｈｔａｂｌｅ　ｒｉｇｈｔｎｏｄｅ　ｉｄ，ｌｅｆｔｎｏｄｅ　ｉｄ，ｐａｒｅｎｔ　ｎｏｄｅ＝ｉｄ，　ｎｏｄｅｃｏｕｎｔ。二ｎ＞ｂａｌａｎｃｅ＜／ｈａｓｈｔａｂｌｅ＞　＜ｎｏｄｅｄａｔａ＞ｄａｔａ＜／ｎｏｄｅｄａｔｅ＞　＜／ｈａｓｈａｖｌｔｔｅｅｎｏｄｅ＞　ＸＭＬ文档中包括了几个关键属性。其中，ｒｉｇｔｈ—ｎｏｄｅ是　指右节点的ｉｄ；ｌｅｆｔｎｏｄｅ为左节点的ｉｄ；ｐａｒｅｎｔ—ｉｄ是父节点　ｉｄ；ｎｏｄｅｃｏｕｎｔ为树的节点的个数。　此外，文档中还有２个关键字，ｂａｌａｎｃｅ即为前文中提到　的ＡＶＬ树的平衡因子。ｄａｔａ是一个广义的概念，在这里代表　数据。数据可以是实时数据，也可以是虚拟视图的数据，而　这些数据都是以ＸＭＬ的方式进行统一封装的，易于集成。　通过ＸＭＬ方式进行描述，其结构如下：　＜Ｗｏｒｋｓｔａｔｉｏｎ　Ｎａｍｅ＝ＣＹ＞　＜ＴａｇＩＤ　ｉｄ＝ＴＩ－１０１　＜Ｌｏｃａｔｉｏｎ＞１９２．１６８．１６８．１＜／Ｌｏｃａｔｉｏｎ＞　．　＜ＣＯｎｓｔｒａｉｎ＞ｅｖｅｒｙ＜／Ｃｏｎｓｔｒａｉｎ＞　＜Ｐｅｒｉｏｄ＞２＜／ＰｅｒｉＯｄ＞　＜Ｖａｌｕｅ＞２４８．０６２＜／Ｖａｌｕｅ＞　＜Ｕｎｉｔ＞℃＜／Ｕｎｉｔ＞　＜Ｄｅｓｃｒｉｐｔｉｏｎ＞闪顶油温＜／Ｄｅｓｃｒｉｐｔｉｏｎ＞　＜ＬｏｗＡｌａｔｉｎ＞ｌ００．０＜／ＬＯＷＡｌａｒｍ＞　＜ＨｉｇｈＡｌａｒｍ＞５００．０＜／ＨｉｇｈＡｌａｒｍ＞　＜／ＴａｇＩＤ＞　＜Ｔａｇ　ＩＤ　ｉｄ　ＴＩ—ｌ０７＞　＜Ｌｏｃａｔｉｏｎ＞ｌ９２．１６８．１６８．１＜／Ｉ　ｏｃａｔｉｏｎ＞　＜Ｃｏｎｓｔｒａｉｎ＞ｅｖｅｒｙ＜／Ｃｏｎｓｔｒａｉｎ＞　＜Ｐｅｒｉｏｄ＞ｌ＜／Ｐｅｒｉｏｄ＞　＜Ｖａｌｕｅ＞１１２．６１７＜／Ｖａｌｕｅ＞　＜Ｕｎｉｔ＞℃＜／Ｕｎｉｔ＞　＜Ｄｅｓｃｒｉｐｔｉｏｎ＞炉１　０　１对流段温度＜／Ｄｅｓｃｒｉｐｔｉｏｎ＞　＜ＬｏｗＡｌａｒｍ＞１　００．０＜／ＬｏｗＡＩａｒｍ＞　＜ＨｉｇｈＡｌａｒｍ＞５００．０＜／ＨｉｇｈＡｌａｒｍ＞　＜／Ｔａｇ　ＩＤ＞　＜／ＴａｇＩＤ＞　４基于ＸＭＬ—ＲＬ的实时数据查询方法　实时数据查询技术在工业企业信息平台中具有广泛的用　途。ＸＭＬ技术标准的出现，使得能够实现各子系统数据的统　一描述　。　ＸＭＬ—ＲＬ（ＸＭＬ　Ｒｕｌｅｂａｓｅｄ　Ｑｕｅｒｙ　Ｌａｎｇｕａｇｅ）是一种基于规　束部分。查询部分仍然遵守ＸＭＬ—ＲＬ的规则，而实时约束部　分则作为对其的约束，主要是为了确保数据不仅逻辑上正确　而且能够满足用户对其的实时性要求。　则的ＸＭＬ查询语言。它以一种很自然的方式把ＸＭＬ文档看　成是复杂对象数据模型。ＸＭＬ—ＲＬ语言的查询语句由２个部　分组成：　（１）查询子句，该部分是以规则为基础的路径表达式，被　５系统应用　在某石化炼油厂生产数据实时监测与企业综合自动化系　统项目中，利用本文所述的分布式过程实时数据集成方法实　现了全厂生产异构数据集成。系统数据集成的实时性由多个　用来从ＸＭＬ文档提取数据。　（２）构造子句被用来构造查询结果。　结合实际需要，查询不仅需要返回正确的结果，还必须　在一定的时问内完成，否则实时数据便失去其本来的意义。　因素所限制，对每个因素进行分解，分别研究各个因素对数　据访问实时性的影响。对于装置访问，主要记录数据从ＯＰＣ　服务器到ＯＰＣ客户端的传输延时；对于数据集成系统查询，　主要记录ＯＰＣ客户端更新内存中数据表以及系统处理带来　因此，对查询语句的结构进行扩展，在其原有结构的尾部加　入实时性约束，其扩展后的结构描述如Ｆ：　ｑｕｅｒｙｉｎｇ［ｅｘｐ１［，ｅｘｐ２［，…［，ｅｘｐＮ］…川ｃｏｎｓｔｒｕｃｔｉｎｇ［ｅｘｐＣ］　｛ｎｏｗｌｗｈｅｎｌｂｅｆｏｒｅｌｅｖｅｒｙ｝［ｔｉｍｅ］　结构中扩展的部分主要是加入了几个关键字来对不同的　查询请求进行实时约束。此外，ｔｉｍｅ是一个可选项，用来对　几个关键字进行具体说明，它可以是一个时刻，也可以是一　个时间间隔。下面对各个关键字逐一进行解释说明。　ｎｏｗ——即收即发　说明：对实时性要求最高的约束，当查询语句中有此关　键字作为约束条件时，将会把该语句的优先级设定为最高，　并将其插入到查询队列最靠前的位置。数据工作站接到此查　询命令时立即返回满足查询要求的实时数据。因为是即时的　发送，所以在这里不需要ｔｉｍｅ项。　ｗｈｅｎ——指定时刻发送　说明：数据工作站接到此查询命令时，在请求时刻到达　时准时返回满足查询要求的实时数据。这里ｔｉｍｅ是指某一特　定时刻。　ｂｅｆ０ｒｅ——指定时刻前发送　说明：数据工作站接到此查询命令时，根据当前的闲忙　情况，在请求时刻到达之前返回满足查询要求的实时数据。　这里ｔｉｍｅ是指某一特定时刻。　ｅｖｅｒｙ——固定间隔时间发送　说明：定义此种查询请求为优先级最低，当收到包含此　关键字查询语句时，将此语句的优先级设定为最低，排入查　询队列。此种查询方式属于一次请求多次应答的方式，在很　大程度上提高了数据的查询效率。此语句执行时，数据工作　站将会根据查询请求中设定的固定时问间隔，定期地向客户　端发送查询的相关数据实时值。　因为此类操作是周期循环不问断的，为了保证其他操作　的进行，需要在特定的情况下终止其操作。定义当其他３种　约束的任何一种出现时，此类操作终止，直到空闲时，并且　有新的该种类型查询请求出现时进行相应响应操作。在这里，　ｔｉｍｅ是一个时间间隔，可以理解为传送数据的周期。　可以看出，所有数据查询请求可以分为２类：一类是非　周期任务，前３种实时约束的请求即为此种类型；另一类是　周期任务，实时约束的关键字为“ｅｖｅｒｙ”的请求属于此种类　型。在实际的执行过程中，系统将整个查询语言分解为２个　部分，一部分是基础的查询部分，另一部分是扩展的实时约　的延时；对于网络传输，记录数据从工作站端发送到访问端　接收之问的延时；对于上层访问，记录上层应用所带来的延　时。数据访问实时性如表１所示。系统性能指标如表２所示。　表１数据访问实时性　并发连接数／个　数据更新周期／ｓ　数据量／个　现场应用表明，本系统能够集成流程工业中生产装置异　构实时数据，满足实际应用中对于数据实时性的要求，提供　的数据准确有效，且运行可靠。而且这些数据量对于系统的　运行效率影响不大，可以将数据点数量进行大幅度增加。　６结束语　本文提出的分布式实时数据集成方法采用Ｈａｓｈ　ＡＶＬ树　的数据结构描述、ＸＭＬ数据访问封装，能够很好地实现生产　装置异构实时数据的集成，有效地实现对生产装置异构实时　数据的管理。　该方法为解决目前流程工业普遍存在的生产装置异构数　据集成的难题提供了一种新的解决方法。　参考文献　［１］Ｌａｍ　Ｋａｍ。Ｙｉｕ，Ｋｕｏ　Ｔｅｉ—Ｗｅｉ，Ｌｅｅ　Ｔ　Ｓ　Ｈ．Ｓｔｒａｔｅｇｉｅｓ　ｆｏｒ　Ｒｅｓｏｌｖｉｎｇ　Ｉｎｔｅｒ－ｃｌａｓｓ　Ｄａｔａ　Ｃｏｎｆｌｉｃｔｓ　ｉｎ　Ｍｉｘｅｄ　Ｒｅａｌ—ｔｉｍｅ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ［Ｊ］．　Ｔｈｅ　Ｊｏｕｒｎａｌ　ｏｆＳｙｓｔｅｍｓ　ａｎｄ　Ｓｏｆｔｗａｒｅ，２００２，６１（１）：１—１４．　［２］赵利强，于涛，王建林．基于ＳＱＬ数据库的过程数据压缩方　法［ＪＪ＿计算机工程，２００８，３４（１４）：５８．６２．　［３］马如林，蒋　华，张庆霞．一种哈希表快速查找的改进方法［ＪＪ．　计算机工程与科学，２００８，３Ｏ（９）：６６—６８．　［４］张　晶，张云生基于ＸＭＬ的实时数据一致性描述与查询处　理［Ｊ］．计算机工程，２００７，３３（１　０）：５２—５４．　编辑顾逸斐　５７—　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文