您好,欢迎来到二三娱乐。
搜索
您的当前位置:首页灰色马尔可夫范文

灰色马尔可夫范文

来源:二三娱乐

灰色马尔可夫范文(精选8篇)

灰色马尔可夫 第1篇

航站楼是民用机场能源消耗的主体。据统计, 航站楼能耗占机场总能耗的60%~80%。因此, 降低航站楼能耗是机场节能减排的关键。

机场航站楼能耗, 包括建筑设备、客运业务、弱电系统、办公、商业服务能耗等。由于受到室外环境、设施特性与布局、客运量等多重因素影响且机制十分复杂, 因此航站楼能耗的准确计算和预测目前还是一个难题。但是, 在机场节能减排管理中, 有时需要确定下一年度或未来某时段的航站楼能耗值, 以便控制机场能耗或进行节能绩效评价。因此, 探讨机场航站楼能耗的预测方法具有重要的应用价值。

通过研究, 笔者认为航站楼能耗可采用GMM (Grey Markov Model-灰色马尔可夫模型) 进行预测, 该方法的特点是将灰色模型和马尔可夫模型相结合。

2 方法原理

灰色模型和马尔可夫模型都可用于时间序列预测问题。灰色预测曲线呈单调递增或单调递减趋势, 可以反映总体的变化趋势走向。马尔可夫模型根据状态转移概率大小推测系统未来发展方向, 而转移概率反映了各种随机因素的影响, 因而适合于随机波动大的时间序列预测问题。因此, 上述两种方法具有较好的互补性, 结合使用能有效地提高预测准确性。

灰色马尔可夫模型的构建方法:首先根据前n年的历史能耗数据建立GM (1, 1) 预测模型, 进行第一步预测;然后利用GM (1, 1) 能耗预测值与实际历史能耗值的差值建立马尔可夫多步转移概率矩阵模型, 利用前n年的初始状态信息及相应的多步转移概率和, 推测下一年度所处状态, 最后根据马尔可夫模型预测状态对GM (1, 1) 模型预测值进行修正。

3 建模和预测过程相关理论

3.1 GM (1, 1) 模型建立

设原始采集时间序列为

计算的一次累加生成模块

构建下述一阶线性微分方程, 旨在获得序列的规律性:

将微分方程 (1) 对离散时刻k=1, 2, …, n进行差分得到以下线性方程组:

若方程个数大于未知参数个数而无解, 则按最小二乘法, 求满足

的最小二乘解, 得

微分方程 (1) 的解为:

表为离散形式, 则为

于是, 可对累加生成序列X (1) 进行预测。

我们所关注的原始序列X (0) 可由X (1) 累减生成, 即:

根据GM (1, 1) 模型, k时刻原始数据预测值为

3.2 预测模型检验

模型检验方法采用检验精度较高的后验差检验, 具体步骤如下。 (1) 计算实测值与预测值的残差和残差相对值。 (2) 计算原始序列与误差的标准差。 (3) 计算后验差比值C及小误差概率P, 据表1判断GM (1, 1) 预测精度。

如果预测精度不合格 (Nopass) 或勉强合格 (Reluctance Pass) , 须对模型进行修正。

3.3 状态划分

根据具体情况, 将序列Y (t) 划分成几个状态, 记为×1, ×2…, ×n (状态转移时间为t1, t2…tn) , 则任一状态×i (灰数) 由灰元×1、×2i可表示成

其中, Ai、Bi为由预测值与实测值的偏移大小确定的参数对非平稳马氏过程:

3.4 转移概率矩阵计算

根据图1, 将由状态×i经k步转至×j的次数记为nij (k) , 状态×i出现的次数记为ni, 则由×i经k步转至×j的转移概率为

k步的转移概率矩阵为:P (k) =[Pij (k) ] (14)

3.5 预测量区间确定

根据转移概率矩阵, 可确定未来时刻预测量最可能所处灰区间为, 进而完成预测。

4 方法应用举例

根据计量统计, 某机场航站楼电耗的历史数据如表2所示。下面用灰色马尔可夫模型利用前5年 (2004年~2008年) 的数据预测后三年的能耗值, 并与实际值进行比较。

首先, 根据GM (1, 1) 拟和值与实际值的相对误差分布情况建立状态划分标准, 如表3所示。表2航站楼能耗历史数据

由前5年数据预测第6年 (2012年) 值, 建立GM (1, 1) 模型的参数为:

马尔可夫预测状态为E4, 修正值取状态区间的中间值。同理可以类推预测第7 (2013) 、第8 (2014) 年的能耗值。

最后应用马尔可夫模型所得预测状态值对GM (1, 1) 模型预测值进行修正, 预测结果如表4所示, 结果表明预测精度较好, 预测方法可行。

5 结语

(1) 本文提出了灰色马尔可夫预测方法, 解决了机场航站楼预测难的问题, 对机场航站楼能耗预测具有指导意义。 (2) 应用表明灰色马尔可夫预测方法更加科学合理。

参考文献

[1]鄢涛.深圳市公共建筑能耗与节能分析[D].重庆:重庆大学, 2005.

灰色马尔可夫 第2篇

利用马尔可夫链方法测报马尾松毛虫发生级别

根据广东郁南1975-马尾松毛虫发生程度的历史资料,应用马尔可夫链方法对-的`马尾松毛虫发生级别进行了预测,并对1990-20的发生级别进行了回测,历史符合率为92.31%.

作 者:贾春生 Jia Chunsheng 作者单位:韶关学院,韶关,51刊 名:东北林业大学学报 ISTIC PKU英文刊名:JOURNAL OF NORTHEAST FORESTRY UNIVERSITY年,卷(期):34(5)分类号:S7关键词:马尾松毛虫 发生级别 马尔夫链 测报

灰色马尔可夫 第3篇

医学影像检查量预测对于医院医疗管理决策有着重要意义,当前已有不少学者开展了相关研究。伍平阳等[1]利用线性回归方法预测了相关科室的检查量。霍洪波等[2]使用灰色GM(1,1)模型对影像科的CT检查量进行了预测,并以此分析了影像设备绩效。吴佳峰等[3]使用ARIMA时序法对影像科的CT、US和MR检查量进行了分析预测,同时将预测结果应用于医疗设备采购以及医疗人员的合理安排上。述研究中,采用的医学影像检查量预测方法在分析波动性较大的时序数列时,会产生较大的误差。

灰色模型要求的原始数据量少,无需考虑复杂因素,适用于影像科检查量的预测,但对于随机波动性大的数据序列,其预测精度不高,拟合效果不好。而马尔可夫模型则能较好地分析出数据序列对于外界因素影响的随机性,可适应波动性大的时间序列。因此,针对影像科检查量受外界因素影响大、波动性强的特点,本研究拟采用灰色模型与马尔可夫模型相结合的方法来对影像科检查量进行预测,以提高预测精度。

1 数据初步分析

本研究以某三甲医院影像信息系统(RIS/PACS)数年积累的海量数据为例,根据患者类型进行分类,得到了其2005~2011年的检查数据量(表1)以及患者类型的检查量趋势(图1)。由图1可知,各类型检查量虽整体逐年递增,但存在较大的波动性

同时,根据图1和表1,可将年份数据下钻到月份,具体以201 1年为例,得到的相关检查量趋势图,见图2。

2 灰色GM(1,1)模型预测分析

本研究以2011年的门诊检查量为例来验证灰色马尔可夫模型的有效性。选取2011年1~11月的数据,以预测12月的检查量为目标来进行建模。

2.1 灰色GM(1,1)模型构建

2.1.1 灰色GM(1,1)模型[4]

定义:设时间序列有n个观察值:

X(0)=[X(0)(1),X(0)(2),…,X(0)(n)],通过累加生成新序列:

X(1)=[X(1)(1),X(1)(2),…,X(1)(n)],则称:

(1)式为GM(1,1)的原始形式,紧邻均值生成序列为:

则,

得GM(1,1)的灰色微分方程为:

上式中,a称为发展灰数,b称为内生控制灰数,灰色微分方程的白化方程为:

白化方程的解如下:

GM(1,1)灰微分方程的时间响应序列为:

累减后的预测方程为:

2.1.2 灰色GM(1,1)模型检验

得到预测数据后,必须经过检验才能判定模型的优良性。检验一般分残差检验、关联度检验和后验差检验,本研究以残差检验为主。残差检验是对模型的预测还原值与实际值的残差进行逐点检验,主要参数有绝对残差、相对残差()以及平均相对残差。给定α,当且φn<α都成立时,则称模型为残差合格模型。其中具体的判定标准为:相对残差在(0,0.02]内为优,在(0.02,0.05]内为合格,在(0.05,0.10]内为勉强合格,>0.10则为不合格。

2.2 灰色GM(1,1)模型的应用

以上述理论为基础,将其应用到2011年门诊检查类型的分析上。由RIS数据库得到2011年的原始数据为(2011年12月的数据为预测量,所以未加入原始数据):X(0)={10767,1 1074.14770,14273,151 18,14385,14867,15445,12992,13862,13902}。

然后再进行1-AGO(一次累加),得到累加序列为:X(1)={10767,21841,36611,50884,66002,80387,95254,1 10699,123691,137553,151455}。

紧邻均值生成序列则为:Z(1)={16300,29230,43750,58440,73190,87820,130620,144500}。

根据上面的数据,利用最小二乘法可得参数a、b为:a=-0.0058,b=13602。-a<0.3,故该原始数据序列适合中长期预测。由a、b的值可得到灰微分方程的时间响应序列:

2.3 灰色GM(1,1)模型预测结果

2011年1~11月门诊的预测检查量,见表2。实际值与预测值的对比图,见图3。由表2可知,灰色GM(1,1)预测模型的平均误差为7.41%,说明该预测结果勉强合格,但最大误差为23.75%,明显偏大。从图3可以看出,灰色GM(1,1)模型预测的曲线是较为平滑递增的,而实际值的波动性却比较大,证实灰色GM(1,1)模型不适用于波动性大的时间序列。

3 灰色马尔可夫模型预测分析

3.1 马尔可夫链的基本概念

3.1.1 马尔可夫链

定义:设随机过程{X(t),t∈T],其中时间T={0,1,2,…},状态空间I={0,1,2,…},若对任一时刻n,以及任意状态

i0,i1,…,in-1,i,j,有:

则称{X(t),t∈T}为1个马尔可夫链,并称上面的等式为马尔可夫的无后效性

3.1.2 转移概率

马氏链由状态i经过m步转移之后到达状态j的状态转移概率为:

其中Mij(m)为由状态i经过m步到状态j的次数,而M为状态i出现的次数。

3.1.3 转移矩阵

由1步转移概率为元素构成的矩阵P(1)为1步转移矩阵P=(pij),由n步转移概率为元素组成的矩阵为n步转移矩阵P(n)[5,6],如下:

3.2 灰色马尔可夫模型预测的基本步骤

3.2.1 状态划分

状态划分主要是根据灰色GM(1,1)模型预测所得到的数据序列的分布区间进行划分,可以使用E1,E2,…,En表示对应区间[7,8]。一般对状态划分主要使用残差划分或实际值与预测值的相对值来界定状态。本研究以2011年门诊实际检查量与灰色GM(1.1)模型预测检查量的相对值作为划分标准,得到的相对值,见表3。由表3可知,相对值的分布区间为[0.81,1.09]结合实际情况以及经多次分析对比后,决定根据相对值将其划分为(0.80,0.90],(0.90.1.00],(1.00,1.05],(1.05,1.10]4个状态(状态分布见表4)最后还可以将门诊实际检查值、GM(1,1)预测值以及刚得到的4个状态制成状态图(图4)。由图4可知,上面4个状态的划分形成了与灰色GM(1,1)预测值相互平行的4条曲线。

3.2.2 计算状态转移矩阵

根据上述划分的4个状态,由状态转移矩阵的原理以及上述公式,可以分别得到1步到4步状态的转移矩阵,如下所示:

3.2.3 计算预测值

由状态转移矩阵就能判断出要预测的数据序列所在的状态,并能依据此状态对灰色预测值进行修改。现以预测2011年12月门诊检查量为例来验证灰色马尔可夫模型的优化性能选择距离2011年12月门诊检查量最近的4个月份,并构建状态预测计算表,见表4。

根据表4可以得出,12月份门诊检查量在状态2的概率最大,因此将12月份的门诊检查量划分为状态2。灰色GM(1,1)模型对于12月份的检查预测量为。而马尔可夫模型预测区间由状态2可得:

对状态2取中间值即可得到12月份的灰色马尔可夫模型预测值为。与实际值13589对比可知,灰色马尔可夫模型的相对误差为1.53%,对比灰色GM(1,1)模型预测的相对误差6.87%,灰色马尔可夫模型的预测精度要比灰色模型的预测精度高。

3.2.4 误差对比

应用201 1年1~1 1月的灰色GM(1,1)预测值,根据状态区间计算方法,得到对应的1~11月的灰色马尔可夫模型的预测值。将实际值、灰色GM(1,1)的预测值以及灰色马尔可夫的预测值进行作图分析,结果见图5。

由图5可知,灰色GM(1,1)模型能大致预测检查趋势,但不能很好地反映实际值的波动性;而灰色马尔可夫模型预测曲线的拟合度明显优于灰色GM(1,1)模型,能较好地反应出门诊检查量的随机波动性。

再从误差精度角度分析灰色GM(1,1)模型与灰色马尔可夫模型的优良性。使用残差检验计算出两种模型预测值的残差,计算结果见表5。

由表5可知,使用灰色GM(1,1)模型预测门诊检查量的平均相对误差为7.41%,精度等级为勉强合格;而使用灰色马尔可夫模型预测门诊检查量的平均相对误差为1.81%,精度等级为优,证实了灰色马尔可夫模型与灰色GM(1,1)模型相比,在医学影像检查量预测方面具有明显的优势。

4 结论

本研究在灰色GM(1,1)模型的基础上,建立了灰色马尔可夫模型,对门诊检查量进行了预测。灰色GM(1,1)模型能有效地模拟出预测值的总体趋势,而灰色马尔可夫模型则能很好地解决随机波动性问题,且其预测精度更高,能更好地拟合实际值,值得临床推广。

参考文献

[1]伍平阳,林意群,林木炎.基于数据挖掘技术的医疗设备绩效预测方法的应用研究[J].南方医科大学学报,2008,28(2):222.

[2]霍洪波,何必仕,吴斌,等.基于数据仓库的医疗设备绩效统计分析[J].中国医疗设备,2013,28(9):27-30.

[3]吴佳峰,徐哲,何必仕,等.数据挖掘技术在医学影像信息系统中的应用[J].中国数字医学,2012,7(10):85-87.

[4]张恩明,王艳,李文红.改进的灰色马尔可夫模型在股票分析中的应用[J].哈尔滨工程大学学报,2007,(11):1292.

[5]杨德平,刘喜华,孙海涛.经济预测方法及MATLAB实现[M].北京:机械工业出版社,2012:239.

[6]张林华,刘玉洲.利用灰色马尔可夫模型预测煤矿安全事故[J].煤炭科学技术,2006,34(11):26.

[7]李小芳,孙宝盛,司志娟.基于灰色马尔可夫模型的城市污水量预测[J].环境工程学报,2013,7(1):237.

灰色马尔可夫 第4篇

一、我国货运量现状分析

我国货运量从1990年的970602万吨上涨到2010年的3241807万吨,总体呈现出增长趋势(如图1),货物运输对第三产业的贡献作用越来越突出。1997—1998年受由于泰国放弃与美元挂钩的固定汇率而引发的亚洲金融危机影响,这两年货运量环比出现负增长情况,其中1998年铁路、公路和水运货运量均出现下降;1999年全国货运量开始回升,直到2010年全国货运量突破300亿吨。

二、灰色马尔可夫预测模型的应用

1、货运量增长影响因素的灰色关联度分析

灰色关联度分析是以两个系统或两个因素之间的关联性大小的量度来对系统发展变化趋势作定量的描述和比较,其基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近,相应序列之间关联度就越大,反之就越小。灰色关联度分析的基本建模步骤是:确定参考序列Y与比较序列Xi,对原始数据进行无量纲化处理,求关联系数,计算公式如下

通过选取与货运量Y相关联的GDPX1、第三产业增加值X2和运输线路总长度X3进行关联度分析,取分辨系数ρ=0.5,计算出关联度系数L1、L2、L3分别为0.74、0.70、0.96。可以看出三大影响因素与货运量的关联度均较大。其中,运输线路总长度与我国货运量的关联度最大,达到0.96,GDP其次,第三产业增加值相对最小。

2、灰色马尔可夫模型在我国货运量预测的应用

(1)灰色马尔可夫模型理论

货运量受诸多因素影响,而其中许多影响因素又都是灰色的因而采用灰色系统理论进行预测将更加符合客观情况。但随着时间的推移和未来一些扰动因素对系统的影响,该方法对于随机波动性较大的数列精度降低。基于马尔可夫随机过程的马氏链理论则为问题的解决提供了可能,马尔可夫链预测方法的基本思路是通过原始数据序列求得序列的状态转移矩阵,根据状态转移矩阵对未来的变化趋势做出估计。

灰色马尔可夫模型建立基本步骤:先建立GM(1,1),求出其预测曲线;再以平滑的预测曲线为基准,划分若干动态的状态区间,计算出马尔可夫转移概率矩阵,由此矩阵预测未来状态,从而得出预测值区间,区间中点即为无偏灰色马尔可夫的最终预测值。

(2)灰色马尔可夫模型的应用

(1)GM(1,1)模型的建立

取我国1990-2010年的货运量数据为样本,利用R软件编写灰色预测程序,计算得到无偏灰色预测曲线为,其中预测初值为原始初值:

进而求得各年度的预测值及与实际值的偏差,预测模型的拟合曲线见图2。从拟合曲线来看,预测值基本接近真实值。其中,平均相对误差为10.3%,相对精度为89.7%,c=0.15<0.35,预测精度较好。但从2008年预测值开始出现低估,造成2012年预测值2986347万吨仍然低于2010年的实际值3241807万吨。

(2)货运量马尔可夫链预测修正

由马尔可夫链的分析方法和残差幅度分布情况,划分为以下几种状态:

(1)残差幅度介于-15%与-5%之间为状态1,表示高估状态;

(2)残差幅度介于-5%与5%之间为状态2,表示一般状态;

(3)残差幅度介于5%与15%之间为状态3,表示低估状态;

(4)残差幅度大于15%为状态4,表示极度低估状态;

通过状态的划分,可以得出一步转移概率矩阵

通过马尔可夫链对货运量预测值进行修正后,平均相对误差由10.29%变为3.79%,精度明显提高,拟合效果加强。2010年货运量预测值起始状态处于状态3,从矩阵行向量可以看出,2010年预测值处于状态3的概率最大,所以取2011年预测值修正结果为3328436.285万吨。

三、结论

灰色关联度分析可以找出与货运量密切相关的各种影响因素,同时通过关联度系数分析其影响程度;而由于外界因素的影响,使得原始数据发生很大变化,导致了GM(1,1)预测准确度下降,通过马尔可夫链修正,使得预测结果得到改善,平均相对误差减小。

本文重点对影响货运量的增长因素进行了关联度分析和基于灰色马尔可夫模型对我国货运量进行了预测,但笔者认为本文可以继续从以下方面进行改进:首先,货物运输业作为第三产业的重要组成部分,可以从投入产出表分析货物运输业的直接消耗系数、间接消耗系数、影响力和感应度系数;其次,根据货运量增长影响因素的灰色关联度分析,建立GM(1,n)模型和GM(1,n)马尔可夫模型,然后与GM(1,1)和GM(1,1)马尔可夫模型进行比较。

摘要:根据“十二五”交通规划,我国将大力推进公路、水路等重点交通基础设施建设,构建内外畅通的交通运输体系。为促进我国经济社会全面协调可持续发展提供了运输保障,货动量的准确预测显得尤为重要。本文通过分析与货运量增长相关因素的关联度,同时采用R软件编写灰色马尔可夫模型对我国“十二期间”货运量进行预测。

关键词:货运量,关联度,灰色马尔可夫模型

参考文献

[1]徐国祥.统计预测与决策[M].上海财经大学出版社,2008.

[2]薛毅,陈立萍.R统计建模与R软件[M].清华大学出版社,2007.

[3]肖枝洪,朱强.统计模拟及其R实现[M].武汉大学出版社.2010.

[4]陈实.货运量预测方法及应用研究[D].武汉理工大学硕士论文.2008.

[5]郭琼琼.基于灰色理论的铁路货运量预测研究[D].解放军信息工程大学硕士论文.2008.

[6]高蔚.GM—Markov综合模型在汽车货运量运输预测中的应用[J].机械设计与制造.2011(8).

[6]张诚,张广胜.基于优化灰色—马尔科夫链模型的铁路货运量预测[J].技术与方法.2011(7).

[7]王秀.一个无偏灰色马尔科夫铁路货运量预测模型[J].工业控制计算机.2011(2).

[8]赵青海.基于改进的灰色关联度分析法在居民消费结构分析中的应用[J].保定学院学报.2011(3).

灰色马尔可夫 第5篇

国内外对股票价格波动进行预测的模型依据其建模原理的不同, 可划分为两个大类:一类是以统计原理为基础的传统型波动率预测模型, 目前较为流行且具有代表性的模型包括ARCH模型和SV模型;另一类是以神经网络、灰色理论、支持向量机等为基础的创新型预测模型。[1]同时马尔可夫转移矩阵预测股指或个股的走势也得到了广泛的应用。

组合预测模型将成为我国股票价格预测模型发展的新方向。组合预测就是将不同的预测方法组合起来, 综合利用各种模型的有效信息, 以适当的加权平均形式得出一种新的预测方法。组合预测模型充分利用各模型的优点, 集结了尽可能多的有用信息, 弥补单一模型的片面性, 从而有效提高了模型的预测精度。[2]

灰色马尔可夫预测模型是将灰色预测模型与马尔可夫预测方法的优化组合。灰色预测模型能够利用小样本贫信息的数据建立微分方程, 预测数据未来发展趋势。在此假设股票价格反映股票的一切信息, 采用灰色预测模型符合其本质要求。马尔可夫则是一种具有无后效性的随机过程, 即一个时间序列所处的状态的条件分布只与系统当前时刻所处的状态有关。随机波动性较大的股票价格数据多具备马尔可夫性。利用马尔可夫模型的这种特性, 修正灰色预测模型的误差, 对当下随机趋势做出估计, 可以提高预测精度。

二、模型的总体描述

将预测系统的参数发展时间序列描述为一维非平稳方程:

GM (t) 为趋势预测, 采用灰色预测系统中的GM (1, 1) 模型, 对原始数据累加生成有较强规律性的序列, 然后建立相应的微分方程模型, 从而预测事物未来发展趋势的状况。Markov (t) 是误差修正, 以GM (1, 1) 的预测值与真实值之间的误差为建模对象, 得出状态转移矩阵。Markov (t) 可以预测企业自身、宏观经济环境变化等随机因素所导致的股票价格波动情况, 确定其取值为最大概率状态转移所在的误差区间的平均值。

三、以沪深300指数为例

沪深300指数是从沪深两市中选取300只股票作为其成份股, 其样本市值约占整个股票市场的六成左右, 具有良好的代表性。沪深300指数也是我国第一只用以反映A股整体市场表现的股票指数, 有利于投资者观察和把握国内股票市场的整体变化, 具有很好的投资参考价值。

为了验证灰色马尔可夫模型的效果, 我们以2011年6月17日到7月14日沪深300指数为基础数据, 进行预测。

1.建立GM (1, 1) 模型

第一步:数据处理。

注:其余日期为股市休息日

Z (1) 为X (1) 紧邻均值生成的数列:

X (0) (k) +a Z (1) =μ第三步:建立模型:

GM (1, 1) 灰色微分方程的时时间响应序列为:

第四步:模型检验。

X (0) 的方差为S1;残差εk为实际数据X (0) 与预测值X^ (0) 的差, 方差为S2;C=S1/S2;

P=ρ (εk<0.6745S1) P为小残差概率

根据后验差检验规则C=0.2469<0.35, P=1>0.95, 模型精度为优。

2.马尔可夫模型改造GM (1, 1) 模型

第一步:根据马尔可夫链分析方法的应用经验及残差幅度分布情况, 可做如下划分:

第二步:计算状态转移矩阵:

一步转移矩阵为P (1) , 当马尔可夫链为齐次时, 其转移概率具有平稳性, n步转移矩阵为P (n) :

第三步:模型修正及其结果。

MAX (P2j) =P21比较7/14实际值3115.74与GM (1, 1) 模型计算的预测值3150.3, 实际值处于状态2, ,

表明下一步状态会由状态2转到状态1, 残差在[-70-40]区间范围内。

四、结语

灰色马尔可夫预测模型综合灰色预测模型和马尔可夫链预测方法两者的优点, 灰色预测曲线虽很好的反映沪深300指数历史发展趋势, 但随着时间的推移, 一些随机扰动或驱动因素使灰系统发展受到影响, 此时引入马尔可夫模型, 把当前波动计算加入模型中, 扩展了灰色预测的应用范围, 有效地改善时间序列数据的精度。

影响股票价格波动的因素很复杂。除了受基本面和技术指标等数量性因素影响之外, 还要受政策、心理波动、国际突发事件等非量化因素的影响。而我国股市从1990年上证交易所成立并开始交易算起, 至今仅有21年的历史。在这21年中, 由于政策、监管、股改等原因影响我国股市经历了几次大起大落, 加之上市公司数量有限并不断变化, 数据随机波动性较大。

灰色预测模型和马尔可夫预测模型都属于创新型预测模型, 是完全脱离统计理论的基础, 以一种创新型的建模思维来建立预测模型。灰色模型是建立在灰色理论基础之上的, 依据广义能量变化规律, 对历史资料进行累加处理, 使其呈现出指数变化规律。两者的结合可以提高预测精度和增加外推性。

摘要:建立灰色GM (1, 1) 与马尔可夫链的组合预测模型, 用灰色预测模型预测随机时间序列数据的总体发展趋势, 而用马尔可夫链模型修正数据随机波动所带来的预测误差。以沪深300指数的真实数据进行验证, 结果表明:灰色马尔可夫预测模型既能预测随机数据序列的总体趋势, 又适应股票价格随机波动性较大的特点, 灰色马尔可夫预测模型预测精度高于GM (1, 1) 模型的预测精度。

关键词:股票价格预测,灰色-马尔可夫,组合预测模型,沪深300指数,模型精度

参考文献

[1]沈巍.财经问题研究[J].2009-07.P89-98.

[2]黄兰池, 刘艳梅.交通流组合预测模型的建立[J].公路交通科技 (应用技术版) , 2007-04.P32—34.

[3]高蔚.基于Markov理论的改进灰色GM (1, 1) 预测模型研究.计算机工程与科学[J].2011-02.P159-163

南通城区牛奶销售的马尔可夫分析 第6篇

一、马尔可夫分析

牛奶的销售是每月订一次, 要订哪个厂的牛奶由顾客自主选择, 具有随机性, 因此, 可进行马尔可夫分析。对表1利用马尔可夫分析法算出:xAA=160, xBA=35, xCA=25, xAB=20, xBB=450, xCB=20, xAC=20, xBC=15, xCC=255;PAA=0.80, PBA=0.070, PCA=0.083, PAB=0.10, PBB=0.90, PCB=0.067, PAC=0.10, PBC=0.03, PCC=0.85。这里xij表示i失于j的顾客数, Pij表示i失于j的概率.由此可预测2008年1月1日A、B、C三厂的市场占有率:A厂为23.4%, B厂为48.3%, C厂为28.3%.即2008年一月份孩儿蜜牛奶厂将拥有全部顾客的23.4%, 光明牛奶厂为48.3%, 卫岗牛奶厂为28.3%, 仍以“光明牛奶”的市场占有率最高。

二、启示

1. 同类产品看质量

通过对调查资料的分析, 发现在各种牛奶中, 居民对不同品牌的需求首先注重质量。在我们调查的1000户中, 近期订购“光明牛奶”的有490户, 市场占有率为49%;订购“卫岗牛奶”的有290户, 市场占有率为29%;订购“孩儿蜜牛奶”的有220户, 市场占有率为22%。在激烈的市场竞争中, “光明牛奶”的市场占有率最高, 这就足以证明该品牌所具有的竞争优势。

“光明牛奶”的竞争优势在哪里呢?我们在调查时通过口头询问和笔录的方式分别获得了居民对牛奶质量和价格满意程度的情况 (表2) 。

从表2可以看出, “光明牛奶”在质量的评价上明显优于其他品牌。

2. 同等质量看宣传

在调查中, 针对企业产品宣传, 采访了部分居民。相信牛奶促销宣传的为78.9%.调查资料表明, 在1000户中, 比较满意“卫岗牛奶”促销宣传效果的有412户, 占41.2%;“孩儿蜜牛奶”的满意户数有368户, 占36.8%。这表明, “卫岗牛奶”虽然在质量上同“孩儿蜜牛奶”差不多, 非常满意的都在19%左右, 但对于宣传效果, 前者高出后者4.4个百分点。“卫岗牛奶”厂家经常利用双休日, 聘请大学生在多个居委会进行有效的促销宣传, 学生身穿“卫岗牛奶”厂家的广告服装, 服务热情, 口齿清晰, 有时还表演相关的文艺节目, 给居民们留下了非常深刻的印象, 这足以影响产品的销售量。企业产品不仅仅靠质量, 宣传也同样具有举足轻重的作用。

3. 同样宣传看价格

在调查中, 居民满意“光明牛奶”促销宣传效果的有4520户, 占45.2%, 这与“卫岗牛奶”的412户, 占41.2%, 差距不大, 只相差4个百分点, 但销售量却有相当大的差别, 相差20个百分点 (48.3%-28.3%=20%) 。这其中的价格因素是不容忽视的。从表2看出, 居民对对牛奶价格非常满意和比较满意的, “光明牛奶”占44.53%, “卫岗牛奶”占40.33%, 它们之间相差4.2个百分点, 对其销售量有很大影响。由于收入水平的差异, 导致居民对价格承受力也不同, 从而对其销售量也有很大程度的影响。这就启发企业应针对不同的消费者制定合理的价格。

4. 同样价格看包装

价格是依据产品成本、质量和供求关系制定的。“卫岗牛奶”与“孩儿蜜牛奶”价格相近, 但从市场只有率看, “卫岗牛奶”比“孩儿蜜牛奶”高出7个百分点, 这种差异与牛奶的包装也有紧密的联系。居民对包装满意的, “卫岗牛奶”占65.55%, “孩儿蜜牛奶”占47.91%。调查中, 一些居民告诉我们, 他们对“卫岗牛奶”的包装很欣赏, 不仅采用了袋装, 而且还有适合消费心理的大小盒装。

三、建议

第一, 以质量为中心狠抓广告宣传.在抓好质量的前提下, 运用多种媒体、利用多种形式、选择多种场合, 进行广泛宣传, 来提高企业知名度, 树立良好形象。

第二, 针对不同家庭对同一牛奶产品实行两种包装.由于家庭之间的收入水平有差异, 高收入家庭有能力购买质量好且包装精美的牛奶产品, 低收入家庭则重视牛奶的内在质量不太关心包装, 为此, 牛奶生产厂家可采取多种包装形式, 即精装适用于高收入家庭, 简单包装适用于低收入家庭。

灰色马尔可夫 第7篇

纹理反映的是图像像元灰度的空间变化特征。它是分布在整幅图像或图像中某一区域内具有规律性的图形;是细小物体在图像上大量重复出现所形成的结果;是大量个体的形状、大小、阴影、色调的综合反映。与普通图像相比, 纹理图像中同一对象类别内部的光谱特征差异较大, 而不同对象类别之间的光谱特征差异较小。传统的基于光谱统计分析算法不再适用于纹理图像分类。提取有效的纹理特征, 是确保纹理图像分类效果的关键步骤。

纹理特征提取是从纹理图像中计算出一些在某个区域内保持相对平衡的特征值, 并用这些特征值表示区域内的一致性以及区域间的差异性。多年来, 研究者建立了许多纹理特征提取算法[1];其中, 马尔可夫模型在纹理图像分析领域得到了广泛应用并取得了长足发展。文献[2]从一幅标准纹理图像 (750×750) 中提出9块100×100大小子图像测定MRF参数的结果, 证明了马尔可夫随机场 (MRF) 参数能够有效地反映纹理特征, 是描述随机纹理特征的有力工具。文献[3]在传统MRF的邻域基团势函数基础上, 引入图像邻域中各个像素的强度差值以及像素之间的距离因子, 使雷达图像中空间上下文信息得以充分体现。

马尔可夫模型主要是建立在邻域系统基础上的, 邻域系统主要有栅格邻域系统[4]和环形邻域系统[5]。与栅格邻域相比, 基于环形邻域的马尔可夫模型能够较好地应用于旋转不变性纹理特征的提取。但是, 关于环形邻域的研究仅局限在提取旋转不变性特征上, 并没有在其他方面作进一步的探讨。本文将在不考虑图像旋转的前提下, 基于上述两种邻域系统建立高斯马尔可夫随机场模型, 分别提取相应的纹理特征, 并比较两者在纹理图像分类中的有效性。

1环形马尔可夫模型

马尔可夫特性, 又称无后效性, 即在已知“现在”的状态条件下, “将来”状态的概率与其“过去”的状态无关。若将图像视为马尔可夫随机场, 则图像像元的属性值仅受到其邻域像元属性值的影响, 而与其他像元无关。高斯马尔可夫随机场模型 (GMRF) 能够较好地描述和合成大量的自然和人工纹理图像[6]。GMRF的统计相关性主要体现在:每个中心像元的灰度值等于邻域像元灰度值的线性组合与附加噪声之和;数学表达式如下:

f (s) -μ=rΝβ (r) (f (s+r) -μ) +e (s) (1)

其中, s是像元的空间位置, N是定义的邻域系统, f (s) 是像元s的灰度值, μ是图像的均值, e (s) 是均值等于零、条件方差等于ν的高斯噪声, β (·) 是描述纹理特征的空间相关性系数。

1.1栅格邻域系统

栅格邻域系统, 是最常用的一种邻域系统, 邻域中各点的位置坐标只能取整数值[4], 如图1所示。邻域阶数决定邻域的大小, 图1描述了阶数从1至6所对应的栅格邻域系统;s表示中心像元, 1阶栅格邻域由标号为1.x的栅格点构成, 2阶栅格邻域由标号为1.x和2.x的栅格点构成, 依次类推。

由公式 (1) 可知, GMRF模型是由一组参数{β (r) :rN}和条件方差ν决定的。换言之, 纹理特征集可由模型参数{β (r) :rN}和条件方差ν构成。GMRF模型参数求解的方法有很多[7], 本文采用计算效率较高的最大伪似然法。由于噪声e (s) 自相关函数对称性的存在[7], GMRF邻域像元与其相对应的系数也应该是对称的。因此, 为了节约计算成本, 求解非对称的模型参数即可。定义Ω为非对称的半平面邻域系统, 它满足下述条件:Ψ={r:-rΩ}, N=ΩΨ, 且ΩΨ=ϕ。假设W是用以统计纹理特征的图像窗口, GMRF模型参数求解公式表示如下:

β=[sWq (s) (q (s) ) Τ]-1[sWq (s) (f (s) -μ) ] (2)

其中, q (s) =col[ (f (s+r) -μ) + (f (s-r) -μ) :rΩ], β=col[β (r) :rΩ];其对应的条件方差计算公式为:

ν=1ΜsW[ (f (s) -μ) - (q (s) ) Τβ]2 (3)

其中, M是图像窗口W中的像元总个数。

1.2环形邻域系统

环形邻域系统最先是由Kashyap等[8]于1986年提出的, 后由Porter等[5]、Deng等[9]加以应用和改进, 主要目的是为了提取旋转不变性的纹理特征。对于环形邻域系统, 邻域像元平均分布在各个圆环上, 其位置并不一定落在图像栅格中, 也就是说, 各点的位置坐标可能是非整数值。

本文设计的环形邻域系统如图2所示, s为中心像元, 1阶环形邻域对应着最里面圆环上的8个点:{1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8}。与栅格邻域系统相同, 高阶邻域包含了其对应的较低阶邻域, 即2阶邻域包含了1阶邻域, 3阶邻域包含了2阶邻域。邻域中各个圆环上的点成等角间距分布;邻域系统中各个圆环的角间距可以设为不等,

外圆环的角间距一般小于内圆环的角间距。图2中, 1阶邻域圆环上的角间距为45°, 2阶邻域外圆环上的角间距为22.5°, 3阶邻域外圆环上的角间距为11.25°。非整数坐标邻域像元的属性值可以通过内插算法求解获得, 本文采用双线性插值算法。

与栅格邻域相比, 环形邻域中的像元个数较多, 相应地, 模型系数也较多;例如, 对于3阶的非对称半平面邻域而言, 栅格GMRF模型参数只有6个, 环形GMRF模型参数个数则增加到24。由于环形邻域内插值的存在使得邻域各点之间的相关性较强, 若直接采用公式 (2) 求解环形GMRF模型参数, 可能会遇到矩阵奇异的情况发生。因此, 为了避免矩阵奇异问题, 将环形GMRF模型参数进行分组求解, 尽量降低各组内所对应的邻域数值的相关性。

对环形GMRF模型参数进行分组, 也就是对相应的邻域进行分组。顾及到双线性内插点与其周围点之间的相关性, 邻域分组原则主要有以下两点: (1) 对各个圆环进行独立分组, 即不同圆环上的点属于不同组; (2) 避免将相关性较强的邻域点放在同一组内。根据上述分组原则, 对于图2中的3阶环形邻域, 其分组结果为:CN1={1.1, 1.3, 1.5, 1.7}, CN2={1.2, 1.4, 1.6, 1.8}, CN3={2.1, 2.3, 2.5, 2.7, 2.9, 2.11, 2.13, 2.15}, CN4={2.2, 2.4, 2.6, 2.8, 2.10, 2.12, 2.14, 2.16}, CN5={3.1, 3.4, 3.7, 3.10, 3.13, 3.16, 3.19, 3.22}, CN6={3.2, 3.5, 3.8, 3.11, 3.14, 3.17, 3.20, 3.23}, 和CN7={3.3, 3.6, 3.9, 3.12, 3.15, 3.18, 3.21, 3.24}共7组邻域。

本文基于邻域分组原则, 设计了模型参数分步求解算法。定义m为模型参数分组的总组数, k在集合{1, 2, …, m}中取值。环形GMRF模型与栅格GMRF模型相同, 两者都符合邻域对称和模型参数对称的特性。令HNk表示邻域CNk的非对称半平面邻域, qk (s) =col[ (f (s+r) -μ) + (f (s-r) -μ) :rHNk], βk=col[β (r) :rHNk]表示待求解的模型参数。分步求解算法考虑了各组参数βk之间的相互依存性, 而且低阶模型参数总是独立于高阶模型参数存在的。假设M为纹理特征计算窗口W的总像元个数, 分步求解算法的具体步骤如下:

Step1 当k=1时, 参数βk计算公式为:

βk=[sWqk (s) (qk (s) ) Τ]-1[sWqk (s) (f (s) -μ) ] (4)

对应方差νk求解公式如下:

νk=1ΜsW[ (f (s) -μ) - (qk (s) ) Τβk]2 (5)

Step2 当1<k≤m时, 参数βk计算公式为:

βk=[sWqk (s) (qk (s) ) Τ]-1[sWqk (s) (f (s) -μ+f (s) ) ] (6)

其中, f (s) =i=1k-1[f (s) -μm- (qi (s) ) Τβi];对应方差νk计算公式为:

νk=1ΜsW[ (f (s) -μ) -i=1k (qk (s) ) Τβk]2 (7)

2基于环形马尔可夫模型的纹理图像分类算法

由公式 (4) - (7) 可知, 在基于环形GMRF模型进行纹理特征提取过程中, 低阶模型参数总是独立于高阶模型参数存在的。因此, 在进行纹理分析时, 不再需要根据实际分析的纹理确定准确的模型阶数。本文采用3阶邻域系统进行纹理分析, 若当前采用的模型阶数偏高, 那么中心像元与外圆环上的邻域点的相关性较弱;相应地, 对应的模型参数在纹理识别中的意义不大, 即冗余特征, 这些冗余特征可通过特征选择方法。

本文所设计的基于环形马尔可夫模型的纹理图像分类算法具体步骤如下所述。

Step1 纹理特征提取 与光谱特征不同, 纹理特征不再是对某个像元的属性描述, 而是对图像的某一区域上的描述。提取纹理特征时, 首先要确定分析窗口的大小, 然后将分析窗口在图像上以一个像元为单位从左至右、从上至下进行漫游, 根据公式 (4) - (7) 计算相应的纹理特征参量, 并将计算结果作为对应窗口中心像元的纹理特征。图3给出了基于C++编程语言的环形GMRF纹理特征提取的伪代码流程图。

Step2 纹理特征归一化 将提取的纹理特征进行高斯归一化处理, 均衡各个特征在图像分类中的贡献。

Step3 纹理特征选择 特征选择是确保分类效果的有效手段, 其任务是从众多特征中找出那些对分类识别贡献最大的特征。本文采用基于动态邻域的Tabu搜索算法[10], 剔除在纹理识别中的冗余特征, 得到一个较优的特征子集。

Step4 纹理图像分类 基于Step3中得到的纹理特征子集, 使用最大似然分类方法实现纹理图像分类, 采用总分类精度和Kappa系数评价分类精度[11]。

3实验分析

为了验证本文算法的有效性和适用性, 采用Brodatz纹理图像[12]进行实验, 如图4所示。本文算法是在Intel Pentium 1.6 GHz CPU、512MB内存的微机平台上, 基于Visual C++编程实现。图4是由6个不同类型的Brodatz纹理构成的, 从左到右从上到下依次为D21、D54、D49、D15、D68和D110, 每个子纹理块的大小均为128×128。基于3阶环形邻域的GMRF模型, 利用公式 (4) - (7) 计算纹理特征, 图像中的每个像元总对应着一个31维的纹理特征向量, 即24个模型参数和7个模型方差。将31维的纹理特征向量视为原始特征集, 采用NOTS算法对原始特征集进行特征选择, 得到一组较优的特征子集。图5 (a) 是由特征子集的前三个特征合成的假彩色特征影像。最后, 将特征子集输入到最大似然分类器中, 分类结果如图5 (b) 所示。相应地, 使用3阶栅格邻域的GMRF模型进行比较实验。对于3阶栅格邻域而言, 图像中的每个像元总对应着一个7维的纹理特征向量, 即6个模型参数和1个模型方差构成原始特征集;经过特征选择后得到特征子集, 图5 (c) 是特征子集的前三个特征合成的假彩色图像, 图5 (d) 是对应的分类结果。由图4可知, Brodatz纹理D15、D21和D68均在纵向上具有很强的相关性, 尤其是D15和D68这两种纹理类别的特征极为相似;栅格邻域的GMRF模型对这三种纹理的分类产生错分的现象较为严重, 而环形邻域的GMRF模型能够较好地提取更多的空间相关性信息, 能够很好地区分这三种纹理类别。表1列出了上述两种模型的分类结果比较, 栅格GMRF模型对应的Kappa系数仅为0.7623, 环形GMRF对应的Kappa系数则达到了0.8727, 提高了14.48%。

4结束语

本文提出了基于环形马尔可夫模型的纹理图像分类算法。首先, 基于环形邻域构建GMRF模型, 设计了分步求解模型参数方法, 从而有效避免矩阵运算过程中可能遇到的奇异问题。然后, 将环形GMRF纹理参量构成原始纹理特征集, 利用动态邻域Tabu搜索算法进行特征选择, 得到较优的纹理特征子集。最后, 将纹理特征子集输入到最大似然分类器, 实现纹理图像的分类。实验证明, 本文提出的纹理图像分类算法效果较好, 且具有一定的普遍适用性。与传统的栅格GMRF模型相比, 环形GMRF模型能够提取更为详尽的纹理特征信息, 尤其是在识别纹理特征类似的不同的物类型时更能显示其优越性。

参考文献

[1]Reed TR, Du Buf J.A review of recent texture segmentation and fea-ture extraction techniques[J].CVGIP:Image Understanding, 1993, 57 (3) :359-372.

[2]郑肇葆, 周月琴.马尔柯夫随机场的参数估计与影像纹理分类[J].测绘学报, 1995, 24 (1) :45-51.

[3]侯一民, 郭雷.一种基于马尔可夫随机场的SAR图像分割新方法[J].电子与信息学报, 2007, 29 (5) :1069-1072.

[4]Balram A, Moura J MF.Noncausal Gauss Markov Random Fields:Pa-rameters Structure and Estimation[J].IEEE Transactions on Informa-tion Theory, 1993, 39 (4) :1333-1355.

[5]Porter R, Canagarajah N.Robust Rotation-Invariant Texture Classifica-tion:Wavelet, Gabor Filter and GMRF Based Schemes[J].IEE Pro-ceedings-Visual Image Signal Process, 1997, 144 (3) :180-188.

[6]Chellappa R, Chatterjee S.Texture Synthesis and Compression UsingGaussian-Markov RandomField Models[J].IEEE Transactions on Sys-tems, Man, and Cybernetics, 1985, 15 (2) :298-303.

[7]Sharma G, Chellappa R.Model-Based Approach for Estimation of Two-Dimensional Maximum Entropy Power Spectra[J].IEEE Transactionson Information Theory, 1985, 31 (1) :90-99.

[8]Kashyap R L, Khotanzad A.AModel-Based Method for Rotation Invari-ant Texture Classification[J].IEEE Transactions on Pattern Analysisand Machine Intelligence, 1986, 8 (4) :472-481.

[9]Deng HW, Clausi D A.Gaussian MRF Rotation-Invariant Features forImage Classification[J].IEEE Transactions on Pattern Analysis andMachine Intelligence, 2004, 26 (7) :951-955.

[10]Zhang L, Zhao Y, Huang B, et al.Texture feature fusion with neighbor-hood-oscillating tabu search for high resolution image classification[J].Photogrammetric Engineering&Remote Sensing, 2008, 74 (3) .

[11]彭望?, 白振平, 刘湘南, 等.遥感概论[M].北京:高等教育出版社, 2002.

灰色马尔可夫 第8篇

IDS (Intrusion Detection Systems) 是依照一定的安全策略, 对网络、系统的运行状况进行监视, 以保证网络系统资源的安全。随着网络中数据流量的飞速增长, IDS 收集的原始数据往往会非常庞大, 为了降低处理和传输的代价, 可以在数据提取这一环节[1], 删除冗余的和对检测入侵没有重要影响的数据。本文针对数据提取问题, 设计了一种基于HMM的网络模型, 它可以感知网络状态, 以此来判断网络数据的安全程度, 决定是否过滤数据。

1隐马尔可夫模型及在网络分析中的应用

隐马尔可夫模型是一种统计分析模型, 创立于20世纪70年代。使用隐马尔可夫模型可以有效解决三方面问题:评估、解码和学习[2]。

1.1建立网络的隐马尔可夫模型

(1) 组织隐马可夫模型的五元组数据

状态集合ΩX包含两个状态:正常状态和非正常状态。ΩX={q1, q2, …, qN}, N=2。网络的初始状态是正常状态, 网络最初状态是以概率1为正常, 以概率0为非正常, π={πq1, πq2, …, πqN}。状态转移矩阵A是一步转移概率矩阵, 根据ΩX可知A包含四个元素。本文模型是对正常网络建模[3], 所以任何网络状态都会以概率1转移至正常状态。用qiqj表示从状态qi转移至qj的概率, 则A可表述为:A= (pqiqj) N*N。观测结果源于观测对象的离散度与数据净荷度, 观测对象的基本单位是ω个数据包, ΩO={v1, v2, …, vM}, M= (w+1) * (2*w+1) 。

如图1所示, 通常, 实际网络中的正常流量是远远大于恶意流量的, 同时正常流量可以按协议划分, 它的统计特性随网络硬件环境、用户群和软件环境而有较大差异, 因此, 实际网络的特征几乎是由正常流量来体现的[4]。在正常的网络访问中, 一个服务器的输入与输出的数据包吞吐量比是一个常数。当网络中发生异常事件的时候, 比如发生连接耗尽型攻击, 攻击者为实现攻击目的会使发包速率至少超过一个特定值[5], 受害者也无法再提供服务的响应;或者发生带宽耗尽攻击, 受害者因为网络拥塞无法提供服务。而一般攻击事件的前传都会伴随扫描事件的发生[6]。

综上所述, 恶意流量带给网络状态的明显特征是数据包流向与净荷的改变, 我们对网络数据流提取如下二维特征:流向 (dr) 、净荷 (dSize) , 这两种特征本身是不相关的, 但是它们与网络状态相关性很强, 组合在一起比较有表现力。本文采用以下方法使用它们。首先, 定义一个观测窗口 (ω) , 这和其它模型表述差不多, 表示观测对象序列长度。把数据流向分为流入节点 (dr_in) 和流出节点 (dr_out) 两种, 并分别用数据{0, 1}来标识;dr_in_sum表示观测窗口内dr_in数据包的数量和 (dr_sum, dr_out_sum同理) , 我们统计观测窗口内数据包流向的离散度, 数学计算公式是 (dr_in_sum-dr_out_sum) /dr_sum;因为在同一个模型中ω不变, 即dr_sum不变, 因此公式可化简为dr_in_sum, 适合于编程, 净荷的数据范围很大, 一般在[0, 65535]都被大部分协议允许使用, 本文把净荷 (dSize) 分成三种度量状态:{小, 正常, 大}, 并分别用数值{0, 1, 2}来标识这种度量大小, 量化标准如表1所示。

对这二维数据进行组合, 生成观测结果数据。设离散度用x表示, 净荷度用y表示, 观测结果的数值用obs表示, 则特征转换为观测值的单映射函数为:

obs=x× (2×w+1) +y. (1)

经过以上的数据提取与整合, 就产生了观测结果, 经计算可知相对于本模型的观测结果集合数量计算公式为:

M= (w+1) × (2×w+1) (2)

本文模型中的观测对象是由ω个数据包组成的无序队列, 我们认为数据包中的二维数据在反映恶意流量这方面的影响不同, 所以分别统计各维数据的概率, 然后经过加权处理生成最终观测概率。

(2) 网络状态分析流程

网络状态分析模块负责对收到的审计数据进行分析处理, 它根据当前数据流量与正常网络模型进行对比, 从而对网络状态进行评估, 得到当前数据所反应的网络趋于正常网络状态的概率值。其流程如图2所示。

2实验及分析

由图3可以看出, 正常网络流量 (normalAA) 下状态值大而集中, 输出值比较丰富;攻击产生的状态值比较低而且集中, 输出值比较少。因此, 如果在实际网络中, 出现状态输出低, 或者曲线波动集中在某些特定点上, 都可以认为网络不正常, 然后采取进一步操作。

分析表2数据, 得到如下结论:

(1) 对恶意流量的识别准确率明显高于正常流量, 说明模型本身确实是对恶意流量敏感的。

(2) 以ω为变量来观察整体恶意流量识别准确率 (对所有恶意流量识别准确率值取算术均值) 曲线, 它是一个上凸形曲线, 说明观测窗口的选择不是绝对大或者小就好, 至少ω是有一个局部最优值的。对正常流量识别率亦如此。

3结束语

本文针对网络流量组成, 运用HMM给网络状态建立模型。在关键的观测部分, 分析了恶意流量所具有的特征, 提出以二维数据描述数据流, 组成 (ω+1) × (ω×2+1) 种流量状态, 这种状态描述对恶意流量十分敏感, 对研究网络异常情况具有重要意义。研究结果表明, 我们的机制是正确的、可行的, 能有效感知当前网络状态。下一步的工作, 我们准备把它作为数据过滤方法, 运用到基于模式匹配的入侵检测系统中, 在实际的网络流量检测中发挥作用。

摘要:针对数据过滤问题提出了一种网络状态分析方法, 该方法从恶意数据流中提取二维特征, 经过数值加权把这二维特征整合为观测数据, 建立了一个对恶意数据流敏感的隐马尔可夫模型, 最后以各种网络数据集为例对其应用情况进行了分析。

关键词:网络安全,数据包过滤,隐马尔可夫模型,状态分析

参考文献

[1]周蓉, 周贤伟, 郑连存.基于网络连接的攻击分类研究[J].微电子学与计算机, 2006, 23 (5) :132-135.

[3]睢丹, 姚亚辉.基于隐马尔可夫的系统入侵检测方法[J].信息安全, 2007 (3) :73-75.

[4]廖明涛, 张德运, 侯琳.基于失败连接分析的网络蠕虫检测系统研究[J].微电子学与计算机, 2007, 24 (5) :100-102.

[5]陈刚.DDoS攻击的对策研究[D].西安:西安电子科技大学, 2005.

[6]余生晨, 王树, 高晓燕, 等.网络入侵检测系统中的最佳特征组合选择方法[J].计算机工程, 2008, 34 (1) :150-152.

Copyright © 2019- yule263.com 版权所有 湘ICP备2023023988号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务