基于连续型条件属性的模糊规则约简算法
摘 要:针对粗糙集对于连续域属性决策表的处理能力差与不容易获得模糊集之间关系等问题,提出一种将模糊集与粗糙集结合起来的连续型条件属性模糊规则约简算法。该算法首先引入三角从属度函数将连续属性值转换为模糊值,并运用离散模糊神经网络方法获得数据集之间关系。实例验证表明,采用该算法,用户可以根据实际决策需求和领域知识更改阈值,从而获得满意的模糊规则结果。
关键词:条件属性;连续型;隶属度函数;模糊规则
Attribute reduction algorithms of fuzzy rules based on?continuous domain condition attributes
CUI Meng-tian?1,ZHU Hao-dong?2,ZHONG Yong?2?(1.School of Computer Science & Technology, Southwest University for Nationalities, Chengdu 610041, China;2.Chengdu Institute of ?Computer Applications, Chinese Academy of Sciences, Chengdu610041, China)
Abstract:To solve the problems of low adaptability for continuous domain reduction and the disadvantage of failing to obtain eventual relationship among the fuzzy sets,this paper proposed a new method of attribute reduction algorithms of decision table based on combining fuzzy set with rough set. First,transformed continuous attribute value into fuzzy value with triangular membership function,then provided algorithms of hard C-means(HCM) clustering to obtain relationship among the fuzzy sets.In the end,simulation results show the effectiveness of the proposed method through an illustrative example.
Key words:condition attributes; continuous; membership function; fuzzy rules
0 引言
粗糙集理论[1]是一种研究不精确、不确定性知识的数学工具,其主要思想和优点就是在保持分类能力不变的前提下,能够通过知识约简导出问题的决策或分类规则。属性约简就是该理论中一个非常重要的概念,它反映了一个决策表的本质信息,现已得到广泛的应用[2]。
在实际情况中,大多数数据集的属性值是连续型的。这些连续型数据大多具有较强的模糊性,概念之间的界限并不十分明确。由于传统粗糙集理论十分适合处理离散域属性决策表,对于连续域属性决策表的处理能力非常有限,这就大大限制了它的应用。如果把粗糙集理论应用于连续性属性,那么在使用该理论之前就必须对连续属性进行离散化。然而,离散化后的属性值没有保留属性值在实数值上存在的差异,这将导致某种程度的信息损失。所以,粗糙集理论需要与其他能够处理不精确或不确定问题的理论结合起来,以扩展其应用范围。
模糊集理论也是一种用于在建模中针对一些实验数据中不确定性和模糊性问题的有力工具。其优点在于:模糊集理论提供了系统的、以语言表示这类信息的计算工具,通过使用由隶属函数表示的语言变量,它还可以进行数值计算。合理选择模糊规则是模糊推理系统的关键因素,它可以有效地对特定应用领域中的人类专门知识进行建模。Pawlak指出粗糙集理论和模糊集理论不是互相排斥的,而是可以相互补充的[3];Dubois等人[4]又进一步指出它们是处理不确定知识的两种数学方法,是具有互补性质的。为此,本文提出了一种将粗糙集和模糊集结合起来的连续型条件属性的模糊规则约简算法。
1 相关定义
为了较好地描述本文算法,先给出下面的一些定义作?铺垫。
定义1 连续域决策表S=〈U,C,D,V,f〉。其中:U是非空有限对象集合U={u?1,u?2,…,u?n};C={c?1,c?2,…,c?m}是条件属性集合,每个属性都是连续型属性;D={d}是决策属性。
对于?c?j∈C(j=1,2,…,m),都可以使用隶属度函数将它的连续型属性值转换为模糊值。用I?j?k表示连续属性c?j的第k个模糊区间,m?j表示c?j的模糊区间个数,μ?kij表示对象u?i(i=1,2,…,n)在模糊区间I?j?k的隶属度,vij表示u?i在c?j的属性值,则vij可表示如下:
vij=μ?1ij/I?j?1+μ?2ij/I?j?2+…+μ??m??j?ij/I??m??j??j(1)
定义2 对于连续域决策表S=〈U,C,D,V,f〉,对象u?i和u?s在连续型属性c?j的相似度定义如下:
μc??j(u?i,u?s)=1-1m?j?m?jt=1|μ?tij-μ?1sj|(2)
定义3 对于连续域决策表S=〈U,C,D,V,f〉,对象u?i在连续型属性c?j上的相似类可以定义如下:
sim?βc??j(u?i)={u?t|μc??j(u?i,u?t)≥β,t=1,2,…,n}(3)
其中:β为所给的相似度阈值。
定义4 对于连续域决策表S=〈U,C,D,V,f〉,连续型属性c?j在U上划分所形成的相似类集组成的向量定义如下:
simClassVector(c?j)=(sim?βc??j (u?i)|i=1,2,…,n)(4)
2 数字特征向量及其相似矩阵
在决策表中,每个属性可以找到一个表示其特性的向量,这个向量可以称为属性的数字特征向量。
定义5 对于连续域决策表S=〈U,C,D,V,f〉,假设连续型属性c?i在U上划分所形成的相似类集组成的向量定义为simClassVector(c?j)=(sim?βc??j (u?i)|i=1,2,…,n),则连续属性c?i的数字特征向量可定义为
DCV(c?i)=(λit|λit=card(sim?βc??i(u?t)),t=1,2,…,n)(5)
模糊集理论的基础是模糊关系,最简单的表现方法就是相似关系。相似关系是指满足自反性和对称性的二元模糊关系。众多相似关系可以构造成相似矩阵,相似矩阵的传递闭包是模糊等价关系,其每个λ截集都是通常意义下的等价关系。
定义6 对于连续域决策表S=〈U,C,D,V,f〉,连续属性c?i(i=1,2,…,m)的数字特征向量DCV(c?i),连续属性间的相似矩阵定义为[R]=(rij)m×n。其中[R]中每个元素定义为
rij=1-δ×?nk=1|λik-λjk|(6)
其中:i, j=1,2,…,m;0<δ<1为一个常数;m为条件属性的总个数。
3 新的属性约简算法
本文所提出的新的属性约简算法适用于条件属性是连续型的决策表,其描述如下:
输入:连续域决策表S=〈U,C,D,V,f〉、相似度阈值β、相似矩阵元素常量系数δ、模糊等价矩阵的截集阈值λ。
输出:满意的主观条件属性约简集和模糊规则集。
a)将决策表中每个属性的连续值使用三角隶属度函数转换为模糊值;
b)根据β以及式(1)~(4)计算各个条件属性的数字特征向量;
c)通过 HCM聚类方法获得数据集之间的关系;
d)用遗传算法实现全局搜索;
e)选取适当的阈值λ,从而获得满意的主观条件属性约?简集;
f)根据该主观条件属性约简集,导出相应的模糊规则集,算法结束。
4 实例
本文以柴油机的供油系统故障诊断为例,表1是由数据形成的故障诊断决策表[3,5]。其中:u?1,u?2,…,u?6分别表示系统的六种状态;c?1、c?2、c?3为条件属性,分别表示稳定修复精度、操作修复精度、鲁棒度;d为决策属性,表示修复效果。
表1 柴油机的供油系统故障诊断系统的连续域决策表
Uc?1c?2c?3d
u?115021
u?216100
u?315212
u?416211
u?515102
u?64020
根据文献[6,7]提供的条件属性分割方法以及文献[8,9]所提供的三角隶属度函数,每个连续属性分成五个模糊区间,其中属性不出现的那些模糊区间就不在模糊表中表示出来了,最终得到该系统的模糊决策表。
这里取β=0.8计算每个条件属性下的各个相似类。
经计算c?1下的各个相似类为
sim??0.8c??1(u?1)={u?1}
sim??0.8c??1(u?2)={u?2,u?4,u?5}
sim??0.8c??1(u?3)={u?3,u?5,u?6}
sim??0.8c??1(u?4)={u?2,u?4}
sim??0.8c??1(u?5)={u?2,u?3,u?5,u?6}
sim??0.8c??1(u?2)={u?3,u?5,u?6}
所以,DCV(c?1)=(3,4,2,4,,3,1)。同理可得DCV(c?2)=(1,3,2,3,4,3),DCV(c?3)=(2,3,3,3,3,2)。
由各个条件属性的数字特征向量,取δ=0.02,使用模糊矩阵闭包运算方法[9,10]可以求得
[t(R)]=10.560.56?0.5610.56?0.560.561
取λ=0.8可得
[t(R)]?λ=1 0 0?0 1 0?0 0 1
在模糊等价矩阵的截集阈值λ=0.8的条件下,各连续条件属性是不相关的。因此表1的主观约简集为{c?1,c?2,c?3},这个结果与文献[8]所得的结果完全一致。
通过这个实例说明,利用本文算法不仅能够解决连续域决策表属性约简问题,而且还可以根据需要获得主观的属性约简集和一组模糊规则集,这说明本算法是可行的。
5 结束语
本文针对粗糙集对于连续域属性决策表的处理能力差以及不容易获得模糊集之间关系等问题,提出一种把模糊集和粗糙集结合起来的连续型条件属性模糊规则约简算法。实例验证表明,采用该算法,用户可以根据实际决策需要和领域知识更改阈值,从而获得满意的模糊规则结果。