您好,欢迎来到小奈知识网。
搜索
您的当前位置:首页基于数据立方体的属性核计算方法

基于数据立方体的属性核计算方法

来源:小奈知识网
第34卷 第2O期 计算机工程 2008年1O月 Vo1.34 No.2o Computer Engineering October 2008 ・软件技术与数据库・ 文章编号;l00 _3428(2008)2o lo4矗__03 文献标识码:A 中圈分类号;TP311 基于数据立方体的属性核计算方法 刘亚渡 ,刘大有 ,高滢 ,齐红 (1.吉林大学计算机科学与技术学院,长春130012;2.吉林大学符号计算与知识工程教育部重点实验室,长春130012) 擅要:商业智能系统应用联机分析处理技术将数据组织为数据立方体。该文建立了数据立方体中非空单元与决策表中等价类的一一 映射关系。通过复用数据立方体中的聚合结果,提出一种基于数据立方体计算相容决策表属性核的方法,并证明了该方法的正确性。利用 UCI数据集进行实验,结果表明在大数据量下该方法具有较好的时间效率。 关健诃:数据立方体;联机分析处理;粗集;属性核 Data Cube—based Feature Core Computing Approach LIU Ya-bo ,LIU Da.you ,2GAO Ying 0,,QI Hong 0 (1.Department ofComputer Science and Technology,Jilin University,Changchun 130012; 2.Key Laboratory of Symbolic Computation and Knowledge Engineering,Ministry of Education,Jilin University,Changchun 130012) [Abstract]InBI system,data aleformed as amulitdimensionalOLAPcube.This paperfocuseson computingthefeature coreofthedecisiontable by reusing the aggregation in cube.After hte relation is established between nonempty cells in a data cube and equal classes from a decision table,a new cube—based approach of computing the feature core of a consistent decision table is put forward in this paper.And the correctness of hte new approach is proved.The experiments wiht UCI data set show htat hte new approach has high time performance. [Key words]data cube;online analysis processing;rough set;feature core 基于粗集的属性约简算法通常建立在属性核基础上…, 员,可确定Cube(S)中唯一单元,设为P,记pe Cube(S)表示 多数求属性核的方法基于区分矩阵 。J。根据区分矩阵确定属 P是Cube(S)中单元。对Cube(S)中单元P给出以下描述方法: 性核的方法易于理解,但计算量大。文献【3】给出了不需建立 (1)k/af∈A(1≤ ≤IAI),令ai(p)表示P的维af成员,记p= 区分矩阵的属性核计算方法,但对数据量较大的决策表,仍 【a】 ),a2 ),…, 川 ),Count ̄)],Count(p)是P的度量值。 无法避免计算量大的问题。商业智能系统运用数据仓库、联 (2)Dims )={口 ) ̄any,aE C U D} 机分析处理(OLAP)和数据挖掘等技术来处理和分析数据。 (3)Data )={xlVa ̄Dims ),d )=a ),XE Ul OLAP技术将数据组织为数据立方体(data cube),用维和 例1由表l决策表S生成4维数据立方体Cube(S),包 度量来描述数据。在商业智能系统中进行数据挖掘时,若能 含单元p=[high,any,yes,any,2】,Dims(p)=fC1,C3},Data )={ l, 复用已有数据立方体中的聚合结果及下钻等OLAP操作,可 X2},Count ̄)=lData( )I=2。 提高挖掘效率H】,本文基于数据立方体及OLAP操作计算相 表1决策表S 容决策表属性核。 l相关概念和理论 定义1决策表 =( ,A,vJ)。其中,U为论域;A=CU D且CflD= ,C是条件属性集,D是决策属性集; , 是a的属性值集;厂:UxA 是函数,它指定U中每个对 象在不同属性上的取值。若U中存在 和Y使得f(x,c)-厂(),,C), 但f(x,D)≠,(),,D),则称S为不相容决策表,否则为相容决策表。 2.1等价类与非空单元的映射关系 定义2决策表 =(u,CU D,vo9,称C中所有必要属性的 为证明决策表中等价类与数据立方体中非空单元问的一 一集合为C的属性核,记为Core(C)。 对应关系,给出定义4、定义5、定义6及引理1。定义7 定义3相容决策表 =( ,CUD, t厂)。条件属性c∈C是S 给出了具体的对应方法。 的关键属性,当且仅当 (u,C一{C}u D, )不相容。 基金项目:国家自然科学基金资助重大项目(60496321);国家自然科 定理1若决策表 =(u,Cu D,vJ)相容,则S的所有关键 学基金资助项目(60373098,60573073);国家“863”计划基金资助项 属性构成的集合为C的属性核。 目(2003AA118020) 2基于数据立方体计算属性核的方法 作者倚介:刘亚波(1975--),女,博士后,主研方向:粗集,数据挖 决策表 =( ,A, ,),A=CuD,将U作为事实表, 作为 掘,数据仓库;刘大有,教授、博士生导师;高滢,硕士;齐红, 数据立方体的维集,维n ∈A)的成员集为 U{any},可构 博士 造l Al维数据立方体,记为Cube(S)。若A中每维都取一个成 收藕日期:2008—06—12 E-mail:yabo@jlu.edu,cn ——46—— 定义4决策表 =(u,C U D,y ,Pl,p2E Cube(S),若Vae 故U/R={Data(q)IDims(q)=R,qe Cells(S)}。证毕。 C u D,a(p1)=口(p2),则pl= 2,否则Pl 2。 根据推论1,若决策表 =(u,CU{dl,y ,则 定义5决策表 =(u,CuD,Vd),定义 U/C={Data(q)lDims(q)=C,qe Cells(S)} Pairs(S)={< ,E>IEe U/R,Rc_C u D} U/{d}={Data(q)lDims(q)={d},目∈Cells(S)} 若<R1,El>,<尺2,E2>∈Pairs(S),且RI=R2,El=E2,则< 1, l>= 2.2基于数据立方体的属性核计算算法 <R2,E2>,否则<RI,EI> ̄<R2,E2>. 以下设决策表 =( ,Cu{d}, ,且 是相容决策表。根 定义6决策表 =( ,C u D, ,若p∈Cube(S)且Count 据决策表中等价类与Cube(S)中非空单元的一一对应关系,通 ( )>0,则称p为非空单元,定义非空单元集Cells(S)={qlCount 过在部分非空单元上沿维d下钻,计算出关键属性。 (口)>0,q∈Cube(S))。 定义8决策表 =( ,Cu{d J,VJ),设P,q∈Cells(S),若 引理1决策表s=( ,CuD, ,对VpECells(S)都有<Dims Vce C,c(q)=c )且d(p)=any,d(q) ̄any,则称q是P沿维d的 ),Data )>∈Pairs(S)成立。 下钻单元。称P的所有沿维d的下钻单元构成的集合为P沿 证明:任取P∈Cells(S),则Dims ) cuD是U上等价 维d的下钻集,记为p d。 关系,Data )是U/Dims )中等价类。由定义5,<Dims ), 例2取例1 Cube(S)中单元p=[high,good,any,any,1], Data )>∈Pairs(S)。证毕。 ql=[high,good,any,loss,0】,q2=[high,good,any,profit,1】。 定义7决策表 =( ,C u D,y ,< ,E>e Pairs(S),p∈ 因Count(q1)=O,Count(q2)=1,故p {q2}。 Cells(S),若Dims ) ,Data )=E,则a(R,E) 。 定理3决策表 =(u,CU f }, t厂)不相容,当且仅当存在 引理2决策表 =( ,C u D, ,V<R,E>e Pairs(S),存在 单元p∈Cells(S),且P满足Dims )=C IpSdl>l。 唯一单元P∈Cells(S)满足a(R, ) 。 证明:S不相容,当且仅当存在 ,ye U,满足Vce C,c )= 证明: c 0,),d )≠d(y)。当且仅当x,)I∈【xlc, ∈【X]cu㈨,ye[),]cuId}且 (1)存在性。取 ,E>ePairs(S),设 =f口l,a2,…,a }GCU Ix]cu ≠ cu 。根据定理2,有 D,E={xlal( )=v1,a2(x)=v2,…,as )=v ,x∈U},若a 维取v 成 当且仅当存在P,ql,q2ECells(S),满足 员 (1≤ ≤s),其他维取any成员,可确定Cube(S)中唯一单 (C,ix】c)= (3) 元,设为P,易见DataCo)=E,Dims(p)=R,因Count(p)=IEI>0, 口(C u{d},[xlco{d})=鼋l (4) 故P∈Cells(S),则 ( ,E)= 。 口(C U{d},[YJcu fd1)=q2 (5) (2)唯一性。假设存在P’ ’印)∈Cells(S)满足a(R,E) ’。 由式(3)有c )=c( ),d(p)=any; 由a(R,E)-p’,可得 由式(4)有c(q1)=c( ),d(q1)=d( )≠口ny; Dims ’)=Dims(p)=R,Data ’)=Data )-E (1)、 由式(5)有c(q2)=C(y),d(q2)=d(y)*any。 由P’印,可得 当且仅当对Vce C,C(q1)=c(q2)=c(p),且d(p)=any, q1)≠ 或Data ’)=Data )= ,或Data ’) ̄Data ) (2) any,d(q2)c-any,d(q1)#d(q2),故 显然式(1)、式(2)矛盾,故假设不成立。引理2证毕。 当且仅当ql∈p ,q2epSd,且ql≠鼋2,当且仅 ̄lpidl>l。 弓j理2表明可以把Pairs(S)中任意元素映射到Cells(S)中 证毕。 唯一单元。下面证明该映射是一一映射。 定理4相容决策表 =( ,CU{d},VJ),条件属性cE C是 定理2 决策表 :( ,C U D, l/),t7是从Pairs(S)到Cells(S) 的关键属性,当且仅当存在至少一个单元peCells(S), 的一一映射。 Dims )=C一{c},Ip,Ldl>l。 证明: 证明:令决策表 ’=( ,C一{c J u{d},VJ),若c∈C是S的 (1)任取< l,El>,<Re,E2>EPairs(S),< 1,El>≠<R2,E2>,往证 关键属性,当且仅当 ’不相容,根据定理3,当且仅当Cells(S’) (R1,E1)V:a(R2,E2),用反证法。 存在至少一个非空单元P’满足Dims(p’)=c一{c1且Ip’.i.dl>l,设 设a(Rl,E1)=p1,故Dims(p1)= 1,Data 1)=£1; q’epSd,当且仅当存在pe Cells(S),其中,V口∈C.{c}U{d J, 设a(R2,E2) 2,故Dims 2)= 2,Data 2)=E2。 a(p)=口 ’),且c(p)=any,Count(p)=Count ̄’)>0。 假设a(RI’E1): ( 2,E2),则Pl 2。故Rl=R2,El=E2,<Rl, 存在g∈Cells(S),其中,Vn∈C-fc}U{d},a(q)=口(q’),且 E1>=< 2,E2>,与已知<R1,El>≠< 2,E2>矛盾。因此, Rl,E1)≠ c(q)=any,Count(q)=Count(q’)>0。因Dims(p’)=C一{c},故Vae C, a(R2,E2),口是单射。 a(p)=d(q),且d(p)=d(p’)=any, (日)=d(q’) ̄any,即q ̄p+d。由 (2)Vpe Cells(S),令R=Dims ),E=Data(p),由引理1, q’的任意性,得当且仅当任意q’∈p’ d,都存在单元q∈p , <见E>ePairs(S)且 R,E) ,因此口是满射。 因Ip’ ̄dl>l,当且仅当Ip,Ldl=l P’,I.dl>1。证毕。 既是单射,也是满射,故 是一一映射,使决策表中 例3取例1中非空单元Pl=[any,good,yes,any,2】, 等价类与数据立方体中非空单元一一对应。证毕。 Dims(p1)=c一{C1},pl {ql,q2)。其中,ql=[any,good,yes,proift, 推论1决策表 =(u,CuD, ,RGCUD,则U/R= 1】,q2=[any,good,yes,loss,1】。故Ip1 >1,属性cl是关键属性。 {Data(q)lDims(q)=R,qe Cells(S)}。 取例1中非空单元p2=[high,any,yes,any,2】,Dims(p2)= 证明: C一{c2},pzid={q3,q4}。其中,q3=【high,any,yes,p f,11,q4= (1)设E∈U/R,则< ,E>∈Pairs(S)。再设g(R, ) ,故 【high,any,yes,loss,1】。故Ip2..Idl>l,属性c2是关键属性。 Dims(p)=R,则p∈{qlDims(q)=R,qe Cells(S)},Ee{Data(q)l 因{qlDims(q)=C一{c3},Count(q)>l}中每一单元的下钻集 Dims(q)=R,qe Cells(S)}。 大小均为1,故c3不是关键属性。 (2)设pe{qlDims(q)=R,q∈Cells(S)}, 则Dims )= , 例3的结论与其他方法得到的属性核一致。下面给出了 Data(p)∈U/R。 基于数据立方体的属性核求取算法Core*。 算法Core (c,d,CUBE.core) ,丰C=(cl,c2,…,C ),输出属性核core*/ C1[初始化] core={) c2[逐个判断每个属性是否为关键属性】 For each Cl∈CDo Lt:f set ={q IDims(q)=C一(c },Count(q)>0} //对P∈seti,若Ip-1.dl>1,则c是关键属性 For each P∈seti Do (If(Count(p)>1)Then L2:f drillset=p J,d IfI drillset l>l Then {core=coreu{Ci},Break) 】 } 】 2.3算法分析 算法Core*的时间复杂度主要和扫描数据立方体的语句 L。和L2的执行次数有关。Ll共执行m次。因度量为1的单 元其下钻单元只有一个,故算法Core*不计算度量为1的单 元的下钻集。若在计算set 中第nf(1≤ni≤Iset 个度量大于1 的单元的下钻集时,发现其下钻集大小大于1,即可判定C 为关键属性。故算法Core*扫描数据立方体次数为m+∑ , i=l 取决于实际计算了下钻集的单元数兰 , ≤至 ≤∑mI se I。 i=1 i=1 i=1 3实验 笔者在UCI数据集Mushroom数据上进行了测试,使用 SQL Server 2005 Analysis Services生成数据立方体,通过 ADOMD.net和MDX查询访问数据立方体。Mushroom共 8 124条相容记录,分别选择了5个、7个和9个条件属性, 在不同数据量下对Core*和文献【4冲的算法(记为Core)进行 了测试和比较。表2给出了运行时间比较的结果。 表2算法Core*和算法Core妁运行时间比较 由表2可见,当有5个条件属性时,算法Core 的时问 效率明显好于算法Core。当有7个或9个条件属性时,在小 数据量情况下算法Core*lgJ时问效率不具有明显优势,但当 数据量超过4 000条或6 000条,且逐步增加时,算法Core 的时间效率明显好于算法Core。为验证算法Core 在大数据 量下的性能,当数据增至8 124条后,分别从8 124条数据中 抽取4000条和8 124条数据附加到原8 124条数据之后。当 数据从8 124条增至12 124条和16 248条时,算法Core*的 时间效率基本不变,而算法Core运行时间大幅度增加。 表3从分析芝 和∑l seti I变化的角度,给出了算法 l≈l i=1 Core*运行时间的变化。 m m 表3∑ 和∑I 8 I的变化 i=1 i=1 由表3可见,当数据从2 000条增至8 124条时,∑I l i=l 和艺 都增加较快,因此运行时间增长。当数据从8 124条 i=1 增至12 124条和16 248条时,由于增加的是重复数据, I set,i=1 I不再发生变化,虽然芝n 仍在变大,但增加较慢,因 i=1 此运行时间增加较慢,基本保持不变。 从表2和表3不难看出,算法Core*的时间效率受数据 量影响较小,受数据立方体的非空单元集Uset。和实际计算了 i=1 下钻集的单元数影响较大。因此,算法Core 适合计算大数 据量下的决策表属性核。 4结束语 本文提出的属性核计算方法Core 充分利用了数据立方 体中聚合后的度量信息,给出了一种新的粗集理论研究途径。 因此,基于数据立方体,研究海量数据下相容决策表的属性 约筒、不相容或不完备决策表的属性核及属性约简计算方法 是本文下一步的工作重点。 参考文献 [11 Pawlak Z.Rough Sets[J].International Journal of Computer and Information Sciences,1982,1l(5):341—356. [2】叶东毅,陈昭炯.一个新的差别矩阵及其求核算法[J1.电子学报 2002,30(7):1086—1088. 【3]赵军,王 国,吴中福,等.一种高效的属性核计算方法I J1. 小型微型计算机系统,2003,24(1 1):1950—1953. [4]高学东,王文贤,武森.基于数据立方体的关联规则的挖 掘方法[J】.计算机工程,2003,29(14):74—76. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo3.com 版权所有 蜀ICP备2023022190号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务