Data Base Technique・数据库技术 基于云计算的数据挖掘算法的研究 文/甘枥元 集成阶段。在第一阶段中,以置换抽样方式为 情况下,Map/Reduce框架会对数据分块以及 计算机网络技术的快速发展, 使得网络内所存数据信息量不断 增多,并且就各项数据分布特点 来看,其并非是简单整齐的排列 在数据库中,而是具有异构、动 态等特点,想要有效的完成对各 依据,将数据集D划分为m个子集,即{D,, D:,…D },m值由用户自己决定:第二阶段 Map节点进行调度,直到所有数据分块都被计 算处理完毕为止。 中每一个将Ma口任务采用分类算法在数据集 上建立一个基本分类器Ci,并且l Sism;第 (3)Reduce节点主要负责对来自MaD 节点的数据进行计算处理,并获得来自K.项 三阶段中,将m个基本分类器集合成一个最 候选集支持数,然后并以支持数为基础,来生 类信息的应用,还需要对现有数 据分析处理技术的基础上进行研 终分类器C。 成(K+11.项频繁项集。 究。为保证数据计算与存储能力 2.2数据转换过程 (4)主进程通过遍历事务数据库来确定 达到应用需求,可以就云计算技 该项任务是否已经处理完毕。 术来进行研究,推动数据管理效 果的进一步发展。本丈对云计算 就MapReduce模型来说,map函数与 3.3 Map/Reduce为 ̄PageRank算法 技术进行了概述,并基于此就数 reduce函数对数据的来源要求并不高,其只负 据挖掘算法进行了研究 责将输入的key/value键值对进行处理,并生 (1)在Map阶段完成数据文件集中每行 成一个key/value键值对的中间结果用于输出, 数据的读入,并对所有数据进行简单的格式处 然后根据键值排序所有中间结果会合并在一 理,将其拆分成<key,value>形式。 起。每个键值都有对应值,reduce函数会对其 (2)Reduce阶段对Map阶段输出的 【关键词】云计算数据挖掘数据库 进行一次处理。并得到最终输出结果。 数据进行收集,并以key值为基础对相应的 基于云计算数据挖掘算法研究 value值进行合并,完成每个key值的计算后 将新的PageRank输出,将输出的数据结果保 数据挖掘即在海量、不完全以及随机的 3.1 Map/Reduce为基础K-Means箕法 存在HDFS中,以此来用于下一次的迭代计算。 数据中,对存在用处并且人们事先不知道的数 据进行提取,但是因为网络数据库内数据量大, (1)随机选择k个初始聚集中心,并将 (3)将步骤二中计算出的结果与步骤一 所有聚集中心保存到OriginalCluster[]中,对 中生成的链接结果进行合并,以此来作为下一 并且具有异构与动态特点,整个提取过程难度 非常大,需要进行有效的计算。而云计算作为 数据进行分块处理,然后以计算节点集群情况 次迭代计算PageRank值的输入。 一种商业计算模型,可以将计算任务分配到大 为基础,将各分块数据分配到各个计算节点。 4结束语 量计算机构成的资源池上,以用户需求为基础 (2)在Map阶段对将各数据最近距离以 来合理分配计算、存储以及应用能力,可以有 及总数进行计算,同时利用Map/Reduce框架, 数据挖掘算法的研究对提高数据处理效 效解决海量数据挖掘计算问题。 将键值对<Key,Value>的Key与Value对应 果具有重要意义,可以将用户所需的数据信息 在海量数据中提取出来,以此来推动各领域的 1数据挖掘算法分析 到将i与D[k],并且D为事务数据集。 (3)在Reduce阶段,因为上阶段中i对 发展。云计算是一种比较新型的计算方式,将 其应用到数据挖掘中,还需要在现有基础上做 数据挖掘算法主要作用就是从大量数据 应的为Map/Reduce框架中的Key,这样就可 更进一步的研究,争取不断提高其应用效率, 中提取所需要的信息,对象包括了结构性数据 以确定同一个Key所有D[k]会分配到同一个 提升数据信息的应用效率。 源、半结构性以及非结构性数据源,如音频、 Reduce进程中,并通过Reduce进程来完成各 视频数据源等,对于数据算法来说,必须要要 聚集中心的计算,最终将计算出的新结果保存 具备模型、优先准则以搜索算法条件。现在常 在DestinationCluster[】中。 参考文献 用的数据挖掘算法主要有决策树法、仿生全局 (4)对DestinationCluster[]于Original [1]李妍.基于云计算的数据挖掘技术研究 【D】.石家庄经济学院,2O1 2. 优化遗传算法、神经网络法、统计分析法以及 Cluster[1两个值进行比较,以预先给定阈值 [2】丁岩,杨庆平,钱煜明.基于云计算的数 覆盖正例排排斥反例法等,为了更好的提高数 为标准,比较确定两者变化小于阂值标准, 据挖掘平台架构及其关键技术研究【J]. 据挖掘处理效果,可以就新型的云计算方法进 则可以判断数据聚类成功,相反则需要将 中兴通讯技术,201 3(01):5 3-56+60. 行详细研究,更有效的发现隐含在大规模数据 Destinati0nCluster口保存到OriginalCluster[】中, 中的知识信息,以此来提高信息数据的应用效 然后从第二步开始重复计算,直到最终数据聚 [3]关丈波,雷蕾.基于云计算的数 究…J.科技视 果。 类成功为止。 据挖掘之综述研界,2 01 3(33):208+275. 2 MapReduce分布式计算模型分析 3・2 Map/Reduce为基础Apriori算法 2.1 MapReduce模型分类算法执行框架 (1)主进程基于(K.1)一项频繁项集遍 作者简介 历事务数据库,并生成K_项候选集,并通过 甘枥元(1982-),男,广西壮族自治区南宁市人。 即便是不同类型分类算法,在MapReduce Map/Reduce框架将此候选集分发到每个计算 硕士学位。现供职于广西中医药大学。研究方 框架上的执行过程完全相同,整个运行框架主 向为医学信息工程、人工智能。 节点。 要由Master,几个Mapper与一个Reducer构成, 在对数据进行处理时,整个过程可以分为划分 (2)每个Map节点负责一个数据分块的 计算处理,同时还要完成对当前分配到数据 作者单位 阶段、Map/构建基本分类器阶段以及Reduce 分块K一项候选集支持数的计算。在此种计算 广西中医药大学广西壮族自治区南宁市 530001 Electronic Technology&Software Engineering电子技术与软件工程・195