搜索
您的当前位置:首页正文

基于机器学习的企业运行风险研究

来源:小奈知识网
2019年

第40卷 第8期 软 件

COMPUTER ENGINEERING & SOFTWARE 2019, Vol. 40, No. 8 国际IT传媒品牌

基于机器学习的企业运行风险研究

危明铸,麦伟杰,袁 峰,沈凤山

(广州中国科学院软件应用技术研究所,511458)

摘 要: 党的十八大三中全会提出逐步简政放权,要求做到便捷、规范、宽进严管,这引起市场监管主体职责

发生变化,监管对象呈现井喷式增长。传统的监管方法和手段已不能适应改革后的监管需要,监管方法和手段必须由传统向信息化、智能化等方式转变。本文根据广东省广州市有关企业的真实数据对其展开运行风险研究,首先运用随机森林算法对原始数据进行变量选择以便形成一个简化、高效的数据集,然后分别应用决策树、集成法、人工神经网络分别对数据集进行建模及分析,最后比较各种模型的优劣,并深入研究各性能指标的意义。通过模型可以有效地指导行政人员对异常企业进行重点监管,实现市场监管的智能化和精细化。

关键词: 随机森林;决策树;集成法;人工神经网络

中图分类号: TP181 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.08.007

本文著录格式:危明铸,麦伟杰,袁峰,等. 基于机器学习的企业运行风险研究[J]. 软件,2019,40(8):2937

Research on Enterprise Operation Risk Based on Machine Learning

WEI Ming-zhu, MAI Wei-jie, YUAN Feng, SHEN Feng-shan

(Institute of Software Application Technology, Guangzhou & Chinese Academy of Sciences, Guangzhou 511458, China)

【Abstract】: The Third Plenary Session of the 18th National Congress of the Communist Party of China proposed to gradually simplify administration and decentralization, and to ensure that it is convenient, standardized, lenient. This has caused changes in the responsibilities of market regulators, and the regulatory objects have shown a spurt of growth. Based on the real data of relevant enterprises in Foshan city, Guangdong Province, this paper conducts op-erational risk research. Firstly, random forest algorithm is used to select variables from the original data in order to form a simplified and efficient data set. Then, the decision tree, ensemble methods and artificial neural network are apply to model and analyze the dataset respectively. Finally compares the advantages and disadvantages of the vari-ous models, and in-depth study of the significance of each performance indexes. Through the model, it can effec-tively guide the administrative staff to focus on abnormal enterprises and realize the intellectualization and refine-ment of market supervision.

【Key words】: Random forest; Decision tree; Ensemble methods; Artificial neural network

0 引言

随着市场主体“宽进严管”改革的不断深入,国务院相继颁发了《国务院办公厅关于推广随机抽查规范事中事后监管的通知》(国办发〔2015〕58《国务院关于“先照后证”改革后加强事中号)[1]、

事后监管的意见》(国发〔2015〕62号)[2]和《国务院关于印发2016年推进简政放权放管结合优化服

务改革工作要点的通知》(国发〔2016〕30号)[3]等相关文件,要求大力推广“双随机—公开”抽查工作,市场监管模式也由“巡查制”改为“抽查制”。但目前仍存在一些不足之处,具体表现在:

(1)市场主体规模庞大,难以把握重点监管 对象。

(2)双随机抽查的靶向性不强。 (3)市场主体监管风险预判能力不强。

基金项目: 广州市科技计划项目资助(201907010015)

作者简介: 危明铸(1974),男,硕士,高级工程师,主要研究方向为智慧城市、大数据、人工智能;麦伟杰(1985),男,研究生,工程师,主要研究方向为数据挖掘、智慧城市;袁峰(1977),男,博士,副研究员,主要研究方向为智慧城市,数据挖掘;沈凤山(1980),男,本科,工程师,主要研究方向为机器学习,数据挖掘。

第40卷 第8期 软 件

鉴于上述种种不足及企业监管的必要性、迫切性,许多学者们把目光转向到机器学习上。虽然政府不断加强“事中事后”监管,但诸如企业信息不透明、企业运行存在风险等成为当前整个社会经济发展过程中的突出问题,且目前仍缺乏对企业运行状况科学的评估模型和预警方法。在有限的时间和人力资源等约束条件下,对不同企业进行具针对性的服务和监管,必须充分发挥“机器学习+大数据”相关技术的作用。

国外,Odom等人[4]早在1990年把人工神经网络应用到风险评估上,并将其与传统的多元回归分析比较,实验表明人工神经网络具有更优越的性能;Fan运用支持向量机(SVM)甄选与企业破产有影Prinzie等人把逻辑回归(Logistic)响的财务变量;

引入随机森林算法并对其进行优化以及改进,提出一种新型的随机森林算法,然后将改进的算法应用于预测公司的信用风险[6];Lin F等人研究随机森林与KMV模型结合可能性,提出将违约距离作为随机森林的输入,模型对企业信用风险预测性能更优越;Traskin等人利用随机森林具有筛选重要变量的特征,提出将其应用在保险公司偿付判别中;Tanaka、Kinkyo等人把随机森林算法应用在OECCD国家濒临破产的银行对其进行危机风险预测[9]。国内,张大斌、周志刚等人采取差分进化算法自动聚类模型对我国上市公司展开信用度评价,并与遗传算法、决策树、BP神经网络模型进行比较,结果表明该模型具有更高的准确性[10];方匡南,范新妍等人指出传统的Logistic回归建立企业运行风险预警模型效果不够好,提出了基于网络结构关系的Logistic模型[11];闫炳琪等人选取我国深沪两市共74家公司2013-2014年的财务报表数据,通过主成分分析降维得到浓缩的5个主成分因子,然后将5个因子作为自变量建立Logistic回归模型

[12]

[8]

[7]

[5]

建立基于K-均值聚类的工业企业信用风险评价模型[16]。此外,机器学习还在不同的领域中有广泛的应用和研究[17-21]。

根据上述关于企业运行风险评价研究的总结,本文运用随机森林作为对涉企数据进行变量甄选,然后将决策树、集成法以及神经网络分别应用到企业运行风险建模中,比较和分析三个模型的性能,并将其应用到企业风险预测。

1 相关技术

1.1 决策树

决策树是一种监督学习算法(有一个预定义的目标变量)主要用于分类问题。如图1,它适用于离散型(分类)和连续型(回归)输入和输出变量,它会自动识别最重要的变量并且计算该变量的信息增益来划分数据集,既可以做分类又可以做回归。构造决策树的关键步骤是分裂属性,即在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能“纯”。所谓“纯”,就是让同一子集的数据拥有相同的属性,用“信息增益”(Information Gain)衡量。信息熵定量信息的大小,当节点的类别均匀分布时,熵值为1;当只包含一类时,熵值为0。决策树节点的“纯”就是根据信息熵来定义。从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高,不纯越小。

;胡贤

德、曹蓉等人借助群智能萤火虫(GSO)算法,提出一种基于改进离散型萤火虫(IDGSO)算法,并将其引入到BP神经网络用于微企运行风险评估[13];杨俊等人使用Gradient Boosting算法对中国建设银行上海分行的企业贷款客户数据建立模型,并和逻辑回归以及专家规则进行横向比较,结果表明Gradient Boosting算法的模型要优于另外两种模型

[14]

图1 决策树结构

Fig.1 Decision tree structure

设S是s个数据样本的集合。假设类别具有m个不同的值:Ci (i=1,2,…,m)。设si是类Ci中的样本数。即给定一个样本,它的信息熵如式(1):

信息熵值越大,表示节点的“纯”度越低,式中,Pi

i1

I(s1,s2,,sm)Pilog2(Pi)

m

(1)

;熊正得等人利用因子分析法对深沪A股上市的

制造企业财务数据构建风险评价体系,并在违约 为任一类si属于类Ci的概率,由(2)式得到:

s测度阶段应用Logistic回归对不同组样本进行测

(2) Pii

[15]S周战超通过对企业的贷款数据进行实证分析,度;

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

30

危明铸等:基于机器学习的企业运行风险研究

设A为数据集S中的一个属性,具有k个不同的值{a1,a2,,ak},利用属性A将数据集S划分为k个子集{S1,S2,,Sk},其中Sj为数据集S中属性A取aj值得样本。若选择属性A为测试属性,则这些子集就是从集合S的结点生长出来的新的叶子结点。设sij是子集Sj中类别为Ci的样本数,则根据属性A划分的样本信息熵值为:

E(A)

k

结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,是一种Bagging思想[24],如图2所示。

本文将随机森林用于特征选择,其目标有两个: (1)找出与因变量高度相关的特征变量; (2)选择数目较少的特征变量并能够充分预测目标变量结果。

假如每次选择m个特征用于建模,步骤如下: Step1: 初步估计和排序

a)对随机森林中的特征变量按VI(variable importance)降序排序;

b)确定删除的特征比例,从当前的特征变量中剔除相应比例不重要的特征,得到一个新的特征集;

c)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;

d)重复以上步骤,直到剩下m个特征值。 Step2: 根据Step1中得到的每个特征集及其建立起来的随机森林,计算对应的袋外误差率OOB(out-of-bag error)

Step3:把Step2中OOB最低的特征集作为选定为建模特征。

上述步骤中涉及特征值的重要性(VI)计算,在随机森林中VI的计算方法如下:

(1)对于随机森林中的每棵树,使用相应的袋外数据计算它的袋外误差率,记为OOB1;

(2)随机地对袋外数据的特征值(假如此时为X)假如噪音干扰(例如,随机改变样本在特征X 出的值),再次计算它的袋外数据误差,记为OOB2;

(3)假设随机森林中有Ntree棵树,那么对于特征X重要性为VIx(OOB2OOB1)/Ntree。如果给某个特征随机假如噪音之后,袋外的准确率大幅度降低,则说明该特征值对于样本的分类影响大,也就是说该特征为重要的。

此外,将随机森林用于特征选择还涉及到OOB的计算。我们知道,在构建每棵树时,对训练集使用了不同的bootstrap sample(随机且有放回地抽取)。所以对于每棵树而言(假设对于第k棵树),大约有1/3的训练实例没有参与第k棵树的生成,它们称为第k棵树的OOB样本,计算方法如下:

(1)对每个样本,计算它作为OOB样本的树对它的分类情况(每个样本都在所有的树中进行分类);

(2)然后以简单多数投票作为该样本的分类 结果;

31

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

j1

S1jS2jSmj

S

I(S1j,S2j,,Smj)(3)

由式(1)式(3)得到属性A划分数据集S后所得的信息增益(Gain)为:

Gain(A)I(s1,s2,,sm)E(A)

(4)

根据式(4)的值,选择信息增益(熵减)最大的属性划分集合S。

决策树算法伪代码如下:

输入:训练集集合D={(x1,y1),(x2,y2)…,(xm,ym)},属性集A={a1,a2,…,ak},函数TreeGenerate(D,A)

输出:以node为根节点的一棵决策树 生成节点node;

if D中样本全属于同一类别C then 将node标记为C类节点;return

end if

if A=Φ or D中样本在A上取值相同 then 将node标记为叶节点,其它类别标记为D中样本数最多的类;return

end if

从A中选择最优划分属性a*;

v

do for a*的每个值a*

为node生成一个分支;令Dv表示D

v

的样本子集; 中在a*上取值为a*

If Dv为空 then

将分支节点标记为叶节点,其它类别标记为D中样本数最多的类;return

else

以TreeGenerate(Dv,A\\{a*})为分支节点

end if end for

1.2 随机森林

随机森林(Random Forest)[22-23]是以决策树为基础的一种集成学习(Ensemble Learning)方法,从直观角度来解释,每棵决策树都是一个分类器(分类问题),对于一个输入样本,N棵树会有N个分类

第40卷 第8期 软 件

(3)最后用误分个数占样本总数的比率作为随机森林的OOB误分率。

其中,f(·)为激活函数。神经网络的拓扑结构如图4所示。

图2 随机森林原理

Fig.2 Random forest principle

1.3 集成方法

集成方法指有策略地建立多个模型并将其组合一起,解决特定计算智能问题的过程。在这种方法可以扩展至任意学习器以建立集成模型,它生产多个分类器,然后将这些分类器的类别预测概率作为另一个分类器的输入特征,这样会提高预测的准确率。如图3所示。

图4 神经网络的拓扑结构 Fig.4 Neural network topology

神经网络学习的过程也是权重不断调整过程,其步骤如下:

(1)标准化输入变量在0和1之间;

(2)将网络权重的初始值设定为0或随机产生,通过各节点的函数来估计数据的目标变量值;

(3)比较实际值和估计值之间的误差,并根据误差值重新调整各权重的偏置;

(4)反复执行步骤2,直到实际值和估计值之间的误差最小,此时停止学习以获得最佳权重。

2 准备工作

图3 集成方法工作流程

Fig.3 Integrated method workflow

2.1 数据抽取

本文通过政务信息共享平台归集的数据中抽取相关的数据集进行清洗整合,整理归集出可用于分析建模的有效数据。过程包括清洗转换历史检查结果表,关联融合企业基本信息与企业纳税信息表,从而得到企业特征值与检查结果的关联表,如图5所示。

图3中建立了三种不同的分类器,并使用它们的预测概率作为第四个不同分类器的输入,以对测试集作出预测。

1.4 人工神经网络

人工神经网络(ANN)是由具有适应性的简单单元组成的广泛并行互连网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

即样本在n个属设输入向量X(x1,x2,,xn)T,性上对于的取值,隐藏层的输入向量为

H(h1,h2,,hp)T,y为网络的输出,输入层节点i

图5 数据抽取示意图

Fig.5 Data extraction schematic diagram

到隐藏层节点j的权重为wij,隐藏层节点j到输出层节点的权重为aj,θ和i分别表示输入单元和隐藏单元的偏置(bias),则:

n

hifwijxii

i1

pyfajhi

i1

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

(1)检查结果表清洗

从数据库中抽取企业的历史数据,如表1所以。

(5) (6)

企业名称

注册号

表1 数据表字段 Tab.1 Data table fields

统一信用代码

企业 类型

监管 机关

检查结果

32

危明铸等:基于机器学习的企业运行风险研究

其中,“检查结果”是本次项目的预测目标,由于检查结果的数据是不规范的,需要进一步整理,如表2所示。

2.2 创建虚拟变量

神经网络的数据准备是非常重要的,因为所有的协变量和响应变量都必须是数值型。为此,本文把数据集中变量为分类(factor)型的数据创建虚拟变量。

虚拟变量(Dummy Variables)又称虚设变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入虚拟变量会使模型变得更复杂,但对问题描述更简明,提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)。

在模型中引入多个虚拟变量时,原则如下: (1)如果模型有截距项

有m种互斥的属性类型,在模型中引入(m–1)个虚拟变量。

(2)如果模型无截距项

有m个特征,设置m个虚拟变量。

表6 特征“登记机关”原始表示 Tab.6 Primitive representation of

characteristic variables

登记机关

广州南沙区市场监督管理局 广州南沙区市场监督管理局 广州南沙区市场监督管理局 广州南沙区市场监督管理局 广州南沙区市场监督管理局 广州南沙区工商分局黄阁所

表2 企业检查结果状况

Tab.2 Enterprise inspection result status

结果分类

文字描述

单位违反《特种设备安全规定》

正常

不正常

药剂师及质量管理人员不在岗 卫生条件不及格

(2)企业数据表关联

本次项目建模中,我们把“检查结果”表、“企业基本信息表”、“企业纳税金额”表进行关联,使其关联后整合成一整表。

表3 关联前信息表

Tab.3 Pre-Association information table

抽查结企业名称 注册号 果表

统一信用

企业类型 登记机关…

代码

统一信用企业基

企业名称 行业大类 注册资本…

注册号 代码 本信息

表 统一信用

缴认资本 纳税金额…企业纳 企业名称 注册号

代码

税表

表4 关联后信息表

Tab.4 Post-Association information table

企业 统一信缴认

注册号 名称 用代码 资本

纳税

金额

监管 机关

检查 结果

登记机关

表7 特征“登记机关”虚拟变量表示

Tab.7 Virtual representation of characteristic variables

登记 机关.11 1 1 1 1 0

表5文本数据抽取后整理好的效果(限于篇幅,仅展示部分特征)。

登记

机关.20 0 0 0 0 0

登记 机关.30 0 0 0 0 0

登记 机关.4 0 0 0 0 0 1

登记 机关.50 0 0 0 0 0

登记 机关.60 0 0 0 0 0

表5 数据整理效果图

Tab.5 Data cleaning effect diagram

缴认主体主体企业资本 类型 状态 类型 人民币 人民币 人民币

有限登记制造责任 成立 业 有限登记制造责任 成立 业 有限登记制造责任 成立 业

纳税 金额 217949.1 15601.86 76964.97 1000000 1370201

投诉调解成行业次数 功率%大类1 4 1 1 8

10060 10010078

内资内资内资外资内资

2.3 特征选择

在机器学习中,我们经常面临这样一个问题:我们手头上拥有数据集往往含有很多的自变量,甚至有些数据集的自变量数(列)比观察值数目(行)还要多。这种情况需要对特征进行选择,即从原有的特征中删除影响不大或共线变量,保留那些对目

33

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

有限登记

美元 商务

责任 成立 人民币

有限资料电力责任 修改 热力

第40卷 第8期 软 件

标变量(因变量)解释好或者影响大的重要变量。这样一方面可以提高建模过程中的运算速度;另一方面对模型的解释性更直观,减低拟合模糊性。

本文运用随机森林(RF)对3.1小节中抽取的原始数据(共有18个特征)进行特征选择,具体情况如下:

(1)改变随机数种子,算法运行次数k=5,只选择那些在k次运行中都标记为“Confirmed”的特征;

(2)将训练数据分为n=10折,在没折数据上分别进行算法迭代,然后选择那些在所有n折都标记为“Confirmed”的特征;

(3)迭代次数it=100。 运行结果如图6所示。

一般有“连续型-anova;离散型(分类)-class,设置为class;参数minsplit表示节点中的样本数量小于某个给定界限,设置为20;参数maxdepth表示树的深度,设置为30。 3.1.2 数据分配

将数据集按7∶3比例分成两个子集,其中训练集占7成,测试集占3成,并采用十折交叉法对其验证,如表8所示。

表8 数据集划分

Tab.8 Data set partitioning

01:set.seed(502)

split<-createDataPartition(y=FSH_data$检查结果, p=0.7,list=F)

03:train<-FSH_data[split,] 02:

04:test<-FSH_data[-split,]

3.1.3 建模结果

模型tree.model的详细性能如图7所示。

图6 RF特征选择结果

Fig.6 RF feature selection results

从图6可知,应用RF对原始数据进行特征选择后,特征由原来的18个缩减到12个(因变量除外)。可以用新的特征进行更深入、更有意义的数据探索,提高建模工作效率及运行速度。

(a)

3 建模及分析

本文基于广州市工商行政等有关部门的真实数据,分别应用决策树、集成方法(决策树、梯度提升、元多自适应回归样条)、人工神经网络对其建立预测模型(以变量“检查结果”为因变量),并对模型的性能分析比较,深入研究企业运行风险预测。

建模环境如下:

处理器为Intel(R) Core(TM) i5-4590 CPU@ 3.3 GHz;内存为8 G;系统为64位Windows 7;运行环境为R x64 3.4.3以及RStudio。

数据集特征维度:

数据集FSH_data拥有7988行(观察值);13个变量(含因变量)。后期添加数据行继续进行研究。

(c)

(b)

图7 决策树模型性能参数

Fig.7 Performance parameters of decision tree model

3.1 基于决策树建模 3.1.1 参数设置

参数cp表示树的复杂度,每一步分裂,模型的拟合度都会提高,但复杂度也会增加,初始设置为0.01;参数method表示构建树过程中所选择的方法,

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

图7(a)为模型tree.model性能参数描述。其中,cp为树的偏差参数,也叫复杂度参数,在树的构建过程中,如果偏差(复杂度)减少到某一个给定的临界值,树的构建将结束,从(a)看到,cp从0.165到设置的0.01,cp越小,模型越复杂,可读性越差,

34

危明铸等:基于机器学习的企业运行风险研究

所以要适当控制cp的值;nsplit为分裂属性结点数,从结果知道,树分裂到3个节点结束;rel error为相对误差(与根节点比较),此处值为0.77,对应cp=0.01;xerror和xstd是应用十折交叉验证的估计误差和标准差,这里分别是0.77、0.016。

图7(b)为模型tree.model交叉检验(xerror)与复杂度(cp)的曲线图,最优的决策树的交叉验证误差为0.77(红色虚线),对应的cp为0.01,分裂节点为3个,这与图7(a)保持一致。

图7(c)为模型tree.model的混淆矩阵,本文将混淆矩阵的各项指标作为评价模型性能。其中

“Accuracy”表示模型分类的准确率,有一个95%的置信区间(0.7295,0.7899),其准确率为76%,从数值看表现不错;“Kappa”是衡量模型分类一致性参数,取值范围为0~1,值越大表示模型的分类效果与数据的真实值越一致,当0.4表9 二分类“金标准”评价指标

Tab.9 Bi-classification evaluation index

真实 预测 阳性 阴性 合计

阳性 真阳性(TP) 假阴性(FN) T1=(TP+FN)

TPR=TP/T1,即“灵敏度”,又称“召回率”

FNR=1-灵敏度,即“漏诊率”

“金标准”结果 阴性 假阳性(FP) 真阴性(TN) T2=(FP+TN)

FPR=1-特异度,即“误诊率” TNR=TN/T2,及“特异度”

合计 T3=(TP+FP) T4=(FN+TN) T=(TP+FN+FP+TN)

其中,Sensitivity称之为“灵敏度”,即“召回率”,用TPR=TP/(TP+FN)表示,指所有正例中被分对的比例,衡量分类器对正例的识别能力,此出正例为“不正常”,从图中看到模型tree.model识别“不正常”(正例)类别能力为38.6%,表现欠佳;Specificity称之为“特异度”,用TNR=TN/(FP+TN)表示,指所有负例中被分对的比例,衡量分类器对负例的识别能力,此处的负例为“正常”,而且从图中看到,模型tree.model识别“正常”(负例)类别能力为93.6%,表现甚佳。

通过图7各项数值指标看到,虽然模型tree.model的预测准确率为76%,正确识别负例的概率为93.6%,且P-Value=5.652e-07显著,但其Kappa值及Sensitivity值表明模型的整体性能表现一般,有待提高。

学习方式mothod设置为stack.cv。 3.2.2 数据分配

为了公平比较,数据集的划分与表8一致,此外,要为划分的训练集创建task对象及组合各个分类算法:

FSH_data.task<-makeClassTask(id=’广州企业’, data=train,target=’type’)

base<-c(‘classif.rpart’,’classif.boosting’,’classif.earth’) 3.2.3 建模结果

模型ensemble.model的详细性能如图8所示。

3.2 基于集成方法 3.2.1 参数设置

本文将分类算法决策树、梯度提升、多元自适应回归样条组合形成一个MLR集成方法,建立一个强分类器ensemble.model。基础学习器base.learners设置为learns;超级学习器super.learner设置为classif.logreg;预测类型predict.type设置为prob;

35

(a) (b)

图8 集成方法建模性能参数

Fig.8 Performance parameters of

integrated method model

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

第40卷 第8期 软 件

表10 参数设置列表

Tab.10 Parameter settings list

参数 decay size maxit MaxNWts

Ann.model1

0.5 10 100 5000

模型 Ann.model2

0.3 15 150 7500

Ann.model3

0.1 20 200 10000

图8(a)为模型ensemble.model的混淆矩阵,与图7(c)相比可以看到各项指标参数都有所提高。例如,准确率(Accuracy)从76%到78.7%提升,其置信区间为(0.7721,0.8015);Kappa值从0.386到0.57提升,一致性处于“可接受”水平;灵敏度(Sensitivity)、特异度(Specificity)也有所提升,分别为0.65、0.93,对比模型tree.model可知,模型ensemble.model在识别“不正常”(正例)类别能力提高明显,而识别“正常”(负例)类别能力与模型tree.model相当,且P-Value=2.2e–16表明结果更加显著。

图8(b)为模型ensemble.model的ROC曲线,它是反映Sensitivity(灵敏度)和Specificity(特异性)连续变量的综合指标。理想情况下,TPR(敏感度)应该接近1,FPR(1-特异度)应该接近0。对于一个分类器,ROC曲线上的每一个点对应于一个threshold,比如threshold最大时,TP=FP=0,对应于原点;threshold最小时,TN=FN=0。另外,ROC曲线下方图形围成面积为AUC=0.764,说明模型ensemble.model有预测价值(注:AUC值越大,表。 示模型分类性能越优)

综合上述可知,利用集成方法建立的模型极大地提升了分类器的预测。对于结果,我们可以从直观理解为:如果把决策树、提升法、多元自适应回归样条各自看成专家,那么,集成方法即为专家们的智慧组合。

3.3.2 数据分配

为了公平比较,数据集的划分与表8一致,此外,要为划分的训练集创建task对象及组合各个分类算法,由于因变量(检查结果)是字符串的factor型,需要把其转换成1/0数字的factor型:

FSH_data$检查结果<- ifelse(FSH_data$检查结果==’不正常’,1,0)

另外,还要按3.2小节的方法为数据集中非数值部分创建虚拟变量(因变量除外)。 3.3.3 建模结果

模型Ann.model1、Ann.model2、Ann.model3的详细性能分别如图9、图10中的(a)、(b)、(c)所示。

从图9中(a)、(b)、(c)看到,通过参数调优及组合,模型的性能有所提升。其中模型Ann.model3的性能最好(图9(c)),其准确率(80%)已经超过前面使用“集成方法”建立的模型ensemble.model,且置信区间提升到(0.7944,0.812)。但模型的、KappaSensitivity(灵敏度)、Specificity(特异度)(一致性)比模型ensemble.model稍差,且Balanced Accuracy(平衡准确率)模型ensemble.model也稍胜一筹(注:平衡准确是灵敏度和特异度的平均值)。

从图10中(a)、(b)、(c)ROC曲线看到,曲线下面所围成的面积大小为:AUCa然小于模型ensemble.model所对应ROC的值。 综述分析可知,模型ensemble.model分类能力比

模型Ann.model更优,根据上述分析概括原因如下:

3.3 基于人工神经网络 3.3.1 参数设置

本小节应用神经网络对FSH_data数据集建立预测模型,并通过调节一些参数逐步提高其性能。参数说明如下:

decay为衰变率,即学习率; size为隐藏神经元数目; maxit为算法最大迭代数目; MaxNWts为运行的最大权重数。

(a)

(b)

(c)

图9 神经网络的混淆矩阵

Fig.9 Confusion matrix of neural network

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

36

危明铸等:基于机器学习的企业运行风险研究

合过度),我们后续会有针对性地向现有的模型中加入特征(例如,企业的经济指数)进行研究,目的是进一步提升模型的性能及稳健性。

(a)

参考文献

[1]

国务院办公厅关于推广随机抽查规范事中事后监管的通

知[EB/OL]. http://www.gov.cn/zhengce/content/2015-08/05/ content_10051.htm

国务院关于“先照后证”改革后加强事中事后监管的意见[EB/OL]. http://www.gov.cn/zhengce/content/2015-11/03/con-tent_10263.htm

国务院关于印发2016年推进简政放权放管结合优化服务改革工作要点的通知[EB/OL]. http://www.gov.cn/zhengce/ content/2016-05/24/content_5076241. htm

Odom M D, Sharda R. A neural network model for bank-ruptcy prediction[C]//IJCNN International Joint Conference on Neural Networks. IEEE, 1990: 163-168.

Fan A. Selecting bankruptcy predictors using a support vec-tor machine approach[C]//IEEE-INNS-ENNS International Joint Conference on Neural Networks. IEEE, 2000: 354-359. Prinzie A, Poel D V D. Random forest for multiclass classi-fication: random multinomial logit[J]. Working Papers of Faculty of Economics & Business Administration Ghent University Belgium, 2008, 34(3): 1721-1732.

Yeh C C, Lin F, Hsu C Y. A hybrid KMV model, random forests and rough set theory approach for credit rating[J]. Knowledge-Based Systems, 2012, 33(3): 166-172.

Kartasheva A V, Traskin M. Insurers’ insolvency prediction using random forest classification[J]. Social Science Electr-onic Publishing, 2013, 10(3): 16-62.

Tanaka K, Kinkyo T, Hamori S. Random forests-based early warning system for bank failures[J]. Economics Letters, 2016, 14(8): 118-121.

张大斌, 周志刚, 许职, 李延晖. 基于差分进化算法自动聚类的信用风险评价模型研究[J]. 中国管理科学, 2015, 23(4): 39-45.

方匡南, 范新妍, 马双鸽. 基于网络结构Logistic模型的企业信用风险预警[J]. 统计研究, 2016, 33(4): 50-55.

闫炳琪, 赵月瑶, 张辉. 基于上市公司财务数据的企业信用风险预测Logistic模型研究[J]. 中国传媒大学学报, 2016, 23(4): 36-47.

胡贤德, 曹蓉, 李敬明, 院素梅, 方贤. 小微企业信用风险评估的IDGSO-BP集成模型构建研究[J]. 运筹与管理, 2017, 26(4): 132-139.

杨俊, 夏晨琦. 基于Gradient Boosting算法的小企业信用风险评估[J]. 浙江金融, 2017, (9): 44-50.

熊正德, 张帆, 熊一鹏. 引入WFCM算法能提高信用违约测度模型准确率吗?——以沪深A股制造业上市公司为样本的实证研究[J]. 财经理论与实践, 2018, (1): 147-153. 周战超. 基于K-均值聚类的工业小企业信用评级研究[J]. 中国管理信息化, 2018, 21(13): 26-28.

顾雅涵, 孙博文, 李嘉明, 等. 基于机器学习的 VR 火灾逃生系统寻路算法[J]. 软件, 2018, 39(4): 86-91.

刘夏, 邱钊, 陈焕东, 等. 基于机器学习模型的民航客流预测仿真研究[J]. 软件, 2018, 39(5): 43-49.

张蓬郁, 王煜, 江旻宇, 等. 基于 K-D 树和机器学习的时空数据检索-预测系统[J]. 软件, 2018, 39(8): 215-218. 顾雅涵, 孙博文, 李嘉明, 等. 基于机器学习的 VR 火灾逃生系统寻路算法[J]. 软件, 2018, 39(4): 86-91.

刘夏, 邱钊, 陈焕东, 等. 基于机器学习模型的民航客流预测仿真研究[J]. 软件, 2018, 39(5): 43-49.

Breiman, L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

Breiman, L. Using iterated bagging to debias regressions[J]. MachineLearning, 2001, 45(3): 261-277.

Breiman, L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.

《软件》杂志欢迎推荐投稿:cosoft@vip.163.com

[2]

[3]

[4]

(b) (c)

[5]

图10 神经网络模型的ROC曲线

Fig.10 ROC curve of neural network model

[6]

(1)准确率(Accuracy)是基于较佳的截断值(判定试验正例与负例的界值)计算的,AUC是基于所有可能的截断值计算的,它应该更加稳健。

(2)我们在计算准确率时所基于的较佳截断值并不是数据集分布的较佳截断值,而是某个随机样本的一个属性指标;而AUC不关注某个截断值的表现如何,它综合所有截断值的预测性能,故准确率高,AUC不一定大,反之亦然。

[10] [9] [7]

[8]

4 结论与展望

文本运用决策树、集成法、人工神经网络一系列机器学习算法对广东省广州市工商行政有关部门的真实数据展开研究并建立预测模型。通过分类模型的混淆矩阵、ROC曲线各个性能指标的计算,深入分析和比较各个模型的Sensitivity、Specificity、Kappa、Accuracy、AUC等性能指数,得到性能较优的ensemble.model模型(即使模型Ann.model3在“Accuracy”这一指标上表现稍高),有效地指导行政人员对异常企业进行重点监管,实现市场监管的智能化和精细化。

在此次建模中,虽然用集成法建模起来的模型比用人工神经网络建模的更具有可信性,但是我们发现运用人工神经网络建模在提升模型的性能方面具有更大的潜在空间。例如,改变参数decay、size的值或应用深度神经网络都会带来更大的飞跃。对此,后续团队会深入研究。

此外,本文在数据集上采用了12个特征(因变量除外)进行建模,考虑到“添加特征会给模型带来误差减少”的原则(也有可能在测试集上表现拟

[11] [12]

[13]

[14] [15]

[16] [17] [18] [19] [20] [21] [22] [23] [24]

37

因篇幅问题不能全部显示,请点此查看更多更全内容

Top