基于LS-SVM的IT企业信用评估研究

冯 璐,周 勇

(新疆财经大学 统计与数据科学学院,新疆 乌鲁木齐 830012)

国务院于2015年提出的《国务院关于积极推进“互联网+”行动的指导意见》鼓励市场主体利用互联网进行技术创新,由此互联网发展的如火如荼,作为利用互联网发展的代表性行业IT行业也进入了高速发展时期.IT行业不仅是新业态、新动能的重要体现,也是我国创新发展战略中重要的一环.IT企业的产品多以软件产品为主,其企业的不动产占比较少,财务建设具有滞后性[1],开发项目受客户关系影响较大[2],人力资本需货币激励与非货币激励并重[3-4]等特点,难以被纳入信贷机构现有的信用评级体系,导致IT企业在融资过程中难以得到客观评价的信用评估报告,使得其在直接融资过程中被拒绝,不利于IT企业高质量的发展.信用评估缺失还会使信贷相关行业坏账和呆账的风险增大,信用风险凸显.学者对于IT企业信用评估问题采取的多是logistic算法[5-6],对于IT企业特点来说,其形成的信用评估模型难以满足IT企业信用评估的要求.本文结合LS-SVM算法[7],构建IT企业信用评估模型.

IT企业即信息技术产业,是运用信息手段和技术,收集、整理、储存、传递信息情报,提供信息服务,并提供相应的信息手段、信息技术等服务的产业.IT企业作为一种特殊的高科技产业,有以下几个基本特点:产品更新周期快,风险较高,收益也较高.IT企业是随着科技的发展而发展起来的新兴产业,现代科技产品为了获得市场的先机与消费者的青睐,更新换代的速度令人咋舌,因此IT企业产品的更新周期也比较快.IT企业的风险来自于前期设备和人才的引用,因而IT企业也属于资本较密集的一种产业.IT企业最核心的竞争力为其所生产的各类科技软件或者产品,这类产品往往综合了IT企业人才的知识转移量,但是在这个过程中,由于产品在市场推进过程中受不确定因素的影响较大,因此风险性较大;
其经营领域涉及面较为广泛;
经营业务多样,产品多为私人定制类型,业务受客户资源的影响.

随着科技的发展,数字时代的来临,IT企业数量和质量的提升尤为显著,特别是当代工业互联网的发展,大大促进了IT企业与其他企业的联系,这两类企业融合成了不可分割的整体,呈现出了全新的产业面貌.中国的IT产业发展指数(ITII)由2014年的61.5分提高到2018年的76.3分,由第二梯队末位提升至第二梯队中游水平,并于2018年首次超越英国和韩国位列第四位.2018年中国IT产业发展迅速,在产业结构上优化改进也有了长足的进步,核心竞争力随着产品的优质有了长足的进步,大幅度提升了本土IT企业的创新发展力.随着互联网产业的快速发展以及产业方式的转变,IT产业走上了高速平稳发展的道路,产业融合提升最为显著,融合指数由50.1分升至76.5分,证明我国IT企业核心竞争力得到认可.当前我国IT产业的发展已经形成了品牌效应,走上了国际化发展道路.

2.1 建立IT企业信用评价体系

选取锐思金融数据库若干家IT企业的财务信息,从中抽取11个财务指标作为判断企业信用评级的依据.IT企业指标体系见表1.

表1 IT企业信用评价体系表

2.2 构建IT企业信用评价模型

将IT企业的信用数据指标作为分类数据点,采用LS-SVM分类器确定一个由这些数据点构成的超平面.如果用X表示数据点,用Y表示类别(Y可以取1或者-1,分别代表两个不同的类),一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面,这个超平面的方程可以表示为:

式(1)中,WT中的T代表转置.在超平面确定的情况下,(1)式表示点X距离超平面的远近.通过观察WT×X+B的符号与类别标记Y的符号是否一致,可判断分类是否正确.用表示类别的的正负性来判定或表示分类的正确性.函数间隔为:

超平面(W,B)是关于T中所有样本点(Xi,Yi)的函数间隔最小值.其中,X是特征,Y是结果标签,i表示第i个样本.超平面(W,B)关于训练数据集T的函数间隔为:

对法向量W加约束条件,引出真正定义点到超平面的距离——几何间隔的概念:

由于这个问题的特殊结构,还可以通过拉格朗日对偶性变换到对偶变量的优化问题,即通过求解与原问题等价的对偶问题得到原始问题的最优解,进而推广到非线性分类问题,因此得到新的函数解析式:

(1)让α固定,让L关于W和B最小化.分别对W以及B求偏导数,并令两者的偏导数等于零.

将得到的结果带入公式(6),可以得到

(2)求对α的极大,即是关于对偶问题的最优化问题.从上面的式子得到:

即可求出αi.根据已有的公式可以得到两个参数W,B的值,最终可以得到分类平面和分类决策函数.利用SMO算法求解对偶问题中的拉格朗日乘子α.为了使模型在线性不可分条件下也可使用,引入松弛变量ξi,在原来的目标函数后面加上一项,使得总和也要最小:+Cξi.其中,C是一个参数,用于控制目标函数中两项之间的权重,得到的目标函数:

将IT行业的财务数据作为数据点带入X中,将企业是否违约得到分类类别Y带入到公式(11)中对参数α求解,将结果代入公式(6)中,即可得到分类平面中两个参数,从而完成对分类平面的求解.

3.1 数据预处理描述性统计分析

根据从锐思金融数据库收集到的财务指标信息,计算出若干家IT企业11个指标的平均值及方差,见表2.从该表中可以看到,IT企业的流动比率较高,符合流动资产较多的事实;
IT企业流动资产率也处于较高的水平,解释了其与其他行业企业的不同之处.

表2 IT企业指标均值与方差

3.2 支持向量机计算结果与分析

使用matlab软件将数据设定种子得到80%的训练集和20%的测试集,用训练集分类预测,对测试集的准确性进行评估,衡量测试集的准确率.

用confusionmat函数直接产生混淆矩阵,用混淆矩阵的每一列代表预测类别,行表示真实归属类别、预测违约和不违约类别下的企业数目.图1为可信企业识别率和违约企业识别率.从图1中可以看出,LS-SVM模型可以较好地拟合企业识别率曲线图.

图1 违约与可信企业识别率

3.3 绘制ROC曲线

AUC等于1时为最理想的检查指标.从图2可知,AUC值为0.77404,ROC图的含义是将可信企业判定为可信企业的概率大于可信企业判定为违约企业的概率作为1,并依次累加,最终除以可信与违约企业的总数,说明得到的超平面可以比较准确地反映出分类的情况.

图2 ROC曲线

构建了一个基于LS-SVM的IT企业二分类平面评价模型,用于企业信用评级,确定企业信用等级.实证结果表明,构建的二分类模型可以较好地对客户的财务信息予以区分,达到了较好的分类效果.该模型可以适用于IT行业信用等级的划分,为IT行业信用等级提供较好的参考.

猜你喜欢超平面企业信用类别扬州市稳步推进安全生产领域企业信用修复江苏安全生产(2022年6期)2023-01-15泰州市推行企业信用修复全链条服务模式江苏安全生产(2022年6期)2022-07-29基于非线性核的SVM模型可视化策略计算机应用与软件(2022年2期)2022-02-19全纯曲线正规族分担超平面上海理工大学学报(2021年6期)2021-12-29全纯曲线的例外超平面数学年刊A辑(中文版)(2021年3期)2021-11-05一起去图书馆吧少儿画王(3-6岁)(2020年4期)2020-09-13“涉军”企业信用评价扩大试点工作即将启动中国军转民(2017年6期)2018-01-31“涉军”企业信用评论扩大试点工作即将启动中国军转民(2017年8期)2017-12-13多类别复合资源的空间匹配浙江大学学报(工学版)(2015年1期)2015-03-01基于最大间隔的决策树归纳算法科技视界(2011年22期)2011-12-21

推荐访问:企业信用 评估 研究