金融商业算法建模:基于Python和SAS
上QQ阅读APP看书,第一时间看更新

1.3.1 预测性——有监督学习

预测性分析指的是用一个或多个自变量预测因变量的值,以历史数据为训练集,从中学习并建立模型,然后将此模型运用到当前数据上,推测结果。以客户违约作为预测性分析的研究场景,客户是否会违约是一个因变量,我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。

根据SAS工程师总结的商业案例,分类模型可分为三大类。

·决策类,如银行卡欺诈检测、人体生物特征识别。

·等级评定类,如客户信用评分。

·估计类,如违约损失准备金估计、收入预测等。

有些数据挖掘算法在某类应用上表现得更好,如最近邻域法、支持向量机在决策类应用上表现良好,但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定,如决策树和逻辑回归对三类问题都适用,但是在决策类问题上没有在后两类问题上表现好。

(1)决策树

决策树模仿个人在决策中的行为,将影响决策的相关因素从大到小排序,然后将大多数人的想法进行归纳,得到这类人决策的流程。

图1-5为一个假想的约会决策示意图。

图1-5 约会决策过程示意图

其实,我们不会有一个统一的决策标准,也不会有一个一致的对考虑因素的排序。想象一下,在女生做约会决策的时候,她的亲戚很难有意见一致的时候。而决策树只是大家观点的一个综合,如果多数人认为某个因素最重要,则该决策因素就放在最上面,之后的因素依此类推。

在商业数据挖掘中,决策树依照输入变量将样本分成小的区格,以便找到让区格内被解释变量最一致的情况。如图1-6所示,深色的点代表升级投诉的客户,主要集中在往来时长6~12个月中。在距本次投诉受理天数大于10天的区格内的客户占比为87%。如果投诉客户具有这样的属性,就可以预测其升级投诉的可能性为87%。由于这种方法逻辑清晰、编程思路简单、业务关系明了,因此受到数据分析师和业务人员的青睐。

图1-6 决策树变量情况

(2)逻辑回归

假设我们开了一家婚恋网站,现在来了一个要注册会员的男生,如何预测这个新来的男生是否会被女生同意约会呢?

我们可以将以往男生被约会的情况(打分)当作一把尺子,分值越高,被约会的可能性越高。这个打分自然和广大女生考虑的重要因素相关,如魅力、性格等。这样就不需要把新来的男生分别和已有的男生进行比较了,只要把新来男生的信息代入打分公式,就可以计算出该男生被女生约会的概率。

图1-7 男生魅力与性格的关系变量

逻辑回归拟合了一条P(y=1)值等高线。该值越高,说明Y等于1的可能性越大,如图1-7所示。

该模型通过对被解释变量进行逻辑转换,再用转换后的值与解释变量构造线性回归模型。得到回归模型后,通过已知的解释变量预测客户发生某种情况的可能性。如图1-8所示,这是一个精准营销案例,业务人员希望找到使用手机证券可能性最高的一组客户,然后对其进行营销。通过分析一段时间内新增的手机证券用户的特征和行为信息,得到图1-8a所示的逻辑回归模型。将该模型代入图1-8b所示的计算公式,得到每个未订购该业务客户的订购倾向,即图1-8c所示的数据。业务人员通过这个名单,从预测概率较高的人群中挑选客户进行营销。

图1-8 解释变量转换后的情况

(3)神经网络

逻辑回归做出的等高线经常是不精确的。为了得到精确的预测结果,神经网络诞生。该方法省略了部分数据探索的工作,只要将解释因素放入模型,自然可以得到解释因素和结果之间复杂的关系,如图1-9所示。

图1-9 性格和魅力的神经网络

在技术实现上,二分类变量神经网络在逻辑变换的基础上提供了输入变量自动非线性化的解决方案。它是由大量简单的基本元件组成的。每个元件的结构和功能都比较简单,但众多的神经元组合所产生的系统非常复杂。在统计上,它是一种智能的判别过程,对变量类型没有太多要求,可以很好地识别事物的特征,构建复杂的非线性特征等,如图1-10所示。

图1-10 数据变量类型识别特征

在实际运用中,由于神经网络属于黑盒模型,无法解释其复杂公式背后的业务含义,因此该模型主要用于规律难以发现或者业务人员对规律还不了解的场景。例如银行卡欺诈分析,由于建模的目的是及时发现可以交易的行为并进行后续分析,在寻找可以交易的行为这一步骤中并不需要对其工作机理进行细致的分析,只要确定识别的欺诈交易足够准即可,因此可以使用神经网络模型。在客户信用评级分析中,需要构建一个业务可解释、方便业务人员和客户沟通的模型,因此普遍选择可解释性强的逻辑回归模型。而在建模过程中,神经网络方法主要有两个用途:作为前期实验性模型,如果神经网络方法构建的模型精度达不到模型设计要求的精度,则说明输入变量的预测能力较低,不能满足项目要求,需要将精力放在深挖可选变量上;作为金模型,神经网络可以达到分类精度的最高标杆,如果逻辑回归模型的预测精度和神经网络模型的预测精度差别较大,说明还有解释变量和被解释变量之间的非线性关系没有被发现,需要进一步深挖规律。如果两个模型预测精度接近到一定程度,说明逻辑回归模型已经体现了绝大部分规律,无须再深挖。

(4)组合法

该方法被称为预测能力最强并且最稳健的模型,其原理体现了“兼听则明”的传统观点。该方法不求做出一个大而准的模型,而是通过反复的自抽样,构造不同的分类模型。每个小模型可以都是决策树或神经网络,且使用的方法也可以不一样。每个预测样本的打分为所有模型预测的均值或众数,流程如图1-11所示。

图1-11 样本模型的流程

组合法包括装袋(Bagging)、提升(Boosting)和随机森林。虽然每种模型都有其独特性,但基本方法类似,首先基于学习数据集抽样产生若干训练集,使用训练集产生若干分类器。之后每个分类器分别进行预测,通过选举多数判定样本最终所属分类,如图1-12所示。

图1-12 组合法的分类

组合法给出的结果是被预测变量的均值。统计学基本原理告诉我们,随机变量均值分布的标准差比该随机变量均值的标准差小很多,因此组合法的准确率明显高于组合中任何单个的分类器。而且对于较大的噪声,组合法的表现不会很差,并且具有鲁棒性,不容易过度拟合。但是组合法的可解释性不强,更适合于不需要解释、只求准确的业务情景。

(5)分类方法适用情景比较

在业务场景中,目标不同,对数据建模的需求也不同。例如刑事侦测中,我们最关心的是锁定的嫌疑犯中谁是罪犯,而不是对嫌疑犯是否犯罪做一个从大到小的排序。而在贷款违约风险评定中,由于我们很难有一个明确的违约概念,最终只能从统计上得到一个有意义的违约概率,因此需要对所有客户的违约风险进行排序。以下借鉴SAS公司对分类模型的分类,评价一下每个分类方法的适用性,如图1-13所示。

图1-13 SAS公司对分类模型的分类

·决策预测:预测模型使用输入测量对每一个案例进行最佳决策。该类模型适用的业务场景包括欺诈检测、语音识别。

·等级预测:预测模型使用输入测量优化每个案例的排名等级。该类模型适用的业务场景包括风险分析、信用评分。

·估计预测:预测模型使用输入测量优化估计目标值。该类模型适用的业务场景包括损失准备金、收入预测。

表1-2是对分类模型适用性的比较。

表1-2 分类模型适用性比较