论文部分内容阅读
互联网金融产品是随着我国经济持续稳定地高速发展和互联网在人们生活中的不断渗透的大时代背景下的必然产物。P2P网络借贷是互联网金融最具代表性的模式。P2P网络借贷平台作为一个信息中介平台,能够有效地将借贷双方联系在一起,为借贷双方共同创造价值。P2P网络借贷行业在经过几年的野蛮生长后,产品的综合收益率逐渐回归理性状态,成交量也逐渐地稳定下来,整个P2P网络借贷行业进入了一个稳定发展的阶段。尽管P2P网络借贷平台可以为借贷双方创造价值从而实现盈利,实际上P2P网络借贷平台承担了很大的风险,其中由于借款方违约导致的坏账风险是每个合法的网络借贷平台面临的最大风险问题。在P2P网络借贷行业进行稳定发展阶段后,P2P网络借贷平台之间的竞争不仅体现在产品和服务中,更为核心的竞争体现在平台对于借款人违约风险识别的能力上。提高违约风险识别能力能够帮助P2P网络借贷平台更加健康地发展。本文提出判断借款用户是否存在违约可能而导致坏账的风险问题可以转换为一个模式识别分类问题来研究。借助机器学习和人工智能的方法充分识别违约坏账风险,可以有效地帮助P2P网络借贷平台降低坏账风险发生的概率,促进网络借贷市场的健康发展,使其更好地服务于社会主义市场经济。支持向量机是机器学习中最为常见的分类算法之一,既可以处理分类问题也可经转换后用于处理回归问题。在解决样本量少、高维度数据集和非线性模式识别问题中,支持向量机学习算法比其他机器学习算法有着更独特的优势。此外,支持向量机学习算法具有坚实的理论基础和简单明了的数学模型。AdaBoost算法作为集成学习中非常重要的一部分,其分类算法思想是针对那些容易错误分类的训练样本增加其样本权值,并通过不断地学习,尽可能地减少分类错误的样本数量。AdaBoost算法通过构造一系列简单的初级预测方法,将它们按照一定的规则组合能够得到一个复杂的、精确度高的分类预测方法。针对于支持向量机在处理大样本训练集时运算效率低和AdaBoost算法在处理高维度模式识别问题精确度不高的问题,本文提出了结合支持向量机和AdaBoost算法框架改进形成的Boosting-SVM算法。Boosting-SVM算法将弱化处理后的支持向量机作为AdaBoost算法框架中的基本分类器,将每轮训练样本的样本权值加入到支持向量机优化问题的目标函数中,利用序列最小最优化算法进行求解得到基本分类器,并将每轮迭代得到的基本分类器进行线性组合得到最终的分类器。支持向量机的弱化处理是通过选择部分训练样本子集进行训练达到弱化效果。将训练样本的样本权值加入到支持向量机优化问题的目标函数中能够让不同样本的惩罚项不相同,因此不同样本权值的样本能够得到不同的重视程度。在利用序列最小最优化算法对支持向量机进行求解时,将训练样本的权值加入到支持向量机原始优化问题的目标函数中,因此在求解过程中缩小了变量的不等式约束范围上下界。本文首先利用机器学习公开数据集Breast-Cancer数据集在原始支持向量机和Boosting-SVM算法进行实验,验证了 Boosting-SVM算法改进的有效性。P2P网络借贷用户的实验数据是利用网络爬虫在P2P网络借贷平台上采集的相关信息。P2P网络借贷用户数据集经过一系列特征工程处理后可以直接用于模型和算法计算,将经过特征工程处理后的P2P网络借贷用户数据集在原始支持向量机和Boosting-SVM算法上进行实验,根据最终的实验结果可知,Boosting-SVM算法在精确率和计算效率上都要优于原始支持向量机,因此,Boosting-SVM算法能够更加有效地帮助P2P网络借贷平台识别违约风险。