论文部分内容阅读
信息时代的到来,人类的各项活动带来了海量数据的飞速增长。隐藏在大数据中的各种模式大多需要进行人工挖掘,而数据挖掘工作需要丰富的计算机相关经验以及深厚的业务相关知识。由于有经验的数据科学家的增长速度远远慢于数据的增长速度,并且数据科学家又不一定具有特定领域的相关知识。因此,本文立足于电信反诈场景下的通话行为数据(结构化数据)与通话录音数据(中文文本数据)分别提出自动特征推荐算法,使用相应的算法,能够快速得到一套高效并且具有可解释性的特征集。进一步地,为了给上述算法提供一个支撑平台,同时为了适应日益变化的特征挖掘场景,本文提出一个面向电信数据的智能化特征工程平台。通过使用本平台,用户可以摆脱繁重的编码工作,使用本平台提供的传统特征挖掘功能快速进行数据分析,让特征工程工作变成组件的拖拽与连线,从而将研究方向侧重在特征挖掘的方法而不是编码。通过使用本平台提供的自动特征推荐算法,与封装完成的传统特征挖掘功能,用户可以快速的完成不同场景下的数据分析问题。本文的关键算法在于自动特征推荐,由于不同类型数据集的自动特征推荐算法截然不同,本课题立足于电信反诈场景,解决了结构化数据与中文文本数据场景下的自动特征推荐问题,自动特征推荐算法也是本平台“智能化”的一大体现。提出了“基于子集搜索与特征交叉的结构化特征推荐算法”和“基于复杂网络的中文文本特征推荐算法”,前者在特征选择与特征交叉过程中借鉴了局部最优贪心的思想,在保证准确率与召回率的基础上,执行时间远远小于传统方法;后者分别从中文分词与关键词提取两个中文文本分类中的关键步骤入手,分别提出了“基于bi-gram的双向最大匹配分词”与“基于复杂网络的关键词提取”解决方案,上述算法能够生成一组表现优秀的特征集。同时,作为副产物,给出了中文分词与关键词提取结果。实验结果表明,两个不同场景下的推荐算法均好于现有传统方法。本文首先阐述了整个课题研究的背景和实际意义,分析了国内外学术界、工业界对这个课题的研究现状。接着对整个平台的需求进行分析,分析了自动特征挖掘算法与人工特征挖掘功能的研究意义,按照人工特征工程过程中的不同目的,将分析方法分为数据预处理、统计分析、原始特征评估与隐藏特征构建四个不同的功能。然后针对系统需要实现的关键问题,进行了研究并解决。接着对整个平台的架构和功能模块进行了设计与实现,对模块内部的类与接口进行了详细的介绍,阐述了用户的如何请求通过模块之间交互配合最终得到响应。最后对平台的部署与测试进行了说明,并对论文工作进行了简要的总结与展望。