论文部分内容阅读
随着“数据驱动生产”这个理念的深入人心,数据成为社会生活、工业生产亦或是企业运营的原动力。截至2017年3月,教育部已批准35所高校成立“数据科学与大数据技术”专业。在这潮流引领下,大数据竞赛成为一种时髦的数据挖掘形式。竞赛由企业自己举办或依托于专业平台举办。竞赛将参赛团队聚集起来,在有限的时间内寻找算法优化方案或问题解决方案。但在竞赛举办的过程中还是会出现一些公平性方面的争议问题。这给运营团队提出更高要求,要创造尽可能公平公正的比赛环境、评比机制,预防漏洞,当发现漏洞时及时弥补。本文主要基于用户行为来研究竞赛平台中的作弊行为,进行特征提取并用一些模型加以训练。本文重点分析了平台用户的访问行为,并用各类指标进行行为定义,通过异常检测的方法识别用户访问行为中的异常点。然后结合用户提交文件的相似性,将分析落脚于作弊异常行为的预警。主要研究工作分为以下几方面:1.从用户访问的角度对用户浏览行为数据进行了分析。用户在浏览网页时,因为行为背后蕴藏着共同的目的,即了解竞赛内容,参赛并提交竞赛结果,所以这些正常用户访问行为都有着较为相似的行为模式。而异常用户在使用平台时,通常抱有特殊目的,如投机以获得更多的提交机会与平台反馈,因此异常用户基于某些维度的行为会有不同。本文对能描述用户浏览行为的数据进行了分析,并用较强相关的特征区分两类用户。2.针对用户提交文件进行分析,并且设计一种针对提交文件自身特征的相似性检验方法,同时针对文件对应的成绩序列,提出一种基于成绩变动趋势的检测方法。本文针对不同用户的历次提交和同一用户的历次提交进行分析,实现了针对文件自身、文件提交时间、文件对应成绩等的全方位检验。3.研究基于平台用户全方位行为的作弊预警方法。该方法针对用户的访问行为、提交行为所产生的各项数据进行数据关联,处理成为某一特定竞赛下的规整用户行为特征数据。采用用户访问特征与文件相似性检验相结合的方法,完善作弊预警模型,建立起平台作弊预警的自动化处理机制。4.针对本文所述模型在竞赛平台上实现并测试。经实验测试用户行为特征在svm和xgboost算法下平均预测准确率为95%,且在多个竞赛下均能稳定预测,说明模型对作弊预警具有有效性和普适性。本文就模型的最终输出给出优化意见。除本文的有效性和普适性验证外,在真实企业环境中测试,作弊预警模型辅助运营人员的后续服务。用户申诉少,这达到了模型设计的初衷。本文提出的模型可以一定程度上提升竞赛公平性与运营服务水准。如今无论是为了完善平台机制,营造公平竞赛环境,还是提升精准化运营服务水准,都离不开数据的支撑。本文研究所提出的模型,全面分析了用户的各项数据,将应用落脚于作弊预警。在未来模型不仅可以通过特征的优化,更加适应变化多端的用户环境,还可以将整套用户行为分析方法拓展应用于个性化竞赛运营,运营方式探索,运营效果评估等不同领域。