基于改进随机森林的刑事案件关联数据补全方法

来源 :中国人民公安大学 | 被引量 : 0次 | 上传用户:zhsotanlb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集的完备性是衡量数据集优劣的重要指标之一,然而数据在采集、传输、分析、保存等环节会不可避免地出现丢失现象。据统计,部分地区刑事案件犯罪数据集缺失率高达32%,严重降低刑事犯罪分析的准确性。为改善犯罪数据集中数据缺失问题,本文采用随机森林(RF)及其特征分析、LightGBM等机器学习方法,构建数据补全模型,并使用芝加哥犯罪数据集对模型进行验证。具体创新点和工作如下:首先,本文提出一种基于KNN与随机森林的缺失数据补全算法(RF-KNN)。该算法首先利用KNN模型选取合适K值,确定构建随机森林的参数。然后根据随机森林属性划分的特点,构建属性分类预测模型,对缺失属性值进行有效补全。实验结果表明,RF-KNN不仅能有效缩减数据集的大小,降低模型训练的计算复杂度,而且分类准确率较原始随机森林模型提升了4.8%左右。其次,本文使用RF-KNN模型对原始犯罪数据集进行优化分类,并在其基础上提出一种改进LightGBM与DNN融合的数据补全模型(DNN-LightGBM-LR)。该模型的创新在于,利用PCA降维与GBDT和RF特征重要度分析,对芝加哥犯罪数据集进行关联属性分析;采用DNN网络对类别特征进行嵌入学习(embedding),得到类别特征的向量化表示,并替代原始特征训练后续的树型模型;在LightGBM模型中使用LR算法替换树型结构最终加权平均的取值方式进行最终分类预测。最后,为进一步验证论文提出的混合模型的有效性和泛化性,将DNN-LightGBMLR模型在芝加哥犯罪数据上与更多模型进行比较,选取了混淆矩阵和ROC曲线以及对数损失函数logloss等评价指标对模型优劣性进行评估。实验结果表明,改进后的数据补全模型对缺失数据的预测更加真实有效。
其他文献
经过剧作家锦云与导演张曼君的通力合作,秦腔《狗儿爷涅槃》由话剧华丽转身,完成了文本与舞台的再创造,塑造出了"别样的狗儿爷",将戏曲特有的古典特征在当代审美中给予完美呈现,赋予了地方戏新的舞台风貌与审美情趣,其中蕴含的戏曲经验值得借鉴。
<正>每当离家回到故土时,抬头仰望红土地的蓝天和远山尽头的彩霞,彩云之南的云似乎有魔力般,让人神往,让人眷恋……对彩云之南无限眷恋的还有已故的张苛老师,生前他曾在《云彩南端的舞蹈》中写道:“一想起云南,那便是云彩南端千姿百态的舞蹈涌涌似海、成山的意象。而当我一想到这舞的山、舞的海,却又叠印出许多朋友的面容,如毛相、刀美兰、苏天祥、刘金吾、康瘦华、
期刊
生态自然教育正成为社会关注的新热点问题。介绍了寿阳县森林公园生态自然教育基地建设的基本情况,分析了存在的问题,提出了更好的开展生态自然科普教育基地建设新思路。
大数据时代个人隐私权的受损呈现出规模性、隐蔽性和市场失灵性的新特点。“整合主义”、反垄断法的价值追求和公共利益理论为反垄断法保护个人隐私提供了坚实的依据。在我国,反垄断法对个人隐私权保护有其可行性。应明确反垄断法可以应用于个人隐私权保护,并阐明反垄断法保护个人隐私权的评估细节,确定反垄断法保护个人隐私权的法律责任。
陕北民歌作为非物质文化遗产的一部分,在当今社会经济高速发展和文化日趋多元的冲击下,其生存空间逐渐缩小,陕北民歌的传承和发展问题已迫在眉睫。本文对陕北民歌的形成与发展、特点和分类进行阐述,并在分析制约陕北民歌发展原因的基础上,提出了传承与发展陕北民歌的思路与对策。
<正>韩浩月在《"偶像养成类节目"停播,综艺节目再度进入黄昏?》一文中指出,"偶像养成类节目"之所以令人反感,其关键的点在于"养成"二字。"偶像养成"这一发源自日韩娱乐产业的商业模式,在本土化的过程中,没有纠正其存在的弄虚作假、洗脑教育等缺陷,反而在某些方面有无所不用其极之势。这类节目播出前后,通常会通过数据造假与商业炒作的方式,给娱乐圈与社交媒体造成很强的"污染",
期刊
烧钱补贴是互联网平台为抢占市场份额采取的常见价格策略,平台烧钱补贴行为对市场竞争具有两面性,容易对消费者利益、市场竞争秩序等产生较大影响。目前,对互联网平台烧钱补贴行为应否规制以及如何规制存在较多争议,既不能因噎废食、绝对禁止,也不能放任不管、无序发展。对该类行为的法律规制还存在理念不明确、法律适用竞合、社会协同薄弱以及规制手段不足等问题,建议以回应型规制理念为指导,通过精准选择法律依据、科学构建
期刊