基于群聊文本的分类研究

来源 :现代计算机(专业版) | 被引量 : 0次 | 上传用户:asgtzyj_lxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量群聊天,如何快速对群体类别进行分类,以帮助公安精准地找出利用网络社交平台进行违法犯罪的群体,具有重要的研究意义。然而由于群聊的聊天内容具有非正规、不完整等特点,因此在分类应用上具有一定的挑战性。从群聊的文本特性出发,通过TF-IDF技术将词向量进行赋权转化,利用梯度降维的方法对词向量进行降维处理,利用机器学习算法对词向量进行文本分类等步骤,搭建面向群聊的分类模型,降低群聊在分类应用上的难点。通过实验对分类模型的效果进行验证,实验结果表明该方法可以有效地检测出违法犯罪的社交群体。
其他文献
煤矿生产过程中,加强通风安全管理是提高煤矿生产效率的关键,也是保护工人生命财产安全的重要途径。在煤矿井下生产过程中应该要加强通风安全管理信息系统的建设,确保煤矿井下通
本文提出了基于FP-SSD(Feature Pyramid-Single Shot Detector)算法的多尺度目标检测方法。首先对训练样本进行处理,采用自适应裁剪算法裁剪训练样本,以适应单张图片中不同尺
环境监测向社会服务方向发展,在我国现阶段还不是很普遍,但显而易见的是,环境监测机构实现社会化可以吸纳多种力量为环境保护服务。为了实现环境监测机构的社会服务职责,本文
本文针对我国井下紧急避险系统应用过程中存在的投入大等问题,在现有紧急避险技术和垂直钻孔救援技术的研究基础上,探讨了钻孔逃生救援系统的基础理论,研究了逃生钻孔、救援
在纪念爱因斯坦的“奇迹年”( 190 5 ) 10 0周年之际 ,2 0 0 5年已被称为“世界物理年”(WTP) .2 0 0 5世界物理年的一系列重大活动的目的在于提高世界范围内公众的物理学意
21世纪以来,上海的话剧市场充满活力、蓬勃发展,其中呈现出一个具有历史颠覆性的现象——将电影剧本改编成话剧作品。在这个电影剧本骤然集中变成话剧作品的潮流背后,不仅仅
基于全国七省十三市(区)的调查数据,在个人、家庭、工作及地区变量之外,从职业流动和地区流动两个层面探讨流动对农民工城镇养老保险的参保意愿和参保行为的影响,Logit模型结
目的分析尿液检验中尿沉渣与尿常规之间的相关性。方法随机抽取我院于2016年2月至2017年2月收治的98例接受尿液检查的患者作为研究对象,对采集的尿液分别进行尿常规检验和尿
本文介绍了越南煤炭工业的发展概况,针对越南煤炭发展的规划和亚洲煤炭市场的实际以及越南目前开采煤田的地质状况,阐述了越南煤炭发展应该借鉴中国急倾斜煤层开采技术,发展急倾
对469例非妇科标本进行了液基细胞薄层涂片法处理并与传统细胞涂片方法对比,应用液基薄层细胞涂片法在痰标本中查到恶性肿瘤细胞16例,可疑瘤细胞2例.传统涂片4例被漏诊.液基