基于SVM文本分类的传销识别研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:milamiya2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络传销是一种基于互联网传播平台的新型传销形式,具有隐蔽性强、欺骗性强、涉案范围广、传播速度快等特点。网络传销扰乱了互联网的良好秩序,破坏了市场经济的健康发展,造成了诚信危机,严重影响了社会和谐稳定。网络传销的犯罪手段多种多样,往往是利用互联网发布信息进行“宣传推广”。文本是网络传销活动中使用最广的信息形式之一。数据挖掘技术在网络舆情分析中广泛应用,然而数据挖掘在传销识别方面却鲜有应用。传销组织的文本和正常公司的文本有所差别。因此,本文提出通过文本分类的方法对网络文本中的网络传销公司或者团体进行识别。基于支持向量机的文本分类是目前主流的文本分类方案之一。本文通过研究传销组织的文本,结合传销文本的特性对基于支持向量机的文本分类方案进行优化改进。在本文中,传销文本识别本质上是一项文本分类任务。针对传销文本的特点进行分析和总结,并结合这些特点对基于支持向量机的文本分类方案进行优化和改进是本文研究重点之一。此外,本文还针对支持向量机算法在传销文本识别任务中的改进做了一些研究。本文的主要研究工作与成果如下:(1)提出了一种包含特征的类别分布信息的特征加权算法。针对传统特征加权算法忽视类别信息的缺点,该算法利用特征在类别间的分布差异对传统特征加权算法进行改进。该算法通过给类别区分能力更强的特征赋予更高权重,提高识别传销文本的准确度。(2)提出一种新的用于二分类问题的文本表示模型,主题向量空间模型。在此基础上,本文将主题向量空间模型与传销特征结合,提出了具体的用于识别传销文本的传销主题向量空间模型。本文设计实验证明传销主题向量空间模型比传统向量空间模型在识别传销文本任务中有更好的表现。(3)将增量学习方案应用在构建支持向量机分类器中。针对支持向量机分类器在新的训练样本加入时需要重新构建模型的不足,本文引入了支持向量机的增量学习方案。增量学习方案能够大大减少了加入新的训练样本时构建模型的计算量,提高识别传销文本的性能。
其他文献
可靠传输协议一直以来备受关注,许多研究人员基于传统TCP协议对拥塞控制算法做了大量研究,网络性能也得到相应提升。但随着互联网和网络设备的快速发展,传统可靠传输协议的设
血管支架的介入式治疗作为最有效的心血管疾病的临床治疗手段,挽救了众多心血管疾病患者的生命。然而,晚期血栓的频发与支架内再狭窄率的居高不下仍引起了人们广泛的关注。支架植入后引起的血管损伤会导致内皮细胞层的功能缺失,引发的一系列凝血、增生及炎症等病理反应,大大延缓甚至阻碍支架表面内皮化,从而导致晚期血栓与支架内再狭窄的发生。健康的血管内皮层是阻止血栓形成的天然屏障,通过内皮细胞持续释放的一氧化氮(NO
无线电能传输(Wireless Power Transfer,WPT)是指电能从电源端到负载端的一种非电气连接的能量传输方式。在无线电能传输技术中,磁耦合谐振式无线电能传输技术具有中等传输距
目的:全球每年确诊为结直肠癌(colorectal cancer,CRC)的病例超过100万例。近年来,我国结直肠癌的发病率和死亡率在所有肿瘤中均排名前五。手术治疗后,结直肠癌的复发率将近40%,再加上许多结直肠癌患者确诊时已是晚期,失去手术治疗的机会,因此化疗在结直肠癌的治疗中扮演着重要角色,但是化疗药物本身的毒副作用限制了化疗药物的应用。药物递送系统能够通过各种药物载体改善药物的理化性质,优化
随着数字经济和人工智能的兴起和发展,人脸识别技术、视频会议、远程医疗、电子病历等新技术被广泛应用于日常生活和各种商业活动,极大地提升了我国信息现代化水平和便利程度
无人自行车是一个不稳定的欠驱动系统,它是近年来机器人领域关注的一种智能交通工具,具有广阔的应用前景。本文以无人自行车为研究对象,对其动力学模型分析、平衡控制器设计
目标检测技术作为计算机视觉领域的核心研究课题之一,是重要的计算机视觉任务。近些年来,伴随着硬件计算能力的提升、大数据集的诞生以及深度学习技术的发展,目标检测性能得
随着物联网的发展和人们对高质量生活的追求,无线体域网因其实时监控、及时诊断等特点受到学术界和工业界的广泛关注。无线体域网通过安置于人体周围的各种传感器收集用户生理信息,并借助无线网络发给远程医疗中心进行诊断。然而,无线环境中的通信存在多种安全攻击,难以保证用户信息的机密性以及用户认证安全,因此,需要建立合适的安全机制以实现用户的隐私保护及认证。认证与密钥协商不仅能够实现无线体域网中用户身份认证,也
为了我国土地市场合理发展以及加强当地政府的管控,如何构建一个合理和科学的基准地价体系是我们目前需要探索的内容。在土地定级与基准地价研究方面,国内学者们大多涉及的都
随着互联网应用数量的日益增多和多样化,网络拥塞已成为制约网络发展和应用的障碍.所以互联网中的拥塞控制是一个极其重要且具有挑战性的问题.拥塞控制机制主要包括基于TCP的