基于集成式的不良文本分类算法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:mafenqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新媒体时代下,社交媒体的高度活跃,吸引了大批有着共同兴趣爱好的网民,“同好者”通过社交网络齐聚一堂,彼此联系,实现信息的交流与互动,这令每个人都不可避免地成为信息的传播者和接收者,且随时随地都能参与到媒介内容的生产过程中去。如此一来,网络中的信息量呈指数型不断增长,但在这急剧增长的信息中却夹杂着大量包含色情、暴力乃至反动等内容的敏感信息。人们的身心健康和财产安全极易遭受这些信息的威胁,不仅如此,带来的不良影响甚至可能升至国家和社会层面。一些不法分子出于利益目的,为避免含敏感词的不良文本被监管平台检测出,通常会对文本中的敏感词进行变形处理。目前主要是采用基于文本分类和基于关键词表匹配的方法对不良文本进行检测,但是这些检测方法都比较依赖准确有效的关键词特征集合,无法准确识别出不规范的敏感信息。因此,为维护和谐友好的网络环境,如何准确地从海量文本信息中检测出经伪装过的不良文本信息是一个亟需解决的问题。针对上述问题,本文通过研究不良文本中敏感词变形的形式,提出了一种基于关键信息还原的不良文本分类算法(Bad Text Classification Algorithm Based on Restoration of Key Information,KIR-BTCA),通过对文中的关键信息变体进行还原,从而进一步提高对不良文本中敏感词变体的识别能力。同样,该方法依旧存在着一定的局限性。基于此,为了更好地提高算法的多样性,本文基于集成学习设计并提出了基于集成式的不良文本分类算法。该算法集成了基于关键信息还原的、基于改进的KNN的和基于敏感词决策树的三种不良文本分类算法,通过集成学习的Bagging思想分别采用多数投票法和一票否决法,从而得到最终的基于多数投票的集成分类算法(Ensemble Classification Algorithm Based on Majority Voting,MV-ECA)和基于一票否决的集成分类算法(Ensemble Classification Algorithm Based on One Vote Veto,OVV-ECA)。为检验本文提出算法的有效程度,通过人工对搜集的文本数据集进行标注,并结合实际情况考虑进行分组实验测试。在实验中,将每种方法的结果进行比对,分析其优缺点。最后结果表明,集成的两种分类算法在准确率上与KIR-BTCA效果相当,在精确率和召回率上明显优于三种单分类算法,在综合效果方面,MV-ECA比OVV-ECA更占优势。综上所述,致力于不良文本分类算法的研究有助于帮助净化网络环境和上网管理软件的功能升级,从而减少不良信息所造成的危害。
其他文献
随着数字媒体的发展和信息传播方式的多元化,图像逐渐成为了人们接收信息的重要媒介之一。人们在生活工作中会接触大量的图像数据,但往往只关心其中的少量信息。因此,从图像中高效快速地提取吸引人类注意力的信息是极其重要且有意义的。显著目标检测(Salient Object Detection,SOD)研究旨在从图像中快速定位和提取最吸引人类注意力的目标和区域,以帮助人们快速获取有用信息,是计算机视觉中一个重
学位
随着互联网技术的发展和普及,经济一体化浪潮的到来,电商产业获得了快速发展。同时随着网上购物逐渐进入了人们的生活中,与之密切相关的物流业务也获得了高速发展的机遇。虽然快速便捷的快递运输提高了人们的生活效率,但也带来了一些隐患,其中用户隐私泄露问题最为引人注目。目前快递运输是通过包含用户明文信息的快递单来实现的,由于贴在包裹上的快递单暴露在外,使得不法分子很容易直接或间接地得到用户信息,从而造成用户隐
学位
图像描述任务旨在生成给定图像的语言描述。该任务非常具有挑战性,因为它需要深入了解视觉和文本信息之间的关系。近年来,随着计算机视觉和自然语言处理技术的发展,图像描述任务取得了新的进展。当前,软注意力机制被广泛应用到图像描述任务中,它不仅提升了图像描述的性能,还为模型的定性分析提供视觉解释。软注意力机制根据上一时刻的单词,生成不同的权重并对图像特征进行加权融合,得到视觉注意力特征,并以此生成当前时刻的
学位
随着计算机技术和互联网技术的发展,多媒体信息的网络传输成为信息交换的主流方式,图像信息安全的关注度已经超越文本信息安全,成为信息安全领域研究的热点课题。文本信息安全已经形成了标准的密码算法,如国标SM4和美标AES等。但是,与文本信息相比,一幅图像往往具有巨大的数据量和极高的冗余度,这使得标准的文本加密算法不能直接应用于加密数字图像。近年来,由于混沌理论和DNA计算的发展,图像加密技术的研究取得了
学位
红外与可见光图像融合是将由不同传感器获得的来自同一场景的两张图像结合起来,生成一张包含两张源图像互补信息的图像。可见光传感器通过捕获反射光获得包含丰富背景信息的可见光图像,但是却很容易受到环境因素的影响。红外传感器能够克服这些因素的影响,它通过捕获来自目标的热辐射获得具有清晰轮廓但背景模糊的红外图像。因此,将红外图像中的热辐射目标信息与可见光图像的背景信息融合到一张图像,不仅更利于人眼的视觉感知,
学位
近年来,虽然我国对于证券市场的监管制度愈发完善,但是上市公司的财务欺诈行为并没有随着制度的完善而消失,各种财务欺诈案层出不穷。该行为不仅会造成报表使用者的利益损失,还会冲击整个市场的资本环境。在面对财务欺诈这一棘手的问题时,如何构建出准确高效的财务欺诈识别模型,成为了财务报表使用者以及市场监管者最关心的问题之一。现有研究表明,基于财务指标和财务文本能有效地识别出存在财务欺诈行为的样本。本文以上市公
学位
单一的传感器只能获得单模态的场景信息,存在一定的局限性,而随着技术的不断发展,传感器的种类越来越多,人们可以获得同一场景多个传感器拍摄的图像。图像融合技术对多传感器拍摄的同一场景图像进行多方位、多角度融合,以减少冗余信息并获得良好的视觉效果和丰富的细节。可见光图像包含了场景的背景信息以及纹理信息,但在某些特定情况下,如在弱光、雾等环境条件下,目标很难在可见光图像中观测到。红外图像则反映了目标与背景
学位
科技飞速发展的今天,计算机技术以迅猛的速度进入各行各业,物联网技术飞速发展,摄像机等监控设备的联网被广泛应用,但仅靠设备捕捉到的画面难以满足日益复杂的需求。当前,仍有许多城市出现雾霾的天气状况,此时摄像头拍摄到的画面总是朦胧不清,这给后续的许多任务,例如车牌识别、行人面部识别、自动驾驶路况判断等带来了不小的挑战。在这种情况下就需要使用图像处理技术对画面进行处理,去除图像上的雾层,挖掘出被雾霾掩藏的
学位
软件测试是软件开发中非常重要的一项任务,能帮助开发者全面、快速地找到软件漏洞,从而有效提升软件质量和用户体验。设计和选择合理的测试用例,可提升软件的测试效率,减少开发人员的工作量。随着软件功能的不断完善,其规模和复杂度不断增加,传统用例生成方法效率较低,很难满足目前软件测试的需求,故而,如何提高测试用例生成效率仍需进一步研究。基于此,本文针对路径覆盖测试用例自动生成效率问题展开探讨。针对回归测试中
学位
随着传感器技术的飞速发展,人们获得信息的通道越来越多。不同的传感器能够反映场景中不同方面的信息,可以帮助人们更加全面地了解物体的本质。虽然不同传感器图像之间存在着互补信息,但图像和图像之间不可避免的存在冗余信息。红外传感器捕捉场景中的热辐射信息,因此红外图像具有较高的对比度,且能够将显著目标与背景分离。可见光传感器捕捉场景中的光反射信息,因此可见光图像具有较丰富的纹理信息。红外和可见光图像融合旨在
学位