面向网络社区的敏感信息语义计算方法研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:duancj1972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络社区作为互联网的一个重要组成部分,其安全性和稳定性引起了广泛关注。一些敏感信息在网络社区中蔓延开来,对社会的和谐造成极大危害。敏感信息识别方法通过识别敏感信息并进行预警以阻止其传播,对引导网络舆情走向,营造网络社区良好舆情环境有着重要意义。在对网络社区敏感信息进行识别时,现有方法由于无法对语料所表达的意义进行深入理解,其识别效果还有待提高。本文在调研国内外对敏感信息识别技术的基础上,结合语义分析和计算技术,设计并实现了基于语义依存关系的文本敏感性计算方法。该方法通过敏感词典的自动扩充和敏感序列标注提高敏感词汇的识别效果,并分别对句子级和文档级的敏感性进行计算。在处理句子时,使用语义依存分析挖掘句子的语义信息,并设计了局部敏感性传递算法对这些语义信息进行处理,最后提取出句子级的敏感向量。在处理整篇文档时,使用敏感句子架构匹配策略和敏感分级策略,对文档的敏感性进行分级,为舆情监测者提供参考。为验证本算法的准确性,本文设计了在各级敏感语料上的对比实验。在实验过程中,采用主流的NB、SVM、KNN和adaboost几种分类器实现文档的敏感性分级。实验结果表明,本文算法在实验数据集上的敏感性分级准确率达到了 84.51%,相比对照算法提升了 10%左右。本文算法在各级文档中有较为均衡的识别效果。
其他文献
目前我国的蓄滞洪区既是蓄滞洪水的场所,又是区内居民生存发展的家园。蓄滞洪区的运用保护了重要地区的防洪安全,同时也给蓄滞洪区内的居民带来很大的损失。 自20世纪80年代
人力资源是现代经济发展中的首要资源。人力资源管理是影响跨国经营成败的最为关键因素,是民营跨国公司推进企业国际化战略的关键环节和重要途径。民营跨国公司如能有效地开发
点穴按摩治疗老年性痴呆临床观察黄霖随着社会经济的发展,人口老化逐年上升,老年性痴呆也日趋增加。笔者近年来在中医老年病专科收治了35例老年性痴呆病例,均授予患者及家属自我点
本世纪70年代,在西方掀起了研究晚年马克思的热潮。一些西方学者把马克思晚年转向人类学的研究,看作是《资本论》研究的中断,并据此否认马克思思想发展的前后一致性与连贯性
腐败问题是全社会关注的热点问题之一,腐败对社会的危害让各国政府和民众深恶痛绝,抵制腐败成为各国政府的重要工作之一。世界各国都设立机构专职反腐,由于各国和地区反腐败
本文评析了哈贝马斯的"生活世界"理论。哈贝马斯从概念上把社会分为"生活世界"和"体系"两个层面,指出体系发展的复杂化和生活世界合理化发展水平的提高导致体系与生活世界脱节
城市污水再生后回用于工业循环冷却水是解决我国水资源短缺的有效途径之一。本课题重点研究了再生水回用过程中冷却水水质对循环冷却水系统腐蚀和结垢趋势的影响。本研究共分
在对大学生阳光体育运动开展的实践进行剖析的基础上,认为华南农业大学阳光体育开展过程中的领导重视、实施方案可行、经费投入有保障、管理服务体系和考评机制比较完善等方
目的探讨CREB1基因与BDNF基因之间的交互作用与抑郁症的关系。方法1.采用病例对照的研究设计,对反复发作抑郁症患者(抑郁组,n=768)及健康对照(对照组,n=511)的CREB1,BDNF基因
新时期基层体育教研员权威,是保持中小学体育工作秩序,完成体育教学任务的必备要件。新时期基础教育的发展越来越需要基层体育教研员权威由"外附地位"向"内生素养"转型,这是时代