Blog文本内容敏感信息的自动提取技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sdggertretfdhghdfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,信息技术和产业迅速发展,国际互联网上各种新兴应用层出不穷。上世纪90年代,Blog在西方国家出现,到2001年,已经成为了网络主流;2002年,Blog被引入我国,5年内,就吸引了近5000万人,平均每4个网民中就有一个Blog作者。Blog已经成为世界范围内的第4媒体。网络信息犯罪是与网络媒体的发展共生的,人们对于网络与系统安全已做了大量研究,但对于网络媒体信息内容的安全问题,只在近年来才逐渐得以重视。在Blog这种巨大的开放信息源上,一旦有敏感信息(包括反动、恐怖、色情等等)不受限制地流传,将会对网络用户造成巨大影响,给社会造成巨大损失。为了保护用户,维护稳定,必须采取措施对敏感信息进行监控,同时也为运行Web服务的各种组织,提供对此类信息的访问加以监控的技术和服务。为此,开发先进的文本信息安全监控技术是一项紧急而又重要的课题。本文结合自然语言理解、中文信息处理等相关知识,结合本实验室文本信息处理目前研究进展,提出基于Blog日志属性构造决策树的算法,对文本中未知的敏感信息进行自动提取。本文首先介绍了Blog的发展概况,给出了Blog上敏感信息的几个外延,阐述了提取敏感信息的重要意义。最后,简要介绍了国内外这方面工作的现状。其次,介绍了中文文本的预处理、表示技术以及分类技术。我们介绍了中文自动分词,文本的向量化表示,特征提取,特征降维,权重计算等。并介绍了几种经典的文本分类方法。还对新词发现作了介绍。接着,介绍了网页文本和有用属性提取的方法。并对使用汉字部件组合技术处理拆字现象作了详细介绍。随后,针对现有过滤监控技术的速度可能成为瓶颈这一问题,提出利用Blog日志属性信息构造决策树,实现未知敏感文本的发现。介绍了决策树的原理和构造决策树的算法ID3算法。我们提出了几个ID3算法的改进算法。最后,提出了系统流程图,对各个部分进行了解释。使用改进算法与已有算法进行了对比,效果良好。文章最后对本文的研究课题进行总结,提出当前研究的可行性和今后一些需要改进的地方,并提出相应的对策。
其他文献
随着信息产业的飞速发展,通信技术和计算机技术的融合已成为必然趋势,因特网的出现则加速了两种技术的融合,全球通信产业呈现移动化、宽带化、IP化的趋势。IEEE802.16e的出现
随着WiMAX正式成为3G标准,WiMAX的角色由最初的作为最后一公里的宽带接入补充一跃成为炙手可热的3G宽带移动通信。WiMAX有固定和移动二个版本。由于提供了较目前移动通信更高
根据语音信息实现对当前说话人跟踪的语音定位技术在视频电话会议、大型会议场所记录、语音识别预处理装置、助听设备等场合具有广泛的应用前景和潜在的经济效益。由多个麦克
随着电子对抗的发展,抑制各种电子干扰已成为研究的热点,特别是在直接序列扩频(DSSS)通信系统中,当干扰的能量超过系统干扰容限时,如何高效对抗各种时频干扰是一个重要研究课
本文以山东省计算中心(国家超级计算济南中心)承担的山东省自主创新重大成果转化项目“物联健康医疗云应用推广”为背景展开。该项目是基于物联网、云计算和超算的智慧医疗服务
智能天线技术是第三代移动通信系统的关键技术之一,也是现在国内外热门的研究课题。在无线通信系统中采用智能天线技术,实际上是通过数字信号处理,使天线阵为每个用户自适应
人工智能技术作为新的一波科技浪潮,正在改变世界。而人机交互作为人工智能的接口,越来越受到研究者们的重视。在现有的人机交互技术中,手势识别是目前研究最为热门的人机交互技
本文介绍了数字多媒体视频通信的发展现状,阐述了TDS-OFDM系统的基本原理,重点以中国国家地面数字电视传输标准为例,研究了TDS-OFDM系统中的时域恢复技术。本文在传统的数据
随着现阶段我国城市化进程的加快,城市公共交通的压力越来越大。尤其是在大城市,这一问题日益突出。合理调度公交车辆,提高城市公共交通智能管理水平已刻不容缓。实时有效地获取
水声被动定位技术作为声呐系统的一项重要功能,在军事和民事领域都得到了快速发展和广泛应用。本文主要是对基于球面内插法的柔性阵被动定位系统中有关的算法进行研究,以进一