面向网络不良文本过滤的概念网技术研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gdutzxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
巨大的开放型网络,在给人们带来需要信息的同时,一部分有害信息也乘虚而入。由于互联网所具有的开放性,其上传播的内容不能像传统媒体那样由专门的机构审核后再发布,且其内容的传播速度要比传统媒体要快得多。网上色情、暴力、西方的政治攻击、反动言论等各种有害不良信息时有传播,这些问题的出现,对于国家的安定团结,社会、经济等诸多方面的稳步健壮发展都有极为不利的影响,如果不能有效加以监控管理,过滤掉这些有害信息,将给社会带来很大的损害。因此,与此相关的有效的网上内容安全监控管理措施是极其必要的。互联网上信息传播以文本信息为主。目前的互联网不良文本信息监控研究多是基于统计或关键词过滤,主题性信息过滤大多采用基于统计的文本过滤技术,利用文本特征项作为文本的表示,依据模板和文本所拥有的共同项或概念的多少,作为匹配的基础。这样的优点是速度快,可实现好。然而单纯的关键词过滤分析缺乏必要的语义分析,对文本的理解停留在字和词的层次,而不能理解文本信息的含义。对于含有同样关键词的两段文本,其作者的倾向以及要表达的意思完全有可能南辕北辙,因此对于文本信息的监控过滤,尤其是带有倾向性色彩的文本监控,需要进一步深入的研究。本文的主要内容以概念网为基础,试图构建这样一个系统结构,它的作用是对互联网的不良信息从对句子的语意分析的层次上进行监控和过滤。概念网把具体的字和词转化为抽象的概念,便于研究语义关系。本文做的工作就是从待测文本中提取能代表文本特征的句子,并将句子进行分词,然后提取出其主干抽象成概念。一个句子的特征概念被集合在一起形成一个概念集,作为对该句子文本信息的表示。将若干个这样的概念组聚合在一起,并建立它们相应的关系,构架出了概念网。以构架成的概念网作为工具,形成互联网不良文本过滤系统,从而实现不良信息的监控过滤。本文首先提出互联网文本信息过滤的概念及意义,并介绍了国内外对网络不良信息进行过滤监控的研究成果。然后介绍了概念和格语法等基础知识以及预处理技术。在此基础上,本文提出了概念网的构建模型及算法,并介绍了基于概念网的网络不良文本信息过滤方案。最后通过实验验证了该过滤系统的可行性。
其他文献
OFDM作为LTE的关键技术,通过减少和消除码间串扰(ISI)来克服信道的频率选择性衰落,同时提高了频谱效率。OFDM不仅能够满足铁路通信更高的需求,而且研究其在高速铁路环境中的
人脸识别已成为当前模式识别、机器视觉领域中的一个研究热点。人脸识别的目的是使计算机能够像人一样具有从一幅图像中发现是否存在人脸,以及对发现的人脸进行身份鉴别的能
【摘要】近年来,随着经济的发展,特别是随着改革开放的不断深入,我国的经济建设取得了巨大的进步。与之相对应的,我国的电力行业也在快速的发展着,在电力行业里,变压器是最主要的设备,它对于电力的稳定和可靠,保证电力供应具有十分重要得作用。但是在保证电力良好运行的前提和基础必须要对变压器进行合理、科学的安装,提升变压器的安装水平。我国的电力行业发展的不是很早,在变压器的安装方面的研究也具有一定的局限性,因
期刊
数字水印技术作为多媒体数据版权保护和内容可靠性认证的一种新技术,从20世纪90年代以来得到了迅速的发展,成为当前国内外研究的一个热门课题。数字水印是在不影响多媒体产品
随着Internet业务的爆炸性增长,传统网络在向多业务网络方向发展,而综合近几年的网络发展趋势来看,IP成为适合于各种业务的首选技术。而在光网络中,WDM技术提供了巨大的带宽,
低密度奇偶校验码是一种具有较低的译码复杂度和接近香农极限的渐近好码。它最初由Gallager于1962年提出,但当时并未受到人们的重视。经数十年的沉寂,随着计算机能力的增强和
多输入多输出(MIMO)技术是移动通信领域的重大突破,该技术在不增加带宽的情况下大幅度的提高系统容量和频带利用率,从而成为下一代移动通信的关键技术。空时编码(STC)是一种抗
学位
空中的无线电频谱越来越拥挤,频率的资源性影响日益彰显。为在单位频带内高速传输信息,就要尽可能提高频谱利用率。扩展的二元相移键控(EBPSK,Extended Binary Phase Shift Keyi
进入二十一世纪,移动通信发展迅速,特别是近几年移动通信技术的发展势如破竹。协作通信作为一种多天线扩展技术是一个崭新的研究热点领域,它不仅能够避免增设基站带来的巨大