基于关键词的垃圾网页判别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tsmljgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网页中存在大量的无关跳转链接;网页内容杂乱无序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然语言处理和机器学习的方法进行垃圾网页的判别。语义分析需要预先建立庞大的语料库和繁琐的标注工作,机器学习的方法同样需要预先进行自然语言的处理。自然语言处理耗时比较长、处理难度较大。本研究的目的建立一系列指标来描述一个网页,根据这些指标利用统计判别方法进行垃圾网页的识别,避免自然语言处理和机器学习的麻烦。本研究从网页整体维度、文本维度和链接维度三个方面分别建立一套指标来描述一个网页,使用fisher判别法、logistic回归和贝叶斯判别三种常用的统计判别方法进行指标体系判别效果的分析验证,根据判别的有效性和准确性来进行指标合理性的验证。为了验证利用统计方法进行垃圾网页的判别具有可操作性,本研究在采用计算机自动进行网页的解析工作,利用中文分词技术对网页文本进行分词处理,然后统计出各个指标的数值。
其他文献
为确保生产的持续进行,储备一定数量的备件是必要的,但是如果储备量过大,一方面将占用大量的流动资金,增加无效的仓储面积和保管费用,从而产生巨额的资金占用成本;另一方面,
近些年,我国边检站的运营模式、服务质量、服务效率等取得了长足的进步,其与国际同类部门之间的业务水平差距越来越小。但是,因为我国边检站服务最初是由边防军队所承担,所以,目前