论文部分内容阅读
随着网络的迅速发展,互联网已成为海量信息的载体。搜索引擎的出现为人们使用互联网提供了较好的便利性,同时也成为研究网站用户行为的有效工具。近年来伴随着网络的兴起,民族问题是困扰我国发展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族问题的传播进行监督成为目前网络舆情监控的一大课题。本文着重对网络中民族问题特定信息提取面临的关键技术进行研究。本文首先介绍了聚焦搜索引擎及相关关键技术发展概况及原理,重点介绍了常见的网页分类算法、网页关键信息提取及抓取策略,为本文所设计的基于搜索引擎的聚焦爬虫算法及实现提供理论基础。搜索引擎搜索结果并不能完全与用户的需求匹配,且在某些情况下给出的搜索信息量明显不足。因此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。互联网中信息主要以HTML页面形式出现,而HTML具有明显的分类特点。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有明显的结构化,因此选用空间向量对网页代码进行简化,并基于向量空问模型对问题进行算法设计。算法首先将模型分为两大模块,百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息,得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点,基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索,得到相应的搜索结果。最后本文完成对算法的初步实现,并对结果进行简要统计分析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行分析,得到搜索结果与社会中敏感信息来源匹配,证明搜索结果的可操作性和有效性,为算法实现的进一步优化提供数据支持。