基于WEB页面的主题搜索的研究与实现

被引量 : 4次 | 上传用户:jurenyaoyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来,互联网的发展十分迅猛,网络中的信息资源越来越丰富,用户主要通过搜索引擎来获取所需的网络信息。由于WEB网页信息的爆炸式增长以及实时更新等特点,如何在海量的网络信息中获取人们搜索的特定主题信息,成为人们研究的重点课题。本论文的主要研究内容是在设计实现考研信息采集系统的基础上,基于WEB页面、针对考研信息采集的主题搜索,着重研究了主题搜索的关键技术,重点介绍了主题网络爬虫的搜索算法、主题相关度判定、网页文本分类算法在该系统的设计与实现。本文的主要工作和创新点在于:1.主题爬虫的搜索算法设计与实现:在设计考研信息采集系统的主题爬虫时,通过遗传算法能够从全局中选择最优化来控制考研主题爬虫的爬行方向,避免其陷入局部最优中。同时,非贪婪策略对URL链接对应的页面有选择的进行采集,将二者相结合,提出了非贪婪搜索遗传算法,这样既能保证主题爬虫爬行方向的正确性,又能保证采集页面的主题相关性。2.主题相关度判定设计与实现:通过建立向量空间模型对采集页面包含的信息进行主题相关度的判定,本系统利用超链接所处的页面、对应的锚文本、链接自身来计算主题的相关度。3.网页文本分类算法设计与实现:通过K-均值算法对初始数据的完整数据集进行聚类,计算缺失数据集中的记录与簇的相似性,将其加入对应的簇中,然后通过朴素贝叶斯分类算法进行分类。经过实验测试,改进后的K-均值朴素贝叶斯算法的性能得到明显的改善。综合以上的各项研究,详细描述了主题网络爬虫在考研信息采集系统的设计及实现过程。通过对主题爬虫的性能测试,验证了本系统设计的主题爬虫搜索算法的有效性。
其他文献
淡紫拟青霉是防治植物寄生线虫最有潜力的生防菌株之一,但是其采用液体深层方法大量生产、孢子粉制备、制剂加工和存储等方面的研究都处于起步阶段,制约着其应用到实际生产当
有效市场假说(EMH:efficient market hypothesis)自1970年正式提出以来,接受了大量学者的研究和论证,进而以其理论的严谨性成为现代金融研究的基石,现代金融研究的理论大部分
随着社会主义市场经济的发展,我国的经济实力迅猛提升,各类型的利益集团、政治团体,官方机构及民间非政府组织正在市场经济规律的引导下制造着巨大的社会财富。这些社会财富如何
在当前终结性评价盛行之时,档案袋评价法作为一种以学生为中心的形成性评价方法,与终结性评价法相比,具有极大的优越性。本文试图通过对档案袋评价法的理论综述、意义探讨和
随着地下空间开发的高速发展,建筑物基础的抗浮问题变得日益突出。抗浮措施不当已造成沿海沿江地区大量建筑上浮倾斜和倒塌的事故,同时抗浮设防水位过高又会造成投资的浪费,因此
后殖民主义批评主要关注的是当今殖民国家即发达国家与殖民地国家即发展中国家之间的不平等的文化关系,认为发达国家的强势文化与发展中国家的弱势文化仍是支配与被支配、控
随着激光光电应用技术的发展,如何有效实现激光束的控制、调制、偏转或探测等功能已经成为制约激光光电应用技术发展的关键瓶颈之一。基于液晶的相位控制阵列具有工作电压低
新生儿疾病筛查包括新生儿两种疾病筛查和多种疾病筛查作为出生缺陷三级预防的重要内容,已经成为新生儿出生前后干预的主要手段,能够有效提高出生人口质量和生命早期的健康潜
研究背景:膝骨关节炎(osteoarthritis,OA)是临床上最常见的慢性退行性的关节疾病,严重影响人类生活质量。骨关节炎的发病因素和病程进展机制不明确。近年来许多研究表明OA可能
学校提供给学生自主选择的学习内容,积极探索拓展性课程的开发、实施、评价和共享机制。本文以"皮皮讲堂"与"幸福绘本剧"这两门课程为案例,深入探索如何在拓展性课程学习中,