中文网页定题采集及分类研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ljzhangxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信息已经成为网络用户的一大难题。因而基于Web的网上信息的采集和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集所采集的页面数量过于庞大,所采集页面的内容过于杂乱,需要消耗非常大的系统资源和网络资源。同时Internet信息的分散状态和动态变化也是困扰着信息采集的问题。定题搜索引擎将信息检索限定在特定主题领域,就主题相关的信息提供检索服务,相应特定主题所需采集的网页数量极大减少且主题统一。与通用的搜索引擎相比较,定题搜索引擎由于检索的范围较小,查准率和查全率易于保证。本文所研究的就是建立定题搜索引擎的前期关键技术—Web信息定题采集及分类技术。全文的主要内容如下:通过对Web结构和Web链接特性的研究,分析了一些在定题Web信息采集过程中有用的规律。对元数据进行定义,讨论了几种基本的超链及其元数据类型。研究了网页信息抽取问题,分析了常见类型的元数据并确定了适合作为定题信息采集依据的元数据类型。讨论了如何基于元数据通过主题扩展得到主题相关词集,包括禁用词过滤、主题候选词的抽取及相关策略过滤等过程。重点研究了利用改进的Apriori算法,对元数据库进行关联挖掘抽取主题候选词,并给出了主题词关联挖掘和过滤,即主题扩展的迭代算法。实验证明,本文所提供的元数据处理策略,能很好地进行主题的抽取与扩展,为实现更有效的定题Web信息采集提供良好前提。给出了一个基于Web元数据的定题信息采集系统并加以描述。对经典的基于超链分析的相关性判别算法HITS和PageRank进行了描述和分析,给出了基于Web元数据的多种相关性判别算法,并利用Web元数据对HITS和PageRank算法进行了改进,提出了M-PageRank算法和M-HITS算法。测试了各种算法的性能并作了比较研究,实验验证了所提出的算法能为实现定题检索提供良好前提。讨论了文本分类的基础及Web网页在文本分类中的特性和特殊处理,将HTML文档用TFE表示,考虑半结构文档词条所处结构对分类的影响,修正了反映特征词在网页中的权重函数,引入扩展文本作为网页分类的内容补充。研究了既考虑文档结构又兼顾文档内容的改进的朴素贝叶斯和支持向量机Web网页分类方法,并通过实验验证了两种分类方法的良好效果。通过对Web定题采集和分类的研究,本文从技术和方法上做出了一些增强及改进,提出的方法及改进的算法取得了较好的实验效果,所得到的若干结论也具有理论和实践上的指导意义。
其他文献
随着社会经济的不断发展,以及农村脱贫攻坚的持续深入,农村生活水平不断提升,农村地区能源需求量不断增大。因此,广大农村须因地制宜,利用当地的自然资源,如太阳能、生物质能
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在开放、动态多变的Internet环境下,服务组合能够实现动态资源聚合和灵活应用集成,已成为面向服务计算(SOC)技术发展的主要方向之一。缺少服务质量保证,虽然通过服务组合能够
计算机在人类生活中扮演的角色随着经济社会的不断发展而日益重要,在当今社会其已经成为了人们工作生活中不可或缺的重要组成因子。而在计算机技术中,软件系统的影响是决定性
随着计算机网络的迅速发展,网络入侵事件频繁发生,人们逐渐认识到只从防御的角度构造安全系统是不够的,仅仅使用防火墙、数据加密等传统安全防护措施已经不能满足对网络安全
音频、视频内容分发代表了Internet中一类重要的应用,但目前还没有满意的解决方案。传统的C/S模式中服务器很容易成为系统瓶颈,IP组播由于难以实现可靠组播和拥塞控制等限制
期刊
农村基层党组织是法治型党组织建设的重要阵地。以法治型党组织建设为抓手锻塑法治素养好的农村书记队伍,有助于全面提升农村基层党组织书记队伍的法治思维和依法办事能力,提高
2019年11月27日,国网江油市供电公司员工来到马角镇大炉山村盘岩沟农家山庄,为山庄检查用电设备,回访了解客户对农网改造升级的满意度。"杨哥,上楼来看看我新修的几间客房,亮