中文网页形式自动分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhuantang88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的急剧增长,在搜索引擎中使用确定的查询词检索时,返回结果一般是一个庞大的相关文档集列表。如何从该列表中快速获得想要的信息就成为一个极具研究价值的问题,解决该问题的一个重要途径就是对网页进行分类。目前对网页的分类研究大多数是基于主题或内容的,但有时用户会倾向于按照页面的结构形式信息来浏览结果集。因此,按形式分类也是一种有效的网页分类方式。目前网页形式分类技术还不够成熟,特别是中文网页形式分类的研究工作刚刚起步。 本文对网页形式分类进行了深入研究,在此基础上给出了对网页形式分类的理解。网页形式分类是基于网页的风格、形态和内容对网页进行分类的方法,它允许多类分类,并允许一个页面隶属于多个类别。 本文参照英文形式分类的相关体系,完成了中文网页形式分类机制的构建。研究选取11种网络上常见的形式类别,利用基于PageRank和锚文本的检索算法,从SEWM2006提供的CWT200g语料库中选取网页页面,在此基础上构建网页形式语料库。抽取特征项时,根据网页形式类别的特征,从网页的URL中提取特征项,并利用页面中的风格、形态和内容特征项,共同组成分类的特征项集合。采用样本决策方法对选定的特征项集合进行合理性度量,过滤掉区分性不强的特征项,形成最终的分类特征项集。 本文设计了两组特征项集合,即浅层特征、深层特征项综合集和浅层特征项集,利用SVM进行分类比较实验。实验结果表明第一组分类精度略高于第二组分类精度,但两者相差不大,平均精度都在80%以上。得到的结论是仅使用浅层特征项能获得与同时使用深层特征项同样好的分类效果。实验并且证实了中文网页形式分类是可行的,具有进一步研究的价值。
其他文献
因特网的迅速发展改变了人们的工作方式和生活方式,面对因特网上网页数量的急剧增长,如何在浩瀚的网页海洋里获取需要的信息成为了一个重要问题。由此产生了以谷歌、百度等为代
随着计算机嵌入式技术的快速发展和移动技术的不断进化和完善,嵌入式移动设备的性能得到很大的提高,同时各种应用对实时性的要求也越来越高。由移动计算、实时应用结合传统数
随着网络和数字技术的迅速发展,数字产品的版权保护成了一个亟待解决的问题。广播加密系统中,叛逆者追踪方案可以追踪到盗版源,从而阻止盗版行为发生,保护了版权所有者的合法
自动摘要是利用计算机自动地从原始文献中提取摘要,减少文档的过程。它是计算智能,机器学习和自然语言处理研究方向的一个部分。论文以印度尼西亚文的自动摘要展开研究。该研究
随着现代工业的快速发展,对设备的安全稳定运行要求越来越高,故障诊断技术得到了广泛的应用,而与此同时,传统的诊断技术已经很难适应工业生产的需要。正是在这样的背景下,本文将时
目前,一些企业偷税漏税手段复杂、花样翻新,成为税务稽查的一个难题。传统的稽查选案是以举报信息为主要依据的,这很大程度上依赖于专业的稽查人员根据以往的工作经验和某些直觉
随着社会信息化的不断发展,人们对Web信息管理系统的需求也不断增加。由于这类系统各模块的相似度比较高,因此开发人员在开发这类系统时会出现重复性编码工作。国内外很多研
随着信息技术的发展以及企业服务意识的提升,呼叫中心得到了广泛的应用,例如为用户提供如天气预报、股市行情、产品的最新报价、查询费用等信息。然而当人们希望在比飞机航班或
随着Intenet迅猛发展,各种资源不断增多。为了快速、高效的查找信息,信息处理以成为当前重要的研究领域。针对信息处理涉及的内容,本文对中文信息处理中的若干关键技术进行了
因特网已经应用到社会生活的方方面面,人们对网络安全的要求也逐渐提高。入侵检测作为一种积极主动的安全防护技术,对它的研究倍受重视。本文首先介绍了目前国内外入侵检测技