排序学习中的中文网页特征提取方法

被引量 : 0次 | 上传用户:chenke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有的搜索引擎的排序技术经历了两代的发展。第一代搜索引擎是基于词频和位置的统计排序,如Infoseek,Excite,Lycos等。然而词频统计有很多的不足,它没有利用跟网页链接有关的特性,如链接和锚文本等,而且许多网页内容的制作者为了能够排在搜索结果的前几位,在其页面上堆砌关键词来影响搜索引擎的判断。第二代搜索引擎是基于链接分析的排序,如百度的超链分析和Google的PageRank都属于链接分析排序技术。为了在搜索引擎上得到第一或首页显示,网站常常使用增加链接,互相之间交换链接或者设置链接上的欺骗手段,致使一个内容优秀却无太多链接的网站将很难被搜索引擎发现。排序学习作为网页排序领域中新的方法出现,可以弥补上述两类排序方法的不足。然而现有的排序学习都只适用于英文网页,而对于中文网页的排序学习则缺乏研究。为此,本文首先针对中文与英文的不同特征来设计并实现了应用于排序学习的中文网页的特征提取系统。除了应用传统的TF,IDF,DL等词频统计的方法,还应用了文档相关性提取的经典语言模型BM25,LMIR_ABS,LMIR_DIR和LMIR_JM等方法提取特征,同时本文将编辑距离应用到了排序学习的中文网页特征提取中。然后,搭建了排序学习的系统平台,针对所获得的中文网页特征实现了经典的RankNet和RankSVM排序学习算法,并对它们在中文网页排序中的性能进行了实验结果的对比。最后,将添加编辑距离前后的特征分别输入RankNet和RankSVM两个系统,得出样本的错误率进行对比。实验结果表明在RankNet和RankSVM系统中,含编辑距离比不含编辑距离的错误率降低了3%到10%左右。这也表明了加入编辑距离这个特征的有效性。
其他文献
近年来,随着医疗卫生体制改革的不断深入,办医模式的多样化格局的初步形成,在一定程度上缓解了群众看病难的问题,推动了我国医疗卫生事业的发展,但也给医疗卫生执法工作带来
随着知识型经济社会的到来,及信息技术的发展和广泛应用,使企业的经营环境愈加复杂而多变,从而企业面临新的机遇和挑战,特别是高新技术企业,如何在激烈的市场竞争中生存、发
2007年至2008年的次贷危机,不但引发美国的经济衰退,还殃及全球其他国家和地区。如何改革现有的金融监管框架,提高金融监管能力是各国政府和金融业监管当局近期讨论的焦点。
目的:探讨用苯磺酸左旋氨氯地平片联合缬沙坦治疗高血压临床效果。方法:对2011年1月至2013年12月我院门诊及住院病人286例的高血压患者的临床资料进行回顾性研究探讨。将上述
<正>一、言情:中国戏曲表演理论的奠基石中国古代戏曲的表演理论起步较晚,早期的表演理论(如燕南芝的《唱论》、魏良辅的《南词引正》等),曾长时间滞留在唱念等技术性问题的
会议
传统的同性恋态度研究大多关注个体外显层面的认知过程。但是仅仅外显层面的研究是不够的,个体的内隐社会认知过程同样在其态度的形成和改变中扮演重要的角色。本研究从外显
英国贝弗里奇著名的《贝弗里奇报告———社会保险与相关服务》,为英国社会保障制度发展奠定了坚实的基础,并给世界指明了一条新的福利道路即福利国家模式。党的十七大明确指
<正>优秀的儿童动画片能够促进儿童认知能力和自我意识的发展,有助于其情感体验的新开拓。上世纪90年代热播的央视动画片《大头儿子和小头爸爸》就是这样的优秀作品,无论是外
目的:探讨在支气管哮喘的治疗中对孟鲁司特及布地奈德福莫特罗进行联用的有效性与安全性。方法:选取2011~2013年我院收诊的支气管哮喘患者共64例,并以简单抽签法将其分成例数