面向问答类网站的垂直搜索引擎的研究与实现

被引量 : 6次 | 上传用户:sscar126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上的信息爆炸式增长,人们通过搜索引擎从海量信息中寻找自己想要的各方面信息,但通用搜索引擎对检索出的信息的准确性和相关性呈下降趋势,人们需要能够对特定行业的信息快速准确定位的垂直搜索引擎。近些年国内外兴起了众多问答类网站,与搜索引擎的通过机器获得结果不同,此类网站是用户基于自己的知识构成进行“一问多答”,同时它又具有“针对性强”、“快速答疑”、“流量大”等特点,是用户提问题找答案的一种有效方式,但大部分的问答类网站只提供站内搜索,对问答类的垂直搜索引擎的实践却不是很成熟,这就限制了用户针对特定问题的搜索,面向特定主题的问答类搜索引擎能够满足用户对专业问题的需要。本文以汽车问答网页作为实验数据,在对搜索引擎关键技术进行深入研究基础上,完成了一个面向问答类网站的垂直搜索引擎,论文的主要工作包括以下几点:1)通过对问答类站点特性的分析,提出了问答类站点重要性的动态评价机制,解决了对不同问答类站点来源同等对待的问题,根据该机制对空间向量模型中特征词权重的计算公式TFIDF和空间向量模型的表示进行了改进,使其更具有主题倾向性。2)针对问答的搜索引擎主题爬虫的实现。研究了主题爬虫的一般模型,在链接过滤器方面提出了基于Nutch配置文件定制链接抓取规则的方法,在主题过滤器方面,采用文档频率算法确立了主题词库,采用人工专家和基于搜索引擎的初始种子确立方法,主题相关度判定采用了文本分类方法,并对文本分类效果进行了验证。3)针对问答的信息抽取模块。提出了基于网页结构和通过问答站点链接控制具体的信息抽取方式相结合的方法,中文分词部分,采用了庖丁分词器。4)针对问答的索引和检索模块。提出增加问答信息索引域,强调搜索重点,并依据问答类站点重要性动态评价机制,对索引域的权重因子进行了设定,使问答引擎排序结果更趋合理。最后通过Nutch框架对问答类垂直搜索引擎进行了实现,实验分析表明爬虫抓取性能和搜索引擎的查询查准率都有所提升。
其他文献
收看美剧已成为当下最受欢迎的娱乐方式。作为美剧品牌商标的片名,在众多影视海报上居于醒目位置,起着"导视和促销"的作用。所以,美剧要想在中国市场收获可观票房,片名翻译就
隐喻在日常生活当中无所不在,不仅在语言中,而且在思想和行动中。其修辞功能在牌匾语中的使用更是体现了店家在追求新异及其在突破语言使用局限的过程中,在思维及语言表达上
<正>"微语文"教学作为一种新式的语文教学方法被越来越多的教师所采用。在教学实践中,它取得了以"微"见大的理想教学效果,深受广大教师与学生欢迎。本文以苏教版初中语文教材
<正>传统的高三语文复习过程基本分为三轮进行。一轮复习的主要做法是针对高考考纲中的考点进行地毯式训练,做到点无遗漏。到二轮复习时,大部分学生已经基本形成了自己的知识
本文论述了分散识字、集中识字、注音识字、韵文识字、字族文识字、字理识字、部件识字、字谜识字八种小学识字法在对外汉字教学中的应用情况。
汉语突出人称,英语突出物称。对比分析汉英之间的这一差异,在英语书面表达中,培养因汉英之间在人称与物称上的差异而需进行"人""物"转换的意识,时时刻刻警醒自己在英语书面表
如今已经进入移动互联网时代,移动互联网给人们提供一种崭新的通信和交流平台。在电信行业竞争日益激烈的今天,移动互联网给运营商带来了新的转机。运营商有着其先天的优势,
本文探讨了基于视知觉形式动力理论的产品形态研究方法,针对形态的研究目前主要存在两种方式:符号学和格式塔。基于符号学的形态研究方法其出发点往往是产品的外围,例如符号象征
<正>目前的高中语文课堂教学存在很多问题。为了高考,很多学校都将教学重心放在了语文基础知识传授和学生应试能力的培养上,教师为了提高教学效率,赶教学进度,很少会给学生主
核心竞争力是每个企业拥有各种优势的综合体现,研究企业的核心竞争力将有助于了解各企业在行业间的竞争力研究和企业未来发展的建议。随着品牌效应的显现和消费者的日益成熟,