论文部分内容阅读
目前,互联网上的信息爆炸式增长,人们通过搜索引擎从海量信息中寻找自己想要的各方面信息,但通用搜索引擎对检索出的信息的准确性和相关性呈下降趋势,人们需要能够对特定行业的信息快速准确定位的垂直搜索引擎。近些年国内外兴起了众多问答类网站,与搜索引擎的通过机器获得结果不同,此类网站是用户基于自己的知识构成进行“一问多答”,同时它又具有“针对性强”、“快速答疑”、“流量大”等特点,是用户提问题找答案的一种有效方式,但大部分的问答类网站只提供站内搜索,对问答类的垂直搜索引擎的实践却不是很成熟,这就限制了用户针对特定问题的搜索,面向特定主题的问答类搜索引擎能够满足用户对专业问题的需要。本文以汽车问答网页作为实验数据,在对搜索引擎关键技术进行深入研究基础上,完成了一个面向问答类网站的垂直搜索引擎,论文的主要工作包括以下几点:1)通过对问答类站点特性的分析,提出了问答类站点重要性的动态评价机制,解决了对不同问答类站点来源同等对待的问题,根据该机制对空间向量模型中特征词权重的计算公式TFIDF和空间向量模型的表示进行了改进,使其更具有主题倾向性。2)针对问答的搜索引擎主题爬虫的实现。研究了主题爬虫的一般模型,在链接过滤器方面提出了基于Nutch配置文件定制链接抓取规则的方法,在主题过滤器方面,采用文档频率算法确立了主题词库,采用人工专家和基于搜索引擎的初始种子确立方法,主题相关度判定采用了文本分类方法,并对文本分类效果进行了验证。3)针对问答的信息抽取模块。提出了基于网页结构和通过问答站点链接控制具体的信息抽取方式相结合的方法,中文分词部分,采用了庖丁分词器。4)针对问答的索引和检索模块。提出增加问答信息索引域,强调搜索重点,并依据问答类站点重要性动态评价机制,对索引域的权重因子进行了设定,使问答引擎排序结果更趋合理。最后通过Nutch框架对问答类垂直搜索引擎进行了实现,实验分析表明爬虫抓取性能和搜索引擎的查询查准率都有所提升。