论文部分内容阅读
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消解是影响信息检索系统准确率的重要因素。
搜索引擎的用户通过输入关键词来在Internet中查找信息,用户查询日志记录了用户输入的关键词和用户的行为。为了更好的了解用户的搜索关键词,本文对Sogou搜索引擎在一个月内的部分用户查询日志进行统计分析。发现在用户输入的查询中通常关键词的数量比较少,重复频率高,很多关键词是未登录词,而且很多用户还在查询关键词中加入了空格或逻辑运算符以获得更加精确的查询结果。根据用户查询的这些特点,本文提出了基于用户查询的中文未登录词识别方法。通过简单回溯的方法解决交集型歧义切分问题;通过最大概率法解决中文姓名的识别;通过对用户查询的关键词分词后找到未登录词并设置高权值,以反映用户对未登录词识别的影响力。这种方法可以提高搜索引擎对未登录词识别的正确率和召回率。
本文利用全文检索引擎Lucene,对基于用户查询的中文未登录词识别方法进行了实现。经对实验结果的分析,基于用户查询的中文未登录词识别方法在对未登录词识别,尤其姓名的识别上取得了良好的效果。