论文部分内容阅读
特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重要地位,对它们进行挖掘不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。本文采用数据挖掘的手段,在一亿多条中文查询词上做了充分的实验,结果显示我们的方法能够从查询日志中挖掘出高质量的命名实体列表,六个类别上识别结果的平均P@500达到了77%。本文提出的系统能够在少量的手工帮助下不断迭代地提高性能,因此具有很大的实际应用价值。