基于用户查询的中文未登录词识别技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:f6012000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消解是影响信息检索系统准确率的重要因素。 搜索引擎的用户通过输入关键词来在Internet中查找信息,用户查询日志记录了用户输入的关键词和用户的行为。为了更好的了解用户的搜索关键词,本文对Sogou搜索引擎在一个月内的部分用户查询日志进行统计分析。发现在用户输入的查询中通常关键词的数量比较少,重复频率高,很多关键词是未登录词,而且很多用户还在查询关键词中加入了空格或逻辑运算符以获得更加精确的查询结果。根据用户查询的这些特点,本文提出了基于用户查询的中文未登录词识别方法。通过简单回溯的方法解决交集型歧义切分问题;通过最大概率法解决中文姓名的识别;通过对用户查询的关键词分词后找到未登录词并设置高权值,以反映用户对未登录词识别的影响力。这种方法可以提高搜索引擎对未登录词识别的正确率和召回率。 本文利用全文检索引擎Lucene,对基于用户查询的中文未登录词识别方法进行了实现。经对实验结果的分析,基于用户查询的中文未登录词识别方法在对未登录词识别,尤其姓名的识别上取得了良好的效果。
其他文献
RSS(Really Simple Syndication,真正简单聚合)技术可以将互联网上的信息以订阅的方式聚合到一个窗口中。随着Blog的发展和流行,基于RSS技术的Blog或播客被引入到辅助学习的工
随着网络的发展,人们获取知识的手段已逐渐从学校,书本,报纸,电视,广播转向了网络,人们通过远程教育实现异地学习,通过在线考试检验学习效果,运用网络课件进行辅助学习,可以说这些手段
感知网(无线传感器网络)是将多个带有无线通讯模块的感知节点(感知节点)部署在需要的区域内,这些感知节点自组织成一个网络,利用自身的传感器采集数据,使用自身的通讯模块通
传统电信网上的多媒体会议应用,一方面由于其实现机制复杂、造价高昂,难以推广。另一方面,传统电信网的封闭架构和低带宽也很难实现多媒体业务的快速开发与部署,并满足大量多媒体
物联网被认为是继计算机、Internet之后推动世界科学技术发展的第三次推动力。物联网将所有人与物的互联,将真实物理世界和虚拟信息世界链接融合,以实现人类对物理世界的实时感
近年来,面向服务体系架构(SOA)迅速成为企业级软件的核心体系架构,并得到迅速推广和普及,成为电子商务和电子政务应用的主流技术选择。一个客观事实是,电子商务和电子政务的企业
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作
舌诊是中医诊断的一项重要内容,是中医学了解人体生理功能和病理变化的一种独具特色的诊断方法,也是中医诊断信息的主要来源之一。但传统的舌诊主要是以医生观察为主,其准确程度
随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重,网络用户平
随着计算机与网络信息技术的迅速发展,企业管理系统的模式也随之发生了巨大的变化。企业为了提高自身效率、提升行业竞争力,需要一个展示其产品,与用户进行沟通的平台。当前大量