基于用户查询的中文未登录词识别技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：f6012000

【摘要】

：

随着Internet的快速发展，Web信息的迅速增加，人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消解是影响信息检索系统准确率的重要因素。

【作者】

：

韩太东

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2007年期

【关键词】

：

汉语分词未登录词姓名识别查询日志用户查询逻辑运算符未登录词识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展，Web信息的迅速增加，人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消解是影响信息检索系统准确率的重要因素。搜索引擎的用户通过输入关键词来在Internet中查找信息，用户查询日志记录了用户输入的关键词和用户的行为。为了更好的了解用户的搜索关键词，本文对Sogou搜索引擎在一个月内的部分用户查询日志进行统计分析。发现在用户输入的查询中通常关键词的数量比较少，重复频率高，很多关键词是未登录词，而且很多用户还在查询关键词中加入了空格或逻辑运算符以获得更加精确的查询结果。根据用户查询的这些特点，本文提出了基于用户查询的中文未登录词识别方法。通过简单回溯的方法解决交集型歧义切分问题；通过最大概率法解决中文姓名的识别；通过对用户查询的关键词分词后找到未登录词并设置高权值，以反映用户对未登录词识别的影响力。这种方法可以提高搜索引擎对未登录词识别的正确率和召回率。本文利用全文检索引擎Lucene，对基于用户查询的中文未登录词识别方法进行了实现。经对实验结果的分析，基于用户查询的中文未登录词识别方法在对未登录词识别，尤其姓名的识别上取得了良好的效果。

其他文献

RSS技术在辅助教学中的应用

RSS(Really Simple Syndication，真正简单聚合)技术可以将互联网上的信息以订阅的方式聚合到一个窗口中。随着Blog的发展和流行，基于RSS技术的Blog或播客被引入到辅助学习的工

学位

真正简单聚合RSS技术计算机辅助教学订阅系统

基于XML和Web Service的网络教学资源整合研究

随着网络的发展，人们获取知识的手段已逐渐从学校，书本，报纸，电视，广播转向了网络，人们通过远程教育实现异地学习，通过在线考试检验学习效果，运用网络课件进行辅助学习，可以说这些手段

学位

XML文件Web Service网络教学资源整合数据库远程教育教学资源

基于语义路由的感知网数据分发技术研究与系统实现

感知网(无线传感器网络)是将多个带有无线通讯模块的感知节点(感知节点)部署在需要的区域内,这些感知节点自组织成一个网络,利用自身的传感器采集数据,使用自身的通讯模块通

学位

感知网数据分发语义路由

VOIP软交换系统会议架构设计

传统电信网上的多媒体会议应用，一方面由于其实现机制复杂、造价高昂，难以推广。另一方面，传统电信网的封闭架构和低带宽也很难实现多媒体业务的快速开发与部署，并满足大量多媒体

学位

SIPH.323代理服务器定位服务器媒体服务器

LEACH-CE算法的研究及其在物联网中的应用

物联网被认为是继计算机、Internet之后推动世界科学技术发展的第三次推动力。物联网将所有人与物的互联，将真实物理世界和虚拟信息世界链接融合，以实现人类对物理世界的实时感

学位

物联网层次式路由协议分簇算法无线传感器网络仿真验证

面向服务体系架构中Web打印技术的研究与实现

近年来，面向服务体系架构(SOA)迅速成为企业级软件的核心体系架构，并得到迅速推广和普及，成为电子商务和电子政务应用的主流技术选择。一个客观事实是，电子商务和电子政务的企业

学位

Web打印面向服务体系架构模板化打印

基于链接的Blog社区发现技术研究与实现

Blog是一种基于RSS技术的信息交互平台，它是一种作者与读者以日志风格进行交互的中介，是一种崭新的信息传播和交互方式。与传统的网络信息相比，Blog领域链接关系更加丰富，Blog作

学位

Blog链接社区发现技术信息传播交互方式RSS技术聚类算法

中医小儿肺炎舌诊辅助诊断系统的设计与实现

舌诊是中医诊断的一项重要内容，是中医学了解人体生理功能和病理变化的一种独具特色的诊断方法，也是中医诊断信息的主要来源之一。但传统的舌诊主要是以医生观察为主，其准确程度

学位

模式识别机器学习图象处理小儿疾病中医疗法舌诊中医诊断学图像数据库计算机辅助诊断图像识别

文本分类技术在垃圾邮件过滤中的应用研究

随着国际互联网的迅猛发展和日益普及，电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来，垃圾邮件问题日益严重，网络用户平

学位

垃圾邮件过滤机器学习文本分类k-近邻方法

基于Struts-Hibernate架构的报价管理系统设计与实现

随着计算机与网络信息技术的迅速发展，企业管理系统的模式也随之发生了巨大的变化。企业为了提高自身效率、提升行业竞争力，需要一个展示其产品，与用户进行沟通的平台。当前大量

学位

企业产品报价系统MVC模式Struts框架J2EE平台需求模型

基于用户查询的中文未登录词识别技术的研究

与本文相关的学术论文