自适应分词算法中的未登录词识别技术研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:x345395603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。
其他文献
在"绿色、环保、可持续发展"成为社会发展主旋律的今天,企业只有顺应这一潮流,才能生存和发展.而"绿色经营",正是为顺应这一潮流而提出的企业未来发展应遵循的一种经营理念.
我国标准文献的组织管理工作,主要是依据各级标准的代号和顺序编号进行的,这就对标准号的科学性和规范性提出了更高的要求。本文在阐述标准号的变化发展历程、现状和存在的问题
2008年10月11~17日,国际标准化组织统计方法应用标准化技术委员会(ISO/TC69)第30届年会在北京举行。这是我国首次承办国际标准化组织统计方法应用领域的会议,为增强我国在该领域
随着微电子技术的迅速发展和广泛应用,传统的煤炭工业已经发生了巨大的变革,如PLC控制系统在矿用电气设备中已经得到了广泛的运用,因此熟练掌握微电子技术已然成为新形势下对
本文以五年为一个时间段,采用共词分析方法对1998~2007年我国图书情报学科8种核心期刊文献中的高频关键词分别进行聚类分析与类团关系分析,列出了两个阶段聚类结果的类团关系表,
采用氧气为氧化剂,氢氧化钠为浸出剂,在加压条件下从高砷锑烟灰中分离砷。研究了碱性氧压体系下氢氧化钠加入量、浸出温度、液固比、氧分压、反应时间、搅拌速率对砷锑浸出率
句子相似度计算是自动问答系统的重要理论基础和关键实现技术。目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便。依据所利
关联规则挖掘是解决电子商务推荐问题的重要方法之一。针对传统关联规则挖掘算法在解决移动电子商务环境个性化推荐问题时反复扫描数据库,频繁项挖掘效率低,关联规则挖掘准确
欧洲钢铁标准化委员会(ECISS)是欧洲标准化委员会(CEN)下面一个独立的标准化协作机构。其前身是欧洲煤钢联盟(ECSC)的钢铁产品标准化协调委员会(COCOR)。COCOR自1953年起开始制定标准
新课程改革以来,我国教育事业取得了迅速发展。在一个新的时代背景下,小学语文教学必须紧跟时代步伐,做出相应的调整。教育的目标是培养学生素质的全面发展,而传统的小学语文