一种支持混合语言的并行查询纠错方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：dl_zsf

【摘要】

：

中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长

【作者】

：

颛悦熊锦华马宏远程舒杨程学旗

【机构】

：

中国科学院计算技术研究所,中国科学院大学,国家计算机网络应急技术处理协调中心

【出处】

：

中文信息学报

【发表日期】

：

2016年2期

【关键词】

：

查询纠错词典树语言模型并行纠错 spell correction dictionary tree language module parallel

【基金项目】

：

国家重点基础研究发展规划（973计划）项目（2014CB340406,2012CB316303,2013CB329602）, 国家自然科学基金（61173064,61300206）, 国家科技支撑计划项目（2015BAK20B03）,国家科技支撑计划课题（2011BAH11B02）, 国家242专项（2013G129）, 国家科技支撑专项（2012BAH46B04）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型

其他文献

基于语义串抽取及主题相似度度量的维吾尔文文本分类

该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并

期刊

维吾尔文n元递增算法语义串抽取主题相似度文本分类Uyghur language frequent pattern-growth algorithm

Evaluation of Sensitivities and Specificities of SARS-CoV Detection by Real-time Quantitative Revers

严重急性呼吸症候群(SARS ) 的 etiological 代理人作为一个新日冕病毒被识别，称为的 SARS-CoV。SARS-CoV 基因材料的一个有效、敏感的诊断系统的建立为 SARS 控制是关键的。

期刊

SARS病毒PCR检测实时定量敏感性逆转录SARS冠状病毒病毒检测评价SARS-CoV Sensitivities Specificitie

面向任务口语对话系统中不含槽信息话语的端到端对话控制

端到端(end-to-end)模型因其能有效避免传统管道式设计存在的错误传递与累积问题,成为了近年来口语对话系统(spoken dialogue system,SDS)的研究热点。在面向任务SDS的end-to

期刊

口语对话系统端到端卷积神经网络显式话语特征隐式上下文spoken dialogue systemend-to-endCNNexplicit ut

“一带一路”需要规避风险扎实推进

中国自2002年加入WTO以来,成为全球化的最大受益国。中国在2003年至2007年连续五年实现两位数的增长,对外贸易是中国经济最重要的引擎。虽然2015年中国货物贸易额以美元计算

期刊

中国货物国际恐怖主义地区开发投资保护西部地区发展利用外资规模海上丝绸之路资本输出国新丝绸之路投资评估

Involvement of CXCR3-associated Chemokines in MHV-3 Induced Fulminant Hepatic Failure

在鼠科的肝炎病毒紧张 3 的 chemokines (MHV-3 ) 的角色导致了暴发性的肝的失败(FHF ) 不是明确的。在这研究，我们调查了 CXC chemokine 受体的角色(CXCR3 ) 3 联系了 chemok

期刊

肝炎病毒趋化因子暴发性体相衰竭诱导MHV-3 Liver failure CXCR3 Chemokine Flow cytometry

Isolation and Complete Genomic Sequence Analysis of a New Sindbis-like Virus

象 Sindbis 一样病毒首先在 1986 在中国被发现。它的完全的染色体组的顺序由编码超过 3 的超过 11 000 bp 组成 700 氨基酸。它在一个非结构的区域包含 5 鈥?n on-transcrip

期刊

分离全基因序列分析RT-PCR类辛德毕斯病毒Sindbis-like virus Whole nucleotide sequences RT-PCR

Expression and Identification of Inclusion Forming-related Domain of NS80 Nonstructural Protein of G

草鲤鱼 reovirus (GCRV ) ，感染水的动物的一个双搁浅的 RNA 病毒，经常与灾难性的效果，属于类 Aquareovirus 和家庭 Reoviridea。类似于另外的 reoviruses，在感染的房间的 GCRV

期刊

草鱼呼肠孤病毒非结构蛋白鉴定结构域特异性抗体病毒性肝炎夹杂BLOT分析Grass carp reovims （GCRV） Nonstmctur

The Role of the Innate Immune System of the Liver in the Control of HBV and HCV

肝炎 B 病毒(HBV ) 和感染在世界范围的长期的肝疾病的最经常的原因之中的丙肝病毒(HCV ) 。尽可能最近的研究建议象受体(TLR ) 一样的使用费基于治疗可以在 HBV 感染的治疗

期刊

免疫系统肝病甲肝乙肝受体治疗方法Hepatitis B Kupffer cells Sinusoidal endothelial cells

藏汉跨语言话题模型构建及对齐方法研究

如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语

期刊

藏汉跨语言话题抽取LDA话题对齐topic extraction LDA model topic alignment

中美在服务和投资领域的主要诉求及其应对

中美经济合作“百日计划”已达成10项收获成果，目前正在进行后续成果磋商。预计美方将高度关注我国服务市场的进一步开放。扩大对我国服务贸易出口以减少贸易逆差成为“百日计

期刊

服务市场投资领域中美诉求服务贸易出口经济合作贸易逆差成果

一种支持混合语言的并行查询纠错方法

与本文相关的学术论文