一种支持混合语言的并行查询纠错方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dl_zsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型
其他文献
该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并
严重急性呼吸症候群(SARS ) 的 etiological 代理人作为一个新日冕病毒被识别,称为的 SARS-CoV。SARS-CoV 基因材料的一个有效、敏感的诊断系统的建立为 SARS 控制是关键的。
端到端(end-to-end)模型因其能有效避免传统管道式设计存在的错误传递与累积问题,成为了近年来口语对话系统(spoken dialogue system,SDS)的研究热点。在面向任务SDS的end-to
中国自2002年加入WTO以来,成为全球化的最大受益国。中国在2003年至2007年连续五年实现两位数的增长,对外贸易是中国经济最重要的引擎。虽然2015年中国货物贸易额以美元计算
在鼠科的肝炎病毒紧张 3 的 chemokines (MHV-3 ) 的角色导致了暴发性的肝的失败(FHF ) 不是明确的。在这研究,我们调查了 CXC chemokine 受体的角色(CXCR3 ) 3 联系了 chemok
象 Sindbis 一样病毒首先在 1986 在中国被发现。它的完全的染色体组的顺序由编码超过 3 的超过 11 000 bp 组成 700 氨基酸。它在一个非结构的区域包含 5 鈥?n on-transcrip
草鲤鱼 reovirus (GCRV ) ,感染水的动物的一个双搁浅的 RNA 病毒,经常与灾难性的效果,属于类 Aquareovirus 和家庭 Reoviridea。类似于另外的 reoviruses,在感染的房间的 GCRV
肝炎 B 病毒(HBV ) 和感染在世界范围的长期的肝疾病的最经常的原因之中的丙肝病毒(HCV ) 。尽可能最近的研究建议象受体(TLR ) 一样的使用费基于治疗可以在 HBV 感染的治疗
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语
中美经济合作“百日计划”已达成10项收获成果,目前正在进行后续成果磋商。预计美方将高度关注我国服务市场的进一步开放。扩大对我国服务贸易出口以减少贸易逆差成为“百日计