基于Web的民文信息检索中维、哈、柯文关键词的预处理

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:gzalpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于Web的信息检索中,用户希望的是得到与关键词(key words)相关的,准确而全面的搜索结果,而基于Web的民文信息检索中深入研究本民族语言特征并对搜索关键词进行一些必要的预处理对民文搜索引擎搜索结果的准确性,全面性是非常重要的。本文介绍了维吾尔文,哈萨克文和柯尔克孜文的语言特征并较深入的研究了维吾尔文,哈萨克文和柯尔克孜文关键词的预处理技术,包括对关键词的检错与纠错,同化(弱化)处理,词根切分技术等。
其他文献
本文以上海沪青平公路及金山大道为依托工程,从旧水泥混凝土碎石化层颗粒粒径及级配分析、板下各层模量分析等几个方面进行展开研究,初步分析结果表明;破碎层0~10 cm内级配曲线
会议
李婉静(化名)是重庆某大学大二的学生,1983年出生在重庆市一个高级知识分子的家庭。2001年9月,在父母的呵护下,李婉静顺利地考上了重庆某重点大学中文系。和所有的女孩一样,
洞庭湖区在湖南社会经济发展中占有举足轻重的地位。本文提出在湖区建设中结合洞庭湖区的地理、水文等条件,分析研究公路建设中若干问题,以利于相关部门作出最佳决策.首先对
仰卧位时,肢体与床铺的接触面积最大,因而不容易疲劳,且有利于肢体和大脑的血液循环。但有些老年人,特别是比较肥胖的老年人,在仰卧位时易出现打鼾,而重度打鼾时的鼾声和鼻息
"蒙古语语义词典"主要研究现代蒙古语词语语义关系的数据结构及其电子词典的建立.根据目前蒙古文文本处理中句法分析、句义分析、相似度计算等所需求的语义类型,我们对词典中
会议
本文介绍了一个基于动态流通语料库(DCC)的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设过程分为如下几个步骤:原始语料收集、标记集确定、语料
会议
本文针对类词缀在三字词中能产性强的特征,提出构建一个三字词的类词缀知识库.我们对《现代汉语语法信息词典》数据库的8万多词语进行了抽取,共有13778个三字词,然后综合考虑
本文报告对汉英双语香港法律条文内容及层次结构特征进行XML自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位
数量短语的识别是现代汉语语句分析的一个局部难点。现代汉语中数词千变万化,量词的种类繁多,数量短语的组合方式多样。本文以识别数量短语为立足点,在探讨数量短语构成模型
依存关系的标注一直是近年来计算语言学界语言资源建设的的主流之一。本文从理论研究和实践研究两大方面对国内外依存语法标注的进展做了一个大致梳理,针对汉语依存语法标注