维、哈、柯文搜索引擎中自动分类技术的应用研究

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:liliac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在传统搜索引擎基础上,结合网页自动分类技术,对基于分类的维、哈、柯多语种信息检索进行了研究。文中提出了一种改进的特征选择算法,并建立了一个维吾尔文网页分类系统,搜集了大量的维文语料进行分类实验。结果表明,使用改进的特征选择方法能够有效提高分类的准确度。最后,将网页分类技术运用到维、哈、柯文搜索引擎中,实现了具有自动分类功能的多语种信息检索系统。
其他文献
普通话水平测试是普通话水平测试员凭耳朵主观感受应试人发音状况的主观性语言测试,因而,对于测试员的语音感知能力及语言分辨能力有较高要求。测试员听力水平的高低,对测试效度有着直接的影响。通过对50名测试员进行纯音测听,我们发现高频听力损失者在“j、s、z、c”会出现较高频率的误判现象,而通过语音图谱的分析进一步证实高频听力损失的测试员难以听清部分声母的发音。据此,我们总结出高频听力损失者容易混淆的字,
本文以汉蒙统计机器翻译系统为研究对象,介绍了基于混淆网络和PageRank的Nbest重排序方法。不同于以多个翻译系统为输入的系统融合技术,本文充分利用了单一系统的Nbcst输出。在单一系统Nbest基础上构建基于TER词对齐的混淆网络,然后通过PageRank排序算法输出最终的翻译结果.该方法利用了词级别的TER词对齐的混淆网络生成更多新的候选翻译选项,将最佳翻译结果的搜索问题视作网页间的PR值
本文介绍了电子政务的概念及其内蒙古电子政务的发展现状,分析了电子政务在内蒙古发展中存在的问题,并提出了发展对策。
维、汉双语远程教学系统是符合国际Unicode代码标准的,基于Internet TCP/IP协议的,能够同时支持含维吾尔文和汉文的多语种复杂文字信息的双语化多媒体远程教学系统,该系统具有维吾尔文与汉文双语界面的自动切换,双语文本显示与传输,师生双语对话,以及多媒体课件实时录制与传播,屏幕共享,电子举手与电子教鞭等功能,从而解决了传统课堂教学在时间、空间和语言上的制约问题,大大扩展了教学规模,实现名
本文利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现了一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,然后根据K-最近距离算法判断测试文本的所属类别,实验结果表明此方法可行。
《蒙古语同形词信息词典》是为解决蒙古文的同形词歧义消除而研制的一部机器词典。从词典建设维护的实际需求出发,我们初步设计和实现了《蒙古语同形词信息词典》管理平台,本文主要介绍了管理平台设计和实现的基本方法。
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,然后针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,并利用分词标注软件对大规模藏语语料库进行切分和标注,最终实
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到词干转移概率、词缀到词级转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为
语义角色研究在信息检索、机器翻译等计算语义学诸多领域有着广阔的应用空间和发展前景,而且对语言语义研究具有强大的解释力。本文充分观察和分析维吾尔语真实语料的基础上对现代维吾尔语框架语义知识库框架元素的语义角色进行描述和分类,为维吾尔语框架语义知识库句法语义识别和分析莫定了良好的基础。
本文叙述了维吾尔语源语言的框架语义网描述内容和组成,基于阿拉伯字符的维吾尔文如何在数据库中存储的必要的条件,如何定义数据库的数据类型,高级语盲与数据库如何交换维吾尔文信息等技术性领域做了探讨。根据维吾尔语框架语义网的描述内容、组成结构、实体之间的联系和框架语义网自身的特点,初步设计了维吾尔语框架网的数据库结构。论文提出的方法和思路对对维吾尔语框架语义网的研究领域有一定的指导和参考价值。