基于重定位的维、哈、柯文Unicode编码及多文种索引技术研究

来源 :郑州大学学报:理学版 | 被引量 : 0次 | 上传用户:diliwer3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
没有语言ID的维、哈、柯文部分字母在Unicode代码区域中共享字符代码,因此在信息交换、自动分词和检索应用中,很难区分维、哈、柯文字母,存在语言上的二义性.另外,该区域中字母的顺序符合阿拉伯字母表,维、哈、柯文字母的顺序非常混乱,这对于维、哈、柯多文种数据的索引、排序和查询处理带来了很大困难.针对以上问题,研究了一种内部Unicode编码方法和基于词根的多文种索引技术.研究结果表明,这种方法完全解决了多文种信息的存储、排序等数据库管理问题,大大简化了索引技术及实现难度.
其他文献
基于密度泛函理论,采用广义梯度近似的方法计算了面心立方结构金属Al(100)、Al(110)、Al(111)3个块体截断面的电荷分布情况,研究了这3个表面的Friedel振荡.研究发现,不同表面
针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体
机器人动力学参数的精确辨识是对机器人进行精确控制的前提,参数辨识的精度与所采用的标定轨迹直接相关.以RRR机械臂为研究对象,建立该机械臂的动力学模型.在动力学参数辨识时,选
提出了一种有效的木材缺陷自动检测方法,试图赋予计算机从木材图像数据中自动辨别出缺陷的能力,主要分析了木材缺陷的形态、走向和分布规律.首先将要识别的木材图像变换到HSV色彩空间,分别对H,S和V层进行区域分割和Gabor小波变换,得到各个子图像块的局部区域的基于不同频率和方向的特征向量,用于描述高维的木材图像.接着将提取出的纹理特征归一化后送入SVM分类器,检测过程采用二次循环搜索方式,利用特征向量
为了提高模型效率,更好地反映实际系统的动态特性,根据氧乐果合成过程特点确定了PSO-回归BP网络结构.采用惯性权重动态调整的粒子群算法进行初始寻优,并基于改进的BP算法对优化的
为研究中国汉族群体PPARδ基因C294T酶切位点的遗传多态性以及该位点的具体多态形式,采用PCR-RFLP技术对329例无血缘关系的健康中国北方汉族人的染色体进行检测.用卡方检验对所
采用顶空气相色谱法研究盐酸倍他司汀原料药中残留溶剂异丙醇、三氯甲烷含量的测定方法.异丙醇在20~400 mg·L^-1范围内回归方程为:A=115 127.9C-116 867,r=0.998 5;三氯甲
为了解严和店窑汝瓷和钧官瓷的起源关系,用能量色散Χ射线荧光光谱仪(EDXRF)测量了56个严和店窑汝瓷和钧官瓷样品的主量化学组成.一维和二维散布分析显示钧官瓷胎的原料来源比
在微扰QCD因子化方法的框架下计算了B→Ds^(*)ρ^0,B+→Dx^(*)+ρω^0和B^0→Ds^(*)ρ-衰变道的分支比.通过计算发现衰变道B→Ds^(*)+ρ^0,B^+→Ds^(*)+ω^0和B^0→Ds^+ρ^-的分支比在10^-5量级,而B^
以工业纯铝、两种钛含量的电解低钛铝以及Al-5%Ti中间合金等为原料,制备了3种钛含量的Al-Si铸造铝合金.研究了加钛方式和钛含量对合金的微观组织、疲劳裂纹萌生及扩展行为的