吕苏语口语标注语料的自动分词方法研究

来源 :计算机应用研究 | 被引量 : 40次 | 上传用户:bo0316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确
其他文献
任务权重与质量阈值分配问题是管理和协同工作中多任务分配中的重要问题。基于GRMTAP算法对含有任务权重与质量阈值的多任务分配问题提出了有效的解决办法:a)针对任务权重提出了使用权重向量调整多任务质量评价矩阵,调用GRMTAP算法完成多任务的有效分配;b)针对质量阈值提出采用任务类别向量的元素值之和之负值置换质量评价矩阵中评价质量值小于阈值的质量值,再调用GRMTAP算法完成多任务的分配,且以分配矩
针对目前提出的Boosting提升的加权极限学习机算法用各类总分类性能作为算法的优化目标,算法对大类样本具有性能偏向性,而且没有考虑数据中包含噪声及噪点时算法对分类性能的影响,提出基于AdaBoost提升的WELM算法。该算法利用考虑各类样本分布不平衡特性的误差计算方式并对误差进行了sigmoid运算,提高了算法的对大类样本和小类样本的识别率及算法的抗噪声能力。通过在15个UCI不平衡数据集进行分
再生码通过允许节点传送所存数据的线性组合并增加修复入度,显著地降低了修复带宽,但是增加了参与节点数和磁盘I/O。针对这一缺点,首先通过分析再生码的阈值函数得到一个定理,指出了降低阈值函数的一个充要条件;然后根据该定理构造出了结合复制方式的新再生码。新再生码不增加修复入度也能降低阈值函数,与再生码类似,也有两个特殊点——最小存储量点和最小修复带宽点。通过对两个特殊点的定性与定量分析,发现新再生码可以
针对GM(1,1)模型预测误差偏大的问题,对GM(1,1)模型背景值的构造形式进行了研究。为了能够更加有效地降低GM(1,1)模型的预测误差,提出了基于辛普森3/8公式和牛顿插值公式的组合插值方法来构造出新的GM(1,1)模型的背景值。在GM(1,1)模型的建模过程中,由于原始建模数据序列中的第一个数据没有参与建模,导致原始数据序列的数据资源利用效率降低,影响了GM(1,1)模型预测精度。所以,可
传统(2,2)视觉密码方案由于其共享图像为毫无意义的二值图像而易引起攻击者的怀疑。为此,提出了一种基于三维立体分享图像的(2,2)视觉密码方案。该方案将分享图像伪装成有意义的三维立体图,由此可较好地避免恶意攻击。而当两幅分享图像进行叠加等处理,人类视觉系统就能直接辨认出秘密信息。与其他图像加密方法的性能对比与定量评估说明,本方案在较好隐藏秘密信息的同时,具有相对较快的运算速度。正是由于该方案秘密恢
针对数据中心的高能耗问题,提出了一种基于负载感知和预测的虚拟机调度方法,采用二次指数平滑法预测物理主机资源负载情况,利用MMT与MM相结合的策略选择待迁虚拟机,使用资源最佳适配策略(BRF)选择目标物理主机。该调度方法的预测模型能提高迁移触发准确率,随着调度轮数的增加,对资源需求互补的虚拟机会被整合到相同物理主机上,从而减少迁移次数。通过Cloud Sim仿真平台与FT_MMT、CDLC、AR_M
单一核最小二乘支持向量机(LSSVM)在铁路货运量预测中难以准确描述货运量的复杂变化特征,限制了预测精度的提高。针对该问题,提出一种基于果蝇算法(FOA)优化混合核LSSVM的预测方法。以多项式核与径向基核组合的混合核函数作为LSSVM核函数,构建铁路货运量的混合核LSSVM预测模型,同时利用FOA全局寻优能力强、计算速度快等优点优化选择混合核LSSVM参数。以我国铁路货运量为例进行方法验证。结果
在人类基因组上存在着涉及到不同序列长度的结构变异,这些结构变异对癌症的发生和发展产生了显著的影响。随着新一代测序技术的发展以及测序成本的降低使得在全基因组水平研究结构变异变得可能,基于聚类算法对千人基因组三个不同地区的样本以及CGHub数据库中结直肠癌样本进行了结构变异识别,并基于间断点处的序列同源性对结构变异的形成机制进行了分析;利用方差分析及非参数检验分析了结构变异和癌症的关系以及结构变异与地
好友推荐可以帮助用户发现他们感兴趣的好友,减轻信息过载的现象。然而,目前现有的推荐方法仅考虑用户链接或内容信息,其推荐精度不高,不足以提供高质量的服务。考虑了用户之间的链接和内容信息,提出了一种结合非负矩阵因式分解的主题社区好友推荐算法(T-NMF)。该算法给出了主题社区和综合相似度计算方法,产生好友推荐列表。实验表明,该算法可以更好地反映用户的偏好,并且具有比传统方法更好的推荐性能。