【摘 要】
:
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成
【机 构】
:
广东外语外贸大学语言工程与计算实验室,上海外国语大学贤达经济人文学院
【基金项目】
:
国家语委重点项目(ZDI135-26),广东省高校特色创新项目(2015KTSCX035),广东省哲学社会科学重点实验室招标项目(LEC2017WTKT002).
论文部分内容阅读
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
其他文献
利用模式融合思想提出了一个空间co-location模式挖掘算法,该算法通过每次融合小模式来快速生成含有大量特征的巨型频繁模式,从而避开了大量的中间模式.并且,由于模式融合旨
对移动终端基于增强现实的地下管线可视化技术进行了研究.首先使用移动端传感器和摄像头获取位置、姿态及影像信息,然后结合空间数据库中的数据对管线的虚拟位置进行计算,对
为了增强生物地理学优化(BBO)算法的优化性能,提出了一种差分变异和交叉迁移的BBO算法(DCBBO).首先用差分扰动操作替换BBO算法的变异操作,形成差分变异算子,强化了探索能力;
从评论的文本特征及元数据特征两个角度提取特征,避免特征向量过于稀疏.提出了基于随机森林的Adaboost算法,以减弱商品评论数据集不平衡性的影响.部分垃圾评论特征比较显著,
针对隐写载体为视频的特点,提出了一种新的基于帧内预测模式修改的H.264视频隐写算法.算法通过改进的局部二值模式方法选择所要嵌入区域,判断嵌入块的帧内预测模式,并将嵌入块分组,然后将与Logistic映射产生的混沌序列处理后的秘密信息经过预定的嵌入规则进行隐写,通过拉格朗日率失真优化算法改变帧内预测模式.实验结果表明,算法具有较好的视觉不可见性以及较高的嵌入效率,并且隐写后比特率增加量较小,同时具
建立了跳过程为非爆炸性计数过程的跳扩散模型,讨论了完备市场下的财富优化与市场均衡.利用随机分析的方法,构建了唯一的等价鞅测度,证明了存在唯一的优化投资组合及最优消费
将一类分数阶微分方程边值问题转化为等价的积分方程,通过构造特殊的Banach空间,应用Kuratowski非紧性测度的性质及Darbo不动点定理,得到了在无穷区间上分数阶微分方程解的存
熵作为度量序列混乱程度的特征参数,已被广泛应用于不同领域.运用仿真信号对信息熵、近似熵和模糊熵进行了全面的分析对比,验证了模糊熵的优势;提出了改进的经验模态分解方法
拓扑空间中的X0-sn-弱第一可数空间与X0-sn-网之间关系密切,拓扑空间X是X0-sn-弱第一可数空间,且P是X中的一个点可数cs-网,如果P是有限交封闭的,则存在P的一个子族B,使得B是X
研究了重尾分布下同时带常数利息力和延迟索赔的更新风险模型.将保费由常数变为一个非负随机过程,索赔额推广为广义负相依,并在分布属于L∩D族情形下,得到了有限时破产概率的