基于最大熵模型的越南语交叉歧义消解

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:wilsonpfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解
其他文献
目的探讨原发性肝癌(PHC)的发生与乙肝病毒(HBV)感染之间的关系.方法采用放射免疫法对福建泉州地区220例原发性肝癌患者、220例良性肝病患者与295例健康人群进行血清HBV标志
许多 flaviviruses 是引起可观的疾病负担的重要人的病原体,包括脑炎和出血性的发烧,在他们是地方性的在区域。为 flaviviral 感染的处理的少量在指向对 flavivirus 复制必要的
框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工
在抄写开始期间, RNA 聚合酶紧绑在定义抄写的开始的倡导者 DNA,比较地慢慢地抄录,并且经常释放在一个过程的短抄本(38 核苷酸) 叫的未成功的骑车。转移到延伸,抄写的第二个阶段,
Dear Editor,With the intense crowding in mass gatherings such as Hajj,there is a high risk of acquisition of airborne in-fections with the potential for its tra
HIV-1 envelope glycoprotein is reported to interact with α4β7, an integrin mediating the homing of lymphocytes to gut-associated lymphoid tissue, but the sign
1.一个自恋的心态,最终的结局是风雨飘摇。2.小家碧玉是种自封,因为没人为你的自我感觉认真。
情感分类是目前自然语言处理领域的一个具有挑战性的研究热点,该文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。该文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使
十八大以来,我国经济平稳较快发展,即便在全球经济低迷、金融危机阴霾未散的背景下,我国经济发展依然取得了令世界瞩目的成绩。这得益于以习近平同志为核心的党中央,准确把握全球
mitogen 激活 kinases 细胞外的信号调整了的蛋白质 kinases (MAPK 英皇家空军之阶级最低之兵) 小径包括房间周期涉及多重细胞的过程的规定。在用有 HCV replicon 的 Huh7 房