基于转换表及上下文环境的汉语简繁文本双向翻译

来源 :中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标 | 被引量 : 0次 | 上传用户:wudongjiang888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现有的简繁转换技术在处理简繁一对多时效果不是很理想.为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法.作者之前的研究工作成果在教育部语信司所举行的简繁一对多转换评测中取得了95.6%的转换准确率.在此研究基础上,本文提出了使用规则加组合统计模型来解决这一问题,所组合的统计模型为SVM、最大熵和Bayes模型.同时作者还提出了一种提高文本分类准确度的新的特征选择方法ADMMR,该方法和ECE,卡方检验这两种特征选择方法具有相当的性能;同时还提出了最大熵模型的特征值使用tf-idf,而不使用0-1值.实验表明这一调整使准确度提高了约2%.此外,作者使用ADMMR、ECE和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,经过实验表明组合模型在处理一简对多繁问题时具有更高的转换准确率和更稳定的性能.实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换的问题.
其他文献
某些元青花大器釉下钴蓝彩绘纹饰呈现出浮雕般的立体感,其显著区别于铜官窑、磁州窑等中国传统陶瓷彩绘纹饰平面化的装饰效果。元青花大器上的这种立体彩绘纹饰或许是吸收借
  本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法。首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类
目的:内皮型一氧化氮合酶(eNOS)抑制剂非对称二甲基精氨酸(ADMA)是心血管疾病发生的重要危险因素,在冠心病病人血浆中浓度显著升高。我们假设一种新的eNOS增强剂AVE3085可以改
本论文采用预聚体法合成了光固化水性聚氨酯(WPUA)乳液,并以此为基础,通过引入化学接枝法改性的纳米Si O2合成了改性纳米Si O2/WPUA复合乳液,对复合乳液及其固化膜的结构与应用性能进行了研究,为纳米材料改性光固化树脂的制备和应用提供理论依据。本研究以异佛尔酮二异氰酸酯(IPDI),聚己二酸己二醇酯二醇(PHA),二羟甲基丙酸(DMPA),季戊四醇三丙烯酸酯(PETA)等为原料,通过预聚体
  针对汉语篇章分析的三个任务:篇章单元切割、篇章结构生成和篇章关系识别,本文提出引入框架语义进行分析研究。首先基于框架构建了汉语篇章连贯性描述体系以及相应语料库,然
  针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法。提出的分类方法以大规模语料库为基础,利用word2vec模型学习词
屈指算来,我学习硬笔书法,已经二十年了。这二十年,也是我与《中国钢笔书法》结缘的二十年。《中国钢笔书法》,是我的梦,我的家。因为《中国钢笔书法》,我拜识了恩师王正良先
  公众情感在包括电影评论、消费者信心、政治选举、股票走势预测等众多领域发挥着越来越大的影响力。面向公共媒体内容开展情感分析是分析公众情感的一项基础工作。经典的
会议
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
  该文采用基于连接依存树表示体系的汉语篇章结构语料构建汉语篇章结构分析平台。该语料标注内容包含子句、连接词、篇章关系、篇章单位主次和篇章结构树等。在此语料上,采