网络数据挖掘在平行语料库中的应用研究——对应单位的自动识别与对齐

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:a0p5c115f6e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在平行语料库构建中,比较常见和成熟的对应单位自动识别与对齐的软件主要集中在段落和句子对齐的层面,而基于多词序列对齐的对应单位(本文简称为:词序列对应单位)的自动识别与对齐软件较少见到,使该类型平行语料库的构建速度和规模都受到极大影响。为改变这种状况,我们把设计和开发词序列对应单位的自动识别与对齐软件(CURecognizer)作为本研究的最终目标。  本研究以意义单位、翻译单位、对应单位等理论为指导,利用网络数据挖掘(Web data mining)技术,通过对英语文本中名词序列的自动识别,进而实现英汉对应文本中的对应单位自动识别与对齐。  以实现中国政治新闻英汉平行语料库中名词性对应单位的自动识别与对齐为研究对象,开发和利用网络数据挖掘技术对中国日报网站(www.China Daily.com.cn)上的政治新闻报道进行实时下载和提取,由软件自动构建作为辅助英语名词短语自动识别判断的参考语料库;在语法规则与概率统计相结合的方法原则下,设计开发基于POS赋码的英语文本中名词序列自动识别软件(NSRecongnizer);利用Google和Bing的在线翻译工具获得英语文本中名词短语的汉语翻译列表,以该列表为桥梁在汉语文本确定的范围内(由软件根据英、汉两个对应文本的句子数及英语名词短语在英文文本中的位置来按照给定的算法公式自动获得)进行汉语对应词序列的检索和匹配,从而达到英汉文本中名词性对应单位的自动识别,并一步实现对应单位在两个模式(分别为:基于颜色对的外部视觉模式和基于数据库的内部数据模式)下的自动对齐。  由于受CLAWS赋码正确性和网络在线翻译丰富性的影响,基于本研究对应单位识别系统CURecognizer的执行效果并不是非常理想,但通过本研究我们发现:将网络数据挖掘技术应用于语料库开发和研究将是语料库语言学发展的一个新途径。
其他文献
申采浩是韩国历史上屈指可数的集思想家、史学家、独立运动家和文学家为一身的知识分子。一直以来,关于申采浩的研究过多集中于其思想性,而对其作品的文学性研究尚显不足,尤其是
保持党的先进性,必须加强党的基本理论,尤其是历史唯物主义教育。先进性集中教育之后,应在党员干部中及时开展历史唯物主义教育。我们党的根本组织原则是民主集中制,其理论基
2006年8月21日,全国大学生智能汽车竞赛暨第一届“飞思卡尔”杯全国大学生智能汽车邀请赛决赛阶段比赛在清华大学体育馆举行,来自全国57所大学的112支参赛队用他们精心设计的
目前我国许多民生新闻的核心价值观出现了一定程度的偏离,为实现民生新闻的健康持续发展,必须重构民生新闻的核心价值体系。民生新闻价值观的塑造问题,既是新闻传播行业面临
最近有机会去北京中关村,正好赶上“电脑节”开幕,虽然中关村的建筑已经焕然一新,但混乱的交通秩序依旧,各式各样、随处可见招揽顾客的生意人依旧.
本文通过对荣华二采区10
《上海女孩》是当今最有影响的美国华裔作家之一邝丽莎的一部最新的历史小说。该小说内涵深刻,但因出版不久,除书评之外,鲜有学者对该小说进行相关的批评研究。本论文以《上
本文以10kW数字中波发射机预推动故障的处理思路探究为题展开论述。首先分析了故障现象,然后在分析的基础上,通过对对预推动电路板电源电压、射频通路进行测试,发现故障的问
温总理在《政府工作报告》里面提出保民生、稳增长,表明2012年将继续积极的财政政策和稳健的货币政策,工作重点是稳中求进。政策将向民生领域倾斜,保障住房的建设将加速。央行将继续在公开市场以正回购替代央行票据回笼流动性,至今央行票据已连续十周停发,也说明货币投放将增加。央行已用28天正回购回笼了300亿元流动性,以本周的到期规模来看,央行要实现净回笼还需在周四公开市场回笼330亿元以上。目前银行体系资
回声问句是人们口语交际中经常使用却频遭忽视的语言现象,历来较少有语言学家对这一问题进行深入、系统的探索和挖掘,且在为数不多的研究中,大部分成果都出白西方学者,鲜有中