网络数据挖掘在平行语料库中的应用研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:yj8888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在平行语料库构建中,比较常见和成熟的对应单位自动识别与对齐的软件主要集中在段落和句子对齐的层面,而基于多词序列对齐的对应单位(本文简称为:词序列对应单位)的自动识别与对齐软件较少见到,使该类型平行语料库的构建速度和规模都受到极大影响。为改变这种状况,我们把设计和开发词序列对应单位的自动识别与对齐软件(CURecognizer)作为本研究的最终目标。本研究以意义单位、翻译单位、对应单位等理论为指导,利用网络数据挖掘(Webdata mining)技术,通过对英语文本中名词序列的自动识别,进而实现英汉对应文本中的对应单位自动识别与对齐。以实现中国政治新闻英汉平行语料库中名词性对应单位的自动识别与对齐为研究对象,开发和利用网络数据挖掘技术对中国日报网站(www.ChinaDaily.com.cn)上的政治新闻报道进行实时下载和提取,由软件自动构建作为辅助英语名词短语自动识别判断的参考语料库;在语法规则与概率统计相结合的方法原则下,设计开发基于POS赋码的英语文本中名词序列自动识别软件(NSRecongnizer);利用Google和Bing的在线翻译工具获得英语文本中名词短语的汉语翻译列表,以该列表为桥梁在汉语文本确定的范围内(由软件根据英、汉两个对应文本的句子数及英语名词短语在英文文本中的位置来按照给定的算法公式自动获得)进行汉语对应词序列的检索和匹配,从而达到英汉文本中名词性对应单位的自动识别,并一步实现对应单位在两个模式(分别为:基于颜色对的外部视觉模式和基于数据库的内部数据模式)下的自动对齐。由于受CLAWS赋码正确性和网络在线翻译丰富性的影响,基于本研究对应单位识别系统CURecognizer的执行效果并不是非常理想,但通过本研究我们发现:将网络数据挖掘技术应用于语料库开发和研究将是语料库语言学发展的一个新途径。
其他文献
本论文试图运用认知语言学的概念隐喻、概念转喻理论和概念整合理论来研究委婉语的意义建构,证明了用认知语言学研究该语言现象的适用性。以往很少有学者探讨委婉语的理解机
荒野风景河流体系是针对河流生态系统的美国联邦层面保护地类型,也是世界上建立最早的河流保护地体系。采用文献分析和半结构式访谈等方式,以标志性事件为界点,对荒野风景河
《党政领导干部选拔任用工作条例》的颁布实施,是党的干部工作更好地贯彻落实“三个代表”重要思想的需要,是适应新形势新任务、建设高素质干部队伍的需要。建立科学的干部选拔
完善的干部选拔任用机制包括公开平等的竞争择优机制、科学严谨的考核评价机制、能上能下的代谢循环机制以及系统有效的监督约束机制.以观念的突破为先导,为干部选拔任用机制
《西厢记》作为中国古典戏剧的杰出代表,被称为世界三大古典名剧之一。随着国际化进程的加快和中国国际地位的提升,《西厢记》受到了越来越多来自世界各地学者的关注和喜爱。
常规天线阵虽具有三维空间自由度,但由于受阵列口径尺寸限制以及互耦、平台等实际情况复杂因素影响,其性能往往越来越难以满足现代无线电子系统的苛刻要求。通过在具有三维空
会议
《尔雅》作为一部重要的具有工具书性质的著作,汇集了我国春秋战国以至秦汉时期训诂研究的丰富成果,素来就被誉为“七经之检度,学问之階路,儒林之楷素”,受到历代学者的重视,
在第二语言教学中,“是……的”句式是一个重点和难点句式,也是学生较难掌握的一种句式。本文在借鉴前人本体研究的基础上,探讨了新疆中小学少数民族双语培训学员对“是……
火龙果在预防便秘、降血脂、抗氧化和衰老方面具有显著的功效,口感也非常好,深受消费者的喜爱,具有非常好的市场发展前景。因此,我国的火龙果种植面积不断扩大,火龙果种植户
本文以岷江上游地区的羌族传统村落为研究对象,针对当前学术界羌族传统村落研究缺乏整体性思考的短板,通过历史学、历史地理学、文献学等多学科交叉研究方法,就岷江上游地区