基于WEB挖掘的双语对获取技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:kkkwwwbushiwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上各种语言的文本数据在以几何级数不断增加,这些文本数据自然成为自然语言处理研究的宝贵资源。本文先从互联网上获取感兴趣的语言资源,然后进一步获取互联网上的双语对。双语短语对齐在机器翻译领域具有重要意义。本文在词性标注时,针对兼类词与其前驱词以及后继词搭配时满足的规则不同的情况,采用统计和规则相结合的方法,设置规则的优先级,从而确定当前词的词性,提高了词性标注的正确率。在短语切分中,将汉语短语切分概率化,并结合一些成词率高的规则,通过求N-最短路径方法进行短语切分。本方法对于一个已经分词的句子,根据短语库找到这个句子中所有可能的短语,并构造有向无环图,求得最优路径,从而提高了短语切分的正确率。本文还利用从搜索引擎中自动获取共现短语对网络频率数的方法进行短语对齐。本方法利用词性标注和短语切分的结果,使用网络共现频率数来判断两个汉英短语是否互为翻译,然后根据贪心规则选出最佳候选。该方法能够获得双语语料库未能充分覆盖的部分新短语,将其作为双语语料库的补充,实验证明,这种方法有效的提高短语对齐的准确率和召回率。另一方面,本文基于Web挖掘技术,采用迭代策略实现汉英双语对获取,从而实现领域词典的自动扩充。本方法把一个有限的计算机专业词典中的英文短语及其中文解释组合成中英文二元组提交给搜索引擎,从返回的诸片段(snippets)中提取出相似的中英文二元组,选择置信度高的一个二元组,再次提交给搜索引擎进行相同的操作,多次迭代,直到计算机专业词典中的每个二元组都处理完毕。实验表明,该方法当用于扩充语料库的时候,能够有效地提高词典获取的正确率,同时也可以提高双语词典编撰效率。
其他文献
随着现代科技的发展,通用操作系统在某一特殊领域的性能显得越来越疲乏,专门服务于某一具体应用的专用操作系统已经成为近年来新兴的研究和应用热点。主要的研究工作是设计和
无线传感器网络(WSN)融合了微传感器、嵌入式计算、现代网络和无线通信四大技术,作为一种新的计算模式推动着科技的发展和社会的进步。它能够通过各类集成化的微型传感器协作
随着网络和多媒体技术的迅速发展,视频数据量呈现爆炸性的增长,视频数据的共享越来越广泛,如视频点播、数字电视、网络电视、视频会议、在线视频聊天等应用不断涌现。为了保
实时协同编辑系统是CSCW系统的一类重要应用,它支持地理上分散的用户通过网络在同一时间浏览和编辑一个共享的文档、图形或者多媒体文件。为了支持实时、分布式和无约束的特
教学资源库建设是整个网络教育教学资源建设的核心与重要建设目标,是教育信息化建设的重要内容。建设资源库的目的是为了更好地发挥教学资源的互用性,将教学资源划分成素材,
Sun公司顺应网络技术和Internet的迅速发展需求,提出的J2EE规范已成为企业级开发的工业标准。在Java语言走进企业级应用领域的同时,系统安全问题也受到了越来越多的关注。访
随着机车技术的不断发展,机车系统和机载设备日趋复杂。机车故障的种类以及原因也日渐多样化,对故障诊断系统也提出了更高的要求,故障诊断系统呈现出动态、分布、多部门协作
人工免疫网络是人工免疫系统中的一个重要分支,主要基于克隆选择、免疫网络等免疫学原理。本文主要研究人工免疫网络优化方法并设计用于药代动力学模型参数优化的求解方法,此
伴随着机器人技术的发展以及它们在日常生活和工作的广泛应用,研究者越来越热衷于研究机器人,其中移动机器人同时定位与地图创建(Simultaneous Localization and Mapping,SLA
近年来,为弥补教育资源的短缺,许多高校都在积极推进课程网站的建设。然而,使用传统的制作网站的方式来开发课程网站不仅效率低下,而且费用昂贵。因此,开发针对课程网站制作