基于Web的双语资源信息抽取研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yuxk781224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。
其他文献
虚拟结肠镜(virtual colonoscopy, VC)计算机辅助检测(computer-aided detection, CAD)是利用息肉与正常组织形态以及其他特征的差异由计算机实现结肠息肉自动检测的新的技术
多媒体技术是近几年来计算机领域应用十分广泛的技术之一,随着个人PC的快速普及和网络技术的迅猛发展,多媒体技术的应用需求在未来几十年内仍将增加。这些多媒体信息,特别是
随着Internet技术的迅速发展,Web信息日益膨胀,人们不得不花费大量的时间去搜索自己需要的信息。目前大多数的搜索引擎提供的服务还不能令用户满意,如何从大量的网络信息中挖
随着网络时代的发展,计算机支持的协同工作系统(CSCW)已引起工业界和学术界的高度重视,而作为一个发展的研究领域,协同工作还存在着很多问题有待进一步研究和解决,其中之一就
随着社会的进步和信息技术的发展,身份识别技术日新月异。虽然,近年来RFID卡和二代身份证等一些以射频技术为基础的识别手段,已在身份识别领域得到了广泛应用,利用指纹、语音
目前的语音识别系统对纯净语音可以达到非常高的识别精度,但是环境噪声给语音识别系统造成很大的影响,导致识别器的性能急剧下降。因此抗噪问题是语音识别真正达到实用必须解
本文深入研究了H.264视频压缩标准和Blackfin系列DSP,并在此基础上实现了H.264视频压缩标准在Blackfin系列DSP上的移植以及优化。H.264视频压缩标准被称为新一代视频压缩标准
无线Mesh网络(WirelessMeshNetwork,WMN)是一种通过无线链路连接路由器和终端设备的多跳网络,是一种新型宽带无线接入技术,是“Internet的无线版本”,它具有可靠性、自组织性和自愈
碰撞检测是判断虚拟场景中运动着的物体之间的位置关系是否冲突的行为,在虚拟现实、机器人路径规划、计算机图形仿真等领域中占据重要地位。目前在国内外碰撞检测问题的研究
栅格图像矢量化是当前图形图像处理领域的热点研究方向,对该技术的研究具有极大的理论和实践意义。本文研究和分析了目前具有代表性的栅格图像矢量化方法,并结合实际情况进行