网络信息抽取系统关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:onlinemaji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息资源日渐激增,如何高效地从中取出有用信息成为学术界的一个重要研究方向。信息抽取是从半结构化或非结构化的数据中抽取出事实信息的过程,它需要对信息进行一定程度的理解,最初等同于文本理解的概念。  随着互联网的出现和发展,信息抽取的任务被赋予了更多的内涵,也面临着更多的挑战,包括:(1)网络信息数量庞大,领域广泛,对信息抽取系统的效率和可移植性都有较高的要求;(2)网络信息多以半结构化的网页形式出现,其中包含大量无关信息,影响系统对信息的理解;(3)自然语言具有多义性,同一个词语出现在不同上下文中所表达的含义可能有所不同;(4)产品命名实体的结构和边界比一般命名实体更加复杂,识别难度也更大。  针对网络信息抽取面临的挑战,本论文围绕以下四个方面展开了研究:  (1)在传统信息抽取的结构框架的基础上,针对互联网信息数量庞大、覆盖领域广等特点,本论文提出了一个贯穿网络信息抽取完整流程的整体框架。在这个框架下,系统利用领域知识库来指导信息抽取的过程,可以方便地移植到不同的领域中使用。  (2)为了清除半结构化网页中的无关信息,找出其主要内容,本论文研究了一种无监督的网页信息抽取算法。由于一般网页的内容特征和结构特征都是弱特征,本论文为它们加上了动态的特征权重,利用最大期望算法进行动态更新,权重大小会根据不同的网页发生变化,使特征更好地描述网页。同时,本论文使用最小文本子树作为网页的分割单位,能较好地避免连续信息块的丢失和噪音块的混入。  (3)自然语言的多义性对信息抽取系统理解信息的准确度有很大的影响。本论文研究了一种基于词语位置关系的词义消歧算法,把词语之间的距离分为句子距离和词语距离两个分量,确定了上下文距离关系函数,更准确地衡量上下文词语对歧义词词义选取的影响。无论是使用有监督还是有限监督的训练方式,该算法都能取得较好的词义消歧效果。  (4)商务信息的获取和分析在商业竞争中具有重要的现实意义,而产品命名实体识别是其中重要的基础任务。本论文利用三层的半监督学习框架,首先根据产品命名实体各个部分的结构特征和它们之间的关系特征抽取出候选集,然后把与正例上下文相似度高的候选词自动标记为正例,并利用这些数据训练一个隐条件随机场模型进行产品命名实体识别。  最后,本论文以这四个方面的成果和其他一些开源项目作为基础,建立了一个网络信息抽取的原型系统,并介绍了该原型系统在两个不同场景中的应用实例。
其他文献
传统的烟雾探测系统只能服务于本地,无法实现远程跨区域探测,为此引入了网络型烟雾探测系统的设计思想。本系统将RS485烟雾传感器网络与Internet相合,使得监控者可以远程访问工
工作流技术在当今企业级信息化系统中正被广泛的应用,随着其应用的普及,工作流中存在的长事务问题也就成为工作流系统开发者急需解决的问题。与此同时,伴随移动互联网技术的发展
传统几何处理方法依赖于局部几何信息来对三维几何模型进行分析和处理,然而近年来,人们越来越发现仅仅利用局部几何信息很难实现复杂的几何处理任务。随着研究工作的深入,人们开
随着互联网中信息量的快速增长,浩如烟海的信息世界具有无组织,分布广、结构复杂、动态变化等特点,搜索引擎作为信息检索工具成为人们生活中必不可少的一部分。独立搜索引擎的检
敦煌壁画具有深厚的文化内涵和极高的艺术价值。敦煌壁画的动态展现在文化教育和宣传方面有着十分重要的意义。该任务的实现在技术方面包含两方面要求,其一是展现对象的建模方
近年来,模式识别在医学诊断领域中有着广泛的应用,成为了人工智能领域热门的研究课题。随着人们生活多样化以及环境等因素影响,癌症发病率及发病方式也逐年增加和多样化,这为疾病
随着CPU(中央处理器)的计算速度提升遇到瓶颈以及计算机软件技术的不断发展,GPU(图形处理器)技术已经在各项计算机应用中体现出日益重要的价值,GPU早已广泛应用于电脑游戏、模拟仿
本文重点关注图像去噪、图像修补以及图像超分辨率重建的研究。由于成像系统和外界环境等客观因素,在生成、传送和存储过程中,会使得图像的质量有所下降,所以希望能够寻找一种图
脑机接口通过解析大脑皮层神经信息,不依赖于常规的神经通路,构建一条直连外部设备的信息交流和控制通道。该技术可以帮助因车祸等原因造成的高位截瘫病人、残障人士利用意念控
随着影像学诊断技术的不断进步,四维无创诊疗方法对心脏及局部血管的运动过程进行四维动态仿真,能够真实清晰地再现病人心脏及冠状动脉的运动过程。其中局部感兴趣区域的可视化