基于文本数据的通用词间关系获取研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:Ares_Stray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通用词间关系,也称一般词间关系,是不受领域范围限制的一系列词间关系的集合,该集合中的每一类关系均能在广泛的领域范围内成立。对通用关系进行识别和获取是基于自然语言的知识组织系统(如本体)构建过程中基本的任务之一。由于通用关系是多种词间关系的一个集合,其内涵和外延远比单一的词间关系(如层次关系、Is-a关系)复杂,难以对通用关系进行机器可读的形式化描述,导致通用关系的自动获取相对困难,现有的各种关系获取方法,如统计法和模式法均难以有效地获取通用关系。   关系三元组为通用词间关系的描述提供了一种手段。这一方法的基本假设是:动词能够描述两个名词概念间关系的语义。基于这一思想,本文在综合分析了现有的各种关系获取方法的基础上,设计了一种通过抽取关系三元组的方法来自动获取中文文本信息中通用关系的方案:首先,采用基于统计的方法提取具有匿名关系的名词对;其次,结合自然语言处理技术,通过句法分析从自然语言语料中提取两个名词之间的常用谓词作为通用关系的描述标签,构造形如(名词,谓词,名词)的谓词三元组;再次,对每一个关系词对的所有谓词,结合上下文信息进行分析,确定用于生成关系语义标签的谓词集合;最后,通过外部语义工具对谓词集合中的谓词进行分析,为匿名关系生成规范的语义标签,并将此标签作为对通用关系的描述。   相对于其他词间关系获取方法,这一方案是相对复杂的,其中使用了基于统计的互信息计算、模式匹配和上下文向量空间匹配等多种方法以实现不同步骤的设计目标。基于人民日报PFR语料的实验结果证明,该方案能够实现对通用关系的获取,即能够通过谓词提取生成三元组的语义标签。说明匿名关系——谓词提取——语义解释这一通用关系获取方法是可行的。   此外,在对实验结果进行分析的过程中,本文提出了结合准确率、有效率、漏标率和误标率四项指标进行评价的方法。  
其他文献
我国的电子政务建设经过十多年的发展已经到了整合资源、充分挖掘信息价值、建设服务型政府的阶段,政务信息资源开发利用工作已成为电子政务建设中最为核心的工作重点。完善的
网络舆情是社情民意的重要组成部分,网络的匿名性、开放性和互动性极大.地促进了网络舆情的快速扩散。随着Web2.0的发展,网民间的互动日趋活跃,BBS就是其中最突出的代表。BBS
信息自由的思想由来已久,经过300余年的演变和发展,已在各国信息立法的理论和实践中得到验证,国内外学者从影响因素、政策执行、用户需求、绩效评价和社会参与等方面论述了政府信息公开作为行政行为的外在特征,从法律适用、法律比较和法律完善等方面阐述了政府信息公开作为法律制度的内在要求。政府信息是一个内涵丰富的概念,有效界定政府信息范围是处理信息行为的理论需要,政府信息来源于社会生活的各个领域,在制度约束的
随着计算机技术的发展和互联网的崛起,电子商务逐渐融入了人们的生活。在其发展的十几年间,电子商务的用户数和交易额都在突飞猛进地增长。据有关调查显示,2009年中国电子商务市
随着网站开发技术的不断进步,拥有网站成了一件非常简单的事情。而利用web信息采集技术,在短时间内生成多个网站,已经成为一部分中国个人网站主获取诸如Google Adsense、百度等
学位
期刊
陆军武器装备是衡量一个国家军事力量强弱的重要标志。我军在武器装备的研究方面一直沿袭着就装备本身而进行研究的模式,包括武器装备的技术性能以及从预言、立项、论证、试
_缘起:在旧教堂里打造最动人的书店rn设计师以“教堂中的教堂”概念,在上海历史建筑圣尼古拉斯教堂旧址里,用45吨钢铁打造了旧教堂里的新书店——思南书局诗歌店.诗歌店的设
期刊
期刊