面向开放域信息抽取的关系知识库建立

被引量 : 0次 | 上传用户:geosec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,许多知识库,例如、、和,都以链接数据的形式发布在万维网上,这些知识库对于人类浏览和机器访问都非常有用。然而,较之这些知识库中各种数量庞大的不同的实体,其中独立的关系的数目却屈指可数。进一步地,这些知识库仅仅从结构化或者半结构化数据源中抽取数据,从而忽视了非结构化文本数据中的隐性知识,而事实上非结构化的文本数据目前在万维网上数量巨大且高速增长。另一方面,开放域信息抽取,比如机器阅读和永无止境的语言学习项目,则注重于在万维网尺度下从文本中抽取实体和他们之间的关系。在这种背景下,建立一个面向开放域信息抽取的关系知识库是对现有工作的一个很好的补充。在本文中,我们定义了一个面向开放域信息抽取的关系知识库的基本结构,并设计了建立这样一个知识库的基本架构。进一步来说,对于每一个关系,我们的关系知识库不仅仅包含主语宾语对作为这个关系的示例,同时也抽取高层次的关系约束,比如这个关系的定义域、值域和依存路径模式。所有这些信息对于描述关系都是非常有效的,即可以用来作为是对那些基于实体的链接数据的一种补充,也可以用来作为进一步的自然语言处理的训练数据,或者高质量的本体数据,为了未来新增数据的抽取进行服务。我们的关系知识库建立过程是从文本中自动地获取关系示例和关系约束的相关信息,这本身又是借助了开放域信息抽取的概念。因为关系示例和关系约束两者的获取具有高度的耦合性,我们从文本中抽取了候选信息之后,采用了一种原创的基于期望最大化的算法来评估候选信息的可靠度,从而构成一个高质量的关系知识库。最后,我们利用中文百科数据和链接数据建立了一个实验性的关系知识库用来体现我们算法的有效性和高效性。
其他文献
本研究利用分配式谈判的情境,检查了BATN(A当前协议的最佳替代方案)、谈判前设定的目标、第一次出价等多个参照点或因素对谈判结果的影响。对于由132名在职MBA学生组成的66对
<正>现代化服务型统计是面向统计用户、面向统计基层、面向调查对象,积极运用现代化的科技手段和信息技术的新型统计。建设现代化服务型统计,具有非常重要的意义,有利于统计
本文以检验检疫业务流程为主要研究对象,通过对已有的企业业务流程再造和政府业务流程再造的理论进行梳理、分析,参考借鉴美国政府再造的实践经验,回顾并总结了中国政府在流程再
目的:评价结核感染T细胞斑点试验(T-SPOT.TB)对肺结核病的临床诊断价值。方法:选择2012年2月~8月湘雅医院呼吸科住院病人中92例可疑肺结核患者进行T-SPOT.TB检测、结核菌素试
目的:建立小鼠肝细胞体外培养的方法,研究不同浓度胰岛素对肝细胞甘油三酯合成代谢、分解代谢及甘油三酯含量的影响。方法:通过肝脏灌注和胶原酶消化分离小鼠肝细胞,密度梯度
目的:T细胞和免疫球蛋白重链基因重排是微小残留病灶水平的特异性标记物,而微小残留病灶的水平与儿童急性淋巴细胞白血病的复发强烈相关。应用传统的聚合酶链式反应方法来监
蒸汽发生器(SG)是压水堆(PWR)核电站中一个非常重要的热交换设备,传热管是一、二回路之间的热交换界面,它属于一回路的压力边界。为了满足蒸汽发生器长期运行的需要,SG传热管用材料
目的:研究人参中提取的小分子活性物质皂苷Rg1能否促进大鼠骨髓间充质干细胞(marrow-derived mesenchymal stem cells,MSCs)分泌血管内皮生长因子,并进一步探究其作用机制与
微博,又称为微博客,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。作为社交媒
文章在总结分析煤矿井下皮带运输系统安全管理问题及其原因的基础上,探讨了有效的煤矿井下皮带运输系统安全管理措施与策略;以期对促进煤炭企业的健康发展有所贡献。