基于网络百科知识源的语义关系获取和自动合成研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:chen406507025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识获取是指利用人工智能的方法,从资源中获取所需要的信息或者格式化的结构,并将其自动转化为计算机可以理解的形式。随着计算机的普及以及互联网的快速发展,越来越多的知识呈现在文本当中,自动文本知识获取成为人工智能发展的瓶颈。如何快速自动的从文本中获取知识,是文本知识获取领域一个亟待解决的问题。通常人们理解的知识指的是掌握概念的数量多少以及概念之间的关系的复杂性,同样,对于计算机而言,概念和概念间的语义关系是知识的基本组成部分。本文选取中文网络百科作为知识源,主要研究了隐性概念的发现和语义关系自动合成的方法。  针对隐性概念发现方面的研究,论文提出了一种基于文本语义的概念生成模型和方法。首先,抽取中文网络百科知识源中有标记的显性概念,并利用词法分析和统计方法获取显性概念的前部特征、后部特征和相应的候选隐性概念词构件。然后分别利用基于统计和上下文语境的混合加权方法和基于word2vec构建特征向量的方法对候选概念词构件进行相似度的计算,并结合待交换候选概念词构件和前部或后部特征的相关度,最后通过拼接概念词前部或后部特征和候选隐性概念词构件,发现隐性概念。最终的实验结果表明,混合加权算法能取得更好的效果。  针对语义关系获取和自动合成的研究,论文提出了一种基于概念扩充的语义关系自动合成方法。首先,利用基于规则的方法从中文网络百科知识源中获取上下位关系、部分整体关系、并列关系和地理位置关系。然后利用概念在搜索引擎中出现的频数对有歧义的概念进行语义扩充,并计算待合成的关系涉及的概念之间的相关度。最后通过对这四种语义关系进行关系内和关系间的推理扩充语义关系知识库。
其他文献
该论文由两个主要部分组成.第一部分研究球分形鼓,它是球极限集.第二部分研究了一类小数集.
该文立足于研究基于非等价划分粗糙集方法的应用.文中首先介绍了基于相似(自反、对称)划分的相似粗糙集模型,证明了Pawlak粗糙集是相似粗糙集的特殊情况,并给出了一种基于相
有关文献研究表明,近年来,我国学者对师范生教育实习的研究主要探讨了实习时间和内容安排、指导老师、基地、模式、评价体系、外国教育实习等方面.对这些文献进行梳理和总结,
多项式方程组的构造性理论和算法的研究是计算机证明和自动推理研究中的重要课题.我们利用吴方法和极大,极小多项式估计,推广多项式实根分离算法(realroot isolation)到多项式
该论文的主要目的是研究两类特殊的马尔科夫过程的轨道性质.首先,我们将讨论一般的d维Ornstein-Uhlenbeck型马氏过程,给出关于它们的像集的Hausdorff维数的上、下界的一个估
该文对椭圆曲线公钥密码体制的设计和分析进行了系统的研究,主要结果有:1、挑选出了12个最佳素域作为椭圆曲线的基域,其中384比特长的域比美国联邦信息处理标准所推荐的域在
本文主要研究一类双曲型守恒律松弛模型在任意维空间上的初边值问题解的适定性及其渐近收敛性.  全文共分为五章.第一章为绪论,主要介绍关于双曲型守恒律松弛模型的一些研究
在中职教学事业中,历史教学受到了多种教学因素的影响.在历史知识中,浸润着中华民族上下五千年的历史文化,通过提升历史教育,能够帮助学生塑造健全的价值观念和思想道德体系.
建立统一数据平台实现信息的高度共享为当前较为热门的课题,实现统一数据平台随之而来的就是信息的安全问题、当信息的内容和格式变化时数据平台的高可利用性问题.目前,中国
近年来,利用天然地震探测地壳及上地幔的结构特征受到世界各国科学家的广泛重视,一个普遍采用的数值处理方法是ACH方法[3],ACH方法是一种走时反演成像方法,是指利用直达波走时