基于语义的网络知识获取相关技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：cheayu123

【摘要】

：

伴随着Internet的飞速发展,Web上出现了海量、异构、半结构化、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息

【作者】

：

郭勇

【出处】

：

国防科学技术大学

【发表日期】

：

2007年期

【关键词】

：

概念语义 NMF 文本分类信息抽取用户模板构造近似查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着Internet的飞速发展,Web上出现了海量、异构、半结构化、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域一个亟待解决的问题。基于语义的网络知识获取有助于解决上述问题,它可以提高用户网上信息搜索的效率,可以将搜索结果分门别类,帮助用户快速定位目标知识,并且从中抽取有价值的知识。本文在分析网络知识获取相关技术的研究现状和存在问题的基础上,研究了概念语义生成技术、文本分类方法、典型用户会话模板生成方法以及基于概念的近似查询技术,主要取得以下研究成果:(1)借助NMF算法的分解结果具有实现上的简便性以及分解形式和分解结果可解释性的优点,提出一种基于NMF的概念语义生成方法。类比图像分解的思想,将一个向量文本对应一幅图像,一个特征项数值对应一个象素点灰度值,应用NMF提取文本向量的概念语义,从而为大规模文本处理提供了一种新途径。实验结果以及相关工作比较分析表明NMF生成的概念语义能准确反映样本的局部特征,有助于解决自然语言表示中固有的歧义问题。(2)将NMF生成的概念语义向量用于Web文本分类。由于NMF生成的局部概念语义向量能和样本的特征直接对应,体现了各个分类中文本各自的特点,因此比体现所有文本共同特征的全局概念语义向量具有更强的区分能力。实验对比分析了局部概念语义空间和全局概念语义空间的构建对文本分类结果的影响,实验结果表明在NMF生成的局部概念语义空间中进行分类更精确。(3)根据NMF算法分解大规模文本矩阵的特点,提出了一种基于NMF的典型用户会话模板发现方法。应用NMF算法分解项.文本矩阵来获取项之间的相关性,在此基础上,引入语义向量和权重向量的概念,并通过定义语义向量的类别紧密度来提取用户模板。从确保概念语义向量正交,减少概念语义向量冗余的角度出发,选择NMF的变体LNMF进行降维,设计了一种基于LNMF的典型用户会话模板提取算法。由于LNMF得到的概念语义向量是尽可能正交的,实验分析表明,LNMF方法的聚类效果好,适合于发现典型用户会话模板。(4)针对基于概念最小上界和最大下界求本体概念近似查询的不足,定义了概念的最佳近似。利用复杂概念间的蕴涵关系,引入多元界和最简多元界的概念。通过相关性质和定理证明了借助多元界可以求得概念的最佳近似,从而将求概念最佳近似的问题转化为求概念的最简多元界问题。在此基础上,提出基于概念最简多元界的本体概念近似查询方法,可以有效消除查询重写冗余,提高近似查询的质量和查询重写效率。(5)给出了一个求概念最简多元最小上界的算法。详细讨论利用迭代递增的过程和概念层次减少搜索空间、优化算法效率的措施,给出算法正确性和完备性的证明,分析了算法的有效性。

其他文献

YR食品公司产品质量管理改进研究

YR食品公司是山东省水产食品行业的一家中小型企业,建于2001年,作为刚刚成立不久的企业,规模小,实力弱。面对同行业的激烈竞争,水产加工能力的严重过剩以及食品安全卫生质量

学位

产品质量管理改进全面性

热性惊厥儿童抗利尿激素、脑利钠肽、一氧化氮变化的临床实验研究

目的:通过检测及分析热性惊厥患儿血浆中抗利尿激素(AVP)、脑利钠肽(BNP)、一氧化氮(NO)三种神经化学标志物及相关的血浆钠离子(Na )水平的变化,以期探讨AVP、BNP、NO在儿童

学位

热性惊厥抗利尿激素脑利钠肽一氧化氮儿童

DT热电公司内部会计控制流程再造的研究

电力企业是保证国民经济实现可持续发展的重要基础产业,随着电力体制改革的深入,建立一套良好有效的内部会计控制体系来保证发电企业防范经营管理风险是十分必要的。内部控制

学位

发电企业内部控制内部会计控制制度设计流程再造

电网事故诊断及处理算法综述

电网事故诊断及处理的计算方法很多,各有自身的特点和适用性。从故障诊断和恢复处理角度,主要论述了基于人工智能的故障诊断方法、基于矩阵计算的故障定位方法,以及几种事故

期刊

故障诊断事故处理人工智能智能电网fault diagnosis fault treatment artificial intelligence smar

概率倍加假设下的三种负荷方式划分及其应用

对电力系统较长时间段的最小、正常、最大三种负荷方式的合理划分,是目前电力网技术经济问题中急需解决的重要问题。参照计划评审技术与概率倍加原则,对持续负荷曲线及其平方

期刊

概率倍加持续负荷曲线洛桑德(Rossander)公式probability multiplication durative load curve Ross

别把“状元笔记拍卖”看太重

过去这个周末，关于“状元笔记拍卖”的话题挺火。据称一家拍卖平台日前首次将河北、安徽、贵州等6位省级高考状元的笔记集中进行拍卖，结果拍卖活动追捧者寥寥，除了三份笔记被拍

期刊

拍卖活动高考状元笔记

瑞吉欧“纪录”对学前儿童家庭教育的启示

瑞吉欧·埃米利亚是坐落于意大利北部的小城,闻名于学前教育理论和实践领域,是世界学前教育改革的先驱和模范。瑞吉欧教育体系中,"纪录"是其特色的一部分。所谓的"纪录",

期刊

瑞吉欧教育学前儿童儿童发展理论家庭教育

急性胆囊炎患者行急诊和延期腹腔镜胆囊切除术的安全性及有效性比较

目的比较急性胆囊炎患者行急诊和延期腹腔镜胆囊切除术(LC)的治疗效果及安全性。方法选择2011年5月至2015年5月在黄冈市中心医院收治的急性胆囊炎患者100例,其中行急诊LC者50

期刊

急性胆囊炎延期手术急诊手术腹腔镜胆囊切除术

春联：一个家庭的精神密码

今年年初,在家过春节。一家人有说有笑地坐在一起吃水饺。电视里播的是央视＂新春走基层＂的系列报道,这次的主题是＂家风是什么＂。看着看着,周围的喧闹声渐渐远去,我想起了我爷爷和

期刊

春联密码精神家庭系列报道

岩体节理三维网络模拟优化及在甘肃北山芨芨槽岩块的应用研究

在岩体工程地质条件调查分析的基础上,对岩体所赋存的结构条件进行有效的描述和定量化分析,是进行岩体力学特性、岩体水力学特性及岩体工程性质判断的有效途径。本论文以中国

学位

岩体节理节理三维网络模拟高放废物芨芨槽岩块圆形窗口法岩体结构均质区模糊聚类分析节理直径节理密集带REV节理间距节理面密度节理体密度

基于语义的网络知识获取相关技术研究

与本文相关的学术论文