基于Bootstrapping的本体标注方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:benn_zhao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,web资源呈现出高速增长,但目前互联网中的信息处理自动化低,信息之间关联性差,即使借助功能强大的搜索引擎,由于冗余信息过多,也无法快速准确地从web资源中获得有效信息。为了解决这样的问题,Web创始人Tim Berners-Lee于1998年提出了语义Web的概念,它在现有Web基础之上新增了扩展层,并在这层上对Web信息进行形式化的描述。因此通过本体词汇标注Web资源,将Web上资源的状态从机器可读提高到机器可理解的程度,并以此为基础发展语义Web是高效获取Web信息的解决之道。现有的大部分标注方法自动化程度低,适应性较差,效率低下。本文对本体标注方法进行了系统的研究,探索出了一种基于Bootstrapping的本体标注新方法。先对给定的本体进行解析,生成规则文件,然后通过文本分类筛选出领域文档。之后,采用Bootstrapping的方法进行信息标注抽取和Ontology推理,几次循环之后,只利用少量的训练文本就能达到较好的标注效果。本文主要工作如下:①提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法。由于待标注文本往往复杂多样,若直接进行信息标注、抽取,工作量巨大且标注错误率高。因此,在标注之前,需要先进行文本分类,抽取出与领域Ontology相关的文档。为了使分类器能够在小样本情况下对文本进行正确的分类和标注,本文提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法,该算法只需少量的训练样本作为种子集,来训练分类器,然后从分类的结果中挑选出部分置信度最高的文本加入到种子集中,作为新一轮的训练样本,重复训练直到结束。这样,只通过少量训练样本就能达到大量训练样本训练的结果。②提出了一种利用Bootstrapping和规则对文本集进行标注的方法。首先,根据规则文件对文本集进行初始标注,得到标注好的文本集。然后,利用实例的上下文关系,借鉴WHISK算法对抽取规则进行归纳,生成新的规则文件,标注新词汇。接着,抽取标注过的信息,填充到本体文件中。最后,借助于Ontology推理机,推理本体文件,去除错误数据,并修剪错误的规则,经过多次迭代,从而使模型能达到自动抽取新实例,丰富、完善本体的目的。待迭代完成后,得到标注好的文本集合和丰富的本体库。③提出了一种基于Bootstrapping的本体标注方法。该方法将领域文本的分类和标注结合成为一个整体模型,模型每次迭代后扩充的本体库使得分类器得以继续进行,而由分类产生的未标注领域文档又能进一步扩充本体库。循环反复,有效的达到了利用小样本训练集进行本体标注的目的。经过大量的实验表明,该方法具有较好的分类效果,对本体的标注具有较高的准确率和召回率。
其他文献
空调售后的修理与维护需要厂家提供足够的备件存储量,但是与此同时,过多的设备存储也会因否认过程中的氧化产生损耗而浪费不必要的存储费用。所以应当依据备件的使用历史来在最佳的一个数量范围内购置存放,来用最好的性价比保证空调的正常运转。此时用科学的算法来精准预测空调备件的消耗是针对这一症结的关键。备件预测控制在工业控制中体现了较大的优势和先进性,故而现今在工业过程控制中大量地引入了预测控制作为高端的计算控
伴随着我国经济的高速发展,我国电网技术的发展也十分迅猛,各种新型设备被引入电网,大区电网的互联也变成现实,在人们享受电网技术进步的同时,电网的潜在威胁也在变大。提高大电网安全稳定的运行水平已成为电网建设的基础性问题。母线负荷预测是动态状态估计、安全稳定分析、无功优化、厂站局部控制等的基础,是提高大电网安全稳定运行水平的一大工具。母线负荷预测的方法主要分为两大类:一类是基于系统负荷预测的预测方法,一
学位
本文主要工作是对椭圆曲线标量乘算法的研究,椭圆曲线标量乘算法是指一个大整数k乘以椭圆曲线上的一个点P,其研究点主要有两个,一个是算法效率,另一个是算法安全性。在效率方面,主
入侵检测是一种主动的网络安全防御措施,它不仅可以通过监测网络实现对内部攻击、外部攻击和误操作的实时保护,有效弥补防火墙的不足。而且还能够结合其他网络安全产品,对网
k跳可达性查询是图可达性查询问题的一般形式,在社交网络和传感器网络领域有很重要的应用。随着图数据的规模不断扩大,大图中的可达性查询问题受到了越来越多的关注。传统的
随着科学技术的不断进步,地质勘测的方法和手段也在不断推陈出新,其中采用钻井后数字摄像技术获取具有真实感的全孔壁图像进行地质分析已成为地质勘测的重要方法之一。目前,
随着教育信息化进程不断推进,智能教育系统积累教与学数据呈现出加速增长的趋势。如何将数据分析挖掘技术应用于教育领域,从教育数据中挖掘有价值的信息,从而揭示教育的自然
虚拟现实集成了计算机图形技术、计算机仿真技术、人工智能、传感技术、显示技术、网络并行处理等技术,是一种由计算机生成的高技术模拟系统。早在20世纪70年代它便被用于宇
对铝电解槽进行优化控制的主要目的,是提高电流效率,降低电能消耗。计算机智能控制能够出色的完成这一任务。然而,铝电解工业过程的工艺指标(如电流效率、直流电耗等)往往难