基于领域本体的文本过滤模型DOTFM的设计和实现

来源 :上海大学 | 被引量 : 0次 | 上传用户:livida
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本过滤是从动态的文档流中,检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加广泛,用户对过滤的要求也越来越高。为满足用户需求,本文将领域本体引入到文本过滤当中,利用领域本体实现对中文文本的过滤。 本文首先介绍了国内外信息过滤的研究现状,阐明文本过滤的理论及其在经济、社会和学术方面的意义;分析了文本过滤任务和常用技术,描述文本过滤的性能评价方法,解释本体的基本概念。 接着提出了一种基于领域本体的文本过滤模型DOTFM(Domain Ontology based Text Filtering Model),该模型主要由学习阶段和过滤阶段组成。在学习阶段,提出概念权值(CV, Concept Value),利用领域本体和学习语料集来量化概念在领域中的重要程度;在过滤阶段,提出概念关联度(CRD,Concept Relation-Degree),利用领域本体的层次结构确定领域中概念间的亲密程度。 论文提出了局部型/全局型文本向量(LTV/GTV,Local Text Vector/Global Text Vector),将单一形式的文本向量改变为采用矩阵和向量两种形式的文本向量,同时考虑概念重要程度和概念关联度两个因素。论文还提出了局部型/全局型用户模板(LUT/GUT,Local User Template/Global User Template),采用矩阵和向量两种形式表示获取的用户需求,同时考虑概念重要程度和概念关联度两个因素;提出了局部型/全局型相似度(LSD/GSD,Local Similarity-Degree/Global Similadty-Degree)计算和过滤,变单一匹配为综合匹配。 论文最后实现了DOTFM的系统原型DOTFS(Domain Ontology based Text Filtering System),并将DOTFM与基于关键字的文本过滤模型KWTFM(Key Word based Text Filtering Model)的性能进行了比较,实验结果表明前者综合性能明显优于KWTFM。
其他文献
步态分析与评价是人类保健和康复的重要研究内容。随着人类老龄化的逐渐加剧,老人意外跌倒已经成为老人致残的“杀手”。对人类步态进行深入分析和科学评价已经成为很多发达国
随着移动通信技术的飞速发展,移动通信的网络带宽不断增加,移动终端的处理能力也在迅速提高,通过移动通信网络提供流媒体服务已经成为可能。全球移动用户的数量非常庞大,截至
随着计算机信息处理技术及计算机应用的日益普及,少数民族文字的计算机信息处理也开始成为计算机应用领域的一个重要研究方向。 藏语是少数民族的一大语系,藏族人民有着两千
生物信息学是随着人类基因组计划的启动、基因序列和蛋白质序列等生物数据迅猛增加而逐渐兴起的一门通过综合运用数学、计算机科学和信息科学来研究生物系统中信息现象的科学
以协同工作平台服务系统为背景,为提高协同任务调度的柔性及软件的构架性能,对协同任务调度领域模型及软件构架模型进行研究。研究协同任务调度的概念框架,明确提出任务调度
异常检测作为入侵检测的一个分支,越来越受到人们的重视。大部分入侵检测系统对于内部攻击的检测效率很低。内部攻击者比外部攻击者会对系统造成更大破坏,而且其行为更难捕捉。
随着技术的日新月异,各种新思想在搜索引擎领域不断的提出。由于搜索引擎所需要处理数据量极大且这些数据更新速度极快,传统的串行计算已不能满足搜索引擎中的计算需要,因此大规
移动无线自组网(MobileAdHocNetwork,MANET)是一项具有广阔应用前景的新技术,它能运用在军事以及日常生活中许多方面,如国防战备、抢险救灾、应对突发事件等无法得到有线网络支
图像超分辨率重建是指从一幅或者多幅低分辨率(LR)图像重建出高分辨率(HR)图像的过程。该技术在气象遥感、医学成像、安全监控、多媒体通讯、数字娱乐等领域有着广泛的应用前
SOA(Service Oriented Architecture)是由IBM, Microsoft等软件公司倡导的一种新型的企业级系统架构,2005召开了第一届SOA年度大会。SOA引起了越来越多人们的关注。SOA强调业