论文部分内容阅读
文本过滤是从动态的文档流中,检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加广泛,用户对过滤的要求也越来越高。为满足用户需求,本文将领域本体引入到文本过滤当中,利用领域本体实现对中文文本的过滤。
本文首先介绍了国内外信息过滤的研究现状,阐明文本过滤的理论及其在经济、社会和学术方面的意义;分析了文本过滤任务和常用技术,描述文本过滤的性能评价方法,解释本体的基本概念。
接着提出了一种基于领域本体的文本过滤模型DOTFM(Domain Ontology based Text Filtering Model),该模型主要由学习阶段和过滤阶段组成。在学习阶段,提出概念权值(CV, Concept Value),利用领域本体和学习语料集来量化概念在领域中的重要程度;在过滤阶段,提出概念关联度(CRD,Concept Relation-Degree),利用领域本体的层次结构确定领域中概念间的亲密程度。
论文提出了局部型/全局型文本向量(LTV/GTV,Local Text Vector/Global Text Vector),将单一形式的文本向量改变为采用矩阵和向量两种形式的文本向量,同时考虑概念重要程度和概念关联度两个因素。论文还提出了局部型/全局型用户模板(LUT/GUT,Local User Template/Global User Template),采用矩阵和向量两种形式表示获取的用户需求,同时考虑概念重要程度和概念关联度两个因素;提出了局部型/全局型相似度(LSD/GSD,Local Similarity-Degree/Global Similadty-Degree)计算和过滤,变单一匹配为综合匹配。
论文最后实现了DOTFM的系统原型DOTFS(Domain Ontology based Text Filtering System),并将DOTFM与基于关键字的文本过滤模型KWTFM(Key Word based Text Filtering Model)的性能进行了比较,实验结果表明前者综合性能明显优于KWTFM。