论文部分内容阅读
随着信息技术的快速发展,现有的信息资源组织技术不能很好地揭示信息中所蕴含的语义,由于本体具有良好的概念层次结构,蕴含了丰富的语义关系,因此本体论在信息资源组织构建和知识表达上具有重要的意义。
本文鉴于本体论在信息资源组织与构建上所起的重要作用,从本体构建的不同结构数据源入手,综合应用机器学习和自然语言处理技术,提出基于多源数据的领域本体半自动构建思路,使得领域本体的构建方法更符合工程化和可重用性的技术要求。同时,以实现语义相关性个性化信息服务为目的,研究和建立了基于领域本体个性化信息推送的原型应用系统。
本文主要研究内容:
(1)以领域叙词表为数据来源,提出了一种基于结构化数据的领域本体半自动构建方法。即,领域专家参与确定核心本体作为建模重用的基本模型,利用种子概念的循环迭代获取概念在语料库中出现的上下文,通过综合计算领域相关度与一致度的方式获取和更新领域概念并扩展核心本体。引入名词短语词汇模式匹配的规则及领域专家定义规则的方法,对领域本体中概念间的分类关系和非分类关系进行抽取。研究上述关系的模糊性特征,基于通用本体WordNet,提出基于模糊决策树的规则学习,生成及关系修正算法。通过OWL进行领域本体的形式化表达,以构建示例显示出作者方法的高效性。
(2)以Web文档为数据来源,提出一种新的网页分析方法,运用此方法提取网页中的结构化数据并生成本体。同时,提出一种扩展DOM树构造算法,生成符合结构、视觉及语义特征要求的分类树,讨论了基于网页间平均信息量的去噪算法,自定义启发式规则对DOM树中的节点进行相似度判断。通过更适合于表达用户视觉特征的、并包含有充分布局与样式信息的Frame树,将语义相关性通过物理位置的相关性进行表达,从而方便信息匹配与抽取。结合自然语言处理技术,还讨论了一种更为通用的从分类菜单和特征表中抽取信息与生成本体的方法。运用上述方法对不同领域的Web Page已经实现本体自动构建。实验结果证明了该方法的有效性与通用性。
(3)针对目前个性化信息推送系统缺乏语义层面数据分析与挖掘等问题,进行了基于本体的个性化信息服务方法的应用研究。基于用户隐式反馈的方式,量化用户在浏览过程中的的行为,综合影响用户兴趣的其他因素最终映射为用户兴趣度,结合空间特征向量模型与领域本体进行用户兴趣模型的表达。在结合HTML标签和特征词长特点的网页正文特征词的综合加权算法进行Web资源特征提取过程中,对常用的TF-IDF加权方法进行了改进,形成一种生成网页资源文档特征空间向量的新方法。同时,将两个特征向量的相似度计算抽象为资源领域本体与用户特征本体之间的映射关系进行用户兴趣发现的表达,结合利用全局本体层次关系及领域本体间多种影响因素,建立了一个多决策合并概念相似度计算方法,加入可调节因子,能够明显提高用户兴趣发现的精度。