面向半结构化文档集的文本挖掘研究及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:wkylyf001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是Internet相关技术的迅速发展,以XML文档为代表的半结构化数据迅速增长.为了从海量的半结构化文档中快捷有效地获取有用的信息与知识,该文对半结构化文档挖掘进行了深入研究.该文研究的直接应用背景基于数字资产管理的跨媒体出版,但其研究成果在电子政务、数字化图书馆、电子商务、远程教育等领域具有广泛的应用需求与市场前景.文中首先对XML及其相关标准与数据挖掘进行了简单的概述.为对半结构化文档集进行数据挖掘,该文对半结构化文档的数学模型进行了研究.获得结构模式是对半结构化文档集进行深入分析处理的前提与基础.该文提出了在信息源基于规则制导进行结构模式提取的思想,并通过对结构化描述性置标语言与过程性置标语言的深入分析,具体给出了恢复文档语义结构信息的文档结构规范化处理的模型与方法.该技术已成功应用于实际系统中,实现了对历史数据的规范化.该文最后简要介绍了基于数字资产管理模型的跨媒体出版系统:“中国百科术语数据库”,以及半结构化文本挖掘在该系统中的应用.
其他文献
该文研究的静止图像压缩编码算法及其在存储器限制条件下的应用,涉及到静止图像变换算法、量化策略和编码方案以及压缩图像解码中误码分析、纠错算法和块效应的处理算法,概括
该文对软件体系结构的研究主要分为两个方面:一是软件体系结构的基本核心内容,二是软件体系结构在软件适应性方面的研究.软件体系结构的基本组成元素及其配置,基本元素的行为
该文的研究目的就是通过详细的分析研究IPSec协议,提出了一种高速、高性能和适应于各种安全需求的IPSec实施方案.该文从基本加密算法、IPSec的体系、IPSec的三个基本协议和安
该论文基于一种Snake模型,提出了B超心脏序列图像的分割方法,并将这一结果运用到单个心腔体积的定量计算和三维重建中.其主要工作和创新点在于:1.针对B超医学图像高噪声等特殊
学位
随着计算机应用的不断深入,各企业已经积累了大量的生产业务数据,如何有效地利用这些数据进行正确及时的决策是企业生存与发展的重要环节。数据仓库正是以汇总这些数据为基础,进
该论文研究了针对无结构视频的结构分析和动态摘要算法.与新闻,电影等我们日常观看的视频不同,无结构视频由于未经人工处理和编辑,具有视频内容多样,视频质量参差不齐以及缺
学位
该文在分析比较各类现有的成本估算方法的基础上,侧重于研究、比较Function Point (FPT)和COCOMOⅡ模型;提出了一种将功能点方法和COCOMOⅡ模型结合在一起的软件成本估算方法
该文首先从入侵检测系统的种类和检测方法来进行分析和阐述,总结了国内外技术发展现状,然后分析了传统入侵检测系统的特点和未解决的问题,其中包括对大范围入侵事件的检测、