专题知识库中多层次文本聚类及其可视化研究

被引量 : 0次 | 上传用户:mm109700
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专题知识库是利用信息技术对某一特定主题或领域的知识进行有序化组织、展现和管理的知识应用系统。随着人们越来越多地关注于如何从海量信息中快速地发掘精准信息,全面涵盖特定领域重要信息的专题知识库成为了当前的研究热点。文本聚类作为一种无指导的文本自动组织方法,是专题知识库中各类资源有序化组织的重要手段。然而,由于专题知识库具有富含语义关联、知识结构多层次性等特征,传统的基于向量空间模型(VSM)的文本聚类方法较难满足专题知识库中文本自动组织的要求。因此,本研究结合专题知识库的特点,提出了一种基于领域本体的多层次文本聚类及其可视化方法,以实现专题知识库中文本信息的多层次自动组织,提高专题知识库的管理效率,并进一步优化其用户体验。首先,本研究对当前文本聚类及其可视化研究的现状进行了梳理,对常见文本聚类及其可视化方法的一般流程和关键技术进行了总结与分析,以帮助读者快速地了解各类常用文本聚类与可视化方法及其优势与不足。其次,根据专题知识库中文本组织富含语义关联且呈树状结构的特点,本研究提出了一种基于领域本体的多层次文本聚类方法。与直接开展多次聚类分析不同,该方法利用领域本体的语义优势,将文本表示为不同抽象度的特征向量,并结合各层级文本表示的特点,对文本相似度计算进行了优化,从而实现了符合专题知识库特点的多层次文本聚类,为提高知识库中文本自动组织效率提供了一定的借鉴。再者,本研究结合用户需求与多层次文本聚类分析的特点,提出了一套适合专题知识库的聚类结果可视化方案。该方案提出了一种基于tficf(词频-倒排类簇频率)算法与共词分析法的主题发现策略,并在利用多维尺度分析法(MDS)开展了可视化降维处理的基础上,结合树图与散点图的可视化展现形式,帮助用户快速、直观地了解专题知识库中文本资源的分布情况及其关键主题,从而进一步提升了专题知识库的用户体验。最后,本研究以中华烹饪文化知识库为例,验证了本文所提出的基于领域本体的多层次文本聚类及其可视化方法的可行性,并在该知识库中实现了文本资源的多层次自动组织与结果展示。
其他文献
目前,我国事业单位人事改革正在积极推进,顺应新时期与发展新要求的事业单位人事招聘制度改革也在不断深化。随着市场经济的发展,以公平公正、透明公开、择优录用为导向的事
随着我国经济持续发展,物质生活水平日益提高的同时,人民群众逐渐开始追求精神层面的认同。文化建设备受党和人民的重视,成为我国发展前进、实现中国梦伟大征途中必不可少的
在我们生活的社会中媒介无处不在,它对人的重要性毋庸置疑。也因如此,将媒介作为环境研究逐渐成为传播学重要的研究范式。同时,近年对于“空间”的研究在学界受到越来越广泛
《国家中长期教育改革和发展规划纲要》中指出:未来我国教育发展中“育人为本”是教育改革发展的核心;坚持以人为本,推进素质教育是教育改革发展的战略主题。《纲要》中提出的
利用差示扫描量热仪研究了5种高浓度丙三醇水溶液(60%、70%、80%、90%、100%)的玻璃化转变行为,以考察水分含量和升降温速率对其玻璃化转变行为和结构松弛参数的影响.采用4种
为了理解纤维素热解初期的脱水反应机理,采用Gaussian03程序中的密度泛函理论UB3LYP/6-31++G(d,p)方法,对模型化合物丙三醇脱水反应机理进行了量子化学理论研究.设计了6种可
石墨烯是近年来发现的一种新型二维晶体碳材料,由单层碳原子构成,具有规则六方对称的蜂巢结构,使其表现出优异的力学、电学和光学性能,近年来迅速成为材料学及光电化学等领域
我国《消费者权益保护法》规定了五种解决消费者纠纷的途径,但是,五种途径在纠纷解决机制上均存在一定程度的不足,从而影响了消费者纠纷的彻底解决。为使消费者的合法权益得
现代信息化军事战争中,军用无线通信网络规模不断扩大,无线电磁环境更加复杂,节点移动速度快,空间干扰大,覆盖范围广,使得现有军用网络的MAC协议存在网络时延大、吞吐量小、数据重