基于语义和领域相关的文本聚类研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:zgjcq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国石油行业信息化建设发展迅速,但针对石油领域的文本聚类研究却寥寥无几。现有聚类技术大多是面向综合文本的研究,对主题信息的聚类研究尚不完善,因此研究和开发专业的石油主题聚类方法具有很大的价值。 传统文本聚类研究采用基于关键词集的向量空间模型,它仅考虑文本语法层面上字、词的简单匹配,没有考虑隐含在文本的语义信息,缺乏对其所包含语义信息的理解,影响了文本聚类的质量。 本文针对传统聚类挖掘基于关键词集向量空间模型的不足,以及对相关领域信息不完善的问题,提出了基于语义和领域相关的聚类挖掘思想。首先,利用主题概念树在语义处理方面的优势,提出了基于主题的特征提取思想。然后,在主题概念树的基础上,提出了权重的计算方法,并利用HASH技术对语义进行了扩展,在一定程度上解决了文本聚类预处理中高频词和低频词的问题。最后,在知网的基础上,提出了基于语义相似度预处理的算法,解决了聚类预处理的同义现象,降低了文本的特征维数,从而在特定领域上使基于语义的聚类挖掘成为可能。 实验表明基于语义和领域相关的聚类挖掘模型能够解决传统聚类挖掘缺乏语义信息的问题,较之传统的聚类挖掘具有更高的准确率,提高了聚类的精度和质量。
其他文献
随着中国联通移动自建传输网从无到有,从小到大,传输网络面临着从低容量、小颗粒、简单结构需求到高容量、大颗粒、复杂结构需求的变化,而同时传输网络不可能像业务网络那样
挖掘关联规则可以发现大型数据库中数据项相对关系,由于其在现实世界的广泛应用,关联规则已经在学术上获得了广泛的研究。所以关联规则挖掘成为数据挖掘研究中的一个热点,已
Web Services是一种完全基于XML、XSD(XML Schema)的独立于平台、独立于软件供应商的标准,是一种创建可互操作的、分布式应用程序的新平台,是目前最有生命力的跨平台技术和分
信息技术的高速发展和广泛应用,引发了全球性的产业革命,正推动着世界经济的发展与人类社会的进步。物联网作为新兴网络,虽然不是一个新的概念,但是已经成为了经济、科技发展
目前,国内的专网通信领域按调度方式划分主要包括三大类系统:无调度功能的对讲机系统,依赖于基站调度的集群系统和本身具备调度功能的无中心系统。在通信系统全面数字化的趋
在医疗康复领域,传统的康复训练方法有人工辅助康复和机器人辅助康复两种,现在普遍存在医疗资源匮乏、设备造价昂贵、维护成本较高等问题。人机交互指人通过身体姿势(包括手势、体势、表情等)将想要表达的信息传递给计算机,计算机识别人体行为动作并进行反馈。利用人机交互来代替传统的康复训练方法可以有效解决上述问题,为病患提供一套廉价、方便、有效的康复训练系统是康复领域研究的热点。本文采用基于虚拟角色的游戏方式,
数据库物理结构(索引,物化视图,裂片等)的改变虽然不影响查询结果,但会影响数据库性能。数据库的物理结构、查询优化引擎和执行引擎构成了影响数据库性能的三大要素。 第一代关
关联规则的研究是数据挖掘的重要内容之一,现行的关联规则挖掘算法大多只针对单一数据库进行挖掘,但是实际应用中,往往碰到多个数据库的情况,由于单一数据库和多数据库的不同
现阶段计算机硬盘以及其他大容量存储介质代替了纸张成为信息存储的主要方式,电子文档信息的安全性成为一个至关重要的问题,需要加密技术和认证技术相结合,实现电子文档的存
随着Internet的大规模普及,信息量迅速增长,用户要在海量的信息中找到自己所需要的信息,就像大海捞针一样困难。如何从大量繁杂的文本信息中获取有用的信息?文本分类就是实现它