基于概念语义分析的文本聚类研究

来源 :东北师范大学 | 被引量 : 8次 | 上传用户:csrsyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高。对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一,将语义计算技术应用于文本检索是智能检索的重要方向。基于知网的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于“知网”的词汇语义计算方法来计算两篇文章向量的相关性。聚类分析作为一种数据挖掘的重要手段,在文本挖掘中起重要的作用,文本聚类实际上是对文本内容的聚类(如比亚大学开发的多文档自动文摘系统)。传统的基于文本关键字的向量空间模型(VSM),用m个关键字构成的文档向量Di={d1i,d2i,…,dmi }表示文档集中的一个文档,但是这种方法存在一定的问题。表现在向量空间应用矢量内积计算文本向量空间的相似度,把词语看成了独立的元素,词语之间没有联系,不能明确表达文本语义内容。其次,语义的向量空间模型只是对文本中存在的词语进行匹配,忽略词语中的一词多义以及一个文本语义的多种表示方法。目前,词条集合并不能完全准确地反映文本的语义,可以通过改变文本聚类的途径来对文本的语义进行聚类。文本通过知网的内容来构建概念语义树,消除一词多义和一义多词及一个文本语义的内容可以有多种表达方式等问题的歧义性,将语义相近的文档实现基于内容的聚集。本文基于知网的语义结构,构建了具有添加和删除特点的语义树,使概念的匹配粒度实现细化,并给出了概念语义树匹配算法,实验结果证明了算法的有效性,更好的解决“关键字障碍”和语义歧义性问题,提高查全率。
其他文献
随着计算机应用的不断发展,对应用系统执行效率的优化越来越重要。一个首要的问题就是要了解现有系统的运行状况,发现其中的规律和存在的问题,从而进行系统的改进或重新设计
随着市场竞争的加剧,社会对信息的需求量日渐上升,从大量数据中提取所需要的信息进行决策显得更加重要,传统的数据库系统已经无法满足要求。随着数据库技术的发展,一种支持决
随着计算机网络的不断发展以及计算机硬件价格的下降,将计算任务分布到多个物理主机上处理,以提高任务计算速度和降低任务运算成本已经成为一个趋势。在分布式环境中,发布/订阅(P
作为在信息检索领域的一个研究热点,Web数据抽取技术已经日益被众多大学和研究机构作为研究重点。Web数据抽取亦称Web信息采集(WebCrawler、Web Spider、Web Robot或Web Worm
流线可视化是流场可视化领域重要研究方法之一,具有简单直观、适合交互等特性,在工程实践中广泛应用。流线可视化可以归结为两方面的研究:一种是流线种子点分布算法;一种是流
万维网(World Wide Web)已成为人们获得信息、取得服务的重要渠道之一。但至今它主要作为文件媒体的集合,其上的大部分内容都是设计给人看的,而计算机却不能对其内容进行自动
随着移动通信技术的迅猛发展和多媒体压缩技术的不断提高,诸如手机电视,手机监控等移动流媒体应用日益受到人们的青睐。在分析移动流媒体传输特点和H.264视频编解码技术的基
神经网络发展迅速,经过各国学者多年的研究创新,许多具备不同信息处理能力的神经网络已被提出并应用于各种信息处理领域。其中以BP神经网络的应用最为广泛,据统计,80%-90%的神经网络模型采用了BP网络或者它的变化形式。已有理论证明,三层结构的BP网络可以逼近任意的非线性映射关系。但在实际的训练过程中,常会因为网络结构不合理或初始权值的选取不当导致训练精度达不到要求,引起网络的重新训练,降低了训练效率
“Self-NonSelf”(SNS)识别模型是传统人工免疫模型中的一个重要分支。美国免疫学教授Forrest基于SNS模型提出了否定选择算法,成功的模拟了免疫耐受的过程。然而Kim的研究表
移动目标视频跟踪是当前信息领域的前沿和热点方向,融合了计算机科学、自动控制、机器视觉、图像处理、模式识别、数学等多学科的先进技术。本文以智能视频监控作为主要线索,