基于知网语义的Web中文文本聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:shenyemaizui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2013年1月,中国互联网络信息中心发布了《第31次中国互联网络发展状况统计报告》,其数据显示当前互联网的信息量以惊人的速度持续增长。在这些海量数据当中,80%以上的信息是以非结构化或半结构化的文本形式存在,蕴含着丰富潜在价值的知识。因此,能够快速从Web中发现有价值知识的文本聚类方法,成为了当今的研究热点。目前,基于向量空间模型的文本聚类方法由于其向量高维稀疏的问题,使得这种方法的聚类效果达到了瓶颈,很难再有所提高。而很多基于语义概念模型文本聚类方法的研究并没有区分文本的种类,缺少对Web中文文本聚类与普通文本聚类区别与联系的深入分析,导致其应用到Web文本时效率不高甚至不能直接在Web文本聚类中使用。   本文从中文文本聚类方法的研究现状出发,总结分析其中的关键性技术。在此基础上,针对Web中文文本聚类与普通文本聚类的区别与联系及其面临的挑战,本文采用语义分析方法深入研究面向Web中文文本的聚类   方法:   (1)深入研究知网的组成结构,提出一种综合考虑时间效率与义原关系的概念相似度计算方法,降低计算复杂度并保证结果的合理性。   (2)研究分析Web文本的结构,定义标签特征集与正文特征集。采用特征集语义聚类方法对两者进行聚类,得到两个特征集合中更加符合文本内容的词语。   (3)提出一种基于标签特征集重要性与TF-IDF的改进算法,通过该算法将文本表示为选取的标签特征集与正文特征集的并集。在其基础上,提出一种结合语义以及Web文本特点的Web中文文本、文本簇的表示模型,给出构建模型的方法。定义基于该模型的相似度并给出计算方法。   (4)通过分析Web文本聚类算法的相关难点,提出一种基于知网语义的Web中文文本聚类算法C2HN。该算法是对最近邻聚类算法的改进,以相似度阈值控制聚类的迭代次数,自动创建文本簇特征,将文本聚类方法量化,便于计算机的识别处理。   最后对本文方法进行实验分析与对比,实验结果表明:本文提出的方法适用于Web中文文本聚类,在特征维度、计算复杂度、聚类效果等方面有明显改善。
其他文献
随着多模式人机交互技术的发展,手语识别的研究也得到了越来越多的重视。然而传统的、基于计算机视觉的手语识别技术很难实时捕获手的姿势和位置。2010年11月微软推出Kinect作
云计算是当前信息技术领域的热门话题之一,是产业界、学术界等各界均十分关注的焦点。但是,云计算的发展面临许多关键性问题的挑战,而安全问题首当其冲。随着云计算的不断普及,安
图像相似性在基于内容的图像检索、图像匹配、图像识别和图像拼接等领域有着广泛的应用,大多数关于图像相似性的研究都包含在图像检索、图像配准和图像识别等领域的研究中。
图处理系统作为一种大数据分析工具被用到很多领域中,在图规模不断增大的背景下,对处理系统的扩展能力与并行性提出越来越高的要求,一方面要采取分布式架构实现横向扩展,另一方面
社交网络服务已经成为非常重要的Web服务,它为用户提供与朋友互动的基于互联网的平台。随着支持位置感知的硬件和软件技术的进步,社交网络服务与基于位置的服务相结合形成移动
随着信息时代的到来和深入,计算机技术已经在各行各业中得到了广泛地应用。但随着计算机软件系统的普及和规模的不断增大,其安全性问题也越来越突出。提高软件可靠程度的方法有
云计算是当前信息技术发展的一个重要趋势,它通过远程资源访问使得中小型企业和个人用户能够以相对便宜的价格和便捷的方式获得计算和存储资源。目前云计算已经获得很多大公司
随着互联网和通信行业的快速发展,微博、微信、QQ、MSN、BBS等新兴媒体的流行使得人与人之间的沟通变得前所未有的方便。如今,微博已经成为人们发表意见和交流情感的主要平台。
森林被视为最重要且不可或缺的资源之一,森林火灾的预防和检测,已成为全世界森林防火部门研究的热点。传统的森林火灾检测实时性和监测精度不足,因此我们引入森林火灾无线传感器
随着信息技术的迅速发展,图像数据的种类和数量不断增加。如何从大规模的图像集中检索出所需要的图像成为急需解决的问题。伴随着云计算的兴起,产生了很多分布式的编程模式,从而