文档集自动综述方法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:jxdytmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档集自动综述系统是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。目前人们主要是通过搜索引擎获得自己需要的信息,但搜索引擎返回来的相关文档太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需要的信息。文档集自动综述方法研究的目标正是力求解决这一问题,直接给用户提供简洁的、信息全面的文档,以提高用户获取信息的效率。 本文研究的重点是中文文档集自动综述系统的几个关键技术:包括文本分段、文木段聚类、向量空间模型的相似度计算等。在传统向量空间模型的基础上提出了一种利用关联词典计算文档间语义相似度的方法。所实现的文档集自动综述系统具有领域无关、无需训练、易于实现、在现有框架下易于扩展等特点。 在详细介绍了向量空间模型及特征项的选择和项的权重计算之后,提出了一种使用关联词典的相似度计算方法。设计思路是从词在文档中的发生频率来计算词与词之间的相关性从而由大规模语料中自动获取关联度矩阵R,通过关联度矩阵来计算文档间的语义相似度。这种方法考虑了词与词之间的语义相似信息,因此能够解决其他相似度计算中存在的问题,这种方法相比于利用概念分类词典将期望有更高的准确率。 文本分段借鉴了TextTiling算法,比较文本中每一点处的前后一定大小的文本块中的词频分布,如果这一点处出现了前后很不相同的分布,可以认为在这里出现了主题转换,也就是一个语义段的切换处。因此,可以将该点相应标示为段落的分界点。 文本聚类过程的输入是一个语义段的集合,聚类所处理的基本单元是这些段,而不再考虑该段原来属于哪个文档(但是这个信息会记录在段的属性中)。聚类得到的结果是一些类。每个类中的段认为它们的内容相似,因此一个段就对应了文档集叙述的某个主题。在自动综述系统中,综合速度和性能因素,采用完全联结的聚类算法。 本文最后介绍了综述生成的方法和实验结果。
其他文献
逆向工程指的是从可运行的程序系统出发,生成对应源程序的系统结构以及相关的设计逻辑等等。它具有重大现实意义和经济价值,可以将大量的遗产系统转化为易于演化的系统,从而充分
随着计算机和网络技术在世界范围内的飞速发展,由过去的人适应机器逐渐向机器适应人发展。在计算机功能越来越强大的同时,计算机使用界面越来越简单、越来越易用。人机界面的
近年来随着数据管理,数据挖掘的需求日益增多,数据仓库的使用日渐频繁。数据仓库的核心要求是数据的正确性、完整性、准确性。数据从源数据库中抽取出来、经过清洗、加载到数据
随着信息技术的发展和Internet的全球普及,信息共享己经成为当今社会经济发展的主要潮流。它改变了企业的竞争方式、竞争基础和竞争模式;缩短了生产厂商和最终客户之间供应链上
工作流管理系统(WfMS)的出现,提高了企事业单位的生产效率。但在实际应用中,由于社会生产的复杂性和多变性,现有工作流管理系统的技术不能完全地满足设计要求。智能代理Agent是
元胞自动机提供了分布并行计算系统的数学模型,它在新一代计算机结构设计中有重要意义。元胞自动机在模式识别、图像处理及人工智能中有着重要应用。斑图是元胞自动机的一个重
随着信息技术的飞速发展和计算机应用水平的不断提高,面向医疗的新一代信息系统已由过去单纯的医院信息系统HIS(HospitalInformationSystem)、放射信息系统RIS(RadiologicalIn
近年来,伴随着超高精度的输入设备如三维扫描仪、CT/MRI等的飞速发展,从现实世界中获得的三维模型的规模出现爆炸性增长,甚至远远超出了当前的通用计算机的内存容量,使得运算时无
随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道。而因特网信息资源的显著特点是量大而无序,故随之出现了“数据丰富,知识贫乏”的现
遗传算法是一种高度并行、随机和自适应全局优化搜索算法。遗传算法通过模拟生物遗传进化过程,可以将经过精心安排的编码串“进化”出实际问题的解决方案。遗传算法不需要解空