基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:nathan_zk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词。该方法简单快速,但无法提取出含有文档中心内容但频率不高的词。基于词语共现图的方法需要设定的参数过多,常会造成边界上的取舍问题,算法的稳定性和精度很难控制。基于词语网络的方法是以文档词语网络模型的平均路径长度或聚类系数为关键词自动提取依据。平均路径长度或聚类系数理论以连通图为基础,故对非连通的文档模型,正确衡量顶点的重要性成为困难。随着网络技术发展,网页信息日益增多,为了管理网页信息,常需要对网页进行分类。人工分类已无法满足需求,很多的网页自动分类技术已被提出。网页分类技术主要应用于搜索引擎,信息检索,舆情内容监管,网站管理等方面。本文针对文本关键词自动提取技术中存在的问题,结合网页分类的需求,研究了以下内容:1.基于词语网络模型的文本关键词自动提取;2.使用网页关键词进行特征选择对网页向量模型降维,再对网页进行分类。主要取得了以下研究成果:(1)提出一种基于词语网络的文本关键词自动提取策略:修改平均路径长度和聚类系数理论,定义网络平均逆路径长度和有效聚类系数指标,使其适应非连通图。在词语网络关键词自动提取算法的关键节点选择步骤中使用节点删除指标来衡量词语重要性,综合考虑节点删除后对文档词语网络模型的两个新定义指标造成的损失。实验结果表明该指标比现有指标更好衡量词语网络节点的重要性。(2)提出基于词语相似度的中文分词策略:中文词语常有多词同义形象,词语相似度即为两个词语意义相同的程度。词与其本身相似度为1。本文根据实验结果给定一阈值,在分词过程中,如果两个或多个词语间相似度高于该阈值,就对其作为一个词进行处理。该分词策略能有效提高关键词自动提取的准确率。(3)使用网页的关键词进行特征选择,能有效降低网页文档向量模型的维数。在实验中与其他特征选择算法进行降维后的分类结果相比较,关键词特征选择具有一定的可行性。本文在对词语网络指标新定义基础上选择关键节点使自动提取的关键词更准确。使用关键词来进行网页分类过程中的特征选择也使文档的向量空间模型降维过程损失的信息量更少,分类结果比较理想。
其他文献
互联网的普及使用以及电子商务的发展让用户可以享受电子商务系统提供的越来越多的服务,随即而来的是信息的急剧膨胀,“信息过载”、“资源迷向”等问题相继出现,大量的信息经常
近年来,信息技术高速发展,数据采集和存储技术不断进步,无论企业、科研机构、政府机关等都积累了大量且结构复杂的数据。在获得海量数据的同时,如何从中快速、有效地提取有价
基于Pareto最优概念的多目标遗传算法是处理多目标优化问题的一个重要算法。遗传算法的机理很适合多目标优化,因为遗传算法可以在一代模拟过程中找到多个Pareto最优解,通过适
电能作为一种经济实用、清洁方便且容易控制和转换的二次能源,已成为全世界经济发展及人民生活的重要基础。与此同时,我们看到当代电力系统的电网和负荷构成出现了新变化。一方面,电力网络不断扩张,计算机技术、通信技术和电力电子新技术(FACTS:TCSC、SVC、HVDC、Cus-Pow)在电力系统的应用,使得对系统可靠性要求更高。另一方面,高科技含量的器件、设备与技术(如微电子技术、计算机技术、电力电子技
随着以互联网、移动互联网、物联网为标志的信息技术的飞速发展,信息数据量呈爆炸式增长,大数据处理技术得到了越来越广泛的应用,分布式图计算也在社交网络、电子商务、推荐
非局部图像去噪算法是一个非线性的,空间平均的去噪算法,它不会引起边界的模糊,因而它是一种行之有效的去噪算法。但是这个去噪算法的实现是非常耗时的,因此现在对于这个算法
传统小波理论提供了一种对信号进行多分辨率表示的方法,无论从理论方面还是实际应用方面都得到了很大的发展,在图像处理的各方面都得到广泛有效的应用。新兴的多尺度几何变换
当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。研究快速搜索引擎的关键算法和实现机制具有重要的学术意义和实际应用价值。一个完整的
开发基于Web的管理信息系统(MIS)、最大限度利用高校现有资源、提高教学质量是高等院校教学上的新的研究课题。在线考试系统将实现网络组卷、在线考试、网上判分、在线统计等
移动Agent迁移过程中路径选择的一个经典的、代表问题——旅行Agent问题(TAP),是一个复杂的组合优化问题。蚁群算法(ant colony algorithm)作为一种新的生物进化算法,具有并