基于K-means和TextRank的中文自动文摘算法研究

来源 :四川师范大学 | 被引量 : 0次 | 上传用户:usrrmhta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要基于K-means算法和TextRank算法研究自动文摘技术来提取单文档中文新闻文本核心句.针对TextRank算法没有考虑到一篇新闻文本可能存在多个主题的情况,本文通过引入K-means算法,提出了D-kmeans算法,将相似的句子归为同一类.针对TextRank算法考虑因素不全面,本文结合D-kmeans算法,并对其进行修改,得到一种用于文摘提取的算法,称为WK-TextRank算法.为验证WK-TextRank算法的有效性,本文分别进行了以下实验:(1).根据WKTextRank算法设计了新闻文摘自动提取系统.(2).将WK-TextRank算法、TextRank算法及TF-IDF算法作用于相同数据进行比较.结果表明,针对测试样本,本文的WK-TextRank算法所提取的文摘能较准确较全面的概括新闻内容.本文的新闻文摘自动提取系统可帮助人们快速准确的获取有效信息,节约大量时间.
其他文献
中职学校进行混合式教学模式改革,必须构建适应中职学校的混合式教学质量评价体系。本文通过提出中职学校混合式教学质量评价体系的特点、评价体系的组成、评价计算方法和评价结果运用方案等,以期为更多中职教师开展混合式教学和构建教学质量评价体系提供借鉴。
前视合成孔径雷达(SAR)能够对平台正前方区域成像,具有抗干扰性好、隐蔽性强等特点,在精确制导、侦察测绘等领域具有重要价值。由于前视SAR成像处理对实时性要求高,而回波大数据量将导致成像实现非常困难;因此,研究前视SAR成像处理方法及硬件实现具有重要意义。前视SAR中的机载双基前视模式是各国研究的热点,本文以机载双基前视SAR为研究对象,进行了极坐标格式算法(PFA)、前视SAR信号处理机设计及P
物联网将海量微型设备通过有线或无线方式基于互联网构建成一种大型泛在网络,这种网络能够实现异构信息间的互联、互通与互操作,实现所有物体的智能化连接。首先,大量异构底层智能设备接入使得用户接入和控制设备变得越来越复杂。没有统一的设备管理系统,用户在访问和控制设备时需要操作不同的物联网应用,访问不同的物联网云平台。这种碎片化的设备管理模式增加了异构设备的用户接入和控制复杂性,降低了应用可扩展性。其次,为
大运河文化,即因大运河而生、而变、而传播的文化,具有"开放""包容""交流""融合"等多方面的价值内涵。今天,虽然大运河在交通、商贸等方面的功能已大大降低,但在促进经济文化发展、建构国家形象等方面,仍具有重要价值与功能,因此保护并传承好大运河文化有其现实必要性。只是,如今的大运河文化研究及其保护、传承实践,更多是从宏观、上层等角度展开进行的,而缺乏对民间、民众与生活层面的关注。为此,我们应该在已有
情感识别是计算机利用传感器采集到人的语音、表情和行为等数据来进行分析,从而来推断出人的情感状态,人类对于他人情感的识别主要是通过视觉模态或者语音模态来完成的。情感识别对于人机交互、医疗、刑侦、航天等领域有着重要的支撑作用。单模态语音情感识别是通过传感器采集到的语音信号来分析情感状态;多模态语音视觉情感识别是通过传感器采集到的语音、表情和行为等信号中的两种及两种以上的信号来进行分析情感状态。对于单模
信息技术的飞速发展对于电源系统提出了愈来愈高的要求,微型直接甲醇燃料电池(Micro direct methanol fuel cell,μDMFC)因其高能量密度、高转换效率、无污染等特点,被认为是便携式电子设备电源的理想解决方案之一。然而μDMFC面临的传质管理、催化剂中毒等问题使其无法直接在高浓度燃料下运行。此前,研究人员所提出的解决思路绝大多数从宏观尺度出发,大多会在电池内引入新的结构或器
本文提出了一种建议评论分类方法和一种建议关键短语提取方法,以实现评论文本的建议挖掘,帮助用户更便捷地作出决策,也帮助商家更精准地改进相关服务.对于评论的分类,本文提出一种基于PU(positive and unlabeled)学习的方法.与常规PU学习不同,正例样本通过简单规则获得;在PU学习一阶段中,以投票的方式综合三种方法去划分可靠负例;PU学习二阶段中,将代价敏感融入支持向量机中进行训练.在
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来
教育部办公厅关于印发的《2017年教育信息化工作要点》的通知中指出深入推进信息技术与教育教学深度融合。(1)在信息化、数字化教学背景下,创新的教学模式不断涌现,智慧云课堂就是其中之一。四川省某中学校也积极开展智慧课云堂在高中物理教学中的应用研究。本文采用的是教育叙事研究的方法,叙写我在自己所任教的学校四川省某中学参与智慧云课堂教学实践研究的经历过程。在研究过程中,我利用文献分析法对国内外相关文献进
文本匹配作为文字处理领域的一项热门技术,在查重检测、智能问答等领域有广泛的应用实践。目前,诸多学术不端行为,如论文剽窃、数据造假和内容恶意篡改,在高校和其它学术界越来越严重,许多学生通过同义词替换法、打乱语序排列法、语义重述法等主要方式来降低论文查重率。为解决上述问题,经过对已有文本比对算法的大量调研和分析,结合先进搜索引擎已具备文本精确匹配等强大功能的支撑,本文选取开源企业级搜索和数据分析引擎E