基于密度峰值和改进潜在语义的动态文摘算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yangl3255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动态文摘的研究对象是多文档集合,这些文档中的内容是随着时间而更新演化的。但是动态文摘中存在高冗余、新颖信息丢失等问题,严重影响了动态文摘的质量。为了解决上述问题,本文研究和对比了常见的摘要生成方法,并提出了两种算法:基于密度峰值和基于改进的潜在语义分析的动态文摘算法。改进的潜在语义分析动态文摘算法,在构建文本特征矩阵时,通过加入语义单元以降低矩阵的稀疏性,有效减少了矩阵奇异值分解的时间。同时,在评估主题冗余度时候,构造出阈值函数,过滤掉和主题关联性低的实词和短语,并设计了二元组信息增益模块,以进一步提升了主题新颖度评估的准确性。基于密度峰值的动态文摘算法,首先根据句间相似值来对每条语句的主题代表性和信息多样性进行评分。然后在摘要抽取过程中,引入了主题标志模型来评估语句的新颖性,以便提取事件中的更新演进信息。最后依据摘要的长度限制,本文制定了基于句子综合评分和整数规划模型的摘要生成策略,保证算法能够在短时间内生成高质量的文摘。实验结果表明,相比于传统的潜在语义分析动态文摘算法,本文提出的算法有效降低了语义挖掘的时间复杂度,并提升了主题新颖度评估的精准性。基于密度峰值的动态文摘算法,不仅模型简洁而且效率较高,在工业领域有较大的应用潜力。
其他文献
单点渐进成形工艺是一种新型的板料柔性成形技术,具有无需或者只需简单支撑模、能提高材料成形性能、可成形复杂形状零件等特点,特别适合小批量、多品种以及快速原型制造,能
目前大多数无线传感器网络节点都是由电池供电,由于很多情况下不能及时更换电池,网络的寿命受到了极大的限制。因此,在不影响网络功能的前提下尽可能降低节点能耗、均衡网络
本论文包括两部分内容:第一部分:吡唑是一类含两个相邻氮原子的不饱和五元环化合物。作为最重要的杂环化合物之一,吡唑具有广泛的药理活性,如镇痛,降血糖,抗炎,退烧等,因此在
随着RTK技术的深入应用,越来越多的厂家开发了不同型号的GPS接收设备,这也就产生了设备兼容性问题。针对在实际生产作业过程中遇到的不同型号GPS数传电台不同频的这种GPS设备
在高等哺乳动物细胞内,线粒体是能量合成及物质代谢的重要细胞器。线粒体具有双层膜结构,依次分为外膜、膜间隙、内膜及基质等几部分,其内膜向内折叠而构成重要结构—嵴。线
通过对大量学者关于关节骨和关节软骨生物力学模型研究的分析,总结各种模型的优势与缺陷,结合虚拟手术系统的特点,建立符合虚拟髋关节手术系统要求的合理关节骨及关节软骨的
金属核心构件在特殊工作环境下会由于辐射损伤(Radiation Damage)而形成辐射诱导缺隙(Radiation Induced Defects),像金属材料晶体缺陷延伸的位错环(dislocation loops)和第
随着全球经济增长速度放缓,我国经济的增长速度呈下降趋势,该趋势在生产型企业中表现得尤为严重。生产型企业由于受到成本优势下降,资源消耗量大等多种因素的影响,企业的生产
随着多源重力观测数据的急剧增加,在更高时空分辨率水平上描述重力场精细结构、从全球视角分析重力场参数的时空分布已成为必然趋势。目前,重力场数据处理技术与重力场观测技
TiO2光催化氧化法光化学性质稳定、催化效率高,被广泛的应用于印染废水处理。但在传统应用中,TiO2光催材料光催化活性较低,粉体TiO2光催化材料对光有屏蔽效应,光能的利用率较