结合统计和词间关系的文本关键词计算方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:zpbaqq1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪音,不利于文本去重。为此,需要提取文本特征,使该特征能够表示文本的主要内容。针对此问题,提出了一种结合词频、词项间互信息关联度及其语义相似度的改进的关键词提取方法。该方法综合考虑候选词的统计特征、词项间的相关度和相似度,并将此方法应用于SimHash文本相似计算模型中。实验结果表明,基于该模型的特征提取在相似文本去重计算上有着较高的准确率、召回率和F1值,优于传统方法。
其他文献
考察发现,美国基础教育具有公平和质量并重、重视学科融通、课程体系丰富、课堂自主互动等特点。从中得到启示:树立教育全球观,转变育人模式,培养学生综合能力,厚实教师研训
在运用平板电脑的初中地理课堂中,应当依据学科特点以及学情特征,充分发挥平板电脑的优势,指导学生依托平板电脑进行课前深度预习,掌握学生预习情况,精准确定教学目标、教学
图像去噪是图像处理中最基本的问题,也是当前研究的热点。近年来,国内外学者对去除乘性噪声进行了大量的研究,在AA模型的基础上提出了许多去除合成孔径雷达图像中的伽马噪声
图像匹配时间包括特征提取时间和特征点匹配时间,减少特征提取时间,能够大大提高图像匹配效率。目前,普遍的匹配算法对整幅图像进行特征提取,当图像较大时,特征提取时间长,影响匹配效率。文中提出一种由粗到细的两步骤快速图像匹配新算法,这种算法在特征提取时间上作了改进。粗匹配阶段,用双直方图(TCH)哈希算法进行模板匹配,找到与模板最相似的图像区域,缩小ORB特征提取的范围。细匹配阶段,在找到的最相似区域,
根据教育部作出"2020高考将在7月7日-8日举行"的决定,文章阐述了6月6日到7月8日期间福建省天气变化的可能情况及其对学生与备考环境可能产生的不利影响,按事先、事中、事后的
案例式教学注重理论联系实际,能够增强课堂教学的吸引力和调动学生学习的积极性。《道德与法治课》案例式教学应该以知识传授与价值引领相辅相成、理论分析与实践印证相得益
为了实现四旋翼无人机的自主飞行、环境单目稠密重建与即时导航功能,文中设计了该单目建模导航系统。飞行控制器采用MPU6050六轴传感器采集六轴信号,通过算法拟合出飞行器姿
应急救援活动本身具有不确定性和复杂性的特点。为了对救援活动的顺利开展进行支持,文中以最小化救援损失为目标,研究应急救援前摄性调度优化问题。首先对问题进行界定,对问题进
显微镜下识别血吸虫卵是一件费时费力的工作,常常因为检测人员疲劳、注意力不集中等原因导致血吸虫病的误检和漏检。传统的血吸虫卵识别系统,图像分割方法只是通过单一的阈值分割的方式来处理血吸虫卵图像,往往误诊率、漏检率较高,在血吸虫病的诊断中作用很小甚至有副作用,因此对图像分割算法进行改进变得很有必要。文中在此背景下进行研究,针对血吸虫卵图像的分割提出了改进的归一化割算法。采用灰度权值矩阵描述像素之间的关
在新型冠状病毒肺炎疫情的影响下,各地中小学陆续将传统的线下课堂教学转为了利用网络平台的线上教学。笔者利用班会这一重要的德育载体,围绕疫情防控、灾难教育、生涯指导、