基于主题分析的文本分割技术研究

来源 :电子学报 | 被引量 : 0次 | 上传用户:vincent1115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.
其他文献
可循环使用的抛光液,能在硅晶片粗抛光应用条件下循环使用10次,且抛光速率,抛光均匀度和表面质量符合加工要求。
以巫山县新址西区为试验区,采用逐步回归分析筛选出该地区滑坡的敏感因子,将敏感因子作为输入,建立BP神经网络模型,对巫山地区进行区域预测。
人才优势将是竞争服务外包的关键据有关部门调查,在28个低工资国家中,能够承担服务外包的专业人士约3300多万,是发达国家的两倍。但是,这3300多万人中仅有13%的人适合为跨国公司工
H.264采用了多参考帧技术,大大提高了预测精度,改善了视频图像质量,然而这种特性同时也带来了很高的计算复杂度.为了降低H.264编码器的计算复杂度,本文提出了一种多参考帧快速选择算
分子导线电刷技术推动体内生物燃料电池研发 美国佐治亚大学的研究人员成功开发出引导电荷的分子导线电刷技术,从而迈出了开发体内微型生物燃料电池的第一步。体内生物燃料电
推动京津冀协同发展,是党中央在新的历史条件下作出的重大决策部署,是贯彻落实五大发展理念的伟大实践。各级党组织、党员干部是京津冀协同发展宏伟蓝图加快实施的重要主导力
连续混沌调频雷达的发射信号采用连续混沌信号实现信号调频,其性能逼近噪声调频信号,避免了离散调频设计中存在的前提限制(如:脉冲持续时间长、频率跳变等).基于混沌动力学理论,
体育教学媒体的运用,必须依赖学校经费方面的支持、体育教育教学政策,以及教师本身主动且用心的搜集、制作。尤其以教师本身最为重要,因为教师是教学进度及计划安排的负责人
随着我国教育事业发展速度的不断加快,高职院校的招生数量也在持续增多,为了在保证高职教学基础上减少不必要的成本增加,政府与教育部门需要结合高职院校当前的教学现状来积
一、病原。草鱼出血病是由呼肠弧病毒引起的鱼病。病毒的个体极小,呈颗粒状,须在电子显微镜下才能看清。这种病毒寄生在鱼体组织细胞中,具有很强的抗药性,所以难以用药物治疗。