【摘 要】
:
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇
【机 构】
:
中国科学技术大学自动化系,中国科学院合肥智能机械研究所
【基金项目】
:
模式识别国家重点实验室开放课题基金资助项目(201306320);中国科学院信息化专项(XXH12504-1-10);国家自然科学基金资助项目(61070099)~~
论文部分内容阅读
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
其他文献
<正> “不”和“没(有)”在现代汉语里是两个很重要的词,其使用频率也相当高。从词汇意义和语法功能上认识、掌握它们的异同,对正确使用汉语语言,特别是对外国人学好汉语尤为
滚刀刀圈的磨损影响施工成本、设备利用率和掘进效率,刀圈的快速磨损与工程地质条件密切相关,是一项重要的工程地质问题。基于摩擦磨损学的原理,结合滚刀破岩机理,分析了在滚
新语文课程改革之后,为了在新的平台上确保提高课堂教学质量,要达到教与学的和谐统一,靠教师单兵作战是万万不行的,必须相互切磋,取长补短,发挥群体优势,进行集体备课,确保增
基于极限分析上限定理,考虑孔隙水压力的影响,提出折线型滑面边坡稳定分析计算模型。根据相关联流动法则和内外能耗守恒原理,结合强度折减技术,对折线型滑面边坡稳定性进行分
文章应用GIS系统和数值模拟技术,以武汉长江隧道为例,对水下隧道突水危险性进行了分析评价。首先对隧道纵剖面和横剖面进行单元划分,然后将数值模拟成果转换到GIS中,以形成突
影视资源的审美角度广、文化内涵丰富、语言表达多样,对小学语文的教学效果有着重要影响,在课堂教学中对影视资源进行合理利用,能够激发学生的学习积极性,有利于学生对课文内
目的 :比较重度骨质疏松腰椎中不同剂量骨水泥强化椎弓根螺钉的稳定性,分析螺钉稳定性与骨水泥剂量间的相关关系及初步探索注射PMMA的合适剂量。方法:18个新鲜腰椎标本来自4
本文论述了20世纪初中国选择马克思主义的多种社会历史因素,以及这种选择的必然性和正确性。
"90后"已逐渐成为各高校应届毕业生的主体,面对这一群体,在招聘中用人单位既觉得无奈又不得不去适应这类群体。现如今的毕业生往往就业过程中茫然、无所适从,缺乏有效的职业