面向主题的关键词抽取方法研究

被引量 : 16次 | 上传用户:DayaL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词是人们获取信息的快捷方式,在信息检索和自然语言处理等领域均有重要的理论价值和应用价值。现有的关键词抽取方法大都依靠词汇的统计信息进行抽取,忽略了话题的影响;而且它们仅仅专注于关键词个体的优化,而忽略了关键词的整体质量。本文针对如何对文档主题建模,并通过文档主题优化关键词的整体质量进行了以下工作:基于整数线性规划的关键词抽取;基于排序学习的摘要关键词抽取;基于话题翻译模型的微博关键词抽取。本文的工作包括:提出了基于整数线性规划的关键词抽取方法。首先提出全局优化关键词质量的意义,并提出高质量关键词应具备的准则。为了对这些准则建模,提出了一种基于整数线性规划的关键词抽取方法。所提出的准则分别转化为整数线性规划问题的目标函数和约束条件。通过求解整数线性规划问题,可以得到高质量的关键词集合。实验表明该方法能够在保证关键词个体质量的前提下,同时优化关键词的整体质量。提出了基于排序学习的新闻摘要关键词抽取方法。“新闻摘要关键词”是指若干关键词的整体作为新闻摘要。首先讨论了新闻摘要关键词的价值,并定义了高质量的摘要关键词应满足的准则。为了对这些准则建模,提出了一个两阶段基于排序学习的摘要关键词抽取方法。第一阶段是候选关键词的选择,即从语料中选择若干个候选关键词个体;第二阶段是将候选关键词的所有子排列进行重排序,将最好的子排列作为最终的摘要关键词。实验表明基于排序学习的关键词抽取方法可以提取高质量的新闻摘要关键词,同时也验证了提出特征的有效性。提出了一种面向主题的翻译模型,并应用该模型进行微博关键词抽取的研究。为了解决微博较短,并且话题多样化的问题,提出了一种面向主题的翻译模型。该模型可以很好的综合话题模型和翻译模型的优点,一方面,它可以解决由微博较短引起的微博内容和关键词间的词汇差异问题;另一方面,它可以通过对微博主题的建模,帮助抽取主题相关的微博关键词。在对微博主题建模的研究中,尝试了两种建模方式:第一种是基于经典的话题模型Latent Dirichlet allocation[12],即假设每篇文档包含若干个主题,而文档中的每个词语关联一个主题。这种建模方式中的部分假设基于传统文档,而没有考虑短文档(如微博)的特性。为了更好的考虑微博特性,尝试了第二种建模方式,其中,假设每条微博只关联一个主题,并且假设微博中的词语分为两类:“主题词”和“背景词”。实验表明面向主题的翻译模型在效果上优于一些经典的关键词抽取方法,如分类模型,话题模型和翻译模型,并通过实例分析了对微博主题建模的两种方式的优劣。
其他文献
本课题源于国家高技术研究发展计划(863计划)项目(2013AA031306)多基结构材料复合技术及在高压管制造中的应用。本项目设计了一种由树脂基材料层/碳钢层/水泥基材料层/树脂基复
背景:在临床中不稳定型股骨转子间骨折应用股骨近端防旋髓内钉修复较为常见,而且修复效果较好,但是存在髋内翻畸形风险。反向倒置股骨远端微创内固定系统是一种最新的治疗方
核能作为一种清洁能源,已在国民经济中占据重要地位。反应堆压力容器(RPV)作为核电站的核心部件,工作环境十分严酷,其耐压壳体长期处于在含Cl-浓度较高(3.0mg·L-1)的高温高
<正>这是一个变革的年代。语词的狂欢和理论的独白总是不遗余力的渲染着谵妄的激情抑或灰暗的心绪,而赖于立足的、贫瘠的土地上却鲜见鲜花诗意地绽放。课程改革要成为一个过
弹性体(SBS)改性沥青防水卷材因其具有优良的抗高温流动和低温开裂性能而得到广泛使用。然而,由于弹性体改性沥青材料长期暴露在紫外光、热、氧等自然环境下而极易发生老化,低温
2012年债券市场迅速扩容,公司类信用债券的发展尤其令人瞩目。然而,随着发行人评级中枢的下移,违约风险隐现。信用利差作为信用债券收益率与无风险债券收益率的差,是度量信用
毫无疑问,在过去30年里中国经济在各领域(特别是在工业部门)经历了持续增长,中国经济呈现繁荣景象。自1978年经济改革开始,中国经济年均增长9.37%,大大快于改革前;中国国内生产总值实
为解决多工序制造过程关键质量特性识别中存在的质量特性间具有多重相关性以及数据高维度、小样本等问题,采用偏最小二乘回归改进Ada-LASSO方法并融合状态空间思想和Bootstra
农村道路建设与村民的生产、生活密切相关。农村修建道路主要有政府补贴、经济能人或慈善家捐助和村庄集资三种形式,如果缺乏前两种筹资方式,村民集资修建道路就成为可能选项
近年来,人们室内活动越来越丰富,在室内的时间也越来越多。用户需要一种精确的室内定位服务并能够快捷的与邻近用户交换信息。如何让手机更好的便利人们的生活是本论文的研究目