基于超图的汉越新闻关键词抽取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:wjln123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着一带一路的展开,我国对越南的关注度开始提高,新闻作为信息传播的载体,是人们获取信息的重要途径。然而越南语是小语种,掌握的人非常少,且网络新闻几乎不会提供关键词,使得新闻的定位成了难题。汉越新闻关键词抽取能够节省大量时间、提高信息使用率,在汉越关系日趋密切的当下有着重要的研究价值。当前在关键词抽取领域,人们通常只考虑词的特征信息,并没有考虑新闻文档中存在的复杂关系,所以使用合适的模型对这些复杂关系进行表达成为了急需解决的问题。超图模型中的超边可以表达多个实体间的复杂关系,其特性恰好能够满足新闻文档表述多元关系的需求,因此本文使用超图模型,研究在单文档、多文档与双语环境下关键词抽取的方法。本文的主要工作如下:1.提出了单文档下基于超图排序的新闻关键词抽取方法。考虑到超图模型能够表述文档中词与句子之间的关系,该方法首先分析单文档的结构特征,将词作为顶点,选择词频、词性、词跨度和位置因素作为词的权重,之后将句子作为超图的超边,构建单文档新闻超图模型。2.提出了多文档下基于超图排序的新闻关键词抽取方法。考虑到超图模型中的超边可以表示一篇新闻文档,该方法通过分析新闻网页自身特征对关键词抽取的影响,提取新闻网页的时间要素与评论数要素作为超边的特征权重,构建多文档新闻超图模型。3.提出了多文档下基于超图排序的汉越双语新闻关键词抽取方法。考虑到超图可以通过超边表述汉越双语词对应关系,以此将两种语言进行关联,该方法首先分析双语新闻文档的特点,将双语词频作为词的核心特征信息,之后通过构建两种类型的超边来建立双语新闻超图模型。最后使用基于超图的随机游走算法将超图的顶点进行排序,并输出排名最高的若干词作为新闻文档的关键词,实验证明了方法的有消息。
其他文献
我国学前音乐教育,目前尚处于起步阶段,虽然进行了许多探索与创新,但是不可否认的是,仍存在着许多问题,尤其是农村学前音乐教育,存在的问题最多,解决的迫切性也更强。为此,本
歌曲很早以前就被带入教学课堂,但大多数时候人们只是把它作为背景音乐、严肃课堂的调味剂。它的娱乐性往往让人们忽视了它隐含的巨大的教学作用。本文通过例举利用童谣进行
<正>早期阅读是学前儿童语言教育的一个重要方面,绘本则是阅读的首选。在绘本阅读过程中,孩子是主体。教师应以间接引导为主,探索绘本阅读的有效方法和途径。让其在探索中提
<正>所谓悼亡,顾名思义,就是哀悼亡者。从现代汉语的角度乍一看,"悼亡"一词似乎是个很普通的词儿,就是"悼念"、"哀悼"、"追悼"的意思——但是,任何一种语文都有它的特殊性,"
期刊
初步探讨不同浓度的水溶性壳聚糖溶液对高温胁迫下叶用莴苣种子萌发的影响。采用不同浓度的水溶性壳聚糖溶液处理叶用莴苣种子进行高温萌发试验,统计了种子的发芽率和幼苗的
<正>2016年是鲁迅逝世80周年,他一生只活了56岁,逝去的时间已经比他在世的岁月长了。但是,他似乎并没有死去,他的思想、他的作品还是活生生的,并不过时。他的生命不算长,却做
会议
《对鸟》是一首浙江温州乐清山歌。其节奏自由,旋律高亢,且丰富多变。表现了清新自然,质朴刚健的个性,蕴含着乐清人战胜自然风险的信心和对自由的执着追求,充分体现了乐清人
甲骨学名著《殷虚书契考释》乃罗振玉所撰,此在王国维生前从无疑议。但在1927年王国维去世后,少数王门弟子以及傅斯年、郭沫若、溥仪等,逐渐由怀疑而遽将此书著作权归于王国
<正>现在家庭装修的地板以选择木质为主,木质地板因美观自然、无污染、易加工、保温性好的优点被消费者所喜爱,但是木质地板却存在硬度低、抗腐蚀能力差、易虫蛀等缺陷。为了
以三江源区不同退化程度的天然草地及不同恢复年限的人工草地为研究对象,系统分析土壤理化性质随取样深度的动态变化。结果表明:(1)人工草地土壤含水量及全氮、全钾、全磷、