基于词汇链义原向量空间模型的话题跟踪算法研究

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:nancyqi117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经典的话题跟踪算法是将文本分词后,以词汇作为特征项词频作为权重,构建出话题的特征空间向量,再对报道做同样处理得到报道的特征空间向量,以向量之间的相似度作为话题跟踪的指标。虽然此种方法将文本内容的处理简化为向量空间中的向量运算,极大地提高了自然语言文本的可计算性和可操作性,但是向量空间模型中以词汇作为特征项,以词频作为权重,不仅导致了文本的语义和结构信息的缺乏,还增加了向量空间的维度造成了相似度计算时的复杂性的提高,从而将其应用于话题跟踪中时,影响了话题跟踪的效率和准确性。本文尝试利用知网基于词语的语义相似度构建词汇链,再以词汇链的义原构建话题的义原特征向量,再将其应用于话题跟踪中,以期提高话题跟踪的效率和准确性。最后实验证明该方法是有效的。本文首先介绍了话题跟踪的相关基础理论,详述了话题跟踪过程及涉及的话题报道建模、权重计算等关键技术,分析了现有的话题模型表示中存在的不足,同时介绍了知网的概念、基于知网的词语相似度算法、词汇链的生成算法;接下来针对现有话题模型表示方法中的不足,提出了基于词汇链义原的向量空间模型,用于对报道和话题建模,最后本文进行了两次对比实验,首先用传统的词频统计方法为话题和报道建模计算相似度,然后用改进的表示方法对同样的实验语料建模进行相似度计算,后将二者的相似度对比;然后将两种方法用于话题跟踪的实验系统中,通过话题跟踪的漏报率误报率系统损耗代价等指标来进行对比,证明改进方法的有效性。具体的创新点有:(1)本文基于知网提取词汇链,抽取词汇链义原构建向量空间模型,用以表示话题/报道。(2)提出了基于词汇链义原的结构权重计算方法。
其他文献
5月7日,城步苗族自治县新的国家综合档案馆举行揭牌仪式,标志着该馆作为湖南省首批在建的县级国家综合档案馆已建成并投入使用。仪式结束后,在该馆三楼多功能会议室举行了座谈,县
本文首先介绍了研究的背景和文章的理论依据,其次对国内外城市信息化发展情况总结和阐述,指出了我国城市信息化发展的特征及存在的主要问题,并通过对廊坊市城市信息化现状的
4月21日,冷水江市综合档案馆主体结构封顶仪式隆重举行。该馆工程建筑面积8337平方米,5+1层框架结构,项目自开工建设以来,备受市委、市政府关注,得到了全市各相关单位的大力支持,施
摘 要:名列“四大南戏”之一的《刘知远白兔记》主要写了当时尚在隐微的后汉皇帝刘知远与李三娘悲欢离合的故事,其中刘知远变泰发迹过程中对李三娘的负心薄幸的情节是整个南戏的冲突关键所在。但是纵观中国文学史,与李三娘有同等遭遇的“弃妇们”出现在了各种文学体裁中,而掌握这种时间环境的流变和环境诱因正是解读《白兔记》剧情及架构特色的钥匙。而类似《白兔记》的剧情走向及结局也体现了“弃妇问题”的最终解决。  关键
2011年4月,胡锦涛总书记在清华百年校庆讲话中指出,不断提高质量,是高等教育的生命线,必须始终贯穿高等学校人才培养、科学研究、社会服务、文化传承创新各项工作之中.全面提
近日,怀化市档案局“业务学习充电月”结业考试如期进行,全局干部职工无一缺席。今年来,该局开展了为期一个月的学习活动,集中充电,强化业务素质。该局以学习国家档案局8、9、10号
为纪念6月9日国际档案日,进一步拓展市档案馆社会服务功能,提升档案工作社会服务能力,衡阳市档案局局长、知名书法家徐阳林近日在市书画院举办个人书法展,为前来观展的市民朋友送
在2013年上半年全县社会管理综合民意满意度调查中,石门县档案局民意满意度全县排名第一。石门县民调办通过第三方对全县93个县直部门科局单位进行了2013年上半年民意满意度调
员工内在动机的提升一直是企业管理者面临的现实难题。使员工把工作当成事业、变成兴趣,富有使命感和主观能动性,通过自我内在动机的驱动,达到“不用扬鞭自奋蹄”的境界,是管
近日,江华瑶族自治县召开县委常委会议研究档案工作,会议同意将档案馆事业经费和档案保健津贴列入财政预算,按照每年15万元的标准增加合并包干使用。目前,该县档案馆年度事业经费