基于层叠条件随机场模型的爆发词识别研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:jayleardutt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络信息的日益膨胀和人们对信息获取的难度的增加,基于文本内容分析的信息处理技术正在快速的发展,众多研究人员对此多了大量的研究工作,也取得了一定的进展,爆发词的出现作为热点问题的直观表现,识别并处理爆发词对推动该领域的研究和发展具有重要的作用和意义。   本论文在前人研究的基础上,通过调研话题检测与追踪的研究进展,进而了引出爆发词识别的研究现状,并在此基础上通过对爆发词识别研究现状和技术的调研、分析、总结,归纳出了爆发词识别目前存在的问题,在此基础上提出了基于层叠条件随机场的爆发词识别模型和研究思路,主要就其中如下几个关键问题进行了深入研究和实验验证:   (1)复杂时间信息识别和抽取的研究:针对网络信息的时序性和多态性,本论文在时间信息抽取研究现状的基础上提出了基于条件随机场的复杂时间信息抽取研究模型,选取了词特征和词-词性特征进行了对比研究,并通过实验验证了该方法的可行性和有效性;   (2)爆发特征词识别:爆发词是指在一段时间内大量出现的有意义的词,是针对词的计算和度量,重点是要正确识别爆发特征词,爆发特征词是指在文本切分的基础上剔除停用词后的有意义的词语,包含未登录词。本论文重点研究和解决了爆发特征词中的未登录术语识别的问题,在充分调研该研究现状的基础上,本文提出了基于层叠CRFs和语块分析的中文未登录术语识别模型,选取了词特征-词性特征-语块类型特征进行了交叉对比实验,结果表明该方法在识别未登录术语上是有效的,但后期有待构建更加专业的语料库来进一步提高识别结果;   (3)爆发词识别统计指标设计:在爆发特征识别的基础上,本文采用了基于时间维度的频次、频率和改进的词频文档比三个指标对爆发特征词进行计算,进而识别出爆发词;   (4)实现了基于层叠CRFs的爆发词识别的原型系统:本文采用JAVA语言进行了爆发词识别原型系统的开发,并以镍钴产业专利文本为例验证了本文所提模型在爆发词识别上的可行性和有效性,但后期仍需在技术上进一步完善并实现各功能模块间的整合和对接。
其他文献
目的探讨分子靶向药物甲磺酸伊马替尼与多烯紫杉醇联合对乳腺癌皮下移植瘤生长的影响。方法 ALB/c-nu裸鼠56只,制备人乳腺癌细胞株MCF-7裸鼠皮下移植瘤模型并随机分为8组,分
期刊
复杂决策本质上是一个有目的的认知过程,也是一个重复博弈的过程。一般来讲,复杂决策所解决的问题称为复杂决策问题,它具有问题结构的非线性、问题系统的动态性与开放性、知识的
在当前市场经济和知识经济日益突出的社会环境下,科学图书馆正面临着前所未有的挑战。这就需要从人力资源管理的角度对图书馆人员进行合理规划及管理。目前我国图书馆人力资源
新一轮课程改革的主要目标之一就是倡导动手实践、自主探索、合作交流的新型学习方式。我们引导学生开展小组合作学习的同时,特别要注重提高小组合作学习的有效性。
世界未来的竞争,就是知识产权的竞争,但我国科技成果转化率较低,大量知识产权闲置,不能转化为生产力,不利于发挥知识产权在国家经济科技实力和国际竞争力、维护国家利益和经济安全
期刊
信息时代,信息过载经常导致人们无法在海量的信息环境中快速找到自己所需要的信息资源,为了解决这一难题,促成了各种信息筛选、搜索、整合服务的诞生。对于科研工作来说,海量的科
随着移动设备越来越广泛地应用到用户的日常生活中,图书馆有必要在移动的浪潮中占有一席之地,一方面满足用户不断变化的行为习惯,一方面也是拓展图书馆服务的一次契机,更好地实现
在现实的教学过程中,提问并没有达到预期的目标,许多教师将提问看作是一种很简单的教学方式,没有深入地思考运用时应遵循的一系列原则、技能和技巧,精心地设计课堂提问。基于以上