论文部分内容阅读
伴随着网络信息的日益膨胀和人们对信息获取的难度的增加,基于文本内容分析的信息处理技术正在快速的发展,众多研究人员对此多了大量的研究工作,也取得了一定的进展,爆发词的出现作为热点问题的直观表现,识别并处理爆发词对推动该领域的研究和发展具有重要的作用和意义。
本论文在前人研究的基础上,通过调研话题检测与追踪的研究进展,进而了引出爆发词识别的研究现状,并在此基础上通过对爆发词识别研究现状和技术的调研、分析、总结,归纳出了爆发词识别目前存在的问题,在此基础上提出了基于层叠条件随机场的爆发词识别模型和研究思路,主要就其中如下几个关键问题进行了深入研究和实验验证:
(1)复杂时间信息识别和抽取的研究:针对网络信息的时序性和多态性,本论文在时间信息抽取研究现状的基础上提出了基于条件随机场的复杂时间信息抽取研究模型,选取了词特征和词-词性特征进行了对比研究,并通过实验验证了该方法的可行性和有效性;
(2)爆发特征词识别:爆发词是指在一段时间内大量出现的有意义的词,是针对词的计算和度量,重点是要正确识别爆发特征词,爆发特征词是指在文本切分的基础上剔除停用词后的有意义的词语,包含未登录词。本论文重点研究和解决了爆发特征词中的未登录术语识别的问题,在充分调研该研究现状的基础上,本文提出了基于层叠CRFs和语块分析的中文未登录术语识别模型,选取了词特征-词性特征-语块类型特征进行了交叉对比实验,结果表明该方法在识别未登录术语上是有效的,但后期有待构建更加专业的语料库来进一步提高识别结果;
(3)爆发词识别统计指标设计:在爆发特征识别的基础上,本文采用了基于时间维度的频次、频率和改进的词频文档比三个指标对爆发特征词进行计算,进而识别出爆发词;
(4)实现了基于层叠CRFs的爆发词识别的原型系统:本文采用JAVA语言进行了爆发词识别原型系统的开发,并以镍钴产业专利文本为例验证了本文所提模型在爆发词识别上的可行性和有效性,但后期仍需在技术上进一步完善并实现各功能模块间的整合和对接。