中文新闻话题动态演化及其关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhuzhihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络新闻的日益普及已经成为一个不可阻挡的趋势。相对传统新闻媒体,网络新闻在时效性与互动性上的优势使它对于社会重大事件的报道具有更为深远的影响力,成为人们获取新闻信息的主要来源。通常,人们希望能够将与某一事件相关的网络新闻信息整合成一个新闻话题,从而能够全面地了解新闻事件的概貌。面对这样的需求,以新闻话题为研究对象,结合不同的研究领域,衍生出了面向互联网的新闻搜索、新闻聚类、新闻分类、新闻热点挖掘等多个研究方向,较好地解决了新闻话题的检测问题。但是,传统的新闻话题检测以新闻信息的文本话题抽取为主要的目标,缺乏对新闻话题的动态演化特性的挖掘和支持。随着用户对于新闻自动组织能力要求的提高,如何通过新闻话题的动态演化研究对网络新闻流数据进行合理、有序的自动化处理与组织成为当前互联网信息处理技术的热点问题。新闻话题动态演化(或简称话题动态演化)研究是对文本话题演变过程的时态语义挖掘。它首先建立在传统的话题模型研究理论基础之上,将话题转化为可进行计算和比较的信息表示模型,同时结合文档的时间信息,充分研究话题演化的不同阶段下与话题内容紧密关联的话题时间,并根据时间顺序构建话题序列,之后通过聚类的方法,深入挖掘演化过程中话题在强度和内容上的变化轨迹。话题动态演化研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景。在这样的研究背景下,本论文针对新闻话题动态演化研究中的理论性问题与技术挑战,以中文新闻为基础,对新闻话题动态演化中的若干关键问题进行了深入研究。论文首先介绍了新闻话题动态演化研究的背景和意义,分析了该研究的系统框架和主要研究对象,讨论了该领域的国内外相关工作,从理论上阐述了新闻话题动态演化研究的基本思想和研究思路。接着,论文围绕话题模型、时态信息处理以及话题动态演化挖掘三个方面展开深入研究,提出一种面向中文网络新闻的话题信息抽取方法,同时,给出一种针对真实新闻文本的时态表达规范化处理算法,在此基础上,又构建一个面向中文新闻网页的话题时间解析器,自动抽取话题时间,最后结合以上工作,提出一种具有统一框架的新闻话题演化挖掘算法。本论文的主要贡献可归纳为以下几个方面:(1)针对中文新闻话题信息抽取正确率低导致话题模型性能下降的问题,提出了一种基于语言学知识的中文新闻话题信息抽取方法。该方法基于对互联网新闻特征的研究,通过引入中文词性与位置特征建立启发式规则,修正了错误标注的话题词候选对象,进而有效扩充了话题词对象集合,提高了抽取结果的语义正确性和话题完整性。(2)针对目前时态表达规范化处理相关工作中参照时间选择机制不能适应真实新闻文本的问题,提出了一种基于参照时间动态选择的时态表达规范化算法。通过挖掘时态表达中修饰符和时态名词两部分内容各自的时态参照特征,对其进行参照分类,在此基础上根据时态表达的类别为其分配正确的参照时间,同时利用场景-时间转换模型解决模糊时间的去模糊化问题,显著提高了时态表达规范化系统的准确率和普适性。(3)针对新闻话题时间抽取算法准确率较低的问题,提出了一种基于话题-时间依存关系模型的话题时间抽取方法。该方法通过深入研究不同类型新闻的报道特性和网页的结构特点,挖掘话题信息与时间信息之间具有的位置依存关系和语义依存关系,构建话题-时间映射模型,并以该模型为理论指导,利用话题权重和无监督学习两种策略抽取新闻报道中的话题时间。该算法较同类方法具有更高的准确率,大大改善了现有工作中新闻话题与话题时间相关性差的问题。(4)针对已有话题动态演化挖掘方法在模型特征计算与模型动态更新上的不足,提出了一种基于特征演变的新闻话题动态演化挖掘方法。通过引入词项特征在话题演化过程中的变化特性,构建增量式特征计算模型,并且利用已有话题相关文档和最新文档进行话题特征的正向融合和逆向过滤,显著提高了话题模型的准确率,充分改善了关联计算的整体性能,进而有效提高了最终挖掘结果的正确性和完整性。通过本论文的研究,我们解决了目前信息处理技术对于新闻话题演化特性研究的不足,建立了以时间线索挖掘话题动态演化的理论框架,提出了新闻话题动态演化研究的系统方法,为以话题动态演化研究为理论指导的新闻专题集成和网络舆情预警奠定了理论基础,也为Web环境下公共安全与应急决策理论和技术的进一步发展提供了新的思路。
其他文献
委婉语是一种与社会文化和社会心理等因素紧密联系的语言现象,在各种语言中都有不同的表现,通过跨文化对比分析委婉语能够体现出不同民族之间的文化差异,有助于减少跨文化交
文章分析了正明煤业有限公司拟建选煤厂的原煤可选性,对筛分、浮沉以及可选性相关资料进行了分析,为选煤厂的工艺选择、设备选型、后期建设等关键环节打下了基础。
7月15日下午,省委书记白克明、省长郭庚茂到省防汛抗旱指挥部检查指导防汛工作,明确“高度警惕、防患未然、严格责任、确保安全”的总体目标,并对今后的防汛抗旱工作进行部署。
为了减少或规避开采沉陷的负面影响、研究邢东矿井田区域内地表移动特征,有针对性的利用建筑物下采煤技术开采各类呆滞资源,保护地面附着物正常使用,使矿井效益得到最大发挥,冀中
针对峰峰集团小屯矿通过对井下工作面安装工作的传统管理模式,对该矿工作面安装任务具有施工时间长、效率低、衔接紧张、涉及单位多的现状,进行分析探讨,提出了新的组织施工管理
针对某自行车厂产生的废水p H值低、水量大、有机物含量高、BOD5/CODcr〈0.5,可生化性差,且含有较高浓度的总磷TP和固体悬浮物SS的情况,经过沉淀、混凝等物化预处理,再结合A/
无机高分子絮凝剂作为一类新型水处理剂近年来得到了快速发展。采用硅酸钠、硫酸铁等为原料,制备了聚硅硫酸铁(PFSS)絮凝剂,并以印染废水为对象对其絮凝效果进行了研究。主要考察
一、播前准备1.种子处理播前用每千克种子用2.5%适乐时悬浮种衣剂2毫升,或用40%卫福种衣剂3.0毫升,或用50%多菌灵可湿性粉剂3毫升拌种。
研究目的:神经元群体中的神经元对行为任务有着不同程度的编码:(1)功能神经元集群在行为任务的执行过程中发挥了主要作用(2)群体中非集群神经元的电活动也会发生改变,也参与编
Shell煤气化是当前先进的第二代煤气化工艺,属熔渣、加压气流床气化工艺。煤的灰分、结渣性、灰熔融性等煤质特性对Shell煤气化装置的稳定运行发挥着重要作用。为保证气化炉