论文部分内容阅读
随着信息传播技术的迅猛发展,尤其是广播、电视等新闻报道信息流在互联网上的全面开花,互联网成为不可忽视的舆论阵地,而互联网新闻作为一种重要的情报信息来源,也在人们的生产、生活中扮演着越来越重要的角色。但是由于新闻是一种典型的非结构化信息,同时互联网新闻具有无范围限制特点(时间、空间等),使得人类社会面临着日益严重的信息挑战。人们迫切需要能够自动实现对这些新闻信息进行有效的存储、信息检索和情报挖掘的各种智能业务。新闻信息处理系统是非常有力的工具,其目的是有效地组织和处理海量的新闻信息。另外相对于英文信息处理技术,汉语文本信息处理基础相对薄弱,因而本文针对中文网络新闻信息处理这个具有重要理论意义和广阔应用前景的课题进行了研究和探索,所取得的主要成果如下:
1.提出了一种基于浅层分析与机器学习的零指代消解方法。此方法针对基于规则的零指代消解方法的不足,依据零形代词的特点,通过基于形式分析的方法对话语片段进行浅层分析,根据逻辑配价理论,利用逻辑论元识别的方法,自动高效地识别零指代,并使用机器学习的方法对零形代词进行消解。实验结果表明,该方法较之以前基于规则的方法,在零形代词识别和消解方面,性能都有很大的提高。
2.提出了一种基于文本内容分析的社会网络自动抽取方法。此方法在对输入文章进行分词标注、共指消解等预处理之后,通过名词合并及主动词识别,得到存在关系的实体之间的关系指向和关系描述,最后通过有向图把存在关系的实体进行连接,形成由命名实体、实体间关系指向、实体间关系描述构成的社会网络。本文方法的主要特点如下:首先,本方法是基于文本内容分析的,不仅仅依靠实体的共现信息,得到的社会网络更加可靠。其次,本方法不仅仅局限于对人与人之间的关系进行抽取,而是对所有的不同实体之间的关系进行抽取。再次,本方法中采用有向图对社会网络进行可视化表现,对实体之间关系的描述更加详细。
3.在对社会网络抽取的基础上,提出了一种基于词典的实体间关系倾向分析的方法。通过对社会网络中的关系及关系的描述进行情感倾向分析,从而得到实体两两之间的关系倾向。
4.提出了一种基于关键词识别的中文新闻文档摘要方法。此方法依据关键命名实体和实体关系网络对文档中重要句子进行去重、排序,并采用了一种基于基准文档的方法输出摘要。实验表明,此方法可以有效识别新闻文档中的重要句子,并能对冗余句子进行去重,输出的文摘文档能比较全面准确的反映原文内容,而且可读性较强。
5.提出了一种基于信息检索技术的互联网新闻影响力定量分析方法。此方法利用信息检索领域中的相关算法,对相关信息进行分析研究,建立了一个网络新闻影响力模型来定量计算新闻的影响力,从而估计新闻对社会安全产生影响的程度。在对大量实验结果的统计分析中发现此方法可以有效地对新闻文章进行排序,发现不同新闻类型中最值得关注的新闻,其结果与人的定性判断结果具有较高的一致性。
6.提出了一种用综合集成法指导解决网络新闻信息处理系统相关问题的思路,文章首先对网络新闻信息处理系统的特征进行了分析,阐明了新闻信息处理相关技术作为Internet应用的一个重要方面,是一个与开放复杂巨系统有关的问题。网络信息挖掘的工作本质就是一个从定性到定量、定性与定量相结合的过程,在这个过程中,人的因素是不可替代及忽略的。最后提出采用综合集成方法的思想,展开对其相关问题的研究,对解决目前网络新闻信息处理系统存在的一系列问题具有较强的指导作用。