论文部分内容阅读
随着网络技术的飞速发展,互联网成为人们获取新闻信息的重要渠道。然而,互联网中新闻信息杂乱无序、关联不足、碎片化特征明显,导致人们无法深入地了解新闻事件,对事件的认识相对片面。人们对事件的片面认识会触发错误的价值导向,带来恶劣的社会影响。分类技术是应对信息杂乱无序、关联不足以及碎片化等信息组织难题的关键技术之一。传统的新闻领域信息分类只是对新闻进行简单地分门别类,分类粒度较粗,无法对新闻描述事件的相关报道进行有效地组织;同时,传统的情感方面分类技术只是分析人们对于事件的情感倾向,不能全面地挖掘事件观点,解决人们对事件的片面性认识问题。针对传统新闻信息分类粒度粗、人们对事件认识片面的问题,本文借鉴从定性到定量的综合集成(meta-synthesis)原理,提出了从定性到定量的新闻研讨厅。新闻研讨厅从事件及其观点角度集成新闻信息进行研讨,定性地将新闻信息基于其描述的事件进行分类,提取出事件背后的各方观点,并且对事件及其观点进行量化计算,定量地展示事件及其观点。根据新闻研讨厅的特点,本文提出了基于特征的事件检测算法BFEDA(EventDetectionAlgorithmBasedonFeatures),在此基础上,提出了基于事件观点的信息分类算法 BOICA(Information Classification Algorithm Based on Opinions of An Event)。论文的主要工作包括以下几方面:(1)针对传统新闻信息分类粒度粗的问题,提出了基于特征的事件检测算法BFEDA。BFEDA算法从新闻中提取事件的特征:人物、时间、地点、主体;然后定性地对新闻信息进行聚类分析,实现对事件的检测;定量地对检测出的事件从自身特点和事件间的关联两个角度对事件进行计算,评估事件的重要性。BFEDA算法以事件的粒度对新闻信息进行分类,能够对新闻描述事件的相关报道进行有效地组织,并且能够挖掘新闻中的大事件。(2)在事件检测的基础上,针对事件认识的片面性问题,提出了基于事件观点的信息分类算法BOICA。BOICA算法利用能够识别出观点的词语,将事件中的观点语句抽取出来。然后定性地对抽取出的观点语句进行聚类分析,全面地挖掘出事件的观点;对于每一类观点,从观点出处的网页衡量观点,利用网页的可信度和网页主题对观点的支持度定量地计算观点,评估观点的影响程度。BOICA算法更加注重事件的细节,能够全面地展示关于事件的各种观点。(3)设计并实现了新闻研讨厅的原型系统。在原型系统中,利用从网络中爬取的真实数据对本文提出的BFEDA算法和BOICA算法进行了实验与分析。实验结果验证了 BFEDA算法和BOICA算法的可行性,表明本文提出的算法可以有效地对事件进行检测,较细粒度地完成新闻信息的分类,并发掘事件背后的观点,使得用户全面而深刻地了解事件。