面向网络新闻的非结构化信息处理相关技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:whhuazi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息传播技术的迅猛发展,尤其是广播、电视等新闻报道信息流在互联网上的全面开花,互联网成为不可忽视的舆论阵地,而互联网新闻作为一种重要的情报信息来源,也在人们的生产、生活中扮演着越来越重要的角色。但是由于新闻是一种典型的非结构化信息,同时互联网新闻具有无范围限制特点(时间、空间等),使得人类社会面临着日益严重的信息挑战。人们迫切需要能够自动实现对这些新闻信息进行有效的存储、信息检索和情报挖掘的各种智能业务。新闻信息处理系统是非常有力的工具,其目的是有效地组织和处理海量的新闻信息。另外相对于英文信息处理技术,汉语文本信息处理基础相对薄弱,因而本文针对中文网络新闻信息处理这个具有重要理论意义和广阔应用前景的课题进行了研究和探索,所取得的主要成果如下:   1.提出了一种基于浅层分析与机器学习的零指代消解方法。此方法针对基于规则的零指代消解方法的不足,依据零形代词的特点,通过基于形式分析的方法对话语片段进行浅层分析,根据逻辑配价理论,利用逻辑论元识别的方法,自动高效地识别零指代,并使用机器学习的方法对零形代词进行消解。实验结果表明,该方法较之以前基于规则的方法,在零形代词识别和消解方面,性能都有很大的提高。   2.提出了一种基于文本内容分析的社会网络自动抽取方法。此方法在对输入文章进行分词标注、共指消解等预处理之后,通过名词合并及主动词识别,得到存在关系的实体之间的关系指向和关系描述,最后通过有向图把存在关系的实体进行连接,形成由命名实体、实体间关系指向、实体间关系描述构成的社会网络。本文方法的主要特点如下:首先,本方法是基于文本内容分析的,不仅仅依靠实体的共现信息,得到的社会网络更加可靠。其次,本方法不仅仅局限于对人与人之间的关系进行抽取,而是对所有的不同实体之间的关系进行抽取。再次,本方法中采用有向图对社会网络进行可视化表现,对实体之间关系的描述更加详细。   3.在对社会网络抽取的基础上,提出了一种基于词典的实体间关系倾向分析的方法。通过对社会网络中的关系及关系的描述进行情感倾向分析,从而得到实体两两之间的关系倾向。   4.提出了一种基于关键词识别的中文新闻文档摘要方法。此方法依据关键命名实体和实体关系网络对文档中重要句子进行去重、排序,并采用了一种基于基准文档的方法输出摘要。实验表明,此方法可以有效识别新闻文档中的重要句子,并能对冗余句子进行去重,输出的文摘文档能比较全面准确的反映原文内容,而且可读性较强。   5.提出了一种基于信息检索技术的互联网新闻影响力定量分析方法。此方法利用信息检索领域中的相关算法,对相关信息进行分析研究,建立了一个网络新闻影响力模型来定量计算新闻的影响力,从而估计新闻对社会安全产生影响的程度。在对大量实验结果的统计分析中发现此方法可以有效地对新闻文章进行排序,发现不同新闻类型中最值得关注的新闻,其结果与人的定性判断结果具有较高的一致性。   6.提出了一种用综合集成法指导解决网络新闻信息处理系统相关问题的思路,文章首先对网络新闻信息处理系统的特征进行了分析,阐明了新闻信息处理相关技术作为Internet应用的一个重要方面,是一个与开放复杂巨系统有关的问题。网络信息挖掘的工作本质就是一个从定性到定量、定性与定量相结合的过程,在这个过程中,人的因素是不可替代及忽略的。最后提出采用综合集成方法的思想,展开对其相关问题的研究,对解决目前网络新闻信息处理系统存在的一系列问题具有较强的指导作用。  
其他文献
行人重识别(Person Re-identification,Person Re-ID)问题是要判断两张分别从视场无交叠的两个摄像头下检测到的行人图像是否对应于同一个人(行人ID)。行人重识别在刑事侦查
面向工业控制的嵌入式PLC技术是在深入研究了传统PLC技术、IEC61131-3标准、软PLC以及嵌入式系统的基础上发展提出来的,是嵌入式系统和软PLC技术结合的产物。IEC61131-3编程标
综合集成研讨厅是以钱学森为首的一批中国科学家于二十世纪九十年代初提出的致力于于解决开放的、复杂的、具有多方面不确定因素的宏观决策问题的智能决策系统。它集合了计算
学位
学位
随着中国证券投资基金的迅猛发展,对基金业绩的相关研究也越来越受到理论和实务界的关注。对开放式基金进行科学合理的考核评级能够促进基金业健康发展,为基金投资者提供准确的
随着机器人技术的发展,具有良好环境适应能力的两栖机器人引起了人们越来越多的兴趣和重视。本文针对两栖类动物的身体结构和运动特点,结合课题组的相关研究工作,研制开发了一种
学位
永磁同步伺服电机驱动控制器在安装调试过程中常需要修改系统的参数以满足不同应用对象的性能要求,一般通过反复烧写DSP内部FLASH存储器的方法来改变PI参数,这种方法要求掉电停
数据发生器作为现代数据域测试中的通用数字信号源,可以产生大数据量、复杂多样的高速数字激励信号。随着现代科技水平的快速发展,待测设备的工作速度不断提高以及系统功能更
上世纪八十年代末发展起来的井地电位测量技术是一种新型的电测方法。通过开发井的套管向井下供入大功率的电流,并在地表测量由套管流入地层的“漏电流”在非均匀电性变化的地
在飞机的纵向运动控制中,俯仰角控制是非常重要的控制模态,飞机爬升段和下降段经常采用这种控制模态。在控制系统设计时,超调量是重要的动态时域指标之一。为了保证飞行安全,在