基于多种特征的信息检索和网络挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:begoodboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索和文本挖掘是近十几年快速发展的研究领域。传统上,给定一个用户的信息需求(Information Need)以及一个待检索的文档集和,信息检索研究如何找到一些合适的文档来满足用户的信息需求。和信息检索有所不同,文本挖掘(Text Mining)旨在帮助人们从文本的分析中获取一些基本的信息,如本文属于哪一类型的文章,中心思想是什么,讲述了哪些不同的议题等等。其技术泛指信息抽取,文本分类,文本聚类,文本摘要等从大量文本中获取有用信息的技术。 万维网正以人们难以想象的速度迅猛发展。关于Web发展的最新评估报告指出,每周有大约8%,也就是3.2亿张新网页诞生。超链接的变化更为迅速,每周都有25%新链接产生,一年后80%的旧链接都被新的所取代。动态性如此之强,规模扩大如此之快的万维网导致网络信息过载(Information Overload)问题日益突出。人们开始考虑使用信息检索和文本挖掘的技术来克服这些困难。然而,传统的模型和方法在应用到万维网的同时,需要根据新的数据形式加以演变。 本文讨论了如何利用数据的多种类型的特征,提高网页检索、科技文献检索和文本聚类的性能。该文主要的创新和贡献在于: 1.首先对数据的多种特征进行定义和分类。文中所定义的数据多种特征是指可从不同的角度刻画对象在特定环境下的行为的不同类型的信息源。例如在传统的文本检索中,除了单词或者词组的分析以外,片段(passage)的结构特征通常用于考虑关键词间的关联性;在科技文献的检索中,引用关系(citation)很好的被用于发现相关和权威论文。结构和引用都是词语本身的词义所无法提供的信息。到了万维网的时代,网页有了更多丰富的信息,成为了一种典型的多种特征数据:网页的统一资源定位器(URL),锚文本(anchor text),超文本标记语言(HTML)标签和主题块结构(topic block)等都可用于信息的检索和挖掘。如何有效的利用这些特征需要进一步研究。 2.多种特征对信息检索的改进,包括利用文本片段结构特征,网页主题块特征和科技文献的引用特征改善信息检索。我们首先介绍传统检索中文本片段的特征在对等环境中的应用。然后将普通文本中的片段扩展到网页中的块结构,进而探讨块结构对基于概率语言模型检索的影响,并提出一种基于块状结构的语言模型(Block-based Language Modeling(BLM))。在BLM的后续工作中,我们提出自动化的方法测量块结构的重要程度,并考虑用户的信息需求,利用伪相关度反馈的方式进一步修改块的重要性。在该部分的最后,我们讨论了科技文献中引文分析的改进。一些相关工作将内容和引文分析结合起来提高相似度的计算,可是这两种特征并未互相增强以获得更好的效果。为了解决这个问题,我们提出一种新的算法,主题敏感的相似度传播(Topic Sensitive Similarity Propagation (TSSP)),更有效的将内容相似度集成到相似度传播的过程中。此外,我们还将TSSP的基本思想扩展,将文献中不同部分的内容利用权重加以区分,统一称为多特征的相似文献检索增强算法。 3.多种特征对文本挖掘的改进,包括如何提高文本聚类和基于文本的图片聚类。聚类在某些场景下是一种切实可行的组织方式,包括浏览规模庞大的文档集合,或者是搜索引擎返回的结果。对于这项技术而言,根据不同的网页特征进行挖掘可获得不同的聚类结果,我们期望为用户提供一个统一的,甚至是效果更好的结果。我们提出两种新的算法:第一种是基于多种特征的增强式聚类(MFRC)。该算法没有使用所有特征空间的相似度结合,而是通过一种特征空间中的聚类中间结果来增强其它空间内的分析。第二种是我们称其为聚类中的多种特征共同选择(MFCC)。该项研究是MFRC的后继工作,它同样使用了一种特征空间中的中间聚类结果帮助其它空间中的聚类。在该部分的最后,我们阐述了利用网页块结构分析图片信息的方法。考虑到数据记录类型的网页中有很多潜在信息可以挖掘,我们为每条记录对应的图片抽取具有良好的代表性和区分性的关键词。然后我们使用这些词语构造层次表示树(Hierarchical Representation Tree)和层次化的聚类算法,使得用户可以更方便的浏览图片信息。 对于上述提出的模型或方法的改进,我们都通过大量的实验加以验证,并对最后的结果进行深入分析。实验结果表明,在大多数情况下,利用不同类型特征的相互增强,可以获得比单独使用这些特征更好的效果。
其他文献
直接数字化X射线成像技术(Digital Radiography, DR)在医学诊断领域发挥着越来越重要的作用。相对于传统的DR技术,多CCD DR系统能够在保证图像质量的同时降低生产成本,对DR系统
基于应用服务提供商(application service provider,ASP)的网络化制造模式使制造企业专注发展其核心业务,同时借助ASP提供的先进技术服务,快速响应市场需求,利用ASP服务商提
移动AdHoc网络——MANET(MobileAdHocNetworks)是一种具有广阔发展和应用前景的技术。由于MANET具有网络拓扑高度动态、多跳以及移动节点的资源和功能较为有限等特性,因此需要
随着网络应用的持续增加,以及相关业务的发展与延伸,产生并积累了大量的数据;与此同时,针对大数据的分布式计算框架不断出现并改进。根据应用场景,大数据的处理可以简单地分为两
现有的降雨预报系统采用人工经验判断与计算机辅助等手段给出降雨预测。通过经验给出的降雨预报准确度低,速度缓慢,而现有的自动预报系统则往往依据复杂的气象模型,在昂贵的计算
随着网络技术的发展和标准的制定,实时音频、视频的应用越来越广泛,这些应用反过来又促进了相关协议标准的发展。1996年IETF在RFC1889中定义了传输实时数据的Internet标准协
面向对象的技术给软件测试带来了新的挑战,与传统软件相比,面向对象软件的封装、继承、多态等特征虽然可以提高软件的开发效率,但是它们引起的类间依赖关系变得复杂,同时增加了软
在生产经营活动中,企业管理部门需要大量的决策行为。由于影响企业运作的环境因素复杂多变,所以要做出一个迅速和正确的决策是很困难的。作为智能体的Agent,其特性决定了其在决
随着网络的发展,通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:金融分析、网络监控、通讯数据管理、传感器网络数据处理等。在这些应用中数据是多维的、连
CLIPS是一种重要的专家系统开发工具,广泛应用于专家系统的各个研究领域。目前,以CLIPS为原型的各种版本的专家系统开发工具层出不穷,但是现有的开发工具都不具有直接支持并行处