Web事件关联关系挖掘研究

被引量 : 0次 | 上传用户:andyylaopo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,大量的信息以各种方式在互联网上传播,人们在享受信息时代带来的便利时也同时面临着如何整合互联网信息的难题,为了解决这些问题,人们提出各种方式定义和表达这些信息,其中,把信息组织为“事件”是整合信息的方式之一。近年来,对于事件的研究越来越深入,在自然语言处理、信息检索等领域中把事件作为基本概念。为了更好地表示信息之间的联系,挖掘事件之间的关联关系显得尤为重要。在获取了足够多的Web事件后,研究事件之间的关系会帮助我们对这些事件形成一个总体的、系统的认知。本文侧重研究商业智能领域下的事件关联关系。在商业智能领域,事件之间有无关联、关联性强弱非常重要,关联关系已经能够为分析人员提供足够多的信息,所以不需要深入研究事件之间的逻辑关系,如因果关系、伴随关系等。本文使用频繁模式挖掘方法挖掘事件之间隐式的关联关系(称为FAM算法),并且使用共现分析算法挖掘显式关联关系,针对已有关联关系构建C4.5决策树用于挖掘不频繁的关联关系,最后对事件之间的关联强度做出量化标准。由于事件是在网页中提取的,上下文(Context)是指提取事件的源网页,在同一上下文中,事件之间是可能有关系的。如果两个事件在许多上下文中都共现过,那他们之间存在关联的可能性就很大。并且,他们在上下文中的位置越近,那么他们之间的关联也就越大。针对这一点,本文采取共现分析的方法,找出有共现行为的事件对,并计算事件对共现的概率作为由上下文(Context)共现得到的关联强度值。根据实体在数据集成系统中的背景知识对事件的隐式发生模式进行挖掘,并用对公司之间的关联关系提取事件实体属性、发生时间间隔等构建C4.5决策树,使用相似度计算的方法提取事件之间可能存在的非频繁的隐式关系。从事件的定义可知,事件是由实体和时间组成的,因此试图从这两个方面入手,基于数据集成系统中对实体背景知识的分析结果对事件进行分类,并对事件的先后时间关系组成事件序列进行挖掘。对那些频繁出现的事件模式,我们称为事件频繁情节。对频繁模式中出现的频繁事件对,计算共现概率作为关联强度。同时,属于同一上层类(往往是同一组织或公司)的事件模式的时间跨度相对较长,因此对同一和不同上层类的事件对进行了不同的处理。在关联强度量化方面,将以上三种方法得到的关联强度加权得到最终的关联强度,并且使用人工标注的事件关联图作为标准判断各自的权重。
其他文献
本研究主要通过有声思维的方法探索阅读任务中词汇附带习得的注意过程,以及时间压力和语境识别对附带习得的影响。结果发现:(1)注意过程包括"理解障碍–生词的语境意义"、"理
目的:探讨血清胱抑素C(Cys C)和24 h尿微量白蛋白(24 h U-mAlb)在慢性肾小球肾炎早期肾功能损害评估中的临床意义。方法:检测43例慢性肾小球肾炎早期肾功能损害患者(观察组)
看似不经意间,常州国家动画产业基地已悄然落户在常州国家高新技术产业开发区软件园。短短一年的时间里, 这里已经集聚了来自全国各地的20多家动画专业机构,注册资本总额达1.5
任何事物都有其两面性,电子商务在创造一种新的商业文化的同时,也带来一种新的商业风险——一种无法投保的风险。电子货币支付、应收应付账、存档、E-mail的使用、信息的发布
目的评估胆石利通片治疗胆石症的临床疗效。方法200例胆石症患者随机分为研究组和对照组,研究组采用口服步长胆石利通片,6片/次(0.45g×6),3次/d,疗程3个月;对照组采用口服熊
笔者从CAI、ICAI的现状出发 ,结合《数字电路》课程逻辑函数卡诺图化简理论 ,介绍了逻辑函数卡诺图化简的ICAI实现方法 ,并将这种方法最终产品化 ;该产品支持带任意项化简并
本文主要从历史和国际比较的视角,从高等职业技术教育的理念、制度以及课程三个层面入手,在参考有关研究文献和运用有关国家数据的基础上,对高等职业技术教育的生成、变化、
透过人本主义角度层面上观察,学习活动始终借由个人进行全程掌控,个体内在情感从中获得全面回应。处于中职阶段的英语课程与其它模式有着严格区别,因为学生素质基础较为薄弱,
健身于二十世纪九十年代进入我国,随着经济的快速发展,人们的生活水平有了质的飞跃,老百姓的健身意识也有了较大程度的提高。在学习和工作之余,有更多的人愿意在闲暇的时间进
1.斜带石斑鱼肝细胞分离及原代培养方法的建立通过不同的分离方法和培养条件探索斜带石斑鱼肝细胞的原代培养,以建立稳定可靠的斜带石斑鱼肝细胞原代培养模型,同时观察长期培