论文部分内容阅读
随着Internet的发展与普及,企业的运营日益扩展到Internet上,Internet已经成为世界上包含信息量最大、涵盖知识面最广的信息知识库,是全球信息传播的主要渠道,为人们提供了最有价值的信息源。Internet的迅速发展让Web信息更具多样性,人们在Internet这个广阔的选择空间中获得有用知识信息的同时也面临着巨大的挑战。传统搜索引擎存在检索结果信息冗余、不精准和碎片化的问题,用户不得不承受沉重的信息加工负担。信息融合技术已经广泛用于军事、经济和生物医学等领域,其在改善信息置信度、降低信息冗余度方面的能力为Web信息处理提供了新途径,已有的信息融合技术在处理结构化数据方面具有很好的发展前景,但是并不适用于具有非结构化、大容量并且动态变化的Web信息。基于以上问题,本文从“构造-集成”和“事件-索引”两个认知角度处理非结构化的Web信息,研究Web信息多粒度融合方法。借鉴现有的粒计算理论和Web信息融合理论,采用Web信息抽取技术抽取Web信息作为知识源,采用Web挖掘技术对Web信息进行深层挖掘,对Web信息进行提取及分析,将大量的、不确定的、非结构化Web信息转换为量化的、结构化的文本信息,研究Web信息多粒度融合模型和Web信息多粒度融合算法,主要的工作如下:(1)采用Web信息抽取技术抽取Web信息中包含的标题、正文、发布时间、信息来源等信息作为知识源,针对文本信息非结构化的特征,采用Web内容挖掘技术对Web信息进行内容上的深层挖掘,对文本信息进行量化表达;采用Web结构挖掘技术挖掘文本信息中的结构信息,设计包括概念、内容属性和链接结构属性的Web信息表示模型。(2)研究能反映知识的粒度性的构造-集成认知模型,结合模糊商空间理论从“构造-集成”认知角度设计Web信息粒度空间模型;研究能反映知识的关联性的事件-索引认知模型,针对Web信息的特征从“事件-索引”认知角度设计Web信息粒度关联模型;(3)研究文本特征权重计算方法,针对Web信息动态更新的特征,研究主题增量聚类算法;针对同—主题信息结合Web信息粒度空间模型进行多粒度划分及表示,研究信息粒度空间生成算法;分析Web信息的内容属性以及结构属性,结合Web信息多粒度关联模型研究Web信息粒度关联融合算法。并以新浪网中新闻中心的新闻信息为实验数据,进行了实例分析,证明了本文提出的方法是有效的。