论文部分内容阅读
WEB是人们获取信息与知识的重要途径,它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度,也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题;如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务;如何使用户获取个性化信息,从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为三类:内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data),因此也形成WEB研究的三个大的方向:WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面,它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象,研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上,重点研究并取得如下创新性成果: (1) 提出了一种增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法,针对Web内容数据的特点,提出的增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例,挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题,利用语料库,提出了一种基于句子的文本特征选择,利用训练文本自动生成类别语料库,根据句内词元的类别相关性和句子位置信息,给出了基于句子类别相关度矩阵的文本分类方法,从而在分类阶段避免了分词处理,同时该方法对于词的多义性具有不敏感性。