面向智能服务的Web内容计算研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:asd03071128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB是人们获取信息与知识的重要途径,它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度,也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题;如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务;如何使用户获取个性化信息,从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为三类:内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data),因此也形成WEB研究的三个大的方向:WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面,它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象,研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上,重点研究并取得如下创新性成果: (1) 提出了一种增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法,针对Web内容数据的特点,提出的增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例,挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题,利用语料库,提出了一种基于句子的文本特征选择,利用训练文本自动生成类别语料库,根据句内词元的类别相关性和句子位置信息,给出了基于句子类别相关度矩阵的文本分类方法,从而在分类阶段避免了分词处理,同时该方法对于词的多义性具有不敏感性。
其他文献
微电子技术的不断发展尤其是微处理器的出现,引发了仪器仪表结构的根本变革,出现了各种采用微处理器的智能仪器,新的设计思想和新的集成电路不断涌现,智能仪器及数据采集系统
为揭示基坑冻胀破坏机理,利用现场监测手段分析北京某基坑冻胀事故现象.采用锚索测力计监测预应力锚杆轴力变化;利用测斜仪测量护坡桩深层水平位移;监测了寒冷冬季期间,堆土
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
石斑鱼为我国南海沿海各省海水养殖的重要经济品种。海南省因四面环海,地理位置具有独特的海洋资源优势,为海水养殖业的发展提供了丰富的资源保障,利用池塘养殖石斑鱼、网箱
医事法学专业作为新兴专业,在人才培养模式方面存在培养目标尚未达成共识、课程设置随意性较大、师资队伍结构不合理、教学时数客观不足等缺陷。鉴此,近十年来,哈尔滨医科大学对
目的:分析评价MRI在腰椎间盘脱出髓核游离于椎管内的临床诊断及价值。方法:比较56例腰椎间盘脱出髓核游离患者的MRI表现与手术所见。结果:手术证实56例患者中均为髓核游离。游离
教学管理是高校教学工作中的重要组成内容。为了适应高等教育的发展,各高校都相应地进行各种教学管理模式的改革。本文阐述了我校教学管理的现状,从大类招生培养模式、实行导师
据欧委会官网消息,欧盟成员国同意向2017~2018年受禽流感影响的意大利蛋类和禽肉生产商提供特殊的市场支持。欧盟预算总共将拨款3210万欧元,与之相匹配的是国家资金。
改革开放40年来,随着中国经济高速增长,城镇化稳步推进,城市群发展迅速,珠三角城市群、长三角城市群、京津冀城市群崛起成为国家级城市群,长三角城市群被称为世界第六大城市
文章首先论述了中华优秀传统文化的概念,其次探讨了大学生中华优秀传统文化教育现状,包括大学生自身存在的问题、高校存在的问题、社会环境方面存在的问题,最后提出了改进大