面向行业搜索引擎的WEB文本挖掘技术研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:grchenpk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富的信息。怎样在浩如烟海的信息中找出自己真正感兴趣的话题,就必须进行WEB文本挖掘,WEB文本挖掘成了数据挖掘的一个很有前途的研究方向。本文以甘肃省自然科学基金“面向行业主题层次聚类搜索引擎的实现”的研发为背景,实现了面向人名的聚类搜索引擎,重点研究了聚类搜索引擎的WEB文本分类聚类技术。在研究过程中,本文在充分学习研究前人工作的基础上,结合IR(Internet Retrival)和信息抽取及数据挖掘的相关知识,提出了补偿式信息抽取的主题文本分类算法,实现了面向人名的聚类搜索引擎的WEB文本挖掘的过程。与Vivisimo相比,由于这是一种针对面向行业领域的应用,其分类聚类的效果非常好,实践证明这是一种行之有效的方法。
其他文献
在计算机信息技术飞速发展、信息化系统广泛应用的今天,报表是办公自动化及管理信息系统、专家系统,决策支持系统等系统中信息处理和交互的主要方法和手段之一。本课题以林业
随着市场经济的发展,企业信用成为一个越来越值得关注的问题,如何才能更加客观、准确而全面地评估企业的信用也自然成为了一个越来越重要的问题, 过去研究企业信用,一般都忽略
卡通是一种以绘画等造型艺术为主要表现手段的艺术形式,现已成为当今人们最喜爱的媒介传播形式之一,广泛应用于电视动画片、动画电影以及游戏开发等领域中。 渲染技术可以
利用低压电力线路进行高速数据通信无需另外布线,安装和使用方便,成为宽带网络多元化的发展方向之一。但目前国内电力线宽带接入终端(基于Intellon51X1芯片)只提供MAC层管理接
MIPS的意思是Microprocessor without Interlocked Pipeline Stages,即无内部互锁流水级的微处理器,它是世界上很流行的一种RISC处理器。与CISC相比,RISC的设计周期更短,设计也更
本文主要讨论了三维几何网格模型的几何压缩算法的现状。并针对目前拓扑压缩算法大都仅适用于三角形网格的现状,提出一种新型的无损压缩算法以及其实现方法。该算法的特点如下
频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。本文对大量频繁项集挖掘算法进行
随着面向服务架构SOA(Service-oriented Architecture)的发展,Web服务组合已经应用到日常生活的各个领域。用户在使用Web服务组合时,需要提供一些个人隐私信息以完成必要的业务功
基于案例的推理(Case-Based Reasoning,CBR)以完全不同于基于规则的推理(Rule-Based Reasoning,RBR)的方式在人工智能的众多技术中独树一帜。CBR可以理解为使用先前的经验来解
随着我国第一个全国性下一代互联网CNGI核心网CERNET2正式开通,IPV6下的各项应用成为学术、商业界研究的热点。作为IPV4协议下保障网络安全的重要环节—防火墙,是否适合在IPV6