基于Web的中文文本挖掘技术的研究及实现

来源 :中南大学 | 被引量 : 0次 | 上传用户:c1s2d3n456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的高速发展,信息爆炸时代也随之到来。由于Internet的开放性、动态性、异构性使得用户很难快速、准确的从WWW上获取所需的信息,因此如何有效的从网络上获取有价值的信息成为当前研究的热点。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在、有价值的知识。本文主要研究中文Web文本挖掘技术。本文首先介绍了Web文本挖掘的研究背景、研究意义、研究现状以及相关的理论知识。其次,研究了Web文本信息提取问题。本文根据Web页面的特征,在分析其结构的基础上,设计并实现了一种利用网页的DOM树结构基于统计的网页有效信息提取方法。该方法有效地过滤掉了首页类型、图片类型以及框架类型的网页,并有效的剔除主题型网页中的标签、广告、图片等内容,保留网页正文及相关信息。接着,本文对传统的权重计算算法TF-IDF进行了分析,并针对其不足之处,在综合考虑特征项的类分布信息和文本语义两个方面的基础上对该算法进行了改进。并将TF-IDF算法以及改进后的算法应用到KNN分类中进行实验,实验结果证明了该算法的有效性。最后,在基于以上研究的基础上,构建并实现了一个中文Web文本挖掘系统的原型—CWTMS(Chinese Web Text Mining System)。
其他文献
随着计算机网络和多媒体技术的迅猛发展,人们遇到的视频信息也与日俱增,如何从海量的多媒体信息库中找到需要的多媒体信息已经成为一个重要的课题。传统的基于文字的检索方法
传统的网站只是在页面上使用计数器进行简单的访问者数量的统计。随着网站运营规模的扩大,依靠这种简单的数量统计并不能真正对网站运营状况做以全面的统计,难以为网站运营提
早期的软件开发主要仅依靠事件及其动作的驱动来设计,使得编制出来的软件在数据处理、程序功能与显示代码等各部分逻辑不很清晰,系统的耦合度也过高,不利于开发和维护。MVC模式
CamShift跟踪算法是国际机器视觉领域最近几年才发展起来的新颖算法,它以随机颜色概率模型为基础,以跟踪目标的颜色分布为特征,在视频的相邻帧之间通过直方图匹配来进行视频目标
汉字数目庞大、结构复杂,手写汉字的形状千差万别、风格各异,这使得手写汉字识别成为当前一个研究难点。目前,脱机手写汉字识别还处于发展阶段,现有的OCR(Optical character
随着国内网络游戏产业的蓬勃发展和政府机构对网络游戏行业的大力扶持,国内市场对网络游戏的需求越来越多样化。目前流行的网络游戏,多数类型角色扮演类。该类游戏起源较早,
无线自组网是由一组带有无线收发装置的节点组成的通信网络,且不依赖于任何网络基础设施。网络中的节点可以相互交换信息,当节点不在彼此通信范围时,可以通过中间节点中继来实现
本文以提高绘图机数据传输率为目的,通过裁剪普通Linux操作系统,最终获得绘图机需要的嵌入式Linux操作系统。本文首先介绍了嵌入式操作系统和嵌入式Linux,然后详细介绍了目前
在情感表达中,人脸表情的变化是最为直观也是最为基础的一环。因而,也成为情感计算的重要一环。本文所论述的人脸表情识别研究就是基于这样原因,以人脸的不同表情为研究主体,
我国物流业目前急需解决的问题,是如何实现物流园区内各个相对独立的业务系统的无缝整合,避免重复建设,消除“信息孤岛”,发挥物流园区产业集约化经营优势。论文依托哈尔滨公