Web数据挖掘及其在网络新闻文本数据中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:linyuan0213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软件,硬件以及网络技术的发展,人们已经习惯将因特网作为信息发布与交流的主要载体,Web上的信息呈爆炸式增长。现在的万维网有超过8亿的网页,这些网页覆盖了人类活动的大部分领域。因此,它已经成为用以改变信息查找效率的数据挖掘研究的肥沃土壤。目前,我们主要通过两种方式来访问互联网:点击超链接和关键字搜索。这个过程是一种试探性的,往往不能让人满意。我们现在需要更好的支持来表达自己的信息需求,以比目前更具结构化的方式来处理搜索结果。数据挖掘和机器学习将在如何达到此目的方面发挥重要的作用。Web挖掘就是在这种背景下兴起的将数据挖掘技术应用到半结构化的Web数据上,针对Web数据的特点进行知识发现的一个新的研究领域。本文以Web上的新闻网页数据作为载体,来研究Web挖掘。Web挖掘可以分为三大类:Web内容挖掘,Web结构挖掘,Web使用挖掘。本文的研究侧重于Web内容挖掘,即Web挖掘在新闻网页文本中的应用。本文主要工作有以下几个方面:1.系统地探讨了Web挖掘和超文本挖掘的基本理论。2.实现了基于新闻网页内容挖掘所需的相关预处理技术。这些预处理技术包括数据的采集,网页内容的抽取,中英文的分词等。3.提出了一种基于MinApriori度量的相似性检测方法。该方法受关联规则在处理数值数据时的处理方式的启发,应用于文档相似度检测时,能极大地提高检测的速度,并能保持检测的准确性。4.将分类引入新闻网页中,方便用户浏览新闻。本文系统分析了能应用于文本分类的学习算法和降维方法,并通过系统的实验,分析了各种算法在文本分类中的表现,以及降维对分类效果的影响。最后实现了一个基于ComplementNaiveBaye方法的新闻文本自动分类系统。5.构建了一个网络数据在线挖掘服务平台。该平台集成了上述工作。通过网络数据在线挖掘服务平台,能在较少人工干预的前提下,实现对网络新闻数据的重复检测、分类等挖掘功能,这些功能的实现,能有效地提高信息的使用效率,该平台具有广泛的应用前景和潜在的商业价值。
其他文献
文章论述了反能量(负能量)和反物质的本质,提出了一些证实反光子存在和显示反能量物理性质的实验设计.
神学批判是霍布斯政治理论变革的前提,他只有从根本上驳倒教会权力的神学基础,才能赋予世俗主权者以绝对的权威,这种批判集中体现在《利维坦》的第四部分"黑暗的王国"。霍布
慢性阻塞性肺疾病(COPD)在我国是一种常见病、多发病,约60%发生营养不良[1],营养不良易损伤肺功能,严重影响生活质量,并可导致急性发病及病死率的增加.最新研究表明:提高COPD
目的为达到工作人员零感染目标.方法建立完善的规章制度、组织严格的岗前培训、实施科学的流程式管理、建立有效的监督机制、及时处理各种隐患、采取针对性个人防护方法.结果
农村基层民主建设对新农村建设和全面建成小康社会至关重要。我国农村基层民主建设中存在的经济发展水平相对落后、民主程序落实不到位、民主法制不健全、村两委之间存在分歧
在“辅助角方法”研究成果基础上,提出了绘制和建立关于偏置式Ⅰ型、Ⅱ型平面曲柄摇杆机构分析与设计之一整套性能与设计线图丛的理论构思;并应用Visual Basic6.0语言开发了可
文章就胡顺金主任对慢性肾衰竭病因病机的认识、辨证论治的侧重及理法方药的选择等方面的经验作一总结,同时分享其典型病例。
金秋,是成都最好的季节,在这天高云淡、秋风送爽的时候,成都迎来了一次信息时代的狂欢,一次国内外电脑“掌门人”的峰会,一次高科技播种“中国西部硅谷”的特别行动——’98
重症肌无力(myasthenia gravis,MG)是一种慢性自身免疫性疾病,病程长、病情重、迁延难愈、反复发作。MG发病率低,妊娠合并MG则更是罕见,发生率约为0.023%~0.073%。由于妊娠合并MG及治疗
我国行政法基本原则经历了指导思想、学习对象和逻辑起点的变化。关于行政法基本原则的学说可谓百花齐放、百家争鸣,但近期相关研究却进入了"冬眠期",并面临着法律移植、政府