数据清洗技术在文本挖掘中的应用

被引量 : 0次 | 上传用户:maomao147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,对于Web文本挖掘的研究主要还是利用相关特征值进行相关领域信息进行筛选,而无法识别部分信息中明显存在错误的信息或者明显和研究者不相关的信息。本文主要研究的是建立全新的面向XML的Web文本挖掘模型,采取数据清洗技术,就XML数据的模式级和实例级两大种类的数据质量问题来进行深层次挖掘,研究了一种新的算法用以提高文本挖掘的手段和能力,实现对Web页面文本进行有效和快速的挖掘。最后中利用Web的文本资料进行实验,证明该算法在文本挖掘中的可行性和有效性。全文共分四部分。第一部分:绪论。引入问题,介绍国内外文本挖掘和数据清洗方面的研究现状以及目前存在的问题;第二部分数据清洗与文本挖掘基本理论研究。首先,介绍了数据质量的概念和分类,并对数据清洗的基本理论做了详细的阐释。而后,简要介绍了文本挖掘的基础知识及一些相关技术规范,为后续章节打下理论基础。第三部分面向数据清洗文本挖掘方法的研究。并在结构化数据清洗研究的基础上,研究了专门针对半结构化数据的数据清洗方法,并对基于Web的文本资料中的相似重复数据进行数据清洗实现;第四部分结论与展望。总结了本文所做的工作以及对以后的研究做一些展望。
其他文献
桥梁结构是交通系统的重要工程结构,是生命线工程的关键部分,在地震发生后的紧急救援和抗震救灾、灾后重建中有着极其重要的地位。近年来,桥梁结构在地震灾害中破坏严重,大大
21世纪是我国体育课程改革与发展逐步深入与蓬勃开展的时代,“以人为本”、“终身教育”等理念与思潮的交相辉映,极大地推动了学校体育发展的历史进程。在此背景下,体育课堂
目的:探讨多学科协作护理模式应用于老年COPD患者的临床效果。方法 :选取2018年2月~2019年1月我院收治的106例老年慢性阻塞性肺疾病(COPD)患者,按随机数字表法分为常规组(53
从罗斯福“新政”开始,美国国内政治形态是“合作联邦制”。但是,到了20世纪60年代,“合作联邦制”出现了严重弊端。1969年上任的尼克松总统针对这些弊端着手“还权于州”、“还
利用定西试验基地2003年12月至2004年2月获取的地气相互作用观测资料,分析了陇中黄土高原冬季典型天气(晴天、阴天及雪天)和平均状况下的地表辐射能量平衡和土壤温度等微气象
通过文献资料法和逻辑分析法,比较中美中小学体育与健康课程标准在学习领域、学习水平划分、结构编排以及具体内容标准方面的异同。美国体育课程标准对我国的启示主要包括中
曾国荃在中国近代史上称不上重要人物,但作为湘军集团的一名重要将领,却也留下了特有的痕迹。本文对曾国荃在晚清为将、为官、办洋务的表现加以考察,试图展现其真实的历史形
目的探讨牛膝活性成分β-蜕皮甾酮对地塞米松诱导MLO-Y4骨样细胞凋亡的抑制作用及其可能的作用机制。方法 10μmol/L地塞米松(dexamethasone,Dex)作用于MLO-Y4骨样细胞,以PI3
有学者曾经指出,在思想政治道德领域中,认知与行为的分离是我们所面临的主要难题。这句话虽有些绝对,却在某种程度上反映出认知与行为统一的重要性及当前思想政治教育应承担
西方土地信托制度在促进土地资源保护和土地流转方面贡献突出,从推动我国农村地区土地健康、有序流转的视角出发,构建符合我国国情的土地流转新制度——农村土地信托制度符合