基于Web挖掘的网页清洗技术

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:meidoc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。
其他文献
文章首先分析了以XMLSchema语言为基础的MPEG-7标准在多媒体内容描述上存在的局限性和多媒体内容在计算机自动处理上的更多语义需求;然后结合MPEG-7标准,探索多媒体的OWL(OntologyWebLanguage)本体构建,具体包括低层次视频和音频描述符的OWL表示、高层次多媒体实体的OWL表示、多媒体片断分解的OWL表示。
提出了一种基于小波变换和奇异值分解的数字水印算法,将水印信息分为有意义水印(比如公司标志等等)和无意义水印两部分,根据水印信息以及设定的密钥,通过量化奇异值,实现数字水印的
车型分类是交通流检测系统的子功能,也是智能交通系统(ITS)中的重要环节.支持向量机方法被看作是对传统学习分类方法的一个好的替代,特别在小样本、非线性情况下,具有较好的泛
当归芍药散治疗妊娠腹痛验案二则任凤义,李国柱(辽宁省辽阳市铁道部第十九工程局中心医院111000)张仲景曾指出:妇人怀娠,腹中坠痛,当归芍药散主之。笔者在临床实践中,应用本方加味治疗妊娠
与说话人识别、连续语音识别相比,自动语言辩识是一个相对较新的研究,而且是一项较难的课题。与音素配位学相比较韵律是语言辩识的更有希望的一个语言辩识特征。论文介绍了一种