Web文本数据抽取中文本预处理研究

来源 :跨世纪 | 被引量 : 0次 | 上传用户:wsl526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web文本数据挖掘中,Web文本数据抽取过程有着至关重要的作用,得到的文本挖掘结果的精度以及文本挖掘的效率都与该过程的结果密切相关,所以要减少需要处理的数据量以及提高挖掘对象对文本的表达能力。Web文本数据抽取是从网络中获得客户需要的文本信息的过程。本文对利用XML技术的文本数据抽取中Web文本预处理过程进行研究。
其他文献
目的应用妊娠患者的临床、生理、生化、形态学指标对输卵管妊娠进行早期鉴别诊断。方法通过Bayes逐步判别分析的方法筛选有意义的指标,建立输卵管妊娠的判别诊断模型与计量诊
本文将宏观系统方法论引入到水库调度问题中,探讨了水库综合利用的多种目标如何达到共赢。首次引入物理-事理-人理(WSR)系统方法,系统分析了水库调度的WSR过程,有利于解决水库调度
一张可再生原浆纸可以循环再生7次,相当于减少了6倍的森林砍伐一件旧衣服如果被回收利用,它将有机会通过处理变成清洁布、包袋、布料、线团、绝缘纤维….再次回到日常生活中;全球
幼儿园的教育已经不仅仅局限在幼儿园。关注周围环境、关注社会生活,积极利用大自然、大社会中有利的教育因素来丰富我们的课程内容,将幼儿园的课程真正与家庭、社区整合起来,将
“六一”儿童节即将到来,一系列的演出、比赛、亲子活动,让孩子们不堪重负,家长有苦难言。“上周我已经请了三个半天的假,这几天还得继续请。”昨日上午,唐女士致电本社24小时热线
企业党务思想政治工作的任务,就是要在上级党委的领导下按照党的领导下按照党的基本路线和方针政策,紧紧围绕企业的生产经营,引导和发动广大群众在企业发展中树立起正确的思
近些年,我国提出了发展素质教育的口号,特别是在理科教学中强调对学生科技素质的培养,科学方法的培养,以提高全民族的科技水平。物理教学中知识的要求和学生主观上全面发展的关系
随着计算机技术、网络技术的迅速发展,作为学校文献资料信息中心的高等学校图书馆在学校教学和科学研究工作中占有越来越重要的地位.相对于国内重点高校的图书馆而言,一些普
分析了Hypertable和Bigtable系统的主服务器工作原理,通过借鉴Bigtable系统的数据恢复流程,利用检查点技术实现了主服务器的故障恢复。
目的 了解广西食品中沙门氏菌的污染状况,初步确定易受污染的食品,为防范由沙门氏菌引起的食物中毒和食源性疾病监测提供科学依据。方法 在广西南宁等6个城市建立食品污染物监