基于序列数据挖掘的中文网页特征选择方法

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:z57989503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明。该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意叉的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.
其他文献
伍如良会长在湖北省政府部门任职三十余载,对物流研究颇深,一直很关注物流实践。经过几次约访,我们终于见到了他。    现代物流将改变生产、生活方式  记者:伍会长,目前人们对现代物流与社会生产方式、生活方式之间的关系还不太了解,您能不能作些介绍?  伍如良:好的。正如你所说的,目前人们对现代物流与社会生产方式、生活方式之间的关系还不太了解。其实,现代物流与人们对传统物流的理解有着质的区别。现代物流泛
近年来,我国电子商务发展迅速,转眼已经成为了销售领域的一匹黑马。电子商务的发展离不开互联网络以及物流业的支持。本文基于电子商务物流的发展特点,简单阐述了距离控制的重点
讨论了中立型方程ddt[x(t)-R(t)x(t-r)]+P(t)x(t-r)-Q(t)x(t-δ)=0,的振动性,其中P,Q,R∈C([t0,∞),R^+),r,r,δ∈(0,∞),得到若干新结果。
目的格尔德霉素(Geldanamycin)属于苯醌胺莎类抗生素,其作用靶点为热休克蛋白90(Heat Shock Protein HSP90),细胞水平实验表明格尔德霉素对肿瘤细胞有明显的杀伤作用,但动物实验中发
本文从楚辞的语句形式("兮"字句)、曲式构成的基本单位(四句"歌节")和乐章结构的音乐处理手法("乱"、"少歌"、"倡")等方面,论证了楚辞的"乐体文学"特性,并对其中包含的"文体"
国际财务报导准则(IFRS)即将成为全球资本市场唯一且最重要的共通语言,国内各部门及领域,从金融主管机关、会计制度的建制机构(会计研究发展基金会)、会计教师乃至各级会计从业人
目的通过对缺血性脑血管病患者的CT诊断分析出CTA是一种有效无创性检查,并使这种检查方法得以推广。方法对本院2010年1月——2011年12月期间的50例患者应用多排螺旋CT血管造影
目的:探讨生物反馈盆底肌肉训练治疗女性压力性尿失禁的效果。方法:选取2012年5月-2014年10月我院女性压力性尿失禁患者50例,对所有患者实施生物反馈盆底肌肉训练,评价并比较训练
对亚硝酸钠态密度,能带结构,电子密度进行了第一性原理计算.通过对态密度的分析,发现在铁电相氮原子的2p电子和氧原子的2p电子之间存在强烈的轨道杂化.对电子密度和能带的分
本文阐述了推行全面预算管理对路桥施工企业的重要意义,对路桥施工企业全面预算管理存在的问题进行了分析,并分别从加强培训、改进编制方法、加强过程控制、与管理信息系统相结合等方面提出了提升路桥施工企业全面预算管理的对策和建议,推行全面预算管理为手段的精细化管理已成为路桥施工企业提高市场竞争力的重要手段。而全面预算管理是一个不断提高、不断完善的过程,只有形成共同提高、共同管理的意识理念,才能切实提高路桥施