Web挖掘与中文Web分类技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bluelink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文系统论述了web挖掘理论和技术,并着重研究了中文web分类技术及其实现,该文主要工作内容和研究结果包括如下: 1.该文在中文分词预处理上,将基于统计的生词发现和基于字典的机械切词相结合,有效解决了web上出现的大量字典中未包含词如人名,机构名等的识别和切分,最大限度的消除中文信息处理的信息瓶颈. 2.该文在词的类间概率分布的基础上,引入分布函数的区分度和相似度,将噪声词的去除与保留词的聚类相结合,提出了一种新的文本特征选择算法.该算法与目前各种特征选择算法相比具有明显的优势,同美国Utexas大学的InderjitS.Dhillon等人在国际数据挖掘会议KDD 2002上的论文结果相比较,在实验环境完全相同的条件下,100个特征值下即可达到89﹪以上的准确率,分类准确率平均提高了近10个百分点. 3.该文在系统系统研究web挖掘和分类技术的基础上,利用该文提出的特征选择算法,结合HTML结构的区域信息,设计并实现了一个中文web分类原型系统,并使用北京大学提供的中文web数据集对该系统的性能做了分析测试,同时与新加坡国立大学Ji He等人的中文web分类研究结果做了参照比较.
其他文献
TTIB(透明带内导音)技术是一种高效率的频谱技术,它可以抗短波移动电台系统上的多径衰落。与其它的抗干扰技术相比,TTIB能同时抑制叠加在信号上的随机相位和幅度调制,将TTIB
自动音乐记谱是指利用计算机技术将一段音乐信号转化为乐谱等符号表达形式的过程,现已在音乐辅助教学、即兴音乐创作等方面广泛应用。由于多音音乐中存在严重的频谱重叠现象,实
大量的上下行不对称分组业务是第三代移动通信的重要特色之一,如何在上下行的每个方向保证业务实时需要的带宽、时延和质量,这对无线资源分配的自适应性和灵活性提出了更高的
Smac(secondmitochondrialactivator0fcaspase,即caspase的第二个线粒体激活因子)也被称为DIABLO(directIAPbindingproteinwithlowPI,即低等电点的IAP直接结合蛋白),全长239个氨
语音增强算法在助听器,蓝牙耳机等听力设备和手机通讯等设备中一直有着很重要的应用价值。随着人工智能技术的发展,新一代的智能设备,如智能音箱,智能耳机等设备的兴起使得远场语
该文介绍了MPLS系统的原理及特点,并对MPLS和QoS的现状进行了分析,展望了其今后的发展趋势.文章的重点是MPLS QoS的两个方面,直接实现QoS的区分业务(DiffServ)和间接实现QoS
现代企业会计的高效性需要要重视完善内部会计管理制度,本文针对企业内部会计管理方面的问题论述企业内部会计管理制度的制定原则以及具体策略,从创新工作形式,明确工作职责
该文结合对GMPLS体系结构和相关协议的讨论,重点论述采用光纤端口交换的λ路由器基于GMPLS的控制协议的设计方案,包括信令协议的通用流程,以及λ路由器特有的保护和恢复方案
本文以油蒿不同地理种群(居地群)为研究对象,探讨了油蒿种内分化及油蒿对土壤水分异质化的响应。 1.采用随机扩增多态性DNA(RAPD)方法对油蒿7个居地群研究表明:15个随机引物
射频识别技术(RFID)最大的特点就是可以无接触地以无线射频的方式完成通信,达到自动识别的目的。由于在应用射频识别系统的环境中,那些非授权的阅读器可以对射频标签进行非法