基于词语权重改进的朴素贝叶斯分类算法的研究与应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:kalok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是Internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息。RSS阅读器的出现无疑在一定程度上解决了这个问题。同时,使用Web文档自动分类技术可以更加有效地组织和管理Web资源,提高信息检索的效率,它目前已成为Web挖掘的研究热点之一。 朴素贝叶斯分类模型以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。目前对于它的研究工作主要集中在探讨它的条件独立性假设和如何改善其性能方面。 本文利用加权朴素贝叶斯算法来改进其分类性能,同时考虑到传统权重计算方法TFIDF存在一定的缺陷,提出了一种新的权重计算公式TF—IDF—RTC,该方法将特征项与类别之间的关联性考虑到了权重计算公式里面,用来突出那些在类别中作用比较大的特征项,实验证明是可行的。 文中将RSS技术与朴素贝叶斯分类算法进行了一个很好的结合,构建了一个自动发布系统。该系统利用RSS技术收集信息源,对通过解析RSS摘要得到的一些内容利用朴素贝叶斯分类算法进行信息条目的分类。该发布系统已应用于功能性纺织业界信息的收集与发布中。
其他文献
渤海海域在地理位置的作用下,每年冬季都会有海冰生成。同时由于渤海处于亚热带季风气候区内,受季风气候的影响每年的冰情都不相同。冬季的海冰会对海上的生产运输产生影响,
关联规则挖掘作为数据挖掘中的一个重要问题,已经广泛地应用于各大商业领域,成为数据挖掘中最主要的研究内容之一。多维关联规则作为关联规则的一种重要形式,在近年来也得到
随着计算机和网络技术的飞速发展,多媒体信息的复制、存储和加工变得越来越容易实现,如何判定数字多媒体信息的真实性和完整性也成为了一个亟需解决的问题,基于数字水印的认
随着信息技术的快速发展,数据采集和存储技术开始广泛应用于人们的生产生活,很多领域都积累了大量的数据。所获取的数据正在以指数级的速度增长。然而这浩如烟海的数据只有部
互联网技术的迅猛发展,为传统的易货贸易提供了信息共享和支付交易的新平台,大大提高了传统易货交易的可操作性。以债务链为基础,用物资链解决债务链问题的易货贸易模式,能够
通过BREW项目过程中不断的开发和维护我认识到,如果能有一个通用的BREW应用引擎能够支撑大多数的BREW应用,那么我们就能大大缩短开发和维护的时间而达到事半功倍的效果。正是
数字化信息的爆炸性增长,对存储系统的性能、扩展性和可用性等提出了较高的要求。磁盘阵列(Redundant Array of Independent Disk, RAID)作为存储系统中的核心存储设备,其以可靠
随着网络和信息技术在银行和电子商务等领域的广泛应用,人们对信息安全的要求越来越高。传统的信息安全技术,如防火墙、入侵检测、病毒防范等从外部对系统进行防护的方法已不
随着网络融合、通信市场的开放,电信市场上形成了激烈的竞争格局。这些都要求能够快速、灵活提供业务的网络管理能力。在这种情况下,网络管理系统需要由固化、面向结构、面向
随着科学技术的发展和人类社会的进步,人类从对自然的研究发展到对社会的研究,又发展到对人脑思维的研究,而脑电的信息处理研究正是这方面的典型领域。小波分析作为一种新的