文本数据挖掘方法的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:chenming000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对文本挖掘中一些较为关键的问题进一步展开了深入讨论,工通过实验比较给出自己的方法.这些问题包括1、如何利用各种评估函数估计文本中单词的重要性,从而调节单词的权重,以提高分类精度、2、如何利用调节单词权重的方法提高Bayes文本分类器的精度,如何取消朴素Bayes网络中的特征独立性假设,用启发式方法确定Bayes网络结构,在不过分牺牲计算复杂度的情况下尽量反映结点之间真实的依赖关系,以及怎样在缺乏训练文本的情况下用EM算法进行Bayes无导师学习3、怎样利用类别等级树以及等级分类技术,构造多个局部分类器以代替单一的全局分类器,改善分类效果.该文还讨论了作者设计开发的实验性文本分类系统.我们利用此系统进行了上万文本规模的分类实验并对结果做了仔细分析,提出了我们独立研究摸索出的一些规律和定式,使分类的速度、质量、稳定性都得到提高,也为今后的文本分类研究提供了几点有益的经验.
其他文献
计算机网络的广泛应用对网络存储提出了越来越高的要求,而近来一种新型的网络结构——存储局域网(SAN)为此提供了一种解决思路。国外的许多企业都把SAN作为未来网络的发展方向,并
提供端到端的延迟保证是Internet能够支持分布式多媒体等实时应用的先决条件之一.目前,IETF为此而提出的解决方案或者能够满足不同应用的特定延迟要求,但不具有可伸缩性(Ints
该文在参考了国内外网络安全技术研究最新发展动态的基础上,提出了主机网络安全体系结构,并对其中的关键技术:入侵检测、访问控制、加密传输和身份认证进行了比较详细的总结
企业资源计划(ERP)是从制造资源计划发展而来的.针对传统ERP系统的不足,该文提出了基于多Agent的柔性企业资源计划(F-ERP)系统的模型,并对该模型做了深入的研究和探讨.论文的
该文首先论述了课题相关的概念和技术扫展现状.其次对空间决策支持系统的构建方式和知识库的组织结构及两者的关系进行了分析,提出了一个适用于智能化SDSS的空间知识库系统模
本文对具有Windows风格的实时测控软件的设计与实现方法进行了系统研究,并结合新疆吐哈油田井下工具试验站计算机测控系统的研制项目,完成了该系统的软件设计和实现。系统性能
Internet是世界上最大的互联网,它提供了基于不同协议上的多种服务,而WorldWideWeb服务是其中应用最多最广泛的一种.Web的开放性和日益增长的规模,使其成为人们自由交流信息
该文介绍了一种在操作数据存储中如何优化选取实视图数据的方法——基于多查询图表示的状态空间搜索算法,并对实视图数据维护过程中如何消除数据的不一致进行了讨论.该文的重
在这篇论文中,主要介绍在合成单元实例选择方法中代价权值的确定方法、上下文信息特征的确定等方面作的一些改进和完善,并提出了一个衡量合成语音质量的标准.经过改进,TTS系
该文作者参与了WEBEDI/EIAJ的EXTEDI系统的研发工作.在研究和开发过程中,基于对Web-EDI系统特点的探讨和分析,提出了利用用户配置文件,自动创建数据库对象的思想,并以SQLLOAD