中文文本聚类中特征选择算法的研究

被引量 : 0次 | 上传用户:ccwawa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我们可以很容易地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档。于是,人们对发展能够帮助用户有效地导航、总结和组织这些文本信息技术的兴趣越来越强。快速和高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,这种技术能够提供导航/浏览机制,或者,通过聚类驱动的降维或权值调整来极大地改善检索性能。因此,文本聚类研究成为当前国际上信息处理的一个重要课题,国内中文文本聚类的研究正处于初期,还存在许多问题亟待解决。本文我们对此进行了研究,具体工作如下:首先,我们对于现有的词语权值计算方法做了一定的改进,不仅考虑了文本中的词语概率信息,还结合文本语义等多方面信息,提出了一种基于多重因子加权的词语权值计算方法。实验证明这种方法能够很好的提高文本聚类的正确率。然后,总结了现有特征项选择方法的不足,从而提出了一种单词贡献度(TD)的特征选择方法。试验证明,这种特征选择方法能够提高文本聚类的正确率,从而提高聚类的整体性能,达到了有效降维的目的。其次,我们研究了文本聚类算法,k-means算法是一种简单高效的文本聚类算法,但它存在由于初始聚类中心选择不好时会陷入局部极小,得到的解是局部最优解,而不是全局最优解。为此,我们提出了一种改进的k-means算法,该算法可以提高聚类的稳定性并改善聚类结果。最后,我们在第五章进行了一序列的比较的实验。
其他文献
本文在对主题公园核心竞争力剖析的基础上,从产品创新和品牌经营两方面详细探讨了外包对主题公园核心竞争竞争力的促进作用。
以早籼米为原料,采用高温α-淀粉酶酶解淀粉制取麦芽糊精,然后分离提取大米浓缩蛋白(Rice protein concentration,RPC)并对其功能性质进行研究,为大米增值加工提供理论基础和试验
<正>关联交易一直是上市公司用以进行舞弊、操纵利润的工具之一。因此,为规范上市公司的关联交易,监管部门对关联方关系、关联交易的内部程序、会计处理及信息披露都有具体的
本文报告一个中型钢铁企业的主要大气污染物及其对周围环境的污染状况。作者通过调查发现,全厂以CO(一氧化碳)污染最为突出,焦化分厂以CO、H2S((硫化氢)、TSP(总悬浮颗粒物)污染为
当前,科学技术的迅猛发展对经济发展带来的深远影响正极大地改变着人类的经济生活和社会生活方式。科技革命正在孕育着历史性的重大突破,技术经济一体化趋势日趋明显,科学技
跨国公司的对外直接投资会对东道国的高新技术产业发展产生正面的影响,本文试图对这一论题给以清晰的表述。本文共分四章。第一章首先介绍了高新技术产业的界定及典型国家和地
<正>铜氨纤维制备实验是苏教版《有机化学基础》专题五中天然纤维通过化学手段改造为人造纤维的一个演示实验,其实验过程如下:向烧杯中加入5%的硫酸铜溶液,再加入10%的氢氧化
在保偏光纤的应用中,要想充分利用好其保持纤芯中传输的偏振光的偏振特性,一项关键的技术就是要能精确地确定保偏光纤偏振轴的方位角。本文利用侧视成像定轴原理进行仿真计算和
农业在中国整个国民经济中占有举足轻重的地位,农业保险则对农业的健康发展起着保驾护航的作用,因而对农业保险的研究具有重要的现实意义。中国的农业保险发展比较缓慢,相关
以氮、磷和盐度为影响因子,通过L33正交实验,研究了两种典型的可以引发赤潮的针胞藻类(赤潮异弯藻和海洋卡盾藻)在不同培养条件下的生长特性及藻类两种重要的抗氧化酶(超氧化物歧