中文文本聚类中的特征提取

来源 :南开大学 | 被引量 : 0次 | 上传用户:zhuzhutoutuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息处理技术的快速发展,文本聚类作为一种高智能的文本信息处理方式越来越引起人们的注意。特征提取是文本聚类中的关键一环,只有选择出好的特征才能较好地反映文本的类别属性,提高聚类效果。本文在参考前人工作的基础上针对中文文本聚类的特征提取进行了系统的研究,并对词频特征提取方法进行了改进,同时发现了中文文本特征在词性方面的一些规律,具体工作如下: 首先,在分析各种特征选择算法的基础上,本文对特征选择的词频方法进行了改进,既保证了文本向量的有效非零表示,又使得特征选择算法减少了对停用词表的依赖,减少了特征空间的维数,提高了聚类准确度。 其次,本文对中文文本特征在词性上的潜在性质进行了深入的研究,发现了中文名词特征的显著重要性,分析了产生这种情况的原因,并通过试验验证了这一结果。 中文名词特征的显著重要性可以应用在特征提取阶段,进行特征提取时优先甚至只选择名词特征;或者可以在聚类操作时,如运用k-means算法进行聚类操作时,增加名词特征的权重,提高聚类效果。 最后本文将上述结论在一数据集上利用k-means算法进行了实际聚类操作的应用,验证了结论的正确性。
其他文献
学位
随着Internet迅猛发展,电子政务的发展对技术提出了新的要求:如远程数据交互、异构平台上不同应用间相互通信以及穿越防火墙等。传统的数据集成方案和分布式计算技术存在着本身
过去评价电子设备尤其是计算机主要使用两个标准:价格和性能。现在能源消耗指标已经变得越来越重要,主要原因是由于电池驱动便携设备的大量使用,包括智能手机,掌上电脑和平板电
智能规划是人工智能的重要研究领域之一。用启发式搜索技术求解智能规划问题成为近年来的研究热点。“快速前向规划系统”(FF)是启发式搜索技术应用于规划领域的一个成功范例
随着移动终端的普及、无线定位技术的进步及移动互联网的发展,移动定位社交服务(Location Based Social Networking Service,LBSNS)作为一种全新的社交网络服务形式迅速产生
随着Web应用的快速发展,电子商务将向个性化、智能化、协同化的方向发展。作为现有电子商务技术的革新——Web服务的出现将改变目前电子商务的模式和内容,使得卖“服务”的概念
学位
组播技术实现了网络中点到多点的高效数据传送。因为组播能够有效地节约网络带宽、降低网络负载,所以在实时数据传送、多媒体会议、数据拷贝、游戏和仿真等诸多方面都有广泛
在移动计算环境中,移动主机具有移动性,移动主机与无线网络的连接状态具有多样性。这些特性要求服务于移动主机的移动数据库系统做出反应和相应的处理。在主动数据库系统中,
应用集成是当前信息化建设过程中面临的一个重要课题,主要用于解决实际应用中的“信息孤岛”问题。应用集成的目标是把分散的“信息孤岛”系统纳入到简单、统一的集成管理平台
随着Internet的日益普及,Web应用的复杂性不断地增加,其规模也在不断的扩大,对于灵活性、可靠性和个性化都提出了更高的要求,这就给Web应用开发带来了新的挑战。在现有的Web开发