基于语义权重和贝叶斯的中文短文本增量聚类算法

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:xfjs08jx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类主要目的是以无监督机器学习方式将文本划分为多个类,每个类包含相似度较高的文本,类与类之间有较低相似度。中文短文本则是随着微博等用户量大、发表量大的社交网络发展而在我国互联网迅速增长的文本类型。对此类文本进行挖掘,可以及时发现网络中的热点话题,发现、预测事件,为企业、政府等机构提供决策支持。但由于中文短文本较短,一般不超过150字,使得传统特征提取方法提取的特征过于稀疏。中文短文本内容形式多种,有大量新词和新语法,如果忽略语义进行聚类效果不佳,而如果使用完整语义分析则容易导致算法效率过低。  针对中文短文本的特点,本文主要对中文短文本特征提取方法、相似度度量方法、增量聚类方法进行研究。  首先,本文通过语义权重模型,在保留语义分析的优点的同时,简化语义分析的算法。由于两个中文短文本中动词和名词大量相似很可能代表着两个短文本表达的意义相似,通过制定不同类型词语相应的权重规则,把句子中名词、动词等重要的词的权重提高,把语气词等非重点词的权重降低,可以有效提高特征提取的准确度。  其次,由于中文短文本中通常重要的名词词长较长,出现次数较多,本文在短文本中引入词长、词出现次数等参数,在语义权重模型的基础上提出一种短文本相似度度量方法。然后结合贝叶斯算法,提出一种基于语义权重和贝叶斯算法的相似度度量方法,可以有效计算文本间、文本与簇、簇与簇之间的相似度。为解决聚类开始时文本较少,样本数量不多产生的问题,文本对算法进行修改,提出一种动态相似度度量方法,可以较好适应聚类期间文本数量变化。  再次,本文在语义权重模型和贝叶斯算法的基础上进行增量聚类的研究,使得模型可以增量增加文本数据。根据文本聚类结果,算法可对相似的类别进行合并,以修正文本提交顺序变化引起的聚类结果变化。  最后,本文用实验对算法进行验证,与基于字符串的层次聚类算法、基于TFIDF的K-Means聚类算法、基于KLD距离的短文本聚类算法进行比较,对实验结果进行讨论,证明算法具有较好的准确率和召回率。  
其他文献
社会化标签已经成为用户管理、组织、共享网络信息的主要工具,也是许多社交网站及社区网站的基本功能。大量的社会化标签提供了来自用户对网络对象的丰富描述,在很大程度上可以
随着经济的发展和技术的进步,我国拥有了世界上最多的移动终端用户,支持移动接收的多媒体广播服务正扮演着越来越重要的角色。CMMB[1] (China Mobile Multimedia Broadcastin
共享交通领域发展最成熟的系统是自行车共享系统,该系统中站点选址方案的优劣决定了可覆盖用户范围和共享效率。浙江大学ESE工程中心研发的一种可用移动设备搜索、租借、支付
学位
无线传感器网络(WSN,Wireless Sensor Network)是一种新型的网络,是集信息采集、信息传输、信息处理于一体的综合智能信息系统,广泛地应用于国家安全、航空航天、军事侦察、环境
随着微电子技术、网络技术、信息技术、生物技术、材料技术的迅速发展,基于柔性电子的人造器官技术逐渐成熟,人造器官得到越来越多的应用,其控制软件的不断复杂化、精细化,操作系
本文依托于国家自然科学基金(41072245):面向矿产预测的分层混合模糊-神经网络敏感性分析。  地球化学、遥感、地质等空间矿产数据具有小样本、多源、离散和连续数据并存的
快速增长的网络使用率,带给大家更广阔、方便的沟通方式的同时,也带来了新的问题。研究数据显示,信息与通信技术领域耗能已占到全球能量消耗的2%到10%。鉴于能源成本的上升和
贝叶斯网络(Bayesian Network,BN)近年来被引入到fMRI数据有效连接的研究中,它通过计算脑区间的条件依赖关系来探索大脑的有效连接模式。由于它可以作为一种完全数据驱动的全
近年来,随着经济的发展和生活水平的提高,图像和视频在人们日常生活中应用的越来越广泛,尤其是在视频监控领域的应用。随着人们对图像质量的要求越来越高,智能化高清监控时代已经