短文本聚类相关论文
随着互联网应用系统的广泛使用,微信、微博和百度等平台产生了海量的短文本数据,如何对这些数据进行有效的管理和运用成为自然语言......
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,......
敏捷开发是随着软件工程技术发展特别是为响应快速变化的需求而出现的一种软件开发方法,它可以在较短时间内响应用户需求。敏捷开......
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Fr......
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面......
随着社交媒体的迅速发展,短文本在如今很多互联网应用中变的非常普遍。它们逐渐成为人们日常生活中重要的信息来源,且其特点是:句子......
随着互联网的普及与发展,人们在各种网络平台上获取、生产信息。各大网络平台中随之积累了大量的Web短文本数据,这些Web短文本中蕴......
如何快速、准确地从海量网络数据中找到有用的信息,已经成为必须面临的一个重要问题。短文本聚类作为一种信息处理方法,成为挖掘数......
随着信息技术的不断革新,网民日常交流的形式越来越多样化。微博作为一种新型网络媒体,每天产生海量的文本信息,这些信息包含了对......
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上......
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有......
近年来,随着国内电子病历系统的普及,医疗文本的积累也越来越多。医疗文本中往往包含大量患者的重要诊疗信息,如疾病名称、症状、......
随着移动互联网技术的快速发展,网络数据交互的现象越来越频繁,而交互数据量也呈现指数形式增长。文本数据是这些交互数据的主要呈......
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短......
随着网络的发展和移动设备的普及,人与人之间交流变的更加及时、方便。短信、QQ、微博等社交媒体已成为我们生活中不可或缺的一部......
为了克服短文本的稀疏性和高维度性,同时提升文本聚类质量,提出了一种结合词对主题模型(Biterm Topic Model, BTM)与段落向量(Para......
伴随着Web 2.0技术的快速发展,用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带,......
高校学生评教对提高高等教育质量至关重要。学生评教的直接目的是对该门课程的任课教师的教学效果做出评价,但是更重要的是为了总......
文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征......
短文本由于词频过低,使用常规的聚类算法如K-means效果不理想,难得到可接受的准确度。而最近结合使用生物启发及聚类内部有效性测......
针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。......
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算......
本研究通过对在线问答社区中的用户提问进行文本挖掘,尝试对用户的心理科普信息需求进行了解并分类。通过网络爬虫程序收集国内知......
随着移动互联网的高速发展,搜索引擎、博客、微信等应用使得人们的生活和工作变得更加简单、高效,这些应用平台每天都会产生海量的......
随着时间的推进和网络技术的发展,一方面,人们的认知行为习惯在悄然发生变化,由早期的看书、读报纸演变成现在广泛利用社会媒体进......
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博......
随着现代人生活质量与生活水平的不断改善,旅游日益成为大众在节假日的首要选择,与此同时人们对旅游信息服务的需求也不断提升。在......
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息不仅丰富而且更新速度很快,但是各BBS站点的结构划分比较复杂而......
Web2.0的诞生和发展使互联网上的内容发生了巨大的变化。在Web1.0时代,互联网以静态网页为主,静态网页中的内容大都是长的、规范性......
针对用户生成内容中短文本特征语义描述能力弱和K-means算法对初始聚类中心选值的敏感性问题,通过维基百科概念、链接结构和类别体......
为解决微博文本呈现的不完整性、稀疏性及碎片化等特性,设计基于短文本聚类及用户评论情感分析的微博舆情系统;通过对短语消息流会......
Web2.0技术和移动互联网技术的高速发展催生了大量新型的互联网应用,如交互式问答系统、微信、微博等。这些互联网应用产生了大量......
社交媒体的广泛使用使短文本聚类成为一个重要的研究课题。为了解决由于短文本词向量的高维、稀疏性而造成的传统文本聚类方法应用......
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问......