多语言微博Hashtag生成及其应用研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:wqfzqgkvbavba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hashtag是用户标注在微博中的主题标签,利用Hashtag能够提高微博中信息组织和信息检索的效率,因此研究Hashtag的基础特性、生成技术、聚类和分类等技术具有重要意义。然而大多数的用户很少给自己所发的微博标注Hashtag,导致包含Hashtag的微博数量较少,这影响了Hashtag的实际应用效果。目前关于Hashtag抽取、推荐与组织等方面的问题,逐渐受到学术界关注,本文重点研究多语言微博的Hashtag生成及其在热点事件发现中的应用。本文通过研究多语言Hashtag的生成及聚类技术,提高微博中信息组织的效率和效果,并将生成的结果应用在H7N9热点事件的分析中。在Hashtag生成技术中利用K近邻思想,分别使用新浪微博和Twitter微博语料进行实验,从语料中选取与目标微博文本最相似的K条微博,从中选取合适的Hashtag。分别比较了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对中英文微博Hashtag抽取结果的影响。目前,Hashtag聚类技术的研究比较少,在Hashtag聚类研究中,本文主要对比了基于标签文档矩阵和基于文档合并的Hashtag聚类策略,在这两种聚类策略中使用了K-Means聚类算法、AP聚类算法和层次聚类算法,并对各种聚类策略与方法进行评估。在基于文档合并的Hashtag聚类策略中分别对比了潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对聚类效果的影响。在研究聚类策略、聚类算法以及文本表示方法对Hashtag聚类结果影响的基础上,找出Hashtag聚类的最佳聚类策略,聚类算法和文本表示方法。多语言微博Hashtag聚类结果描述的目的是从Hashtag类簇中抽取关键词,对不同的类簇进行关键性描述。目前的文本聚类结果描述方法主要有自动标引、自动摘要等,本文使用的关键词抽取技术属于自动标引技术中的一种。目前,关键词的特征主要为统计特征,对语法特征的研究较少。因此本文针对关键词的特点提出关键词的依存关系特征和句法特征,分别在中文和英文数据集中使用支持向量机(SVM)和逻辑回归(LR)分类器对这两种特征进行验证,加入这两种特征后提高了关键词抽取结果的F值。在Hashtag应用部分,从上述Hashtag生成研究、Hashtag聚类研究和聚类结果描述研究中选择最优方法,将其应用在热点事件发现中。首先对不包含Hashtag的微博生成Hashtag,然后对Hashtag进行聚类并从中抽取关键词,最后将聚类结果可视化展示。另外将微博发布的时间因素也进行了考虑,并对全部语料的时间分布、主要类簇以及主要Hashtag的时间分布进行了分析。
其他文献
期刊
急性心源性肺水肿致急性呼吸衰竭,严重低氧血症是主要死亡原因之一,患者可以在较短时间发展为意识丧失,呼吸浅慢,点头样呼吸,甚至呼吸心跳骤停,常规氧疗和药物治疗对呼吸明显变慢的
思想政治教育,本身作为一种文化存在内在于文化软实力之中,是国家文化软实力的重要组成部分。习近平总书记强调,提高国家文化软实力要努力夯实国内文化建设根基,“从思想道德
高等职业教育作为我国高等教育的重要组成部分,得到了国家教育部和社会的一致重视,为我国的高等教育的普及做出的贡献也是功不可没的。改革开放之后职业教育更加进入了一个快
<正>正方体的展开与折叠问题是初中数学中的常见问题.这类问题对学生的空间想象能力提出了较高的要求,本文总结了几种方法,与大家分享.我们知道正方体的展开图共有11种.它们
企业管理中心与生产管理需要各方面的配合,要做好企业内部各部门各工作岗位的协调,同时要做好企业外部的信息与资源的合理调配与运用,最终形成精益生产管理的优质成效。本文
目的了解吉林市三甲医院ICU护理人员道德困境、职业倦怠的现状,并提出解决问题的方法。方法对吉林市5家三甲医院随机选取ICU护理人员进行道德困境和职业倦怠的问卷调查。结果
分子泵是半导体、真空镀膜等行业的基础关键设备,其技术和市场长期为国外巨头所垄断。本文针对其研发和应用中所存在的部分难点问题,包括泵体与轴承的散热、振动和噪声的抑制
民宿作为现代酒店的鼻祖,其乡土文化表达形式的研究,是旅游经济学中的重要组成部分,同时对民宿的经久发展具有重要的现实意义。"民宿"乡土文化的表达,是其理性开发,传承和保
目的研究环孢素联合十一酸睾酮对慢性再生障碍性贫血患者T辅助细胞水平的影响。方法选择在该院接受治疗的慢性再生障碍性贫血患者86例作为研究对象,根据患者治疗方案不同分为