基于短语表示学习的主题识别及其表征词抽取方法研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:liongliong545
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]从更具专指性和表征能力的短语语义表示角度,设计基于短语表示学习的主题识别及其表征词抽取方法.[方法]基于依存句法分析抽取短语构建短语序列,并将短语序列视作词序列,将用于词表示的表示学习模型扩展形成短语表示学习模型,得到短语的语义向量表示,并结合向量聚类方法形成短语语义表示视角下的主题识别方法;将短语以及根据聚类得到的对应主题类别号作为一个整体构建短语主题序列,设计形成主题短语向量表示模型,实现主题和短语在同一向量空间的语义表示并计算相似度,从短语语义角度抽取与主题内容相关的短语作为主题表征词.[结果]与LDA模型相比,主题间平均相似度最多降低了0.27,主题识别结果区分度更高;抽取的表征词与主题语义相关,具有专指性和辨识度,结果可读性和解释性更强.[局限]需要在不同领域及不同数据集上进一步验证该方法的有效性.[结论]所提方法在研究主题识别及其表征词抽取方面具有更好的效果,并可扩展应用到其他领域.
其他文献
为了确定桥梁结构在静载作用下的受力状态和工作状态,评定桥梁能否正常使用,详细阐述了跨西干渠中桥20m超低高度预应力混凝土梁的静载试验全过程.通过试验得出桥梁的跨中挠度和跨中截面应变的试验值与《铁路桥梁检定规范》中规定限值的差距,为桥梁加固、桥梁限速等提供依据.
用案例研究、从时序角度来对虎扑群组文化的动态演变进行分析,通过对虎扑群组过去事件和经验的功能性编组以及特定情境中的行为模式、偏好、符号的分析,发现文化生成与群组本
[目的/意义]技术融合已成为主流创新趋势,刺激着新兴技术的产生,理解并及时发现这种融合过程对制定发展战略有重要意义.[方法/过程]在专利数据上通过生长曲线识别出技术发展
通过对现阶段新农村建设下农村武术发展存在问题的分析,清晰地认识到武术运动在服务农村群众身心健康方面还有很大的提升空间和研究价值。文章阐述了现阶段新农村建设下发展
人类信息传达方式经历了口语、书写与印刷的发展过程,与之相对应的人类思维方式也经历了不同层次的抽象阶段.口语传达是个体间依靠语音符号达成的直接同一过程,思维方式上停
[目的]解决传统的空间co-location模式挖掘方法在研究类似污染源与癌症病例这两大类特征之间的关系时,会挖掘出大量用户不感兴趣的模式且只考虑模式的频繁性等问题.[方法]首
[目的]对社交网络进行有效的监管,在一定程度上把控和干预舆情的传播和发展变化.[方法]提出一种综合拓扑势网红度、传播力和关注度的意见领袖挖掘模型OLMT,由此可以从更多的
罗杰·赫姆斯特雷(Roger Hiemstra),1938年9月15日出生于美国密西根州。1970年在美国密西根大学获成人社区教育博士学位。其职业经历是:道格拉斯飞机制造公司计算机数据处理
[目的/意义]目前学界对科学家学术谱系繁衍的研究仍处于探索阶段,仅有少量文献尝试从外部环境角度对其影响因素进行分析.本研究构建了科学家学术谱系繁衍的影响因素模型,有助
[目的]提出一种划分模型解决微博热点话题下用户群体分类问题.[方法]从情感分析的角度入手,采用情感词典的方法计算用户文本情感值,并将文本情感值与用户文本向量表达相结合