MWEC:一种基于多语义词向量的中文新词发现方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:tianshui8085
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题.[方法]利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题.使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集.利用多语义词向量的语义相似度评估候选词进而获得新词.[结果]在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0(金融)、3.0(体育)、2.6(旅游)、11.3(音乐)个百分点.[局限]候选词生成策略着重关注子词的热度,低频词很难被识别出来.[结论]通过增强词向量的语义理解能力,利用多语义词向量对新词候选词进行剪枝,能有效提升针对中文社交媒体文本的新词发现能力.
其他文献
文章首先说明了“双减”背景下小组合作学习在初中地理教学中应用的价值,然后阐述了“双减”背景下小组合作学习在初中地理教学中应用的思路,最后论述了“双减”背景下小组合作学习在初中地理教学中应用的实践.
文章首先说明了生活化教学理念在初中地理学科教学中应用的意义,然后分析了生活化教学理念在初中地理学科教学中应用的现状,最后从以现实生活作为素材导入课堂教学、结合现实生活实例开展课堂教学、用教材理论解析生活中的地理现象、结合现实生活安排地理知识的巩固复习四个方面论述了初中地理生活化教学优化策略.
为了促进学生语文素养的形成,提高学生的阅读能力,文章首先从学校重视程度不够、教师相关经验不足、学生阅读兴趣低下、阅读评价方式单一四个方面论述了小学整本书阅读实施困境,然后提出了小学整本书阅读优化策略,包括开设规范的阅读课程、提升教师综合素养、推荐优质阅读书单、完善阅读评价体系.
本研究探讨了政府多方推进家长教育参与政策却不能收到实效的深层原因和应对策略.首先梳理了家长的“教育民心”及其不被重视的现状,特别是确认了忽视家长意见和作用的社会心理的存在.家长因缺乏存在感导致产生连锁效应:不被重视,进而难以发声,即使发声也少被倾听.这种连锁关系是阻碍家长难以平等、有效参与教育的深层原因.打破这一深层关系的关键是确立家长的存在感.为了夯实家长作为教育主体的存在感,抵制敌视家长的文化和争取社会认可成为重要课题.其次,就课题攻克方案,提出形象重塑与学术策略.形象重塑提出“教育公民”新形象以替换
[目的]为促进数据交易所安全合规发展,本文针对数据交易所场景下的数据交易风险、数据安全风险与基础安全风险,提出兼顾技术路径与机制保障的数据交易安全管控综合框架.[方法]运用文献调研法,梳理近几年国内外数据交易安全领域的技术与管理研究现状,结合数据交易所实践,提出技术与机制相结合的“TID-MOP”数据交易安全管控体系.[结果]“TID-MOP”综合框架设计了实现交易安全的“三分三合”核心技术架构,即“业务流、计算流、资金流相分离,通过区块链汇合流通环境”;“撮合实验环境与生产计算环境相分离,通过模型管理、