论文部分内容阅读
“流行词语”作为对语言的一种评价,体现出社会民众生活的变迁,反映出社会的发展进步。目前关于流行词语的排行榜有很多,但类似的评选和发布太多,水平参差不齐,而且以往流行词语评选工作基本都是由专家们依靠自身的语感和知识面从大量的资料中人工评选出来的,人为因素起了决定性作用,费时费力。所以用计算机辅助研究流行词语,来进行科学有效的评选是迫切需要的。同时,计算机获取评选流行词语无论对语言学方面还是中文信息处理方面的发展都会有很大的促进作用。 本文提出的流行词语计算机获取模型,将机器获取和人工判定结合起来,以从网上下载的网页的文本内容为研究资源集合,对词语的流行属性做了定性定量的分析研究,建立了流行特性模型,认为流行词语应该具备三个最基本的特性: 1.在研究的时间范围内词语的被关注程度有明显的上升过程; 2.该词语的被关注程度明显提升后进入相对平缓的流行阶段; 3.在流行阶段中被关注的程度达到最高点。 在此定义的基础上,引入词语属性定义与量化方法,并配合词语历时走势曲线图,设置淘汰机制与评分机制,先淘汰掉不具备流行特性的词语,然后对剩余词语进行评分排序,建立起了流行词语计算机获取模型,实验得到了不错的结果,获得了候选流行词语,验证了流行词语属性规范的合理性与获取模型的有效性,为机器辅助判定词语特性提供了参考数据,更为专家们提供了在少量高质的候选词语中人工选择与确定最具阶段性流行特性词语的便利。