论文部分内容阅读
媒体流行语是指在报纸、电视、广播、网络等媒体上迅速盛行、广为传播的词语。年度媒体流行语能够真实反映并高度概括一年当中的国内政策举措、社会重大事件、百姓关注焦点以及国际风云变幻。不同年度的媒体流行语的变迁可以反映社会的动态变化和大众心理的变迁。媒体流行语的获取研究是语言动态监测工作的重要部分,具有重要的学术价值和深广的社会文化意义。本文对媒体流行语获取方法进行了深入研究,所做的主要工作包括以下几个方面:第一,对媒体流行语的特征分析。分别对媒体流行语各个流行状态进行分析研究,建立媒体流行语的流行特征模型。第二,提出一个自动判定媒体流行语的评分模型。引入词语的常用度属性、时间属性和变迁属性,进而量化这些属性得到媒体流行语的评分公式。按照候选词语的评分值和历时走势曲线自动获取媒体流行语。第三,设计并实现年度媒体流行语获取系统。该系统利用网络爬虫下载2007年度五大门户网站(网易、搜狐、新浪、腾讯、Tom)的新闻网页(约10,642 MB)为研究语料,并对其预处理后进行文本切分,然后对切分得到的所有词串进行过滤处理,最后利用本文提出的流行语评分模型进行筛选得到年度媒体流行语。第四,在获取候选词语集的过程中,提出一种统计与规则相结合的获取方法。首先基于全切分方法获取所有可能的词串,然后利用基于语言学知识的过滤规则、垃圾串过滤规则和基于TF·IDF权重过滤规则依次对所有词串进行过滤,得到候选流行词语集。本文研究的方法和设计的年度媒体流行语获取系统,已经应用于国家语言资源监测与研究中心网络媒体语言分中心2007年度媒体流行语的提取和发布。并取得不错的效果,从而验证了媒体流行语特征模型的合理性与自动获取系统的有效性。本系统能为媒体流行语发布提供客观、真实和高质量的数据,节省大量的人力物力。