论文部分内容阅读
0引言随着大数据时代的到来,如何从海量数据中发掘出对我们有用的知识,已经成为摆在相关领域学者面前最迫在眉睫的问题。虽然我们处在一个多媒体交互的时代,网上的音视频数据越来越多,社交网络中的文本信息也呈现出许多时代特点,如:新词、自造词、假借词等未登录词密度较高;词法、句法等不合乎语言学规则的现象频繁;一些以前从未出现过的"未登录词",一夜之间流行于网络的各个角落,成为文本数据挖掘必须面对的时代课题。