论文部分内容阅读
在用户短文本中,意思相同的句子有多种表述方式,这些句子中存在很多与句意无关的信息,称为无关语。针对一般方法无关语识别准确度不高的问题,论文提出了一种通过二阶隐马尔科夫模型来自动识别用户短文本中无关语的方法。本方法在建模过程中将词本身、词性以及词的相对位置作为特征来对隐马尔科夫模型进行扩充。实验结果表明,论文给出的用户短文本无关语识别方法可以避免对训练文本进行手工编写规则的限制,且在准确率和召回率方面均有一定程度的提高。