论文部分内容阅读
由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模型的方法。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价短语识别算法后,显著地提高了评价短语识别的准确率和召回率。未登录词的学习算法直接利用评价短语识别的标注样本,具有较强的可行性。