论文部分内容阅读
中文微博命名实体的有效识别对使用微博进行社会舆论监测具有重要意义。鉴于微博更新速度快、语言不规范、噪声多,使得命名实体识别成本高、识别效率低。针对这些问题,提出基于众包标注的中文微博命名实体识别的方法。对众包工作者的能力进行评估,使用最大期望算法(EM算法)对评估后的能力值进行分析学习,过滤掉每个标注者的噪声并对众包标注的结果进行优化,从而确定最后的命名实体。实验结果表明,该方法能够有效地提高中文微博中命名实体识别的准确率。