论文部分内容阅读
新闻话题检测与追踪技术(TDT)是当前信息检索领域与自然语言处理领域的研究热点。TDT自1996年被首次提出以来,在英文领域已经取得了很大的进展。
然而,由于中文处理的复杂性,TDT 在中文领域的研究成果不多,还处于起步阶段。
本文针对TDT的一个核心子问题,新事件检测 (NED),对中文新闻文档的新事件检测的方法进行了研究,并提出了包含切分,分类,比较的处理框架与流程。
中文文档处理,首先涉及单词切分的问题。新闻文档与其他文档的一个显著的区别是,新闻文档包含的命名实体词,新词特别多,考虑到这样的因素,本文提出了一种结合词语生成,统计规则和词典词识别的新闻文档隐马尔可夫切分系统。
当前的NED的处理方法是将新输入文档与所有文档进行比较,进而识别,这样做的一个突出问题就是识别效率非常低。本文提出了基于SVM分类方法的文档预先分类方法,在不失检索精度的前提下,能大大提高识别效率。
在文档比较阶段,本文提出了一种多文档表示模型,将新闻中命名实体词与非命名实体词区别对待,进一步提高了识别的精度。