论文部分内容阅读
网络新闻文本的大量涌现迫切需要借助计算机进行自动处理。面向热点新闻的话题处理任务主要包括热点话题的识别、跟踪和演化分析,旨在实现自动发现热点话题、汇总相关报道、找到话题变化规律。目前,文本分类仍然是制约话题处理各项任务的关键技术,本文以其为研究重点,尝试基于不同文本表示模型进行文本分类,通过提高文本分类的性能,最终达到提升热点话题处理任务性能的目的。本文的研究内容主要包含以下四个部分:(1)文本分类问题的划分和描述方法在全面分析现有的文本分类方法的基础上,针对如何划分文本分类模型进行了尝试,提出了一种按照三个因素来描述文本分类方法的三维结构。进一步扩展后,提出利用6元组架构去表达任意一种文本分类方法。特别地,该架构能综合反映文本分类的实现过程及呈现结果。尤其是对基于话题模型的文本分类方法而言,该架构能表现出其它分类模式不能全面表达的内容。(2)基于支持向量机-决策树的多策略融合文本分类方法研究了文本分类中支持向量机和决策树的结合技术,综合考量影响决策树构建的4个因素(决策树的构造方式、样本规模、结构形式和类间距离),提出了一种融合多策略的SVM决策树构建方法,这样形成的分类器结构更加清晰、层次更少、更加适合分类需求,分类的时效性和准确性得以全面提升。(3)面向动态话题的热点话题演化方法话题周期中,内容的焦点和子话题的数目都是变动的,话题文本的动态性是无法回避的问题。鉴于此,对如何动态获取话题数目进行了针对性研究。提出了基于ILDA模型进行参数获取的方法,使得输入文本集可动态更新,更符合话题演化的需求。在此基础上构建的话题演化分析过程无须事先指定话题数,自动执行能力强,能达到设定的演化需求,对中英文语料的实验显示出良好的可移植性,具备实际应用能力。(4)动静结合的自适应话题模型分类能力提升方法分析了“大话题会变得更大”这一问题的产生原因和解决方法,指出文本特征在话题演化过程中呈现出“动中有静”的现象,提出了一种融合了动态和静态特征的自适应话题模型,加入的静态权重因子提升了话题的稳态特征的权重,而源自重采样过程的动态权重因子则可以提升临近周期内关键特征的权重,这一定程度上削弱了话题倾斜问题,对话题细分类方法给出了一种有益的尝试方案。同时,为了综合考察实际应用效果,本文构建了一个热点话题处理架构,由数据采集、知识库建设、热点话题识别、热点话题跟踪和热点话题演化等5部分构成,达到了设定的运行能力,并已在某预研项目中得到应用。