面向热点新闻话题的文本处理技术研究

被引量 : 10次 | 上传用户:tai_2036580
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络新闻文本的大量涌现迫切需要借助计算机进行自动处理。面向热点新闻的话题处理任务主要包括热点话题的识别、跟踪和演化分析,旨在实现自动发现热点话题、汇总相关报道、找到话题变化规律。目前,文本分类仍然是制约话题处理各项任务的关键技术,本文以其为研究重点,尝试基于不同文本表示模型进行文本分类,通过提高文本分类的性能,最终达到提升热点话题处理任务性能的目的。本文的研究内容主要包含以下四个部分:(1)文本分类问题的划分和描述方法在全面分析现有的文本分类方法的基础上,针对如何划分文本分类模型进行了尝试,提出了一种按照三个因素来描述文本分类方法的三维结构。进一步扩展后,提出利用6元组架构去表达任意一种文本分类方法。特别地,该架构能综合反映文本分类的实现过程及呈现结果。尤其是对基于话题模型的文本分类方法而言,该架构能表现出其它分类模式不能全面表达的内容。(2)基于支持向量机-决策树的多策略融合文本分类方法研究了文本分类中支持向量机和决策树的结合技术,综合考量影响决策树构建的4个因素(决策树的构造方式、样本规模、结构形式和类间距离),提出了一种融合多策略的SVM决策树构建方法,这样形成的分类器结构更加清晰、层次更少、更加适合分类需求,分类的时效性和准确性得以全面提升。(3)面向动态话题的热点话题演化方法话题周期中,内容的焦点和子话题的数目都是变动的,话题文本的动态性是无法回避的问题。鉴于此,对如何动态获取话题数目进行了针对性研究。提出了基于ILDA模型进行参数获取的方法,使得输入文本集可动态更新,更符合话题演化的需求。在此基础上构建的话题演化分析过程无须事先指定话题数,自动执行能力强,能达到设定的演化需求,对中英文语料的实验显示出良好的可移植性,具备实际应用能力。(4)动静结合的自适应话题模型分类能力提升方法分析了“大话题会变得更大”这一问题的产生原因和解决方法,指出文本特征在话题演化过程中呈现出“动中有静”的现象,提出了一种融合了动态和静态特征的自适应话题模型,加入的静态权重因子提升了话题的稳态特征的权重,而源自重采样过程的动态权重因子则可以提升临近周期内关键特征的权重,这一定程度上削弱了话题倾斜问题,对话题细分类方法给出了一种有益的尝试方案。同时,为了综合考察实际应用效果,本文构建了一个热点话题处理架构,由数据采集、知识库建设、热点话题识别、热点话题跟踪和热点话题演化等5部分构成,达到了设定的运行能力,并已在某预研项目中得到应用。
其他文献
自曹丕提出了中国文论语境中的“气”说之后,经过了多代文艺批评家和作家的传承与发展,如今,“气”已经成为了评价作家作品的重要审美范畴之一。和中国古代大多数文学理论范
随着发动机向高转速、高负荷、低油耗、低排放方向发展,对发动机零部件的性能要求越来越苛刻。活塞环作为发动机的关键零部件,其性能优劣直接影响发动机的动力性、经济性和排
指导大学生树立创业意识,培养创业精神,掌握创业技能,投身创业实践,是新时期高校育人的新任务、新要求。研究构建大学生创业指导体系,对于丰富大学生创业指导内容,完善大学生
北京老字号形成于特定的历史背景下,具有浓郁的北京特色。本文在对商务部认定的第一批、第二批北京老字号名录的牌匾书法进行统计研究的基础上,通过将其与上海、江苏、天津的
本文对物流众包的相关概念进行研究,并提出物流众包模式目前存在的四方面问题:一是农村物流众包大数据运算能力较弱,二是农村物流众包快递员资质不齐,三是农村物流众包面临较
论文根据重庆卡福汽车零部件有限责任公司CAD网络系统的设计要求,对CAD在企业中的应用进行了深入而广泛的研究,在以下几个方面进行了研究与实践工作:CAD网络系统的规划,网络拓扑
<正>随着数字化进程的发展,互动电视作为数字电视的一大发展方向,日益引起人们的关注。笔者在研究互动电视的特性时,为获得可靠的数据作为理论分析的依据,拍摄了一个互动电视
为探究西瓜生产中的最佳硅肥用量及耐受范围,采用营养液沙培的方式,研究0,0.3,0.9,1.8和3.2 mmol&#183;L^-1 5个硅水平对西瓜幼苗光合色素、光合参数及矿质元素吸收的影响。
甘蔗是热带和亚热带地区最重要的作物之一,供应世界70%的糖类,非生物因素如干旱和高盐是影响甘蔗生长和糖成分的重要因素。由于甘蔗基因组的复杂性、高多倍体、杂合性的特点,