面向论坛信息文本的有效数据抽取研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hgjsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web技术的更新,互联网络迎来了新一轮的大发展,在日新月异的信息时代里,人们可以在网络上获得更多有效的知识和数据。然而随着信息的爆炸式堆积和增长,人们需要一种简单直接的方式查看大多数信息和检索大多数问题。而论坛的普及和发展成为网络发展的一个重要分支。人们对于很多许多信息的分享,问题的求解都是在各类论坛上完成的。因此有效的对论坛文章进行信息抽取,简化信息,提出重点是一个日益迫切的任务。对于论坛信息文本的抽取来说,摘要的抽取是一个首要的工作。本研究主要就论坛上的信息文本进行摘要抽取,并且根据论坛的特点,进行了针对论坛特别是BBS这一平台的实用性的改进,而不单单是一个传统的文本摘要提取。对于论坛来说,承担的功能主要有两大类,第一类是信息发布和评论,第二类是信息索取和问答。针对这两大功能,本研究分别进行了摘要和有效回复的抽取工作。研究对于第一类摘要的抽取,提出了一个基于最大冗余相关算法和子话题聚类分析,并且综合上下文特征的算法。对于较长的论坛文章,抽取其摘要的步骤是,首先,进行子主题的连续句子间聚类分析,采用改进的K值选取和初始点选取的K均值聚类算法;其次,基于句子和文章间的相似度对句子进行分区段或者分聚簇选取;最后,对每个聚类子集进行句子级别的上下文及相关特征综合打分排序,得到了最后的输出。对比结果显示,本文提出的方法结果要好于基本的最大冗余相关算法,且实用性强;对于第二类的回复抽取,改进的采用了基于语言模型的关联模型算法,主要在于对基于问答语料集的词语关联度获取,用于原文与回复间的相似度计算,与向量空间模型不同,语言模型采用词语级别的相似度的累加。在大语料集的基础上,此模型的效果比向量空间模型略好。
其他文献
水声传感器网络具有极高的民用和军用价值,可广泛应用于海洋信息采集、资源勘探、环境监测、灾难预报、辅助导航、分布式战术观察等领域。然而,水声信道可用带宽窄、长且多变
临近空间测控通信具有极其重要的军事意义,由于低仰角测控通信存在着大动态、大范围的多径衰落和多普勒频移,因此低仰角测控通信是临近空间通信的难点。本文主要探讨了临近空
“捆绑”经营是指在西江广东段多个对江经营性渡口,渡工们在交通主管部门引导下,自发组织起来形成的一种经营模式。渡工们以不同方式均分渡运市场这块“蛋糕”,改变了渡船通
随着无线移动通信的快速发展,新的技术或方法不断被提出,用以满足日益增长的用户需求。无线Mesh网络技术是一种能够让移动用户终端之间直接建立通信链路的技术。协作通信技术
在今年的全国交通安全工作会议上,交通部洪善祥副部长要求各地区、各部门要进一步落实乡镇船舶交通安全管理责任制,并强调以下四点意见: 1、落实乡镇船舶安全管理责任制的重
超速驾驶是众多高速公路交通事故的主要原因。目前,高速公路“电子警察”的监控和处罚尚未实现实时结合,使得业务处理存在一定的滞后性,影响了交通管理部门的办事效率,降低了
量子密钥分配是量子力学和密码学结合的产物,量子密钥分配的绝对安全性由量子力学的测不准原理和量子不可克隆定理保证。然而,实际物理设备的固有缺陷(如非理想的单光子光源
本文通过对统一网管平台(Unified Element Management Platform,Uep)的研究,完成了操作维护中心(Operation Maintenance Center,OMC)配置管理系统的系统结构设计,实现了配置
米波雷达由于波长较长,在反隐身和抗反辐射导弹等方面有着独特的优势,在现代防空体系中,发挥着举足轻重的作用。但是由于米波频段窄,容易实施干扰,且地、海杂波和多径效应对米波的
本文所分析的对象是天线网面。目前天线普遍采用轻质柔性材料制作,再加上其尺寸非常庞大,使得天线的刚度大大减弱,其在各种外部因素的作用下容易发生形变,导致天线精度大大降