基于语义扩展的信息抽取技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:SHAWSHAW11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,计算机越来越广泛的应用到人类社会的各个领域,特别是语音文档检索技术的快速发展,使得人们能够迅速的从大量的语音信息中检索到自己想要的资源,将人们的日常生活变得越来越便捷。因此将特征提取技术和查询扩展技术融入语音识别平台,从而提高语音文档的识别率的做法有着非常广泛的应用前景。本文通过对传统特征提取技术的研究,筛选出三种具有代表性的特征提取技术(χ2统计、最大后验概率、逆文本词频),运用这三种特征提取技术对训练文档集进行特征提取,将所提取的特征作为基本特征,通过对基本特征的二次调权重整,构造出一种新的混合特征,大大的提高了语音文档的识别率,同时结合前向-后向算法,将Lattice文件中的后验概率信息与文本文档中的权值概率信息有效的融合到语音识别平台中,进一步提高了语音文档的检索效果。不仅如此,为了更好的解决实际应用中用户输入所存在的短查询问题,避免用户因缺乏特定领域的知识或者难以提交足够表达查询请求的完整信息所造成的检索效率低下的问题,本文将相关科技文章的智能检索方法运用到查询扩展技术中,提出以词的文档频率为基础,运用文档频率对训练文本中的特征项进行扩展,通过文档间的内在联系,将那些隐含着主题信息的词补充到查询列表中,从而丰富用户的查询请求;同时为了进一步提高语音文档检索平台的性能,将Rocchio原则引入到基于最相关扩展词的关键信息扩展技术(基于词的文档频率的扩展技术)中,取得了很好的检索效果,但是由于Rocchio原则需要通过大量的实验才可以确定优化参数,并且不同的训练文本集选取的优化参数也不同,更换训练文本则需要重新进行实验来测定,这无疑给查询扩展的研究工作带来十分巨大的困难。为此,本文在上述扩展方法的基础上,提出一种基于热度信息的扩展技术,通过引入热度因子来代替Rocchio原则中原有的优化参数,热度因子会随着不同文本集的变化而变化,同时也能反映出文本文档的内部联系,使得查询扩展技术更加具有普遍性。最终通过实验验证了这种基于热度信息的扩展技术进一步提高了语音文档检索平台的性能。
其他文献
传统路由器在业务升级能力和升级响应速度等方面越来越难以满足当前网络发展的需求。基于构件技术的可重构路由器能够有效地降低路由器的开发成本,提高开发效率,已经成为当前
随着科技的发展以及人们生活方式的改变,身份认证(authentication)已经渐渐深入到人们生活各个方面,几乎每个人都会通过各种身份认证方式进行网络交易。同时由于网络信息安全
随着网络技术和通信技术的飞速发展,视频通信在人们信息交流中的作用越来越重要。视频信息虽然直观,但是所携带的信息量非常大,在传输之前必须对视频信号进行压缩编码用以降低码
WiMAX(Worldwide interoperability for Microwave Access,全球微波接入互操作)是基于IEEE 802.16协议标准的宽带无线接入技术。其中切换功能是WiMAX系统的重点研究问题之一,
随着第三代移动通信技术的逐步应用及移动通信与互联网的融合,全球已进入了移动信息时代。本文所述的R-P接口,就是连接无线接入网络和核心网分组交换域的信令与数据接口。通
摘要:光突发交换是目前光网络领域的研究热点之一,它结合了光路交换和光分组交换的优点,克服了它们的部分缺点,是两者之间的一种平衡选择。光突发交换技术能够满足业务的多样
光纤通信自90年代普及以来,随着光纤制备技术以及网络技术的不断发展在通信速率和容量上已取得很大突破。以光纤作为传输媒介的WDM通信网络,是光纤通信领域的重大进步,然而WD
正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)是一种多载波并行传输技术,在频域里,信道被分成许多个正交的子信道,故其具有较高的频谱利用率和良好的抗
下一代无线通信系统对数据速率和频谱效率提出了更高的要求。OFDM技术因其可以有效地对抗多径传播所造成的符号间干扰,已成为未来高速无线通信的关键技术之一;MIMO技术能够在
主要研究阳离子型聚丙烯酰胺接枝淀粉絮凝剂的合成工艺及它在造纸中的应用.实验结果表明,接枝共聚物合成的最佳工艺条件为:接枝反应时,硝酸铈铵量浓度为1.0×10-3mol/L,淀粉