基于Web网页与PDF文档自动构建更新语言模型

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户：cseivy

【摘要】

：

提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言建模工具的要求。最后通过实验证明了采用该

【作者】

：

张强陶宏才

【机构】

：

西南交通大学信息科学与技术学院

【出处】

：

成都信息工程学院学报

【发表日期】

：

2009年5期

【关键词】

：

语音识别语言模型集外词自动更新 speech recognition language model out of vocabulary automa

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言建模工具的要求。最后通过实验证明了采用该方法可以较好地实现语言模型的自动更新从而适应识别对象不断变化，同时减少了识别过程中的集外词并提高了语言模型的性能。

其他文献

优先图在冲突可串行化判断中的应用

在对数据库同时进行读写的多个事务调度中，为了保证所有事务的并发执行，一个重要条件就是各个事务之间是否可串行化或冲突可串行化。然而，当事务较多较复杂时，要准确判断事务调度

期刊

数据库优先图可串行化判断并发事务冲突可串行性database precedence graph serializable judgement c

四川凉山平川镇“7．14”泥石流灾害的气象成因

以盐源县的泥石流发生为例，研究了凉山地区出现局地强降雨引发的中型泥石流灾害的气象成因。运用天气学方法，使用NCEP再分析资料以及卫星云图和雷达回波等遥感资料，从环流形势、

期刊

大气科学短临天气预报泥石流地质灾害强对流天气雷达回波分析atmospheric sciences short-term forecasting a

王季儒癫、狂、痫治验

癫、狂、痫三者症状虽各有不同,而其为痰火郁闭则一,其始则异,其终则同。故治疗大法以祛痰为主。狂病于祛痰中兼平肝泻火,癫病于祛痰中兼养心安神,痫证于祛痰中兼熄肝风。余

期刊

王季儒治验加味温胆汤平肝泻火养心安神祛痰

μCOSII在基于S3C4480实验开发板上移植设计与实现

在分析了μCOSII内核的体系结构和移植要点的基础上，介绍了bootloader的编写修改以及如何将μCOSII嵌入式实时操作系统移植到基于S3CA480的实验开发板的设计与实现。文章最后

期刊

嵌入式μCOSⅡ操作系统实时性BOOTLOADER中断管理任务切换embedded μCOSII operating system real

四川省小麦条锈病春季流行的农业气候风险区划

针对当前从气象风险角度开展小麦条锈病与气象关系研究甚少的状况，从农业气象灾害风险分析理论出发，采用相关分析、层次分析和极差正规化等方法，建立了包含气候条件和寄主存在数

期刊

农业资源利用气象防灾减灾四川小麦条锈病春季流行农业气候风险区划agricultural resources utilization meteor

载波相位恢复算法研究

载波相位同步是开环结构软件无线电的关键技术，针对全数字接收机的特点，介绍了一种载波相位恢复算法。算法直接利用接收到训练序列进行处理，假设定时已经准确恢复的前提下，只需要

期刊

信号与信息处理信号处理理论与技术LS码FPGA扩频解扩载波恢复signal and information processing singnal

一种基于人工免疫网络聚类的入侵检测方法

提出了一种基于自适应半径免疫算法（ARIA）的入侵检测方法。ARIA训练得到的抗体网络充分保留了原始数据的密度分布信息，具有准确的空间形态；再用最小生成树算法和Zahn划分标准对抗

期刊

自适应半径免疫算法抗体网络数据聚类异常检测adaptive radius immune algorithm antibody network d

基于模糊控制的履带式行走机器人的实时控制

介绍了模糊控制在履带式行走机器人实时控制中的应用。通过对精确输入量的模糊化以及模糊控制规则的建立，实现了对机器人行走的实时控制。文中所设计的履带式移动机器人采用差

期刊

履带式行走机器人超声波传感器模糊控制串口通讯caterpillar track mobile robotultrasonic sensor.fuzzy

基于Excel的报表生成工具的设计与实现

介绍了可配置报表的模型及其思想，并在此基础上，探讨了利用xml配置文件开发基于Excel的可配置报表生成工具，实现了数据与报表样式分离。工具包含两个部分：报表配置文件和报表生成

期刊

计算机应用技术电子商务可配置报表EXCELXMLtechonology of computer application electronic bus

蜂窝网络最大化吞吐率的D2D多播机会调度方案

提出一种最大化吞吐率的D2D机会多播调度方案。文中D2D多播组的源终端不通过基站，直接向多个临近终端发送数据，提高了频带利用率，同时源终端对传统的单播传输技术和广播传输技术

期刊

D2D多播机会调度吞吐率服务质量D2D OMS throughput QoS

基于Web网页与PDF文档自动构建更新语言模型

与本文相关的学术论文