基于Web网页与PDF文档自动构建更新语言模型

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户:cseivy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言建模工具的要求。最后通过实验证明了采用该方法可以较好地实现语言模型的自动更新从而适应识别对象不断变化,同时减少了识别过程中的集外词并提高了语言模型的性能。
其他文献
在对数据库同时进行读写的多个事务调度中,为了保证所有事务的并发执行,一个重要条件就是各个事务之间是否可串行化或冲突可串行化。然而,当事务较多较复杂时,要准确判断事务调度
以盐源县的泥石流发生为例,研究了凉山地区出现局地强降雨引发的中型泥石流灾害的气象成因。运用天气学方法,使用NCEP再分析资料以及卫星云图和雷达回波等遥感资料,从环流形势、
癫、狂、痫三者症状虽各有不同,而其为痰火郁闭则一,其始则异,其终则同。故治疗大法以祛痰为主。狂病于祛痰中兼平肝泻火,癫病于祛痰中兼养心安神,痫证于祛痰中兼熄肝风。余
在分析了μCOSII内核的体系结构和移植要点的基础上,介绍了bootloader的编写修改以及如何将μCOSII嵌入式实时操作系统移植到基于S3CA480的实验开发板的设计与实现。文章最后
针对当前从气象风险角度开展小麦条锈病与气象关系研究甚少的状况,从农业气象灾害风险分析理论出发,采用相关分析、层次分析和极差正规化等方法,建立了包含气候条件和寄主存在数
载波相位同步是开环结构软件无线电的关键技术,针对全数字接收机的特点,介绍了一种载波相位恢复算法。算法直接利用接收到训练序列进行处理,假设定时已经准确恢复的前提下,只需要
提出了一种基于自适应半径免疫算法(ARIA)的入侵检测方法。ARIA训练得到的抗体网络充分保留了原始数据的密度分布信息,具有准确的空间形态;再用最小生成树算法和Zahn划分标准对抗
介绍了模糊控制在履带式行走机器人实时控制中的应用。通过对精确输入量的模糊化以及模糊控制规则的建立,实现了对机器人行走的实时控制。文中所设计的履带式移动机器人采用差
介绍了可配置报表的模型及其思想,并在此基础上,探讨了利用xml配置文件开发基于Excel的可配置报表生成工具,实现了数据与报表样式分离。工具包含两个部分:报表配置文件和报表生成
提出一种最大化吞吐率的D2D机会多播调度方案。文中D2D多播组的源终端不通过基站,直接向多个临近终端发送数据,提高了频带利用率,同时源终端对传统的单播传输技术和广播传输技术