W-POS语言模型及其选择与匹配算法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:sunwen_fly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。
其他文献
目的:探讨在护理学基础实验教学中强化护生职业道德教育的效果。方法:在2010级115名本科护生护理学基础实验教学中强化护生的职业道德教育。分别在实验教学前、后采用护士职
广告词是书面广告的“灵魂”。文章以汽车广告为例,从简洁性、口语化、人性化和生动形象性这四个方面探讨了法语广告词的基本特点。
在中国的法律体系中,对隐私权的保护是相当明确和清晰的。同时,虽然法律对于制作、复制、销售、传播淫秽制品等行为明文禁止,但是对于在家中观看淫秽录像、电影等行为却并未
文章进行了不同养生温度、不同养生时间条件下的水稳试件抗压强度试验,得到了不同设计强度下水稳基层养生时间与养生温度的时温曲线,建议根据时温曲线进行工程施工。结果表明
目前在理论上处于弱势的排污收费依然在我国社会现实中占据主流,而在舆论上不断高涨的排污权交易及碳排放权交易却迟迟没能进入实质性运转。为了有的放矢地解决我国的环境问
该文根据光伏电池的工程数学模型,提出一种利用MATLAB软件包中的Simulation模块直接模拟光伏电池工作状况的方法,该仿真模型能准确反映光伏电池的输出特性,而且参数调节方便
为满足南北两岸和水上作业平台的双向交通运输需要,同时满足整体稳定性和抗水冲刷及安全度凌汛的要求,在京沪高速铁路黄河特大桥下游搭设了钢管桩与贝雷梁组合体系的施工栈桥
隐喻不仅是一种语言现象,更是一种思维现象。人类通过其他具体概念来认知时间这一抽象概念。认知过程中,汉民族通过多种意象图式对时间概念进行建构。汉语中的时间概念隐喻分
<正> 古典现实主义巨著《水浒》以其在中国文学史上第一次反映了波澜壮阔的农民运动而显示了作者进步的世界观和作品高度的思想性。《水浒》的艺术成就也是很高的,它突出地表
<正>高清达标的条件电视高清“国标”达标已成时尚话题,而传统CRT电视显得较为困难,因此“国标”中CRT的垂直清晰度放宽到620线。那么从显像管到机芯电路应达到什么技术条件