【摘 要】
:
文本分类是组织和管理大规模文本数据关键技术,也是自然语言处理中的重要任务.在统计模型中有很多成熟的自动化分类方法,但这些方法缺少文本语义与句法结构相关联信息.鉴于此
论文部分内容阅读
文本分类是组织和管理大规模文本数据关键技术,也是自然语言处理中的重要任务.在统计模型中有很多成熟的自动化分类方法,但这些方法缺少文本语义与句法结构相关联信息.鉴于此问题提出基于隐马尔可夫模型与语义融合的文本分类方法.针对经典文本分类方法特征项维数过高,忽略特征词语义现象,提出融合特征词语义的隐马可夫模型文本分类模型.利用信息增益提取特征词并通过word2vec提取特征词语义.针对文本句法结构丢失问题,提出基于隐马尔可夫模型和主题模型的文本分类方法.隐马尔可夫模型提取句法结构,主题模型提取特征语义信息,最终融合二者特征输入最大熵分类器完成文本分类.并通过实验评估,实现基于隐马尔可夫模型与语义融合的文本分类对比经典模型在评价指标大幅提升.
其他文献
研究目的:(1)通过meta分析系统评价全子宫切除对育龄期女性卵巢功能的影响。(2)通过对育龄期行全子宫切除的女性患者的回顾性调查及前瞻性研究,观察育龄期行全子宫切除的女性
目的探讨急诊闭合性腹部外伤的抢救护理。方法我院收治46例闭合性腹部外伤,根据病情缓急不一,及时采取有效的抗休克和手术治疗,并严密观察病情变化。果断判断手术时机。结果患者
四川盆地中三叠统雷口坡组雷四段是主要含油气层系之一,先后发现了川西中坝气田、川中磨溪气田及川东卧龙河气田。近年来对金马构造、孝泉-新场构造、梓潼构造进行了一批探井钻探,测试效果较为乐观,揭示了川西地区中三叠统雷口坡组海相地层具有良好的油气勘探潜力。本文在前人研究基础之上,结合沉积相、层序、测井、储层地质等学科理论研究,采用岩心观察、岩石薄片观察、压汞分析和各种测井技术手段,综合分析川西彭州地区中三
稀土镁合金因其综合力学性能优秀而备受关注,但稀土元素加入量较大在一定程度上限制了其广泛应用,因此低稀土含量的镁合金研究意义重大。本文采用金属型重力铸造的方法制备了
利用HOBO风向风速自动记录仪对临策铁路戈壁段4、8m和12m高度的路堤进行野外风速流场观测.结合数值模拟和趋势面分析的方法,研究路堤高度和旷野风速的变化对风速流场的影响以及
济南市某住宅楼(供暖面积为4 650 m 2)采用空气源热泵机组作为热源进行供暖,介绍热泵供暖系统流程。采用TRNSYS模拟软件,模拟供暖期逐时热负荷。基于热泵供暖系统设备配置,对热泵
在高速铁路测量中,要求在建立平面坐标系时应满足投影的长度变形不超过10mm/km。对于大致呈东西走向的线路来说,建立高斯平面坐标系时,为了控制长度投影变形,就要分多个投影带进行
结合现行标准规范和相关规定,对城市综合管廊天然气管道的敷设进行探讨,包括天然气管道安全间距的确定原则、与重要公共设施的安全间距、与地铁隧道的安全间距、进排气口高度
高墩大跨桥梁桥墩整体在太阳辐射下升温,会使桥墩顶部产生竖向位移。对桥墩升温产生竖向位移对无缝线路的影响这一问题,使用有限元软件建立线-桥-墩一体化模型,分析高墩升温条件
为了探寻生长过程中硅膜的自晶化沉积,采用等离子体增强化学气相沉积(PECVD)法沉积了氢化硅薄膜,系统研究了不同沉积阶段所得硅膜微观结构的迁变规律。结果表明,硅膜的显微结