基于改进卡方统计量的藏文文本表示方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：ansunyou

【摘要】

：

藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式，是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度，容

【作者】

：

徐涛于洪志加羊吉

【机构】

：

西北民族大学中国民族语言文字信息技术重点实验室

【出处】

：

计算机工程

【发表日期】

：

2014年6期

【关键词】

：

藏文信息处理改进卡方统计量文本表示自动断句向量空间模型 Tibetan information processing improved Chi-squa

【基金项目】

：

国家“973”计划基金资助项目（2013CB329303）,国家自然科学基金资助项目（61032008）,国家科技支撑计划基金资助项目（2009BAH41B07）,中央高校基本科研业务费专项基金资助项目（ycx13014）.感谢清华大学自然语言处理组刘洋老师、李鹏和王粲在论文和实验上的帮助,以及提供组内thunlp-base工具包的支持.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式，是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度，容易造成语义损失。为此，结合向量空间模型，提出一种新的藏文文本表示方法。提取文本中词频统计TF—IDF值较高的部分词项作为对比词项，对藏文文本进行断句处理，以每个句子作为一个语境主题，利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明，与传统的向量空间模型相比，该方法能更准确地表示藏文文本。

其他文献

营业利润视角下的R&D投入对IPO估值的影响研究

开展研发活动是企业在竞争市场中形成核心竞争力的重要保证,近些年来,我国无论是国家还是企业对于研发投入的重视程度都有很大的提高。尤其对于准备公开上市发行的企业,公众

学位

引致的R&D投入R&D投入IPO估值营业利润

尿红细胞平均体积及红细胞形态检查在血尿定位中的应用

目的探讨尿红细胞平均体积及红细胞形态检查在判定血尿来源中的价值。方法对69例肉眼血尿标本红细胞平均体积及形态学检查结果进行回顾性分析。结果肾小球性血尿组MGV值（65．91&

期刊

血尿红细胞平均体积红细胞形态

资本缓冲对我国银行信贷行为影响的研究

2008年的金融危机,暴露了《巴塞尔协议Ⅱ》的诸多缺陷,特别是其隐含的顺周期性特征,更是遭到人们的质疑。而众多学者通过研究发现,资本监管的顺周期性特征,加剧了金融体系的

学位

资本缓冲信贷顺周期巴塞尔协议Ⅲ资本监管货币政策

引桥的“一波三折”

早上七点,晨光微曦,马普托城依然被睡意笼罩。唯独马普托大桥下这个中国营地是例外。负责北引桥施工的技术员们,正在带领工人攻坚大桥最难的硬骨头。马普托大桥北引桥需要穿

期刊

引桥设计汽车4S店平曲线半径桥型设计弯曲形状平面线形火车站大桥

求解0/1背包问题的自适应元胞粒子群算法

对0/1背包问题进行研究，提出一种自适应元胞粒子群算法。在算法设计过程中，重新定义粒子位置和速度的更新方程，引入自适应因子，为有效粒子的主动进化和无效粒子的主动退化提供依

期刊

粒子群优化0/1背包问题自适应因子元胞自动机组合约束优化NP难题Particle Swarm Optimization （PSO）0/1 knaps

我国商业银行净利差影响因素研究

净利差(NIM)是商业银行利润中最为重要的组成部分,已被视为衡量银行效率的重要指标：但如果利差水平偏高,往往也意味着社会承担的高成本和金融中介运营的低效率。净利差作为衡

学位

净利差商业银行季度面板数据Ho-Saunders模型

咪达唑仑清醒镇静在气管镜检查中的应用

期刊

咪达唑仑SBPDBP清醒镇静气管镜检查

面向车联网安全业务的通信与计算资源调度机制研究

随着第五代移动通信(5th Generation,5G)时代的到来,车辆变得越来越智能化、信息化,同时车辆数目的飞速增长使得大量的数据需要通信传输和计算处理。伴随车联网智能化进程的不断推进,道路的安全问题越来越引起全社会的关注与重视。在5G典型的应用场景中,车载自组织网络(Vehicular Ad-hoc Network,VANET)中安全业务的通信传输具有重要的研究意义。其中车辆安全业务包括传统

学位

安全业务功率调整阴影衰落中继转发边缘计算

创新驱动发展的重庆实践

党的十八大以来,重庆在加快实施创新驱动发展战略上着墨良多、平添政策效应,努力走出一条适应、把握、引领经济发展新常态的嬗变之路。总体来看,重庆实施创新驱动发展战略有

期刊

创新驱动发展战略创新发展重庆创新驱动发展

廉租房制度建设:问题与对策探析——基于青岛市的经验分析

廉租房制度的实施切实解决了部分困难群体的住房需求。但在全国经济迅速发展,移民城市加快推进的情况下,强大的保障房需求与有限供给之间的矛盾暴露了廉租房制度运行的一系列

期刊

保障性住房政策廉租房制度低收入

基于改进卡方统计量的藏文文本表示方法

与本文相关的学术论文