语料采样中篇章平均使用度的可行性分析

来源 :第十一届中国人工智能学术年会 | 被引量 : 0次 | 上传用户:jimzhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从90年代开始,国际自然语言处理领域的主要特征之一就是转向对大规模真实文本的研究和处理.随着语料规模的不断扩大,统计中的数据稀疏问题、垃圾语料带来的统计垃圾问题、汉语语料统计中的垃圾泛滥问题等等也越来越严重[1].必须寻找既能分析、驾驭大规模真实文本,又能有效地加工、扬弃垃圾的语料库建设理论和处理方法.本文在语料平衡性前提下对语料采样的代表性做了大量的数值实验分析,实验表明,按照篇章使用度对语料进行采样比单纯利用绝对词频获得的语料具有更好的代表性.
其他文献
作为进化算法中一种典型的方法,进化规划是一种性能优良的全局优化算法.考虑到传统进化规划计算效率低的缺点,并结合进化规划的计算流程,通过结合改进的自适应变异操作及基于
随着许多多媒体在高速网络中的应用,组播路由问题成为越来越重要的课题.采用基于路径的编码方式,使用侯选机制创建具有相同特征的多个染色体,即构建了两种染色体(保留染色体
会议
以Boltzmann-Gibbs统计理论为基础,采用依赖于温度的似Cauchy分布产生新的扰动模型,选用改进的接收概率公式,并在实际计算中设置记忆器,记忆搜索到的最好结果,得到适合时移地
会议
本文提出了一种通过监视键盘输入进行用户身份识别的支持向量机新方法.该方法在正常数据上训练模型,然后应用该模型通过检查新的数据是否与正常数据存在几何背离来识别是正常
(1)耳机单边无声:测量耳机③、④、⑤脚是否有电压,如果有则直接换耳机接口。(2)无声:测量③、④、⑤脚有无电压,有则更换耳机接口,没有则检查主控芯片是否虚焊,耳机接口是否
Bayesian网络(贝叶斯网络)是一种进行不确定性推理的有力工具,它是一个有向无环图.本文提出了一种通过发现Bayesian网络骨架(在Bayesian网络中去除边方向的无向图),再确定边
会议
目的 观察经皮经肝胆囊穿刺置管引流术(PTGD)治疗老年(年龄>60岁)急性胆囊炎的疗效.方法 回顾性分析笔者所在医院2014年12月至2016年12月期间行PTGD治疗的36例老年急性胆囊炎
期刊
@@
文中研究一类非线性自适应模糊跟踪系统,提出了一种基于误差补偿的新方法.采用梯度下降法设计自适应模糊系统以辨识其非线性环节.一般的自适应模糊跟踪系统不考虑辨识误差对
Web上存在着大量内容相同的页面,网络重复信息的有效去除已成为改善Web信息采集系统性能的关键技术之一.本文将全信息理论应用到网络文本信息去重算法的研究中,提出了一种新
会议
目的 总结对有上腹部手术史患者行三孔腹腔镜胆囊切除(LC)术的安全性及经验.方法 对解放军第451医院2011年6月至2015年6月期间收治的有上腹部手术史且行三孔LC术的98例患者的
期刊
@@