文献中的词型分区规律与高频特征词的发现

来源 :语言文字应用 | 被引量 : 0次 | 上传用户:lgwfzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了发现文献中的词型分布规律,找出能够代表文献主题内容和语言风格的高频特征词,本文对语料中的词型按出现频次降序排列,再均分成几个词例数目相等的分区,分析其中的词型数量规律。研究发现,按这种方法把词型分成三个、四个、五个分区时,分区之间的词型数量关系是有规律的。增加同质语料的规模,对于词型序列前几个分区的词型数量变化影响微小,而对于最后一个分区的词型数量变化影响较大。本文提出按照"二八定律"来区分高频词与其他词,并提出通过比较高频词型在特定文献与其他多个文献中的等级差异,得到词型的特征系数,自动发现特定文献中的高频特征词。
其他文献
循环经济是欠发达地区追赶超越发达地区,全面建设生态文明,实现经济、社会和生态全面协调可持续发展的必然选择。陕南位于我国南北交界地带,循环经济产业核心集聚区在陕南循
【正】 周保中,1902年生于云南大理县湾桥村一个白族家庭。因家庭贫寒,初中一年级就辍学。1917年,进入滇军第一师教导营当兵。随即参加了滇军与皖系军阀头目段祺瑞的战斗,转
目的探讨超长方案与微刺激方案在卵巢低反应患者的应用价值,为卵巢低反应患者寻求最经济合理的刺激方案。方法选取101周期超长方案或微刺激方案行体外受精/卵胞浆内单精子注
传统的ISP负载均衡方法主要有2种,一是使用开启BGP协议的高端防火墙:二是使用专业负载均衡设备。本论文建立了1套新型的基于静态路由的ISP负载均衡解决方案。本文首先通过Who
目的探讨胰岛素受体(INSR)基因外显子17多态性与多囊卵巢综合征(PCOS)发病的关系。方法应用聚合酶链反应限制性内切酶片段长度多态性分析(PCR-RFLP)法对中国汉族96例PCOS患者
分别运用分子轨道理论中的半经验AMI办法、密度泛函(B3LYP)和RHF从头算方法对标题化合物进行构型优化,优化时对同一方法采用不同的基组函数6-31G以及6-31G。同时获得了青蒿素
目的探讨高龄、卵巢功能减退、有诱导排卵禁忌证、既往在本院或外院接受常规超促排卵体外受精/卵胞浆内单精子注射胚胎移植(IVF/ICSI-ET)中表现为卵巢低反应、优质胚胎率低下和
夏秋季节腹泻病致病菌调查响水县卫生防疫站薛以珍为了解我县范围内在夏秋季节时腹泻病致病菌,我们于1995年7~9月份,对县医院和二院肠道门诊的腹泻病人送检粪便进行了细菌学培养,现将结
从棠梨枝叶(Pyrus pashia Buch.-Ham.ex D.Don)的甲醇提取物中分离得到了17个化合物,采用高分辨质谱、一维和二维核磁共振等现代波谱技术,鉴定上述化合物的结构分别为:pashin
目的研究藏红花酸的抗实验性心律失常的作用机制。方法将实验动物随机分为生理盐水组,阳性药物对照组,藏红花酸高、中、低剂量组,SD大鼠采用1.2g/kg乌拉坦麻醉后,从尾静脉匀