古籍文本抽词研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:songhongyu8211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响.现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词.试验从古籍文本中提取普通语词和专有名词(包括书名、地名、人名官职名)3 000多个,表明此试验方案基本可行.
其他文献
目的 比较喉罩和气管插管对老年冠心病患者血流动力学、呼吸功能和应激激素的影响.方法 32例老年冠心病患者ASAⅡ级在全麻下实施胃肠手术,随机均分为喉罩组和气管内插管组.在
目的 总结地震创伤后急性肾损伤(AKI)发病情况和治疗方法及转归.方法 21例地震创伤后AKI患者为研究对象,转我院时间为受伤后17~752h,平均(139.3±177.9)h;5例诊断挤压综合征.
目的 探讨转化生长因子β1(TGF-β1)基因Leu10Pro多态性在郑州市汉族健康人群和糖尿病肾病(DN)患者中的分布以及与DN的相关性,并比较不同基因型个体血清TGF-β1表达水平.方法
[目的]应用蛛网膜下腔出血(SAH)的大鼠模型,对基底动脉进行形态学测定和组织病理学检查,动态观察SAH的病理演变过程,进一步探讨脑血管痉挛(CVS)的发生机制.[方法]50只SD大鼠
目的病案是医疗临床信息的重要载体。方法只有对所有环节进行全程质量控制,才能有效地提高病案整体质量。结果病案中蕴含着大量有价值的信息,这些信息不但能为医院的管理、临
随着社会的开放,车辆的增多,交通事故已成为威胁人民生命财产的头号杀手.该文收集了2006年1月至2007年1月的抢救病例.我科共接诊伤员285人,受伤者以重度颅脑外伤为多.其中3人
目的 探讨雾化吸入地塞米松(Dexamethasone)对盐酸(HC1)所致急性肺损伤(ALI)循环及呼吸功能的影响.方法 24头健康家猪,随机分为A、B、C三组,每组8头.麻醉及相关操作后记录平
在透氧膜膜反应器中考察了Ni-La2O3/γ-Al2O3催化荆及其添加Li2O对焦炉煤气(COG)重整过程以及膜反应器透氧的作用,研究了La2O3添加量对催化剂催化性能的影响.结果表明,催化剂
采用图像识别技术对微小塑料齿轮进行质量检测,针对缺齿、齿歪、披峰等齿形误差的随机性,运用三点定圆心法实现塑料齿轮内圆的粗定位,试验数据说明其运行时间比传统Hough变换
光学字符识别系统在自动处理,人机交互,办公自动化以及商业领域中有非常广泛的应用。论文主要讨论如何结合结构方法和神经网络的技术,来实现哈萨克语手写文字识别系统的实现。该方法有以下几个优点:方法使用了基于规则(结构)的方法和分类测试;方法更加适合于像哈萨克文字一样具有较大的字符集和字符尺寸不一致的字符集;特征提取的代价较低,运行时间主要由字符尺寸和字体决定。该系统使用一个五层的人工神经网络对字符进行分