一种基于词编码的中文文档格式

来源 :计算机科学 | 被引量 : 0次 | 上传用户:gwzdx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。
其他文献
用乙醇水溶液提取烟叶中的游离氨基酸并通过阳离子交换柱纯化后,采用OPA(邻苯二甲醛丹酰氯)、FMOC(9-芴基甲氧基羰酰氯)联合在线衍生反相高效液相色谱法对烤烟、白肋烟和香料烟中
摘要 本发明公开了一种快速准确测定石膏品位的方法,主要原理是利用电化学方法借助相关仪器——库伦定硫仪测定石膏中的硫含量,然后根据所测得的硫或三氧化硫的含量计算所测石
建立快速、准确测定果蔬中5种拟除虫菊酯类农药残留量的方法。采用漩涡振荡提取农药残留,固相萃取柱净化,毛细管柱气相色谱法-μECD检测器测定。该法可同时分离检测5种拟除虫
进入21世纪以来,国外仪器仪表行业的发展呈现出一些新的特点,引起了我罔仪表业界的关注。(1)新技术普遍应用。目前普遍采用电子设计自动化(EDA)、计算机辅助制造(CAM)、计算机辅助测
由于中煤龙化哈尔滨煤化工有限公司煤制甲醇主工艺漏硫事件时有发生,因此对主工艺介质进行冷却的循环水面临着污染,随之而来的问题是循环水系统的腐蚀和渗漏、消耗循环水水处理
记者不久前从国家质检总局获悉,该局通过目前对市场销售的新生产的乳粉、液态奶等乳制品进行抽检,发现均符合三聚氰胺临时管理限量值规定。国家质检总局对婴幼儿配方乳粉、普
期刊
酪氨酸在辣根过氧化物酶催化下被H2O2氧化为强荧光物质S,姜黄素对其荧光产生猝灭作用,据此建立了测定姜黄素的新方法。姜黄素浓度c在0.10~16.0μg/mL范围内与F0/F(F和F0分别为姜黄素
以高锰酸光度法的实例,说明化学物质(化学元素及其组成的物质)的基态是多种多样的,而且它们各自的分布比率都是确定的,物质的吸收光谱就是这一规律的真实反映。所以,吸收谱带中的任
介绍了722型光栅分光光度计常见故障分析与排除方法及注意事项。
3年前,我国钢铁冶炼、石油化工、能源电力等行业在生产中所采用的气体分析设备大都依赖进口。如今,由杭州电子科技大学系统集成技术研究所所长王健研究员主持完成的“激光在线