文本挖掘中的中文分词算法研究及实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:seacowp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。
其他文献
基于角色的访问控制(RBAC)是一种方便、安全、高效的访问控制机制。通过分析RBAC的模型特点及应用优势,结合著名的MikroTik RDuterOS路由软件和教学实际情况,对网络管理进行了改
巴斯夫成为首家获得欧洲水资源管理(EWS)黄金级认证的化工企业。根据EWS标准,巴斯夫位于西班牙塔拉戈纳的工厂使用了高效的水资源管理系统。第三方认证机构团队评估了该厂所有水
移动Agent计算模式将成为未来网络计算的主流模式。移动Agent的迁移机制是其技术核心之一,受到了广泛的关注。为了提高移动Agent迁移的可靠性和安全性.提出一种支持安全与容错
9月9日,瑞典CSR大使Diana Madunic与瑞典企业与创新大臣Mikael Damberg一同抵京访华,见证了中瑞两国签订了新的企业社会责任谅解备忘录。Diana Madunic自今年4月开始接替Beret
总结36例采用立体定向手术治疗的高血压脑出血患者围手术期护理,术前对患者及家属进行心理疏导,术后密切观察病情,做好血肿引流管的护理,及时有效地处理各种并发症,指导患者
随着广播、电视行业的快速发展,越来越多的高职艺术类学校开设了播音主持专业,专业门槛低,成为了许多青少年向往、崇尚的一门职业。但受到客观、主观因素的限制,高职播音主持
随着我国高新技术的不断发展,多媒体技术已经被广泛应用于高校教学中。多媒体技术从根本上丰富了教学内容,提高了课堂的教学效率。同时,线上线下结合的教学形式,摆脱了学生学
互联网的迅速发展助推了网络亚文化的生成,土味文化也在这场狂欢中占据一席之地。本文从“使用与满足”理论角度对土味文化的传播特征及受众满足进行分析,呈现土味文化的传播
白内障术后急性感染性眼内炎(以下简称眼内炎)是指发生在白内障摘除术后6周内的眼内液或眼内组织的炎症反应。多数发生在手术后1-2周内,常致患眼失明,甚至丢失眼球。据统计2000-2
阐述了信息填涂卡文档图像标记识别系统中的预处理算法,并提出一种新的信息卡填写方式。对信息填涂卡文档图像预处理中的利用计算机图像处理技术将彩色图像转化成灰度图像、二值化以及图像平滑等关键步骤进行了描述。在图像二值化过程中采用全局阈值法,在图像平滑过程中采用改进的邻域平均算法。结果表明这些算法能有效地解决信息填涂卡文档图像预处理问题。