文本挖掘中的中文分词算法研究及实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：seacowp

【摘要】

：

文本挖掘是指使用数据挖掘技术，自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的，因而自动分词成

【作者】

：

许高建胡学钢王庆人

【机构】

：

安徽农业大学信息与计算机学院,合肥工业大学计算机与信息学院

【出处】

：

计算机技术与发展

【发表日期】

：

2007年12期

【关键词】

：

中文分词歧义消除最大匹配词语优化 Chinese text participle different meanings eliminating mos

【基金项目】

：

安徽省科技计划项目（2007ZD～7021010）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本挖掘是指使用数据挖掘技术，自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的，因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用，分词的速度是极为重要的，对整个系统的效率有很大的影响。分析了几种常见的分词方法，设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度，对加强歧义消除和词语优化的算法进行了研究处理。

其他文献

RBAC在网络管理上的应用

基于角色的访问控制（RBAC）是一种方便、安全、高效的访问控制机制。通过分析RBAC的模型特点及应用优势，结合著名的MikroTik RDuterOS路由软件和教学实际情况，对网络管理进行了改

期刊

基于角色的访问控制角色权限RBAC role permission

巴斯夫获EWS黄金级认证

巴斯夫成为首家获得欧洲水资源管理（EWS）黄金级认证的化工企业。根据EWS标准，巴斯夫位于西班牙塔拉戈纳的工厂使用了高效的水资源管理系统。第三方认证机构团队评估了该厂所有水

期刊

第三方认证机构巴斯夫黄金资源管理系统水资源管理化工企业西班牙水管理

移动Agent的一种支持安全与容错的迁移机制

移动Agent计算模式将成为未来网络计算的主流模式。移动Agent的迁移机制是其技术核心之一，受到了广泛的关注。为了提高移动Agent迁移的可靠性和安全性．提出一种支持安全与容错

期刊

移动AGENT迁移分布式事务安全容错mobile agent migration distributed transactions secur

企业社会责任合作将促进中瑞贸易发展——访谈嘉宾：瑞典CSR大使Diana Madunic

9月9日，瑞典CSR大使Diana Madunic与瑞典企业与创新大臣Mikael Damberg一同抵京访华，见证了中瑞两国签订了新的企业社会责任谅解备忘录。Diana Madunic自今年4月开始接替Beret

期刊

企业社会责任瑞典企业合作方向CSR大使贸易发展嘉宾谅解备忘录

立体定向手术治疗高血压脑出血的围手术期护理

总结36例采用立体定向手术治疗的高血压脑出血患者围手术期护理,术前对患者及家属进行心理疏导,术后密切观察病情,做好血肿引流管的护理,及时有效地处理各种并发症,指导患者

期刊

高血压脑出血立体定向手术护理

以就业为导向探索高职播音主持人才培养模式的改革

随着广播、电视行业的快速发展,越来越多的高职艺术类学校开设了播音主持专业,专业门槛低,成为了许多青少年向往、崇尚的一门职业。但受到客观、主观因素的限制,高职播音主持

期刊

高职播音主持人才培养模式

多媒体技术在高校美术教学中的合理运用研究

随着我国高新技术的不断发展,多媒体技术已经被广泛应用于高校教学中。多媒体技术从根本上丰富了教学内容,提高了课堂的教学效率。同时,线上线下结合的教学形式,摆脱了学生学

期刊

多媒体技术高校美术教学合理运用

“使用与满足”理论视域下土味文化传播机制探析

互联网的迅速发展助推了网络亚文化的生成,土味文化也在这场狂欢中占据一席之地。本文从“使用与满足”理论角度对土味文化的传播特征及受众满足进行分析,呈现土味文化的传播

期刊

使用与满足土味文化传播机制

白内障术后急性感染性眼内炎的危险因素及护理

白内障术后急性感染性眼内炎（以下简称眼内炎）是指发生在白内障摘除术后6周内的眼内液或眼内组织的炎症反应。多数发生在手术后1-2周内，常致患眼失明，甚至丢失眼球。据统计2000-2

期刊

白内障急性感染性眼内炎危险因素护理

基于图像OMR的预处理技术研究

阐述了信息填涂卡文档图像标记识别系统中的预处理算法,并提出一种新的信息卡填写方式。对信息填涂卡文档图像预处理中的利用计算机图像处理技术将彩色图像转化成灰度图像、二值化以及图像平滑等关键步骤进行了描述。在图像二值化过程中采用全局阈值法,在图像平滑过程中采用改进的邻域平均算法。结果表明这些算法能有效地解决信息填涂卡文档图像预处理问题。

期刊

信息填涂卡预处理阈值标记识别irformation card pre - processingthreshold mark recognition

文本挖掘中的中文分词算法研究及实现

与本文相关的学术论文