论文部分内容阅读
随着internet的发展,网上各种新词语的创建和发展也超过以往任何时候,新词语的自动识别一直是中文信息处理中的一个热点研究课题,研究了网上新词语的自动识别技术,主要研究内容是利用初加工语料,采用分解策略将N元组候选词库的形成分为预处理、二元候选字段,三元候选字段、四元候选字段几个过程,降低了整体处理难度,提出了一种以规则剔除噪声词串和构词相结合的新词语的识别技术.