论文部分内容阅读
为解决禁毒情报分析中缺乏对文本信息处理和利用的有效手段的问题,提供一种基于禁毒情报相似度计算的中文文本算法。结合禁毒领域的业务需求,对禁毒情报相似度进行计算分析;对统计分词方法进行改进,首先分词后进行停用词处理,然后用户可以自定义词典的同时自定义词性,最后通过正则表达式提取案发时间等信息。还手动扩充了用户词典,加入了物品库,地址库等,分词的结果有了很高的提升;用涉毒案件作为实例计算相似度,证明了本算法的可用性,符合预期的效果,这为禁毒情报线索、警情及案事件等各类线索的碰撞、多点聚焦以便及时发现有价值的涉毒