上传者: 42131618
|
上传时间: 2021-10-25 20:02:20
|
文件大小: 1.84MB
|
文件类型: -
敏感词过滤系统
更多详见
Ubuntu Linux下环境构建:
sudo apt-get install python-pip
pip install nltk
pip install jieba
pip install pymongo
Config下config文件:
可以进行服务器配置,针对数据库中预定集合的不同区段列,
可以选择语言(中文,英文),
可以设置要过滤的文章数量,时间替换从最近前推
添加邮件通知系统,SendMailFlag =“是”#“否”
结果:细分filter_status为1表示通过过滤,为0表示不通过过滤
stopwords_chs和stopwords_eng为过滤词黑名单
可以随时添加要过滤的单词,一行一个
如果添加的过滤词无法正确被jieba分词,则同样方法将需要过滤的词和词频加入到主字典dict文件中或者用户字典user_dict,一行一