敏感词过滤系统的过滤规则初稿

By lincanbin at 2016-04-25 • 0人收藏 • 592人看过
<?php
/*
关键词均支持正则表达式,过多的过滤会影响性能


'fuck' => 'f**k',
以上规则表示发表含fuck的内容,会被过滤为f**k


'敏感词0|敏感词1|敏感词2' => '***',
以上规则代表过滤以"|"分割的三个敏感词,自动替换为“***”


'我们怎么能不支持特首?' => array(false, 0),
以上规则禁止发布含“我们怎么能不支持特首?”的内容


'董先生连任兹瓷不兹瓷' => array(false, 30),
以上规则禁止发布含“董先生连任兹瓷不兹瓷”的内容,并且尝试发表该内容的用户,即使发布已经失败了,但也会被续(jin)掉(yan)30秒生命


'包子' => array('维尼', 30),
以上规则表示发表含'包子'的内容,会被过滤为'维尼',并且在内容发表成功后,需要再等30秒才能发言(禁言)
*/
return array(
    'fuck' => 'f**k',
    '敏感词0|敏感词1|敏感词2' => '***',
    '我们怎么能不支持特首?' => array(false, 0),
    '董先生连任兹瓷不兹瓷' => array(false, 30),
    '包子' => array('维尼', 30),
);

计划支持以上几类过滤规则,支持敏感词的替换、禁止,与用户禁言等功能,同时还要完全支持正则表达式。

当然,要注意:过多、过复杂的正则表达式,会影响性能。


用户可以利用系统提供的过滤特性,自由制定过滤规则。

20 个回复 | 最后更新于 2016-04-28
2016-04-25   #1

还有就是,代码写好了,但是还没在官网上线,所以这个功能还没用。

就算上线了,也希望各位也不要以身试法,毕竟触发敏感词,可能会被自动禁言很久很久。

2016-04-25   #2

有兴趣的朋友,也可以对敏感词进行分类。

看看那种是禁止发布的,哪种是可以替换的,那种是需要惩罚的。

然后做一份规则共享。


不过话说我不怎么喜欢这种审查。

2016-04-26   #3

对于中文这种过滤效果很差,中文表达的方式太丰富了,不过支持你练手!

2016-04-26   #4

回复#3 @小虫哥哥 :

支持RegEX了,没过滤到只能是自己的规则没写好。

2016-04-26   #5

回复#4 @lincanbin :

对于中文,除非封单字,要不然都有其它的千奇百怪的方式来表达的

2016-04-26   #6

回复#5 @小虫哥哥 :

当然,对于什么语言都是如此。

道高一尺魔高一丈。

2016-04-26   #7

正式推出来后,敏感字是要在代码里一个个加,还是直接在后台加?

2016-04-26   #8

回复#7 @和坤和大人 :

https://github.com/lincanbin/Carbon-Forum/blob/master/includes/Filtering.words.config.php

直接把规则写在这个文件里。

网页上还是不适合编辑过多的内容。

2016-04-26   #9

回复#8 @lincanbin :

还是觉得能直接在后台改比较好,每当发现新的敏感字时,我需要FTP到服务器,找到这个文件,打开编辑保存,如果人在外边没电脑用,网站出现意料之外的敏感字,就显得有些被动了

2016-04-26   #10

回复#9 @和坤和大人 :

现在有智能手机啊,智能手机都有FTP……

2016-04-26   #11

回复#10 @lincanbin :

还是觉得麻烦,我比较喜欢傻瓜化的便捷操作

2016-04-26   #12

回复#11 @和坤和大人 :

编辑文件已经够简单了。

2016-04-26   #13

回复#12 @lincanbin :

也许这就是理科和文科思维上的差异了

2016-04-26   #14

回复#13 @和坤和大人 :

反正肯定不放进后台,虽然一点难度都没有,几分钟就可以做好。

但是后台寸土寸金,放个言论审查系统,感觉不怎么合适。

2016-04-26   #15

我是来学习敏感词的  


不用放后台,兹辞 。

2016-04-28   #16

test.jpg

2016-04-28   #17

說真的我覺得"過濾"敏感詞不大有效。真要發有很多技巧發的出意思。


後台批量搜索"自訂關鍵字",然後可以選擇刪除或替代可能還比較有效,不過文章一多就會很慢就是了。

2016-04-28   #18

回复#17 @達也 :

全文搜索不慢就有鬼了。

要不写个贝叶斯分类器来过滤?

2016-04-28   #19

回复#18 @lincanbin :

覺得可有可無的功能不用花這麼大心力。

貝葉斯方法我沒學過,但用算法處理違禁詞這樣是不是會多一次查詢?

登录后方可回帖

登 录
信息栏
购买PHP虚拟主机 / VPS

Carbon Forum是一个基于话题的高性能轻型PHP论坛

下载地址:Carbon Forum v5.0.1
QQ群:12607708(QQ我不常上)

donate

手机支付宝扫描上方二维码可向本项目捐款

Loading...