跳转至

敏感词

简介#

敏感词可能既是俗称,也是一种规避的办法,即「关键词过滤」一词可能也会被关键词过滤了……就像使用「和谐」一词来描述审查一样。

关键词过滤,也称关键字过滤,指应用中,对信息进行预先的程序过滤、嗅探指定的关键字词,并进行识别。1

敏感词清单#

由于敏感词清单不是由政府机关下发的,所以各个厂商的敏感词清单实现方式、清单内容均有不同,通常只能靠解包软件来检查敏感词清单,如果敏感词清单在运行审查的服务器上,那么通常就无法得到,即使通过 二分法测试 获取到一部分,也没法获取到全部的敏感词清单和匹配规则。

时间或版本 名称 来源 数量
2004-082 COMToolKit.dll3 QQ游戏 987 行
2009-06-21 未找到原始文件4 绿坝 二次转载 108,144 字节
2012-05-31 无名称的 JavaScript 文件 Google 二次转载超过 400 条
未知具体时间 sensi_words.txt 小米手机 253 个
版本 6.3.17 智慧中小学 (com.eduyun.app.factory.ykt) apk 12765 个
未知具体时间 vocabulary.txt TssSdk 71254 行

尚不明确的敏感词#

贫困#

2012年4月15日,新浪微博用户「--天问--」表示:「系主任发了上面给的的文件,剧本创作不能再用『贫困』一词了,只能改为『困境』,因为贫已经被扶没了,这就是结构性多余的人被隐形,禁止被描述」。5


  1. 關鍵詞過濾》, 维基百科. 2022-08-26. 参照: 2022-10-11. [Online]. 

  2. Leo Liang, 《可怜的腾迅》, Good good study, day day up, 2004-08-04. (参照 2022-10-11). 

  3. Xiao Qiang, 《The words you never see in Chinese cyberspace》, China Digital Times, 2004-08-30. (参照 2022-10-11). 

  4. 1》, Google Docs, 2009-06-21. (参照 2022-10-11). 

  5. ShakeShack, 《微博存档》, 喵窝, 2022-10-29. (参照 2022-11-09). 

(由于更新时间是手动更新的,所以部分页面内容已更新,但忘记修改新的日期了……)