如果要说这两年,互联网上哪个词最火,AI肯定是其中之一。
去年谷歌的阿尔法狗击败柯洁,围棋这一人类的挡箭牌最终被机器击溃;
前不久,又有AI在多人对战游戏DOTA2中,战胜了半职业高手;
手机行业,AI也是现在的热门词汇:AI拍照、AI美颜、智能语音助手等等,都是AI应用的实例。
不过现在,AI 又出现了另一个研究方向:鉴黄。 我们都知道,互联网上的信息非常庞杂,有很正面很健康的,也有很黄很暴力的,这种内容,国外有一个专门的词汇:NSFW。 NSFW意为:Not Safe For Work,也就是在工作的时候不适合打开的内容。翻译得接地气一些,就是:少儿不宜,比如说下面这样的: 呃,不好意思,放错了,应该是下面这种: 现在,各种正规网站上,对于色情信息和图片都是0容忍的,如果有这些内容怎么办呢? 这就催生了一个职业:鉴黄师。鉴黄师的工作就是每天查看各种各样可能涉嫌色情的内容,然后将有害内容过滤掉。 小编也曾幻想着成为这个职业的一员,但是细细一想,这样的工作其实是对心理和生理的双重折磨,就打消了这个念头。 互联网鉴黄主要分为三个阶段: 第一阶段纯人工识别; 第二阶段算法识别; 这两种方式都有缺陷:人工识别效率太低,成本太高,而算法识别,准确度成问题,随着AI的火爆,现在AI智能学习识别,逐渐成为主流。 AI鉴黄,实际上是属于图片识别的一个分支。它的机制和AI下围棋什么之类的差不多: 首先建立一个足够大的图片库,然后分析出其中违规图片的特征,在利用这些特征去鉴别其他的图片,图片库越大,鉴别也会越准确。 视频的识别方法也一样,只不过机器可以将视频转换成静态的图片,再进行图片识别的工作。 目前,谷歌、微软、亚马逊等大企业都加入了这一行列。那么他们的表现如何呢? Google Cloud Vision(谷歌) Microsoft Image Moderation(微软) AWS Rekognition (亚马逊) Clarifai Nudity(一家初创公司) 测试的方法就是给这四个AI看180张图片,这180张图片都是经过人工鉴黄师筛选过的,其中90张是违规图片,90张是非违规图片。 鉴别的结果又分为四个维度: 违规图片,正确鉴别; 违规图片,不能正确鉴别; 非违规图片,正确鉴别; 非违规图片,不能正确鉴别。 测试结果表明,谷歌不愧为AI行业的大佬,识别的准确率高达94%,而且基本上没有放过一张违规图,只是在识别非违规图片的时候,出现了一些误判。 比如说上面的这几张图片,人类认为是安全的,但是被谷歌识别为违规图了。 不过话说回来,随着互联网的发展,各种信息也变得越来越隐蔽,而且同样的信息,在不同的人看来感受可能完全不同,比如说网上各种各样的内涵图,让AI判断就会变得非常困难。 你是老司机吗?上面的两张图,你看懂了么?
最近有机构对市面上的四个鉴黄AI进行了一次测试,这四个选手分别是: