登陆

章鱼彩票老版app-揭秘用来练习全球 AI 的 1TB ImageNet 数据集:裸体儿童、大醉的联谊大学生、色情明星及更多!

admin 2019-11-12 235人围观 ,发现0个评论

数据集创建者企图阻挠咱们看个终究,但咱们仍是搞到了一份数据集。现在它被擦除洁净。

ImageNet这个用于练习全球AI体系的数据集竟然含有暴露儿童、沙滩上家庭、大学生派对、色情女演员等更多目标的相片,这些内容未经当事人的清晰赞同从网上抓取而来,以练习计算机体系。

该数据库含有1400万张相片,每张相片分门别类,描绘每个场景中的主体。这对信息组合(相片和标签)用于教AI应用软件辨认相机/摄像头摄影的物体和人。

很多研讨人员、工程师和学术人员已下载了该数据库,练习成百上千个神经网络,以辨认相片中的内容:从突击步枪、围裙、喜鹊、小型巴士、斑马到西葫芦,不胜枚举。

2012年,该数据集用于构建AlexNet,这被誉为是深度学习范畴的突破性发展,由于它标志着神经网络在目标辨认方面的准确性初次超越了传统的计算办法。AlexNet后来又赢得了年度的ImageNet大规划视觉辨认挑战赛。

南方双彩网

就在世人庆祝ImageNet取得的成功之际,其令人不快的内容基本上被忽略了。

硅谷一家AI草创公司的机器学习科学家Vinay Prabhu无意中发现了该数据集的一些较荫蔽较含糊的相片。

他称:“其时我正尝试用BigGAN生成自行车的相片。”BigGAN是一种生成式对立网络(GAN),在研讨一组输入之后,可以教这种机器学习体系生成新的共同输出。换句话说,Prabhu本期望向BigGAN馈送来自ImageNet的自行车相片,以便他的计算机可以自己生成新颖的、之前从未见过的自行车相片。

可是他的代码却生成了古怪的肉色斑驳,类似于含糊不清的女人身体。他百思不得其解,所以回过头去检查练习数据集,这才认识到自己无意中拿比基尼练习了其模型。

ImageNet的类别按字母次序排序,由软件按数字升序加以引证。在Prabhu用于研讨的数据库的子会集,自行车是第444类,比基尼是第445类。他代码中的个位数过错导致其神经网络从第445类(比基尼)获取相片,而不是从第444类的自行车获取。

他称:“起先我还觉得很风趣,所以我决议阅读一下数据集。”没多久,他脸上的表情由好玩变成了震动。

Prabhu说:“很显然,这些内容是不道德的。”他看到了暴露孩子章鱼彩票老版app-揭秘用来练习全球 AI 的 1TB ImageNet 数据集:裸体儿童、大醉的联谊大学生、色情明星及更多!的反面、色情明星、大学生联谊会上恶作剧的相片,以及男扮女装的私照。一些相片上打有水印,上面的URL指向流出这些相片的不良网站。

他称:“有时候,色情内容的性质值得商讨,但在一些状况下,色情网站的链接赫然印在相片上。

他进一步研讨这个奇怪的局势,查询了ImageNet库中的其他类别,成果发现了更惊人的资料,例如女人显露私部的相片。最重要的是,好像没有一个当事人曾清晰赞同将自己的相片包含在很多神经网络和研讨人员剖析的数据会集。

Prabhu称:“这些人不知道自己的人脸在这个数据会集。”他称,他发邮件给ImageNet的创建者提示对方留意他发现的内容时,却没有收到任何回复。

IT外媒The Register要求拜访该数据集时,ImageNet团队拒不答应。相反,一位讲话人代表团队告知称,由于“维护原因”,该库无法运用。

可是,业界另一名消息人士让其检查整个ImageNet库——足足1.31TB巨细,发现了大批令人不快的相片。

泳裤和浴帽

“泳裤”和“浴帽”这两个类别有暴露的儿童。有这么一个特别的比方:一个戴着通明浴帽、做鬼脸的赤身孩子就站在一名裸体男人的前面,就在孩子生殖器的正上方裁切了相片。在“和服”类别中,一名女子躺在床上,和服打开,显露了双腿和私部。其他当地还有海滨沙滩上闲逛的姿势各异的裸体者的相片。

ImageNet稀有百万张相片。大多数相片几乎没有坏处,拍的是动物、植物或随拍目标之类的东西。一旦涉及到人,状况就变得有点风险。

问题首要归因于这些相片是怎么搜集的。美国斯坦福大学和普林斯顿大学的研讨人员编写了一款软件,该软件从包含谷歌、Bing和相片同享渠道Flickr在内的很多网站主动抓取了很多相片。

尽管从相片网站抓取的部分或一切相片或许已取得宽松式答应证(比方Creative Commons)的答应,因而ImageNet团队和科学家可以自在运用和分发这些相片,不过据了解,被拍目标并非悉数赞同其相片在几年后馈入到各式各样的AI中。这自身对咱们一切人来说是个经验:今日发布或同享的数据很或许在明日用于意料不到的场合。

“纯属过错”

这些抓取的相片传递给了在Amazon Mechanical Turk(MTurk)上挥汗作业的人,人们报名这项方案后,可以为他人处理简略使命,赚点小钱。这些人被要求将相片手动分配给特定类别,或许在相片中重视的目标周围画边框。

即便这些人在细心审察相片后(他们被要求过滤掉任何不可靠的资料),有问题的相片仍是成为漏网之鱼。ImageNet团队将此归咎于人为过错。据外媒The Register得悉,不计其数的网络自在职业者处理的相片超越了1.6亿张,因而一些失误也在情理之中。

“毫无疑问,MTurk工人会犯过错,而MTurk上的垃圾邮件发送者(不留意阐明事项或以其他办法提交低质量作业的人)始章鱼彩票老版app-揭秘用来练习全球 AI 的 1TB ImageNet 数据集:裸体儿童、大醉的联谊大学生、色情明星及更多!终是个问题,”该项意图讲话人本月初告知The Register。

“咱们布置了一套主动质量控制体系,可以过滤掉垃圾邮件发送者和有问题的相片,可是体系并不完美。就算有多重防备措施,考虑到作业的规划之大,有问题的相片仍会漏掉。要处理的相片超越1.6亿张,而MTurk工人只要5万多。

Tom White是一名专心于AI的数字艺术家,仍是新西兰惠灵顿维多利亚大学规划学院的讲师,他曾经在其著作中用过该数据集,他对咱们说:“网上有很多不合适的相片,因而咱们应该要料到,任何主动搜集网上相片的库也包含这些相片。数据集的发布者通常会活跃尽力删去这些内容,但不管他们多尽力,都会出现收益递减点。

“数据集的创建者之所以让其间一些‘污染物’仍然存在,便是由于没有多大的动力去投入资源以铲除一切这些污染物,它们关于练习机器学习模型的整体影响也很小。

版权法需求更新

从公共来历抓取相片馈送给ImageNet之类的数据集是个颇有争议的问题。就算在遵从宽松式答应证的状况下运用了相片,要求对相片细心检查以构建功能强大的目标辨认神经网络是入情入理吗?在网上同享更多信息之前,咱们是否果真要猜测未来?

Albert Cahn是Surveillance Technology Oversight Project(总部坐落纽约的非营利性急进安排)的律师、创始人兼履行董事,他告知咱们,他“十分忧虑运用计算机视觉抓取数据在隐私方面带来的影响。

他告知The Register:“让我感到震动的是,数百万人的脸部未经当事人的赞同就被运用、商业化。我以为,这些数据库中有孩子这一点恰恰表明晰汇总这些数据集方面的规矩究竟多寥寥无几。

他以为,需求出台新的法令,那样有人搜集和剖析人们的数据时,这些数据得到维护。他说:“许多公司往往未经咱们的赞同就运用和出售咱们的生物特征辨认数据。尽管其间一些做法或许合法,但这恰恰表明晰需求采纳更有用的生物特征辨认隐私做法,以防备这类数据搜集。

“由于咱们拿来更多的信息、整合到机器学习中变得越来越简略,咱们需求法令及时跟进,而传统的版权法规在维护大众方面还远远不行。

成见和种族主义

The Register后来发现,自1月份以来,ImageNet一向无法下载。创建者供认,他们认识到了有问题的内容。不只有不合适的相片,用来描绘相片的一些标签也带有成见和种族主义。

Kate Crawford是专心于AI社会影响的研讨中心AI Now Institute的联合创始人,而Trevor Paglen是对大规划监控和数据搜集颇感兴趣的艺术家,他们俩最近搞了一个项目:ImageNet Roulette。该项目发现,拿ImageNet练习的体系会用凌辱章鱼彩票老版app-揭秘用来练习全球 AI 的 1TB ImageNet 数据集:裸体儿童、大醉的联谊大学生、色情明星及更多!字眼和种族凌辱来符号人们的自摄影。他们回绝就此事宣布谈论。

ImageNet团队告知The Register:“咱们也以为,不适当的相片不应出现在数据会集。

“咱们正在开发和施行一种体系性的办法,以辨认和删去有问题的相片,由于相片被以为有问题的规范会跟着时刻而发生变化,具有主观性,还取决于当地社区的规范和预期用处;理性点的人或许不赞同在哪里简略地齐截条界限。

实践上,该团队现正在整理ImageNet的不适当相片,期望对里边的悉数人脸进行含糊化处理。

美国西海岸华盛顿大学的博士生Os Keyes正在研讨性别和算法,他告知咱们“人脸含糊‘很有必要,但还不行’。人脸几并不是辨认人的仅有办法。”这方面的其他办法包含衣服、纹身和身份证。

Keyes说:“可以经过人脸来辨认人,但可以经过人在摄影时出现姿态的其他许多细节来辨认人,因而很难幻想研讨人员可以实践编写将可辨认的特征挑出来的体系。这又是活跃寻求赞同关于处理这个问题大有协助的景象。

Crawford和Paglen之前说过,删去相片也会带来其他问题。“假如完全删去相片,不只AI前史的重要部分因而损失,研讨人员也无法看到这些假定、标签和分类办法怎么在新的体系中加以仿制,也无法追寻作业体系中体现出来的成见和误差的出处。

“这是数据集无法拜访或消失的问题。假如它们现在或曩昔用于在日常日子中发挥作用的体系,可以研讨和了解它们刻画的世界观就很重要。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP