研究AI识别同性恋竟受到死亡威胁!论文作者回应如下-演道网

本网站用的阿里云ECS,推荐大家用。自己搞个学习研究也不错

原标题:研究AI识别同性恋竟受到死亡威胁!论文作者回应如下

编者按:本文由微信公众号“AI科技大本营”(ID:rgznai100)编译,参与 周翔、reason_W、shawn,36氪经授权发布。

随着 iPhone X 的发布,利用深度学习进行人脸识别预计将逐渐成为智能手机的标配。然而,除了身份认证之外,最近还涌现出很多研究,探讨通过“刷脸”是否能预测人的性格,甚至是人的行为。

2016 年年底,上海交通大学的武筱林教授和他的博士生张熙发表了一篇论文——《基于面部图像的自动犯罪概率推断》。该研究认为,通过学习,机器可以通过照片分辨出谁是罪犯,谁是守法公民,且准确率在86%以上。

这篇论文在 AI 界引起了轩然大波:人的面部特征真的能用来预测人的行为和性格吗?这种研究真的不涉嫌歧视吗?

近日,斯坦福大学助理教授 Michal Kosinski 及研究生 Yilun Wang 的一篇论文——《在通过面部照片判断个人性取向的问题上,深度神经网络比人类更准确》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images),同样引起了极大的争议。

这项研究发现,在“识别同性恋”的任务中,深度神经网络的表现要比人类更好,前者的准确率在男性中为 61%,在女性中为 54%。

此外,最可能为男同性恋者的典型脸部特征更趋于女性化,而女同性恋者则更男性化。通常,男性的下巴较宽,鼻子较短,前额较小;而男同性恋者下巴较窄,鼻子较长,前额较大,脸部毛发较稀少。相反,女同性恋者的脸部通常比女异性恋者的脸部更像男性脸部(下巴较宽,前额较小)。而且,同性恋者和异性恋者在梳洗打扮方面确实不同。

这项刊登在著名的心理学期刊上的研究成果,遭到了前所未有的批评,除了学术界的质疑,该论文作者还受到各种谩骂,甚至收到了威胁邮件。

“from Max:On Sep 10, 2017, at 00:06

你好,

我刚刚读完你的关于检测人类性取向的深度学习项目。我认为这样的一个研究是要被禁止的。一个人的性取向应该是他或她的隐私。

你肯定知道在一些国家,同性恋是犯罪行为。所以我认为你是一个支持谋杀同性恋者的恐同混蛋。如果不是,请你销毁所有跟这个话题有关的工作,否则,我希望能来个人杀了你,因为你的工作将使很多人受到折磨,甚至死亡。

请你拿起刀,给自己来个痛快吧!

Best wishes, Max ****”

对于这封“死亡信件”,论文作者是这样回复的:

“亲爱的 Max,

您说您读了我的项目,但您真的理解这个项目吗?在送我去死之前,您能不能抽点儿时间,真正读一读您写给我的您想要另一个人去死的那段话。仅仅根据传闻去评判别人,不管您是不是 LGBTQ (编者注:LGBTQ=lesbian(女同性恋), gay(男同性恋), bisexual(双性恋),transgender(跨性别), queer(非异性恋或不认同出生性别的人)),都不应该口出此言。

如果您真的读了我的项目并想提供您的想法/意见,我将倍感荣幸。我也真的很珍惜。而且,如果在认真读完之后,您仍然希望我自裁,那我就有可能更加认真地对待这样一个有根据的要求。

您可以在这里找到这个文件

您也可以从我的笔记开始:链接

Warm wishes, Michal”

为了消除外界的质疑,论文作者对网上的各种批评一一回复,AI科技大本营对其原文进行了不改变原意的编译。看完这些回复,或许你会对作者的研究初衷和研究成果会有更深刻的理解,甚至会对同性恋的成因和表现形式有一定的了解。

一、研究结果总结

我们并没有创建一个侵犯隐私的工具。我们只是研究了已经被科技公司和政府部门广泛使用的现有技术,并判断它们是否存在侵犯 LGBTQ 人群个人隐私的风险。

令人不安的是,我们发现这些技术确实存在这样的风险。

我们的工作其实很有限:我们只研究了自称是同性恋或者异性恋的人群。然而,这些限制并不会让研究成果或者其传递的核心信息无效:广泛使用的技术对 LGBTQ 人群的个人隐私构成威胁。

在反驳之前,希望你们能够考虑这些证据。

我们的主要发现是什么?

在进行的 7 项研究中,我们展示了一种可以通过人脸准确检测这个人的性取向的算法。如果有两个测试对象:男同性恋者和直男,或者女同性恋者和直女,我们的算法 91% 的时间能正确区分男同性恋者和直男,83% 的时间能够正确区分女同性恋者和直女。

要知道,乳腺钼靶X线影像的准确率才 85%,帕金森病现代诊断工具的准确率也才 90%。

我们的数据集包括 35000 张同性恋以及异性恋的图片,这些图片都来自一个公开的数据集,而且用户自己已经标记了自己的性取向。在一个图像子集上,我们的算法取得了前所未有的精度。我们确保算法的预测不受年龄和种族差异的影响。

此外,我们还对 Facebook 个人资料图片的独立样本进行了测试,并取得了相近的结果。

相比之下,人类的判断并不比随机猜测更准确。我们认为,这是 AI 胜过人类的又一个例子。这项研究经过了同行的评审,并最终在“ Journal of Personality and Social Psychology”(心理学领域的顶尖期刊)上发表。此外,在我们将这篇论文正式发送给同行进行评审前,已经有十多位性学、心理学和人工智能领域的专家对草稿进行了审查。该研究也已经获得内部审查委员会的批准。

什么特征被用来预测性取向?

分类器使用的是固态(fixed)和瞬态(facial)面部特征。同性恋者和异性恋者不仅面孔形态不同,而且表情和修饰风格也不相同。

你肯定错了——这是伪科学!

我们得到了很多这样的反馈。坦白说,如果我们的结果是错的,我们会很高兴。这样的话,人类会少一个问题,我们可以继续写写畅销书,比如微笑如何让你更快乐等等。

这些调查结果对隐私有什么影响?

算法根据人脸来预测人的性取向会造成严重的隐私隐患,这是事实。因此,控制什么时候、向谁透露个人性取向的能力,不仅对于人类的福祉,而且对于人类的安全也至关重要。

在某些情况下,个人性取向被公开可能会危及生命。LGBTQ 社区的成员仍然会受到来自政府、邻居、甚至家人身心上的虐待。许多国家将同性性行为定为犯罪行为,在某些地方,发生同性性行为的人甚至会被判处死刑。

发布这些结果,作者担心吗?

我们真心对这些结果感到不安,花了很多时间考虑是否将它公开。在结果发布后,我们收到了各种警告,这正是我们当初不愿看到的。

然而,最近的新闻报道显示,政府和企业已经在使用通过面部来判断亲密特征的工具。数十亿人的面部图像存储在数字和传统的档案中,包括约会平台、照片分享网站和政府数据库。默认情况下,Facebook、LinkedIn、Google+ 上的个人资料图片都是公开的。而 CCTV(闭路电视)摄像头和智能手机都可以在未经许可的情况下拍摄他人的脸部照片。

我们认为, 目前迫切需要让决策者和 LGBTQ 社区意识到他们面临的风险。科技公司和政府机构很清楚计算机视觉算法工具的潜力。我们相信,人们应当了解这些风险,并采取适当的预防措施。

在结果发布之前,我们确保我们的工作不会为那些可能侵犯他人隐私的人提供任何好处。我们使用了很多现成工具、公开数据和计算机视觉从业者所周知的标准方法。我们并没有创建什么侵犯隐私的工具,而是想表明,一直以来人们广泛使用的基本的方法都会造成严重的隐私威胁。

为什么要研究面部特征和性格之间的联系呢?

就像前面说的那样,这具有重要的隐私意义。群众和政策制定者应当知道他们将面临的风险,并且应该有机会来采取预防措施。

从科学的角度来看,这种联系也很有意思。识别面部特征和心理特征之间的联系可以帮助我们了解广泛的心理、生物和文化现象的起源和本质。否则,许多可以从人脸很容易估计到的因素——如产前和产后激素水平、发育史、健康、环境因素和基因——都将将难以测量。因此,将面部特征与其他现象联系起来,可以帮助我们产生很多可以用其他科学方法进行探索的假设。

将性格特质与面部特征联系起来的潜在机制是什么?

有三种。首先,性格可以影响人的脸部外观。例如,性格比较外向的女性往往随着年龄的增长,外观会变得更具吸引力。

其次,面部外观可以影响人的性格。例如,好看的人会得到更积极的社会反馈,因此往往变得更加外向。

第三,许多因素会同时影响人的外观和个性。包括产前和产后激素水平、发育史、环境因素和基因等等,例如,睾丸素的水平会显著影响人的行为(例如权力欲)和面部外观(例如面部宽度和面部毛发)。

怎样解释脸部特征和性取向之间的关联?

通常情况下,科研工作者会使用普遍认可的产前激素理论(PHT)来预测脸部特征和性取向之间的关联。根据 PHT,因为雄性激素负责胎儿的性分化,因此男胎形成同性性取向的成因是由于其受雄性激素影响不足,女胎则是过度受雄性影响。由于相同的雄性激素还负责脸部的两性异形,PHT 预测同性恋者一般具有性别非典型面部形态(gender-atypical facial morphology)。换句话说,男同性恋者的脸部形态趋于女性化,而女同性恋者的脸部特征一般趋于男性化。

母体产前雄性激素水平还会影响胎儿成年后行为和取向的性分化。因此,PHT 预测同性恋者一般会选择性别非典型的面部修饰、表达和打扮方式。

图1:被归类为最可能是同性恋者或异性恋者的典型脸部 / 轮廓生成的合成脸部和典型脸部轮廓。

与 PHT 理论的预测一致,最可能为男同性恋者的典型脸部(见图1)更女性化,而女同性恋者更男性化。通常,男性的下巴较宽,鼻子较短,前额较小;而男同性恋者下巴较窄,鼻子较长,前额较大,脸部毛发较稀少。相反,女同性恋者的脸部通常比女异性恋者的脸部更像男性脸部(下巴较宽,前额较小)。

同性恋者脸部的性别非典型特征不只体现在形态上。女同性恋者化眼妆以及穿着暴露(衣服领口较低)的情况通常较少,她们毛发的颜色更深——女性特征较不明显的打扮和风格。另外,女异性恋者一般较常微笑,而女同性恋者则不然。

此外,该理论还印证了美国文化中棒球帽与男子气概之间的关系:异性恋男性和女同性恋似乎都喜欢戴棒球帽(观察图1人物前额上的阴影;人工检测单一图像证明了这一结论的正确性)。

如何解释该算法的准确性?

该分类器的准确性怎么样?分类准确性的解释很重要,而且结论往往与直觉相反!

假设一个由 1000 名男性组成的样本,其中包括 70 名男同性恋者,利用准确度为 AUC=.91 的分类器评定他们的脸部(对比本研究中男性脸部图像(每人5张图像)分类实验)。

分类器虽然不能指出哪个检测对象是同性恋,但是可以标记每个检测对象是同性恋的概率。我们需要决定的是分界点在哪里——或者说概率超过多少才能将某一对象标记为同性恋者,这一点很重要。

如果你想选择少数同性恋者作为样本并保持很小的出错率——将概率最高的少数对象标记为同性恋者,这样就可以得到很高的准确度(例如,一小部分标记为同性恋者的对象),但是同时查全率(recall)会较低(例如,会“漏掉”很多男同性恋者)。如果扩大概率范围,就会“检测出”更多的男同性恋者,但是被错误标记为同性恋者的异性恋男性也会增多(这就是所谓的“false positives”)。也就是说,追求高准确度会导致查全率降低,反之亦然。

回到包括 70 名男同性恋的 1000 名男性样本上。如果从这个样本中随机选择 100 名男性,预计其中只有 7 名男性是同性恋——随机抽样的准确度为 7%(样本中每 100 名男性中有个 7 名是同性恋者)。

用分类器进行分类。根据分类器检测结果,在是同性恋的概率最高的 100 名男性中,有 47 名是同性恋(准确度 = 47/100 = 47%)。换句话说,分类器可以将随机抽样的准确度提高近7倍。

我们还可以通过缩小子样本进一步提高准确度。在是同性恋的概率最高的 30 名男性中,有 23 名是同性恋(准确度 = 23/30 = 77%; 查全率 = 23/70 = 33%),相比随机抽样的准确度,提高了 11 倍(77%/7% = 11)。在同性恋概率最高的 1% 子样本(即前 10 名)中,被确认的同性恋者有 9 名(准确度为90%):随机抽样的准确度提高了 13 倍。但是实现这么高的准确度的代价是查全率较低:只有 13% (9/70 = 13%)。要想提高准确度,就必须牺牲一定的查全率。

二、你肯定错了——这是伪科学!

像其他科学研究一样,我们的研究也可能存在不完善的地方。为此,我们单列了一些大家关心的问题,并予以回复:

“你肯定错了;这个实验的对象全是白种人”

虽然我们力求获得一个更加多样的样本,但是本研究的对象仅限于美国境内的白种人。

这并不能证明本研究的结论无效。本研究证明,你可以区分同性恋者和异性恋者。

虽然本研究并不能证明该结论同样适用于其他种族,但我们发现该结论有适用的可能性。相同的生物学、进化和文化因素促进了同性恋者和异性恋者之间差异的形成,这些因素也很可能会影响其他种族。

“你肯定错了;该分析未考虑双性恋者。”

是的,我们并未探究是否可以通过脸部预测某一对象为双性恋。

但这并不会使我们的结论失效。我们仍然证明了我们可以区分同性恋者和异性恋者。某些被归类为异性恋或同性恋的对象可能实际上是双性恋。不过,纠正此类错误可能会提高分类器的准确度。

重要的是,不考虑双性恋者或变性者并不代表我们否认他们的存在。

“这肯定错了;研究使用的样本是公开性取向的约会网站会员”

这是一个合理的限制因素,我们在论文中围绕该因素进行了详细地讨论。的确,从约会网站收集的图像数据似乎有这样一个问题:性取向信息特别明显,但是本研究并不止于此。

首先,我们用从 Facebook 上收集图像组成了一个外部样本,再用这个样本测试我们的分类器,结果准确度并不亚于用约会网站图像做样本时的准确度。这表明 Facebook 个人档案图像与约会网站上的图像传达出的性取向信息一样明显。

其次,我们让研究参与者根据这些对象脸部判断其性取向。相比以往研究中人类判断实验室精心标准化的图像的准确度,这些参与者的准确度并没有好多少。这表明,本研究中使用的图像性取向信息并不是特别明显——至少,对人类而言是这样。

最后,本研究使用的深度神经网络经过了特别训练,只学习轻易无法改变的固定脸部特征,例如脸部元素的形状。这有助于减小分类器发现研究中同性恋者和异性恋者脸部图像存在某些与脸部无关的表面差异的风险。

“你肯定错了;众所周知,脸部特征和性格特质之间没有关联”

不幸的是,这个说法并没有依据。

很多研究证明,人类可以判断他人的政治观点、个性、性取向、品质以及其他特质,但是准确度不高。在判断这些时,准确度不高并不一定代表脸上没有体现这些特质的明显特征,而是人类可能无法发现或解释这些特征。

“你肯定错了,你的分类器在预测的时候一定选了一些和人脸特征无关的东西作为判别依据”

我们也考虑了很多相关的事情。而且,我们非常希望未来的研究能够更有说服力地证明或反驳利用人脸来预测性取向的可能性。当然,我们自己也做了很多努力来提高这项研究的严谨性和说服力。

  • 首先,我们的模型专门针对那些人脸不容易改变的固定特征——比如面部元素的形状——来进行训练。我们使用的深度神经网络也是针对一项完全不同的任务来进行训练的:即通过图像来识别同一个人。这些能帮助我们降低风险,减少分类器在研究所用的同性恋和异性恋脸部图片之间发现的表层差异,那些差异甚至和脸部都没有关系。

  • 其次,我们在外部样本上对结果进行了二次验证。

  • 第三,我们研究了脸部图像上哪些元素可以用来预测性取向,从而确保这些元素确实是脸部特征(而不是其他因素)。正如你在论文中了解到的,即使所有的视觉信息都被删除,分类器仍然可以根据脸部的轮廓进行相当准确的预测。

  • 第四,我们仅仅让分类器检测脸部区域,并且删除了图像上面部以外的背景区域。我们还进行了检查,以确保分类器在进行预测时侧重于面部特征而不是背景。下面的热力图(从图3中可以看出)清楚地表明,分类器检测的部分集中在面部区域(红色),而不是背景(蓝色)

图3:热力图显示了标记图像上不同的给定部分可以改变分类结果到什么程度。

其中颜色尺度从蓝色(不改变)一直到红色(发生实质性改变)分别表示不同的结果。我们使用 2D 高斯滤波对颜色编码的方块进行了平滑处理。

最后,也许最重要的是,分类器发现的男同性恋者和直男在脸部之间的差异与产前激素理论-——一个被广泛接受的解释性取向起源的理论——的预测结果是一致的。

“你肯定错了;你的研究结果表明,同性恋者往往是性别不典型——但我明明知道许多性别典型的男同性恋者跟女同性恋者!”

我们也知道存在很多非常阳刚的男同性恋者和很多很有女人味儿的女同性恋者。这就好像,我们知道有很多老男人,但这并不能反驳女性更加长寿的结论。(事实上,我们在研究中发现)男同性恋者的脸部特征更有女人味儿并不能说明所有男同性恋者都比直男更有女人味儿,或者说不存在很阳刚的男同性恋者(女同性恋者亦然)。

我们在研究中观察到的有关女人味和男人味儿的差异是很微妙的,并且这些差异存在于很多不同的脸部特征中;虽然人类难以察觉,但对灵敏一些的算法来说,这些差异已经很显而易见了。

“你肯定错了;你实验中的很多参与者肯定在他们的性取向上撒谎了!”

确实,有些跟我们说他是直男的参与者实际上很有可能是同性恋(反之亦然)。然而,我们相信,那些自愿在约会网站上发布资料寻找伙伴的人,几乎没有在性取向上撒谎的动机。

当然,如果我们的一些参与者确实在他们的性取向上撒了谎,那么拆穿他们的谎言将极有可能进一步提高分类的准确性。

“你肯定错了;唯一的原因是因为同性恋者更在意自己的形象或者说拍的照片更好看!”

我们很容易相信,男同性恋者的发型和胡须造型更好看。就像我们在论文中讨论的那样,同性恋者和异性恋者在梳洗打扮方面确实不同。

然而,他们在形态方面也同样明显不同。我们的算法对只提供脸部轮廓的男同性恋者判别的准确率超过了 70%,对于女同性恋者超过了 60%。

转载自演道,想查看更及时的互联网产品技术热点文章请点击http://go2live.cn

未经允许不得转载:演道网 » 研究AI识别同性恋竟受到死亡威胁!论文作者回应如下-演道网

赞 (0)
分享到:更多 ()

评论 0

评论前必须登录!

登陆 注册