面部識別技術(shù)成為整個AI行業(yè)最為常見的技術(shù)應(yīng)用之一;不過,在識別效率越來越高的同時,人們也開始擔心面部識別技術(shù)發(fā)展過程中的隱私安全問
面部識別技術(shù)成為整個AI行業(yè)最為常見的技術(shù)應(yīng)用之一;不過,在識別效率越來越高的同時,人們也開始擔心面部識別技術(shù)發(fā)展過程中的隱私安全問題。比如說最近IBM利用Flickr下載的圖片來進行面部識別訓練,就引起了人們的質(zhì)疑;NBCNews針對此事進行了詳細的報道,雷鋒網(wǎng)對這篇報道進行了不改變原意的編譯。
近些年來,面部識別技術(shù)得到了長足發(fā)展,除了幫你解鎖iPhone,還能讓執(zhí)法機關(guān)在人山人海中“一眼”就認出犯罪分子,商店甚至用它來識別自己的“死忠”客戶。不過,法律專家卻警告稱,大量未經(jīng)允許濫用網(wǎng)絡(luò)照片最終會畫地為牢,反過來成為監(jiān)控你的“幫兇”。
現(xiàn)在的面部識別技術(shù)還不完美,它工作時靠的是算法,目標則很簡單——認出那張獨一無二的臉。
想把這個任務(wù)完成好,技術(shù)人員就必須提前“喂給”算法“養(yǎng)料”,即天量的面部照片。那么這些照片從哪來呢?當然是互聯(lián)網(wǎng)。
起初,算法學習的照片都會按照不同的標準進行分類,比如年齡、性別、膚色等,但經(jīng)過一段時間的學習后,它的能力開始變得有些嚇人了,于是法律和人權(quán)專家開始大聲疾呼,他們擔心技術(shù)人員對普通人照片的濫用會帶來“反噬”效果。
“這是AI訓練數(shù)據(jù)集背后的骯臟小秘密。技術(shù)人員可不管三七二十一,只要能用的照片他們都不放過。”紐約大學法學院教授JasonSchultz說道。
最近IBM公司也進了“暴風圈”,今年1月它們向研究人員分享了自己的數(shù)據(jù)集,包含了Flickr上近100萬張照片,雖然IBM號稱此舉是為了減少面部識別的偏差。
了解真相后的攝影師們不愿意了,因為IBM在他們的作品上加了各種細節(jié)注釋,包括面部幾何結(jié)構(gòu)、膚色等信息,而這些照片最終可能會成為面部識別算法的“養(yǎng)料”。
“我拍過的人可沒想過,自己的照片居然會被用在面部識別算法訓練上。”公關(guān)經(jīng)理Greg Peverill-Conti氣憤地說道,他有700多張照片被收錄在了IBM的“訓練數(shù)據(jù)集”中。“IBM太草率了吧,它們怎么能不經(jīng)同意就使用這些照片”。
IBM公司AI研究主管JohnSmith則表示,公司“致力于保護個人隱私”,如果誰想從數(shù)據(jù)集中移除照片,盡管聯(lián)系IBM。
雖然IBM信誓旦旦的保證Flickr用戶可以隨時移除數(shù)據(jù)集中的照片,但事情哪有那么簡單,這本就是個有來無回的“不歸路”。
因為IBM需要拍攝者發(fā)送想要移除圖片的鏈接(光靠Flickr賬號不管用),而它們卻從沒分享過到底這個數(shù)據(jù)集用了誰的Flickr照片,所以你大概率會被蒙在鼓里。
對于這個數(shù)據(jù)集,IBM有自己冠冕堂皇的理由——它將用于學術(shù)工作,且擔負著讓面部識別變得更加公平的重任。
當然,在網(wǎng)絡(luò)照片濫用方面,IBM并不是獨一家,數(shù)十家其他研究機構(gòu)或公司也在采集網(wǎng)絡(luò)照片訓練自己的面部識別系統(tǒng)。
一些法律專家認為,這不僅僅是對數(shù)百萬人肖像權(quán)和隱私權(quán)的侵犯,它還加重了人們對面部識別技術(shù)的擔憂,也許有一天執(zhí)法部門會讓它“雙手沾滿鮮血”。
面部識別技術(shù)的進化歷程
面部識別工具剛剛誕生時,研究人員會付錢請人來試驗室“幫忙“,這些人拿錢辦事,將自己不同姿態(tài)和光照角度下的照片留了下來以供研究之用。不過,這樣的方案成本高還浪費時間,因此早期的數(shù)據(jù)集往往只有數(shù)百個樣本。
進入新世紀后,互聯(lián)網(wǎng)飛速發(fā)展,研究人員突然意識到,面部識別的好時光來了,因為網(wǎng)上有天量的照片可供使用。
“直接打開搜索引擎,輸入名人的姓名,然后下載各種360度無死角的照片既可。”美國國家標準技術(shù)局數(shù)據(jù)集采集人員P.JonathonPhillips說道。
隨著社交網(wǎng)絡(luò)的興盛和自媒體的發(fā)展,普通人的照片也突然多了起來。研究人員默認這些照片是對所有人開放的,有時他們甚至會從YouTube的視頻中抓取面部圖片。
由于工作的非經(jīng)營性質(zhì),學術(shù)人員用起照片來絕對是近水樓臺,因為他們能繞過版權(quán)問題了,而Flickr的性質(zhì)更是讓它們成了研究人員絕對的安全之選。
為了保證數(shù)據(jù)集的多樣性,IBM其實從Flickr上Down了超過1億張照片,隨后又精選了100萬張有注釋的面部照片。為了力求精確,它們甚至為這些照片定了200多種分類標準。
谷歌學術(shù)指出,這種研究方法在業(yè)內(nèi)幾乎已經(jīng)是盡人皆知,因為有數(shù)百篇學術(shù)論文都在靠照片采集來佐證自己的論點,沒人敢說自己是完全清白的,或者拿到了授權(quán)或同意。
因此,面部識別準確性的提高和分析工具的進步主要就是靠這些“野路子”來的照片。
IBM真沒拿面部數(shù)據(jù)集賺錢?
“要想讓面部識別系統(tǒng)超常發(fā)揮,訓練數(shù)據(jù)必須足夠多樣化,而且覆蓋范圍足夠廣。”IBM的John Smith說道。
在IBM看來,自己的數(shù)據(jù)集并未將圖片中的人臉和具體的名字聯(lián)系起來,這就意味著系統(tǒng)不會侵犯人們的隱私。不過,依然有人質(zhì)疑IBM的動機,因為它們可是向政府出售過監(jiān)控工具。
舉例來說,911襲擊發(fā)生后,IBM就將面部識別技術(shù)賣給了紐約警方,執(zhí)法部門通過搜索監(jiān)控錄像就能識別出特殊的膚色或發(fā)色。IBM還曾推出過“智能視頻分析”產(chǎn)品,它們能通過監(jiān)控攝像頭給人們加標簽(亞裔、黑人或白人)。
如今,IBM則有了Waston視覺識別系統(tǒng),通過圖片算法就能識別出人的年齡和性別。配合正確的訓練算法,客戶就能從圖片或視頻中識別出特定的人。
在被問到Waston用了什么訓練數(shù)據(jù)時,IBM稱數(shù)據(jù)有多個來源,不過卻拒絕披露具體的數(shù)據(jù)來源,并美其名曰保護知識產(chǎn)權(quán)。
一再逼問下,IBM稱從Flickr拿到的相片數(shù)據(jù)集僅用于研究,不會用來提升公司的商用面部識別工具。不過,有專家指出,類似IBM和Facebook這樣的公司,其研發(fā)和商業(yè)運營部門之間的界限非常模糊,而且研發(fā)部門的知識產(chǎn)權(quán)均歸IBM所有。
因此,面部識別公司Kairos前CEO Brian Brackeen斷言,即使學術(shù)部門研發(fā)的算法有其非商業(yè)化性質(zhì),這些算法最終還是會被拿來賺錢。
他還打了個形象的比喻,“你可以把它看做拿面部識別技術(shù)洗錢,公司將網(wǎng)上的照片洗成了自己的知識產(chǎn)權(quán)。”
“被選中”的攝影師們怎么想?
澳大利亞攝影師GeorgHolzer將自己的作品上傳Flickr是為了記錄自己聲明中的精彩瞬間,他也簽署了創(chuàng)意認證,只要是非營利性項目,就能免費使用他的照片。不過,他沒想到自己的照片會成為面部識別技術(shù)的“養(yǎng)料”。
“我了解技術(shù)能造成的傷害。”Holzer說道。“當然,面部識別技術(shù)也有其積極的一面,但如果用得不對,它也能剝奪人的基本權(quán)利和隱私。我是無法接受這項技術(shù)廣泛應(yīng)用的。”
“我覺得IBM可不是家慈善公司,最終它們還是會用這項技術(shù)牟利,所以面部識別技術(shù)還是會進入商業(yè)市場。”Holzer說道。
DolanHalbrook也有452張照片被IBM的數(shù)據(jù)集“侵吞”,他也認為IBM在使用這些照片時應(yīng)該征得自己的同意。
當然,也有攝影師覺得自己的照片能被IBM選中并用在推動面部識別發(fā)展上是一大幸事。
瑞士的Guillaume Boppe就表示:“如果我的照片能幫助AI進化,降低探測錯誤率并最終提升全球安全指數(shù),我舉雙手贊同。”
想從數(shù)據(jù)集中刪圖?沒那么容易
如果你不同意IBM將自己的照片當成訓練數(shù)據(jù),也可以聯(lián)系它們刪除,但操作起來沒那么容易。
一位被抓取1000多張照片的攝影師忙活了半天,也只刪除了4張照片,因為他無法找到所有照片的鏈接,而Flickr賬號IBM可不認。
此外,即使從IBM的數(shù)據(jù)集中刪除了照片,IBM研究伙伴拿到的數(shù)據(jù)集也無法一并刪除(已經(jīng)有250多家組織和機構(gòu)接入了IBM的數(shù)據(jù)集)。
顯然,IBM的數(shù)據(jù)集不是公共場所,沒法想來就來想走就走。
好在,各國對隱私數(shù)據(jù)的保護正在加強。舉例來說,歐洲就將照片看做“敏感個人數(shù)據(jù)”,如果IBM不按規(guī)定刪圖,可能就會被歐盟重罰。
在美國,也有一些州有了相關(guān)規(guī)定,在不征得當事人同意的情況下采集、存儲和分享生物信息屬違法行為,而生物信息包含指紋、虹膜和面部幾何結(jié)構(gòu)等。
近期,芝加哥的律師Jay Edelson就向Facebook發(fā)起了集體訴訟,稱其面部識別工具觸犯了相關(guān)法律。
至于典型的法院判例,現(xiàn)在還是一片空白。(大壯旅)
關(guān)鍵詞: AI 照片 數(shù)據(jù)來源