要讓計算機學會識別一張照片中的圖像,通常來說,需要先讓它看上千張已經(jīng)標注好數(shù)據(jù)的圖片。為了能簡化計算機識別圖像的過程,來自Facebook
要讓計算機學會識別一張照片中的圖像,通常來說,需要先讓它看上千張已經(jīng)標注好數(shù)據(jù)的圖片。為了能簡化計算機識別圖像的過程,來自Facebook人工智能研究實驗室(FAIR)的六名成員利用Transformer神經(jīng)網(wǎng)絡架構(gòu)創(chuàng)建了端到端的圖像檢測AI。
DETR可以直接(并行)預測最終的檢測結(jié)果
研究員將這套工具命名為DETR(Detection Transformer),并表示這套工具簡化了識別圖片對象需要的組件。
FAIR 在官方博客中稱,DETR是第一個成功將Transformer架構(gòu)集成為圖像對象檢測核心的工具。Transformer架構(gòu)可以像近年來對自然語言進行處理一樣,徹底改變計算機視覺,或者縮小自然語言處理與計算機視覺之間的差距。
“通過將通用的CNN與Transformer架構(gòu)相結(jié)合,DETR可以直接(并行)預測最終的檢測結(jié)果,與許多其他現(xiàn)代檢測工具不同,新模型在概念上很簡單,不需要專門的數(shù)據(jù)庫。”研究員在論文中稱。
Transformer架構(gòu)由谷歌研究人員于2017年創(chuàng)建,Transformer架構(gòu)最初旨在改進機器翻譯的方法,但目前已發(fā)展成為機器學習的基石,可用于訓練一些最流行的經(jīng)過預先培訓的語言模型,例如Google的BERT,F(xiàn)acebook的RoBERTa等。Transformer架構(gòu)使用注意力函數(shù)代替遞歸神經(jīng)網(wǎng)絡來預測序列中的下一步。應用于物體檢測時,Transformer可以減少建立模型的步驟,例如創(chuàng)建空間錨點和自定義圖層等步驟。
研究人員在論文中稱,DETR取得的結(jié)果可與Faster R-CNN媲美。Faster R-CNN是由微軟研究院創(chuàng)建的對象檢測模型,自2015年推出以來已獲得近10000次引用。
盡管效果不錯,但研究人員在論文中也指出了這個模型的主要問題之一:DETR在大物體的識別上比小物體上更準確。研究人員表示:“目前的模型需要幾年改進才能應對類似的問題,我們希望未來的工作能夠成功解決。”
值得一提的是,DETR是Facebook 最新推出的AI計劃,這個計劃旨在找到一種語言模型來解決計算機視覺帶來的挑戰(zhàn)。在此之前,針對自家平臺上泛濫的謠言和不實消息,F(xiàn)acebook引入了惡意模因數(shù)據(jù)集挑戰(zhàn)。Facebook認為,惡意圖文對于機器學習程序而言是一個有趣的挑戰(zhàn),機器學習在短時間內(nèi)還找不到完美的解決方法。Facebook希望開發(fā)者能創(chuàng)建出模型識別圖像和隨附文本中違反Facebook政策的內(nèi)容。
關(guān)鍵詞: Facebook