系統(tǒng)下載、安裝、激活,就到系統(tǒng)天地來(lái)!

語(yǔ)義圖像分割 詳解谷歌DeepLab-v3+技術(shù)

作者:系統(tǒng)天地 日期:2019-04-11

谷歌的的語(yǔ)義圖像分割(Semantic Image Segmentation)模型DeepLab-v3+已開(kāi)源,而這一技術(shù)在Google Pixel 2和2XL手機(jī)(包括后續(xù)型號(hào))上也得到應(yīng)用。這項(xiàng)技術(shù)可以實(shí)現(xiàn)對(duì)圖像或視頻的背景分割,給圖像和視頻處理APP帶來(lái)極大便利。今天就讓我們來(lái)聊聊什么是語(yǔ)義圖像分割,以及它的實(shí)現(xiàn)原理。

 

視頻摳像,了解谷歌DeepLab-v3+技術(shù)

說(shuō)到摳圖,很多朋友想到的是PhotoShop,確實(shí)借助PS我們可以精確將人像從復(fù)雜的背景圖中摳出來(lái)。但是如果要將人像從視頻畫(huà)面中“摳”出來(lái),估計(jì)很多朋友就沒(méi)聽(tīng)說(shuō)過(guò)這項(xiàng)技術(shù)了。

PS摳圖是對(duì)靜態(tài)的照片進(jìn)行前后景的分離,DeepLab-v3+技術(shù)則是對(duì)視頻摳像,當(dāng)然也可以對(duì)照片進(jìn)行實(shí)時(shí)處理。比如之前某視頻巨頭網(wǎng)站測(cè)試的摳像技術(shù)(即時(shí)去背景),以及Google Pixel 2和Pixel 2XL手機(jī)的肖像功能,拍攝照片后可以獲得類(lèi)似單反相機(jī)的景深效果。這些技術(shù)背后的工程就是DeepLab-v3+技術(shù)(圖1)。

語(yǔ)義圖像分割1

圖1 配備DeepLab-v3+技術(shù)的Pixel 2 XL手機(jī)

 

摳像技術(shù)的背后,認(rèn)識(shí)谷歌DeepLab-v3+技術(shù)原理

如上所述,DeepLab-v3+技術(shù)最大的特色就是可以摳像。那么這個(gè)摳像的功能是怎樣實(shí)現(xiàn)的呢?

我們先來(lái)簡(jiǎn)單了解一下PS摳圖技術(shù),PS摳圖是借助PS組件將照片前景和后景精確區(qū)分出來(lái),然后通過(guò)提取前景的方法實(shí)現(xiàn)摳圖(圖2)。不過(guò)PS的精確摳圖顯然不是一般人都能勝任,它需要用戶長(zhǎng)時(shí)間學(xué)習(xí)和精細(xì)操作才能完成。DeepLab-v3+的摳像原理與之類(lèi)似,不過(guò)這個(gè)學(xué)習(xí)的過(guò)程則是通過(guò)人工智能技術(shù)完成,作為終端用戶則只要按部就班地使用即可。

語(yǔ)義圖像分割2

圖2 PS摳圖需要長(zhǎng)時(shí)間學(xué)習(xí)

 

那么DeepLab-v3+是在怎么實(shí)現(xiàn)這種效果?這主要得益于日漸發(fā)展的人工智能技術(shù)。首先谷歌會(huì)建立DeepLab 模型,通過(guò)機(jī)器來(lái)識(shí)別大量的照片和視頻,借助改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)特征萃取器、物體比例塑造模型以及同化前后內(nèi)容的技術(shù),再加上先進(jìn)的模型訓(xùn)練過(guò)程。這樣通過(guò)大量的樣本學(xué)習(xí)和訓(xùn)練,同時(shí)借助人工智能的自我學(xué)習(xí),DeepLab-v3技術(shù)可以對(duì)圖像或者視頻畫(huà)面中的前后景物體進(jìn)行精確的識(shí)別,從而生成一套獨(dú)特的算法。現(xiàn)在DeepLab-v3+ 在 Tensorflow 上進(jìn)行,使用部署于服務(wù)器端的卷積神經(jīng)網(wǎng)絡(luò)(CNN)骨干架構(gòu),可以讓該技術(shù)有更高效處理速度和更精準(zhǔn)的識(shí)別精度,能夠快速對(duì)照片或者視頻中的各種元素進(jìn)行精確識(shí)別(圖3)。

語(yǔ)義圖像分割3

圖3 DeepLab-v3技術(shù)原理圖解

 

這里以Pixel 2XL人像模式中的合成淺層景深效果為例,在Pixel 2XL手機(jī)啟用人像模式后,集成DeepLab-v3+處理后臺(tái)會(huì)自動(dòng)根據(jù)照片背后景色進(jìn)行分析,比如路、天空、樹(shù)木、人或是狗等物體進(jìn)行識(shí)別,同時(shí)為每個(gè)像素指定語(yǔ)義標(biāo)簽。這樣算法可以根據(jù)照片實(shí)際環(huán)境里顯示效果,對(duì)指定的語(yǔ)義標(biāo)簽進(jìn)行處理,比如對(duì)人物背后的景物進(jìn)行模糊處理,從而可以獲得類(lèi)似單反相機(jī)的景深效果(圖4)。

語(yǔ)義圖像分割4

圖4 Pixel 2XL手機(jī)啟用人像模式后的拍攝效果

 

對(duì)于視頻摳像處理類(lèi)似,在視頻畫(huà)面中,DeepLab-v3+同樣會(huì)對(duì)視頻中前后景的元素進(jìn)行分析,同樣為每個(gè)像素指定語(yǔ)義標(biāo)簽。借助服務(wù)器端的卷積神經(jīng)網(wǎng)絡(luò)就可以實(shí)現(xiàn)對(duì)視頻前景人物的精確識(shí)別,從而實(shí)現(xiàn)視頻摳像功能,摳出的活動(dòng)人物可以疊加到其他視頻場(chǎng)景中,從而做出類(lèi)似綠幕MR特效的影片(圖5)。

語(yǔ)義圖像分割5

圖5 視頻摳圖

 

DeepLab-v3+,接地氣的摳像技術(shù)

上面我們介紹了DeepLab-v3+技術(shù)原理,可以看到這項(xiàng)技術(shù)并不像技術(shù)本身名稱那樣“高高在上”,它在我們生活中都有很多的應(yīng)用。

比如隨著手機(jī)普及和攝像頭分辨率提高,人們?cè)絹?lái)越希望手機(jī)能夠拍攝出更高質(zhì)量,更真實(shí)還原實(shí)際環(huán)境的照片來(lái)。但是受限于手機(jī)本身的超薄尺寸,僅僅通過(guò)手機(jī)攝像頭本身是無(wú)法拍出類(lèi)似單反相機(jī)那樣效果的圖片(因?yàn)槭謾C(jī)沒(méi)有足夠景深)。不過(guò)隨著技術(shù)的發(fā)展,類(lèi)似DeepLab-v3+技術(shù)借助人工智能,使用機(jī)器學(xué)習(xí)來(lái)分離主題,結(jié)合定制的深度數(shù)據(jù),使得手機(jī)也可以拍出類(lèi)似單反效果的照片,顯然會(huì)給我們?nèi)粘E臄z帶來(lái)更多的便利(圖6)。

語(yǔ)義圖像分割6

圖6 通過(guò)DeepLab-v3+技術(shù)模糊照片背景獲得單反效果

 

另一方面,現(xiàn)在短視頻流行,也使得越來(lái)越多朋友喜歡在手機(jī)上欣賞和處理視頻數(shù)據(jù)。DeepLab-v3+支持的摳像技術(shù)則可以很好滿足大家在手機(jī)上對(duì)視頻的處理,比如借助DeepLab-v3+可以很輕松將自己摳出來(lái),疊加不同視頻背景,制作各種有趣的視頻。當(dāng)然該技術(shù)在電影特效方面有更多的用處,制作者可以制作出更多特效的影片效果來(lái)。