被狠狠打瞭“馬賽克”的圖片就這樣被AI還原瞭－Ken641228的部落格

這個就比較紮心瞭。

不過更紮心的，可能是不僅教資沒過，還因為曬圖泄露瞭個人信息。

你可能覺得奇怪，大傢明明把“姓名、身份證號、準考證號”等個人敏感信息都打上瞭馬賽克，為什麼還會泄露信息？難不成還可以恢復？

可能還真的可以！

同樣在昨晚，GitHub上一個AI項目沖上瞭熱榜，截止目前已經收獲瞭8.4K星標。

這個AI的主要功能就是：去除馬賽克，還原字符密碼。

AI破解『密碼』

相信不少人都認為，隻要打上瞭馬賽克，就不會泄露敏感信息，因此，我們在朋友圈、微博等公開社交平臺，經常能夠看到打瞭馬賽克的結婚照、證書照、成績照等。

但事實上，無論是圖像、文字還是字符，AI還原馬賽克已經不是什麼難事瞭。

最近一位名為Sipke Mellema的程序員便開發瞭這樣一款工具。他說，一些公司在內部文檔中經常會使用像素化的方式顯示密碼，但沒有工具可以從這樣的圖像中恢復密碼，因此便創建瞭一個。

我們先來看下效果圖：

其中，第一行是被像素化後的密碼序列，被狠狠地打瞭一層馬賽克，看不出一點原始痕跡。

第二行是經過AI還原後的密碼，可以看到密碼序列基本被還原瞭，而且準確度很高，隻有稍加推理就能得到第三行的原始密碼。

那麼，這個“不可思議”的AI還原技術是如何實現的？

我們知道，馬賽克是圖像像素化處理的一種手段，它通過將影像特定區域的色階細節劣化並打亂色塊，達到一種模糊圖像的效果。

像素化在許多領域被用於模糊圖像信息，其中線性盒濾波器（ Linear Box Filter）是一種較為普遍的處理算法。盒子濾波也稱為方框濾波，它采用一個像素框，用該框中所有像素的平均值覆蓋像素。

像這樣，表情圖像被分為四個色塊，每個色塊被色塊平均值所覆蓋，最終形成瞭像素化表情，由於原始信息丟失，因此不能直接反轉濾波器。

Mellema正是利用瞭盒子濾波器，提出瞭AI還原算法-Depix。

線性盒濾波器是一種確定性算法，對相同的值執行像素化通常會產生同樣的像素塊（Block），那麼反之，使用相同位置的塊對相同文本執行像素化，是否也會得到同樣的塊值？

Mellema嘗試通過像素化文本來找出匹配的模式，結果發現確實如此。

具體來說，Mellema把每個塊或塊組合看作一個子問題。該算法要求在相同背景上，具備相同的文本大小和顏色，因此他沒有選擇創建潛在字符的查找表，因為現代文本編輯器可以添加色調、飽和度和亮度，也就是說存在海量潛在字符。

在處理字符方面，Mellema使用待處理字符的德佈魯因序列（De Bruijn sequence），將其粘貼到相同的編輯器中，然後截圖。該截圖可用作相似塊的查找圖像，例如：

德佈魯因序列包括待處理字符的所有雙字符組合，這一點很重要，因為一些塊會重疊兩個字符。

要找出合適的匹配需要搜索圖像中具備相同像素配置的塊。在測試中，Depix 算法無法找到字符“o”，因為在搜索圖像中，搜索塊還包含下一個字母“d”，但在原始圖像中這裡有個空格。

顯然，在創建字符的德佈魯因序列時，如果加上空格會帶來同樣的問題，即算法無法找到後續字母恰當的塊。有空格又有字母的圖像需要更長的搜索時間，但結果也更好。

對於大多數像素化圖像而言，Depix可以找到塊的單個匹配結果。它先假設這些塊是正確的，然後將周圍多個匹配塊進行比較，使其與像素化圖像中的幾何距離相同，並假設這些匹配也是正確的。

在正確的塊沒有更多幾何匹配後，Depix 直接輸出所有正確的塊。對於多匹配塊，Depix 將輸出所有匹配的平均值。雖然 Depix 的輸出並不完美，但已經算不錯瞭。

下圖展示瞭包含隨機字符的測試圖像的去像素化結果，大部分字符被正確讀取：

最後需要說明的是，Mellema開發這個AI項目並不是為瞭竊取信息，而是利用ECB和明文攻擊（Known-Plaintext Attacks）的模式，提高信息保護技術。在他看來，不知道如何破壞當前的保護模式，是信息安全中的常見陷阱。

AI還原『人臉圖像』

如前所述，除瞭字符密碼，AI還原人臉照也不在話下。

今年6月中旬，杜克大學推出AI算法—PULSE，可以將低分辨率的人臉圖像放大64倍，即使是打瞭馬賽克，面部的毛孔、皺紋，頭發也都能變得清晰可見。

不過，被還原的人臉是一全新的虛擬面孔，並不是真實存在的。其中眼睛、鼻子、嘴巴等五官是AI在原始圖像的基礎上，自行想象出的結果。

因此，這項AI技術不能用於身份識別。比如監控攝像頭拍攝的失焦、無法辨別的圖片，不能通過PULSE還原成真實存在的人像。不過，它在醫學、顯微鏡、天文學，以及衛星圖像等領域有著廣泛的應用場景。

在技術方面，不同其他超分辨率算法，PULSE不是遍歷LR（Low Resolution）圖像來慢慢添加細節，而是發現與HR相對應的LR，通過“縮減損失（Downscale）”的方式得到SR（Super Resolution)圖像。

其次，PULSE使用瞭生成對抗網絡（GAN）來進行模型訓練。GAN包括一個生成器（Generator）和一個鑒別器（Discriminator），在同一組照片訓練中，二者通過相互博弈的方式檢驗輸出是否足夠逼真。

最後，無論是利用AI還原字符密碼、還是人臉圖像，其初心都是科技向善。但這些AI技術不可避免地被有些人用於不良或非法用途。

因此，在這個科技高速發展的現在，保護個人數據顯得尤為重要。

引用鏈接：

https://www.linkedin.com/pulse/recovering-passwords-from-pixelized-screenshots-sipke-mellema/?trackingId=yYFSUnuxRXasNV%2Fh3ZsiSw%3D%3D

https://gizmodo.com/researchers-have-created-a-tool-that-can-perfectly-depi-1844051752

https://en.wikipedia.org/wiki/De_Bruijn_sequence

https://github.com/beurtschipper/Depix

Ken641228

Ken641228的部落格

Ken641228 發表在痞客邦留言(0) 人氣()

Ken641228的部落格

歡迎光臨Ken641228在痞客邦的小天地的哦

被狠狠打瞭“馬賽克”的圖片就這樣被AI還原瞭

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

Ken641228的部落格

歡迎光臨Ken641228在痞客邦的小天地的哦

被狠狠打瞭“馬賽克”的圖片 就這樣被AI還原瞭

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

被狠狠打瞭“馬賽克”的圖片就這樣被AI還原瞭