本文來自微信公眾號“量子位”(ID:QbitAI),作者:明敏、蕭簫
終於,我小學時的夢想有人實現了!
只需要我拍下自己的筆跡,AI就能幫我謄抄英語作業,畫風“完全一致”的那種:
甚至幫別人抄作業也沒問題……
簡直屌打一批只能仿手寫、價格還動輒幾百上千的“作業神器”。
咳咳,劃重點:
雖然功能很強大,但這可不是給你們抄英語作業的。(作業就得認真做!)
這是Facebook AI最新出品的“文字風格刷”(TextStyleBrush)
它只需要一張筆蹟的照片,就能完美還原出一整套文字筆跡來。
不僅能移花接木,憑空將“醬油瓶”變成“茶壺”:
還能直接實現風格替換,讓超市店裡的所有印刷字都變成手寫體:
這樣看來,現在就連照片文字,也不一定是真實的了。
比格式刷還強:文本也能換
在實際使用過程中,TextStyleBrush真的就是個格式刷,哪裡需要刷哪裡。
它真正厲害的就是模擬手寫字體。
只需輸入一段文本內容,加上你的筆跡,1個單詞即可,它就能生成“手寫版”。
這個效果,用肉眼看真的是分辨不出真偽!
把菜場中價籤的印刷體都換成手寫體的過程中,它還能識別出不是印刷體的樣本,自動跳過轉換合成。
模擬特定字體格式時,TextStyleBrush表現也很不錯。
包括海報、垃圾桶、路牌、飲料瓶、店面裝飾……各種文字的風格都能handle:
除了直觀的效果,開發人員對合成圖片也做了數據上的分析。
TextStyleBrush生成的圖片在合成誤差(MSE)上大幅降低,峰值信噪比(PSNR)和結構相似性(SSIM)也提高不少。
在文字識別的準確性上,TextStyleBrush在三組數據集中的表現都不錯:
準確率都高達95%以上。
拿GAN改一改,真假文字難辨認
據Facebook介紹,“文字風格刷”TextStyleBrush是一個基於自監督方法訓練的模型,可以對相同文本內容的文字進行風格轉換,就像格式刷一樣。
當然,不只是Word的格式刷,它甚至能直接對照片中的文字進行替換,因此模型還需要學習文字識別和圖像分割的方法。
為了同時實現圖像分割和文字風格轉換,TextStyleBrush模型基於StyleGAN2進行了設計,後者能生成非常逼真的圖像照片。
然而,StyleGAN2存在兩個問題:
首先,它生成圖像的方式是“隨便亂打”的,也就是沒辦法控制輸出圖像特徵。但TextStyleBrush必須要生成指定文本的圖像。
其次,StyleGAN2的整體風格不受控制,但TextStyleBrush中的風格涉及大量信息組合,包括顏色、尺度和風格轉換等特徵,甚至是帶有個人特色的筆跡細節差異。
為此,TextStyleBrush首先通過將文本信息和風格作為兩個“附加條件”控制模型輸出,來解決模型隨機生成圖像的問題。
然後,為了進一步更精細地控製文本的風格特徵,還會提取神經網絡層中的各種風格信息,並將這些信息注入文本生成器中,便於從各種尺度(顏色、整體風格、細節)上控製文字的風格。
除此之外,由於不同的圖片分辨率不同,生成器還必須生成和替換區域分辨率相似的文字。
為此,這一模型加入了能夠控制高低分辨率的結構,使得生成的文字圖像能匹配輸入圖像的分辨率。
就像這樣,替換前後也不會出現字體清晰度差異大的問題:
但不同於照片,文字的風格其實要更加自由,所以有時候畫風的真實性不好說。
為此,在訓練的時候,Facebook引入了一種創新的自監督訓練方法,結合風格分類、文本識別(OCR)和GAN三種模型來保留輸入的風格/文字內容,再決定要替換哪個。
例如,在文本識別上,讓TextStyleBrush生成文本圖像後,模型會用一個預訓練文本識別結構來“判斷”圖像的文字內容,並給它打分。
事實證明,這樣訓練出來的模型,確實很好用。
網友:以假亂真?我真有點擔心……
合成人臉已經玩太多了,合成筆跡還是頭一回。
而且它的效果真的還不錯!
所以,TextStyleBrush一經發布,就引來了很多人的圍觀。
已經有網友開始想像它的用途了:
歡迎來到花式簽名的世界!
LeCun也轉發了一波。
不過,能看不能玩實在是太難受了,有手癢的網友就跑來提問:
TextStyleBrush會對大眾開放使用嗎?
這自然也就引出來一個會引起爭議的點:
合成後的筆跡足以以假亂真,如果被濫用或惡意使用怎麼辦?
假設任何一個人的筆跡都能被非常輕鬆地合成,那許多需要簽字的場合該怎麼辦呢?
例如,有網友表示,要是連醫生們的“草書”處方都能模仿……
而除了安全隱私問題上的擔憂,這對字體設計師來說也不是個好消息。
畢竟各款字體其實都是有版權的,如果可以被輕鬆模擬出來,那豈不是盜版滿天飛,甚至連作者本尊都分辨不出來真偽。
有網友就表示:這離真假難辨的反烏托邦世界更近了一點……
對此,Facebook的CTO作出了回應:
因為可能會被用來偽造筆跡,所以我們只發布論文和數據集,源代碼並不會開源。
分享研究和數據集,也更多是為了預防文本版Deepfakes。
你覺得呢?
TextStyleBrush數據集:
https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset
論文地址:
按一下以存取 10000000_944085403038430_3779849959048683283_n.pdf
—完—