Generative Adversarial Network系列: GAN的應用
在李飛飛從2010開始辦IMAGENet比賽[1]直到2015年何鎧名超過了人類判別圖片類別5.1% top 5 error的極限[2],深度神經網路中的判別型(discriminative)的網路,已取得了顯著的成就。另一方面,生成形(generative)的網路就比較還在發展階段。
生成對抗網路(Generative Adversarial Network),在Gartner Hype Cycle,中屬於新興的AI技術。2014年開始Ian J. Goodfellow對生成對抗網路的研究[3]引起了AI界很大的興趣。連Google大神Yann LeCun都說它是近10年來最有趣的主意。


在生成型(generative)的任務中,需要依照需求生成資料。以近代的deep learning為主幹的generative model,可能會生成聲音、影像、文字等等。
根據我收集超過1000citation的paper顯示,目前大部分GAN的大多是應用在Domain圖片生成、圖到圖轉換、文字生成圖、文字生成文字、RL和3D物件生成,而對NN訓練的輔助大多應用在Data Augmentation和Domain Adaptaiton上。
大宗的GAN應用:
最開始GAN就被用來做domain圖片的生成,比如說蝴蝶的圖片生成,或者手寫文字生成等等。

後來才開始發展圖到圖的轉換,意思是輸入一張圖可以生成另一個domain的圖,像是左上角那樣輸入草稿可以輸出設計圖,可以輔助設計師設;右上角那張輸入可以輸入黑人二人組生成歐巴馬(deepfake),可以拿來炒新聞(?!);或者輸入基努李維生成15世紀畫風的基努李維。

也有一組人想到可以用GAN來從文字生成圖片,這樣就可以不受特定類別限制。例如輸入一串描述”有隻白鳥有黑色的頭和翅膀,也有著橘色長長的喙”,那網路就生成最左下的圖。

另外比較紅的應用是seq to seq,特別是文字到文字的轉換,用在對答、填空、下個字預測等等自然語言的領域。

RL也可以使用GAN來train,叫做生成對抗模仿學習[8],是拿來學習作業行為的,可以讓兩組模型互相模仿,並且由判別器判別是否為模仿的行為。
最後是3D物件生成,用GAN由拍攝的照片生成3D的mesh grid。

而對其他model的training,GAN也可以達到輔助的效果。第一是可以做data augmentation,這就不用多說,直接創造了很多資料。另外adversarial的排程可以做domain adaptation,像transfer learning,要把黑白文字辨識的模型轉移到彩色文字上使用。

總之GAN的應用五花八門,這也是為何GAN這幾年特別紅的原因。
接下來會依重要程度和相關性陸續講解GAN的基本架構、還有較紅的幾個做法。
Reference
- Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., … & Fei-Fei, L. (2015). Imagenet large scale visual recognition challenge. International journal of computer vision, 115(3), 211–252.
- He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision (pp. 1026–1034).
- Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2014). Generative adversarial networks. arXiv preprint arXiv:1406.2661.
- Brock, A., Donahue, J., & Simonyan, K. (2018). Large scale GAN training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223–2232).
- Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., & Metaxas, D. N. (2017). Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 5907–5915).
- Yu, L., Zhang, W., Wang, J., & Yu, Y. (2017, February). Seqgan: Sequence generative adversarial nets with policy gradient. In Proceedings of the AAAI conference on artificial intelligence (Vol. 31, №1).
- Ho, J., & Ermon, S. (2016). Generative adversarial imitation learning. arXiv preprint arXiv:1606.03476.
- Wu, J., Zhang, C., Xue, T., Freeman, W. T., & Tenenbaum, J. B. (2016). Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. arXiv preprint arXiv:1610.07584.
- Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., … & Lempitsky, V. (2016). Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), 2096–2030.