AI設計師“鹿班”核心技術公開:如何1秒設計8000張海報?

NO IMAGE
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

本文介紹了視覺生成的現狀,智慧設計的框架和流程、應用案例及未來前景。通過本文的學習,可以對鹿班這個產品,以及視覺生成相關技術有基礎性的認識、瞭解行業的現狀以及未來的發展趨勢。

演講嘉賓簡介:星瞳,阿里巴巴機器智慧技術實驗室資深演算法專家,專注於視覺生成、智慧醫療、影象搜尋、資訊抽取等方面技術研發和落地;阿里巴巴智慧設計(鹿班)的創始成員和演算法技術負責人,醫療影像智慧診斷方向負責人,影象搜尋拍立淘的早期創始成員。

本次分享主要分為以下幾個部分:

  • 定義、目標和願景
  • 設計行業現狀
  • 使用場景
  • 技術框架和生產流程
  • 關鍵演算法
  • 業務進展
  • 案例展示
  • 鹿班(新零售UED、淘寶技術部等共創的典型案例)
  • 前景展望

一、定義、目標和願景

視覺生成的定義:可控視覺內容設計和生成,聚焦滿足使用者、場景需求的數字視覺內容製造,包括針對影象、視訊及圖形的增強、編輯、渲染、生成、評估等視覺內容設計與製作。用技術賦能和改革設計、廣告及數娛行業。

目標:可控視覺內容設計和生成,讓AI做設計,使數字內容製造變得高質、高效、普惠、低成本;

願景:所想,即所見。

視覺生成主要分成三個方向。第一,針對非結構化的影象。第二,針對結構化的圖形。第三,針對序列化的視訊。

二、設計行業現狀

視覺生成較年輕,起初,基本都是通過人工方式完成。小到海報或畢業設計封面的設計這樣的小需求,大到阿里巴巴中海量商家的投放渠道及效果這樣的大型需求都與其相關。從業人員數量龐大,市場與廣告、商家關係緊密,市場容量非常大。

從技術上說,近幾年,大家常提到供給側改革,以前的供給側基本都是通過人或工具來形成影象、視訊等,但這樣有很大的侷限性,包括:

  • 效率低成本高
  • 資料利用率低,比如去年雙十一和今年雙十一由於主題不同,需要全盤重做。
  • 無法線上化,從提出需求到得到結果無法做到實時。
  • 難以上下文相關,設計師不會結合使用者的個性化需求,形成與上下文相關的結果。

而在消費端,對個性化、精準度、實時性有很高的需求。因此,在供給和需求之間還存在差距。在AI行業中,IN的多:識別、理解、搜尋。OUT的少:生成、融合還限於學術圈,系統性落地工程、可商用的產品沒有。

因此,“The best way to predict is to create”。

三、使用場景

視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言,使用者可以輸入標籤需要的風格、色彩、構圖等,或者輸入一個例子,或者進行一些互動的輸入。除顯式輸入之外還可以有隱式輸入,比如人群資訊、場景資訊、上下文資訊等。總的來說,輸入可以是千變萬化的,但通過規範化之後就會減少變化,使得生成過程可控,輸出質量可控。

對視覺生成引擎來說,它要求輸入是規範化的。但在輸入前,可以加入各種互動方式,如自然語言處理,語音識別等,將其轉化成規範化輸入。最後輸出結構化資訊或可視成圖。

四、技術框架和生產流程

其技術框架如下圖左側。首先對視覺內容進行結構化理解,如分類、量化、特徵化。其次通過一系列學習、決策變成滿足使用者需求的結構化資訊即資料,最後將資料轉化成可視的影象或視訊。這一框架依賴於大量的現有資料。其核心是一個設計核心。同時,引入效用迴圈,利用使用後的反饋來不斷迭代和改進系統。

其生產流程分成六個步驟,如下圖右側所示。首先使用者提出需求,將需求特徵化轉變成系統可以理解的結構化資訊。其次將資訊進行規劃得到草圖。有了粗略的草圖後再將其轉變成相對更精確的圖,然後調整細節,最後通過資料視覺化形成最終的圖。當然其中還有很多的trick,以及各部分的優化。

五、關鍵演算法

下面介紹一些關鍵演算法。我們希望基於下圖最左的耐克鞋生成最右的圖。先通過規劃器得到草圖,再通過強化學習獲得相對細緻的結果,再通過對抗學習及渲染演算法得到圖片,再通過評估器進行評估,最後形成業務閉環,其中還會有一些基礎的能力,包含更強的聯合特徵(非普通 CNN特徵)及多維度檢索演算法等。

基本上,處理的第一步是將圖片中的資訊結構化,這也是與現有的識別理解技術結合最緊密的地方。其中的難點和重點包括,對影象中多目標的識別、遮擋和互包含情況如何得到分割的資訊等,下圖只是個簡單的示例。

有了結構化資訊之後,需要對資訊進行量化。可以量化成特徵或量化圖。量化過程中會包含很多資訊,比如主題風格、佈局配色、元素種類、量化空間等。有了這些資訊後可以在主題、種類、風格、視覺特徵大小位置上,量化成各種碼,用相對有限的特徵來表達無限的圖。

下一步是通過使用者的輸入,得到一個相對粗略的結果即草圖。目前主要使用的是深度序列學習。從影象角度,首先選定一個點的畫素顏色再選擇位置,再迭代進行操作,最後形成一張圖。規劃器模擬的就是這個過程。本質上預測過程是一棵樹,當然也可以拆成一條條路徑。為了簡化,可以分成幾步進行,比如空間序列,視覺序列。最後形成量化特徵模型,主要應用的是LSTM模型。它把設計的過程轉化成基於遞迴、迴圈的過程。

得到草圖後,利用行動器將草圖細化。如果將圖中的每個元素看作一個Agent,那麼它將有若干個可選的行動空間。

假設一張圖中有20個元素,每個元素在視覺上有多種可選的行動空間,由其組合成的可選行動空間非常龐大。我們有很多trick可以解決這一問題,比如在空間上,只允許在有限範圍內進行變動,且行動方向有序,即狀態有序,行動有限。

下一步是如何衡量結果的好壞。影象的評估相對比較主觀,主要可以從美學和效果兩方面來評估。美學角度可以包括是否對齊、色系搭配是否合理、有無遮擋這些較低階別的判斷標準,以及較高階的,比如風格是否一致,是否切合主題。從效果上,產品投放後是否會在點選率等方面實現提升。最後將多個指標形成對應權重並形成多個DeepLR聯合模型。

但在衡量結果之前,需要形成畫素級別可見的圖。這裡有以下幾種構造器分類,包括臨摹、遷移、創造、搭配與生成。

前面介紹了,如何通過使用者的需求形成可見的圖。後續還需要進行投放和反饋並進行優化,形成效用外迴圈。這樣才能使得系統效用不斷得到提升,形成一個線上閉環,這也是智慧設計相對設計師的一大優勢。

六、業務進展

下面是一些實際的例子。

七、案例展示

從多樣性看,生成的圖片可以是多主體、多主體、多配色和型別自適應的。

同時,也可以生成多種尺寸的圖片。

八、前景展望

上面所說的基本都是平面設計層面的。但在視訊和圖形上是另一片藍海。如果說人工做一張圖片的成本比較高,而製作視訊的成本則遠高於圖片。

下圖是目前的行業市場空間展示。

為了強調視訊中的一部分,可以生成整體靜止區域性運動的可迴圈視訊。

在遊戲領域中,現在的遊戲場景需要大量的美工、設計師等。如果希望生成的結果能滿足多樣性,那麼純靠人工進行需要大量的成本,並且由於遊戲的生命週期通常較短,因此批量高效的場景製作是一個很有前景的應用。

九、結語

通過視覺生成引擎,我們希望能基於使用者的所想,使得一切皆可生成。長遠的目標就是:所想,即所見。

本文作者:星瞳

原文連結

本文為雲棲社群原創內容,未經允許不得轉載。

相關文章

人工智慧 最新文章