聲明:本文來自于微信公眾號 劉言飛語(ID:liufeinotes),作者:劉言飛語,授權轉載發(fā)布。
沉浸式地體驗過 Midjourney 和 ChatGPT 兩周后,分享下我的觀察和思考。
1.神奇十一月
Midjourney 的 v4版本是11月5日發(fā)布的,ChatGPT 是11月30日發(fā)布的,堪稱 AIGC 應用歷史上最神奇的十一月。
其實 Midjourney 的底層技術沒有變過、ChatGPT 依賴的 GPT-3也發(fā)布有些時日了。它們之所以神奇,就是在同一個方面:
在可用性上,已經跨過了門檻。
怎么定義可用性呢?我也不知道邏輯上怎么證明,我看到了太多實際的案例。
先說 Midjourney,畫出圖形的驚艷程度想必不少朋友已經感知過了(可以看下這里面我生成的海報:我們離 AI 做一部電影有多遠?),更重要的是,它能適應千變萬化的風格,并非只是畫個二次元頭像那么簡單。
例如目前中文播客的主播大都是愛好者,請不起昂貴的設計師,往往都是自己簡單將就。而 Midjourney 就能很好地完成任務。
比如我一個朋友月莞柔的播客根據(jù)封面制作的海報是這樣的:
我用插畫風格嘗試了一段時間后,做出來了這樣的一組效果:
除了手指那里有明顯的破綻、文字部分還是一坨漿糊外,已經是完全可用的了。
其它的風格也都能掌握,我給喜歡的幾檔播客做了一些嘗試,從左上到右下的四格一組分別是 諧星聊天會、黑貓偵探社、跳進兔子洞和公司茶水間。
這樣的效果,就像有朋友說的,已經超過大部分國內素材網站能找到的水平了。
使用場景還有很多,比如朋友們的公眾號頭圖已經在用 Midjourney 生成了。再比如我今年的紅包封面已經在審核中,比去年可好看太多了:
為什么前面說 v4是一個質變呢?我們看這樣一張圖會更直觀,這是我畫的同個 prompt(關鍵詞)的四個效果:
我多次實驗,都是如此。在座的任何一位朋友,在 Midjourney 里用 cat --v1/2/3/4,都是這樣的效果。
這樣的插畫質量,已經完全可用了。在各種商業(yè)海報、出版物、內容產品的封面和插圖等等,能夠輕松勝任。
2.質變的對話機器人
說完 Midjourney 我們再聊下 ChatGPT。直觀的感受建議讀一遍這篇:跟 AI ChatGPT 聊了11個我過去關心的話題。
這是我把過去幾年寫過的文章挑選了一些主題,看看它是怎么回答的。從回答里我們能得到的深刻洞察并不多,但至少破綻比較少。
可能直觀上跟 Midjourney 比,可用性不是那么顯著,畢竟不能直接創(chuàng)作很多高質量的內容。很多人認為可用性主要在搜集信息上,比如問一些客觀存在的事實,未來是替代搜索引擎的。
其實不然,ChatGPT 最先替代的恐怕不是 Google,而是大量的小編。
我們先直觀感受下在調教后,朋友們的玩法。
@少楠 的雞湯文:
@SuFafa 的檢討書:
@RogerZhu 的播客提綱:
我用一些指定黑話寫出的講話稿:
以上的來源都是即刻主題「AIGC 探索站」主理人 Szhans 的總結帖子,強烈推薦各位去了解下:
https://m.okjike.com/originalPosts/638c6bb9c3f4e245defdec37
從匯報文檔,到演講稿,到播客引導語,到一些文案的斟酌修正,ChatGPT 都能很好地勝任。而且確保文字有邏輯、標點符號使用正確(這點很多小編都做不到)。
更實用的一個案例是少楠最近在寫書,想要潤色修正的時候,極其好用:
文字編輯工作里,還常見有總結中心思想的需求。我讓 ChatGPT 對我這篇文章(釘釘靠什么服務大客戶?)做了總結,效果如下:
「文章討論了DingTalk,一個由中國科技巨頭阿里巴巴開發(fā)的企業(yè)通信和協(xié)作平臺。作者指出,過去,DingTalk被批評為主要集中在 IM 和考勤跟蹤功能上,而不是提供更先進的企業(yè)服務。然而,作者指出,DingTalk 也引入了文件管理和項目管理等功能來解決這個問題。作者還提出了對 DingTalk 在面向大型企業(yè)時可能面臨的挑戰(zhàn)的擔憂,如定制化可能成為外包,以及需要平衡定制化與互操作性和可擴展性。作者建議,DingTalk 有可能通過專注于與阿里巴巴其他產品和服務的整合,以及利用其在人工智能和機器學習方面的專長來提供先進的企業(yè)解決方案,從而使自己與競爭對手區(qū)分開來。文章討論了 DingTalk,一個由中國科技巨頭阿里巴巴開發(fā)的企業(yè)通信和協(xié)作平臺。作者指出,過去,DingTalk 被批評為主要集中在IM和考勤跟蹤功能上,而不是提供更先進的企業(yè)服務。然而,作者指出,DingTalk 也引入了文件管理和項目管理等功能來解決這個問題。作者還提出了對 DingTalk 在面向大型企業(yè)時可能面臨的挑戰(zhàn)的擔憂,如定制化可能成為外包,以及需要平衡定制化與互操作性和可擴展性。作者建議,DingTalk 有可能通過專注于與阿里巴巴其他產品和服務的整合,以及利用其在人工智能和機器學習方面的專長來提供先進的企業(yè)解決方案,從而使自己與競爭對手區(qū)分開來?!?/p>
細看之下,的確還是有一些細節(jié)問題,不過這個大致的表述,可以以假亂真。另外這是對中文的總結,英文總結的效果要好得多。ChatGPT 也在快速迭代學習這些能力。
在 OpenAI 的官網上,還有如下的場景描述(部分):
整理目錄;
整理文章的關鍵詞;
從產品描述得到廣告語;
給產品起名;
根據(jù)主題列出推薦書單;
整理總結中心思想;
總結論文摘要;
撰寫采訪提綱;
自動代碼注釋;
bug fixer;
把 JavaScript 改寫為 Python;
......
直觀感受后,想必也能一下 get 到 ChatGPT 背后的場景價值。它并不是我們手里都有的 Siri,也不是只能調戲很容易出戲的小冰。它是一個依靠「自然語言」來完成各種文字、代碼相關工作的超級工具。
3. 大力出奇跡
話分兩頭說,我們先說說它們?yōu)槭裁催@么「厲害」。
十一月質變的出現(xiàn),背后其實還是量變的結果。正如前面說的,其實 Midjourney 的底層技術沒有變過、ChatGPT 依賴的 GPT-3也發(fā)布有些時日了。
目前的技術邏輯,當然有精妙算法引入的緣故,但其根本原理,跟半個世紀前并無二致,依然還是統(tǒng)計概率計算(這個問題在這里聊過了:從機器學習聊到 AIGC)。
對于大數(shù)據(jù)算法來說,核心要素就兩個點:數(shù)據(jù)量和計算性能。隨著新算法的出現(xiàn),以及硬件配置的極速發(fā)展,后者已經不是瓶頸。
在 Twitter 上 A16Z 的 Jack Sosolow 對 AI 的觀察里,也引用了一篇文章《Training Compute-Optimal Large Language Models》,里面明確提到了一個當下的現(xiàn)狀:
谷歌比較了兩個 LLMs(大語言模型),其中一個參數(shù)少4倍,但數(shù)據(jù)多4倍。擁有更多數(shù)據(jù)的那一個最終明顯更準確。因此,對于 LLMs 來說,計算不再是最大的杠桿,而數(shù)據(jù)才是。
ChatGPT 是建立在 GTP-3的版本基礎上的。GTP-1的參數(shù)量是110m(1.1億),GTP-2的參數(shù)量是1.5b(15億),GTP-3的參數(shù)量直接飆升到了175b(1750億)。
跟 ChatGPT 作為兄弟的 DALL-E2(父親都是 OpenAI)的參數(shù)量也達到3.5b。據(jù)不是很確定的信源說, Midjourney 的參數(shù)量也是同級別的。
模型的參數(shù)量背后,代表的當然也有不計成本的資金投入問題。這都是千萬美元級別的砸錢工程。國內這么做的很少。不過話又說回來,國內互聯(lián)網公司似乎也不缺錢,早年幾十億補貼在打車上,如今上百億去啃企業(yè)服務市場,對比也挺鮮明的。
4. 現(xiàn)場迭代
「厲害」的另一個原因是,跟前輩們不一樣,Midjourney 和 ChatGPT 都用了一個很新鮮又古老的方法:RLHF(Reinforcement learning with human feedback),就是利用人類反饋的強化學習。
說新鮮,因為過去的很多 AIGC 的建模還是在學術科研領域,并不是投入用戶群眾的汪洋大海里,因此獎勵模型往往要靠人工標注,效率不高;說古老,是因為早在多年前這就是互聯(lián)網產品玩剩下的——用戶參與,快速迭代,那本小米的《參與感》在互聯(lián)網歷史上甚至已經有陳舊感了。
我看了下 Midjourney 的最新數(shù)據(jù)是有600萬的社群成員。而 ChatGPT 上線不到一周時間就有了100萬的注冊用戶量。每次互動,都是在給模型注入新的生命力。
正因如此,它的迭代才快到讓人吃驚。再回顧下這張圖:
5. 誰會失業(yè)?
我們肯定不能籠統(tǒng)地說,AIGC 要占領世界、所有內容創(chuàng)作者都要失業(yè)云云。很多朋友看到抵制 AI 的畫師們的運動,頗有些上頭,認為已經到了開戰(zhàn)的時候。
其實不然。AIGC 不會替代內容創(chuàng)作者,它替代的只是「重復性的工作」。
Midjourney 會很快替代掉只會重復工作、沒有創(chuàng)意價值的插畫工作,讓大量的海報、插圖、封面等等變得更低成本(當然也會顯著提升整體平均審美)。可是它不是憑空靠想象來作畫的。
很多朋友會以為跟某些傳個頭像做個二次元效果的小程序一樣,Midjourney 就是個全自動的繪圖機器。實際上不然。深度用戶都知道,Midjourney 的難度不在于怎么充值、怎么加入社群,只在于 prompt(關鍵詞)。
prompt 背后代表的,實際上就是創(chuàng)意。糟糕的創(chuàng)意也無法出好圖。沒有意圖的作畫,也產生不了任何價值。
比如以下就是我失敗的一堆做圖記錄:
同理的,ChatGPT 也會很快替代掉只會重復工作、沒有創(chuàng)意價值的文字工作者和程序員。
但如何使用 ChatGPT 也是因人而異的。像剛才提到的那些用法,都是實驗了很多次琢磨出來的,ChatGPT 不會在沒有有效提示的情況下,自己就創(chuàng)作出很多的文本內容、寫出很有用的代碼。
像在我問它如何開店的事情上,它其實就非常投機取巧,沒有提供增量信息:
它們依然還是工具。未來的區(qū)別在于用工具的人。電影工業(yè)摧毀了劇場嗎?并沒有。智能手機的普及摧毀了媒體行業(yè)嗎?也并沒有。它們只是讓供給更復雜了、層次更多了。
不過話說回來,電影行業(yè)必然侵吞了不少劇場的市場,在這個過程中,去電影院門口拉橫幅是意義不大的。想清楚自己過去在劇場的價值,是否能繼續(xù)留下來生存、還是去擁抱變化,這是 AIGC 時代到來后,文字、圖像、音頻、視頻各類形式的內容創(chuàng)作者們都要思考的。
寫在最后
我記得在差不多7、8年前,AI 的概念風行的時候,有機會遇到李開復老師,當面就問過這個問題:AI 的出現(xiàn)會替代人類的工作嗎?他說的就是,機械重復的勞動必然是會被淘汰的,我們要關注創(chuàng)意類的事情、機器做不了的事情。
這個觀點在這些年持續(xù)有人提到,大家都知道這是對的,但不知道這個時刻何時來到。今年的這個神奇的十一月,就像1919年5月29日在巴西索布拉爾拍到的那張日食照片,證明了相對論的真實性,它也證明了這個觀點的可能性。
未來已來,但確實還不均勻。五年后再看,恐怕滄海桑田。