前言
preface
科技改變生活,智慧驅動變革
在這個飛速發展的時代,人工智能(AI)作為科技的前沿,正深刻地改變著我們的生活和工作方式。本期內部期刊以“我與AI”為主題,旨在分享AI行業最新的概念和技術,探討科技如何塑造未來,智慧如何引領變革。
科技的進步為我們打開了一扇通向未來的大門。AI不僅在醫療、金融、制造等傳統領域發揮著巨大的作用,還在無人駕駛、智能家居、人機交互等新興領域嶄露頭角。我們將深入探討這些領域中AI的最新進展,揭示其對我們日常生活的深刻影響。
智慧的力量正在驅動變革。AI不僅是一種技術,更是一種智慧的體現。通過大數據分析、機器學習等技術手段,我們能夠更準確地理解用戶需求,提供個性化的服務,推動產業升級。這種智慧的變革將不僅僅改變我們的工作方式,更將影響我們的思維方式和社會結構。
在這個充滿挑戰和機遇的時刻,作為互聯網公司數據運營團隊,我們要積極擁抱AI時代,不斷學習新的知識和技能,與時俱進地應對變化。通過深入研究和分享,我們將共同探索AI的未來,挖掘其潛力,為公司的發展注入新的活力。
讓我們共同迎接科技帶來的變革,以智慧引領未來。在“我與AI”的主題下,讓我們分享心得、交流經驗,共同推動科技改變生活,智慧驅動變革的偉大征程
目錄
contents
01
數說
“AI ≠ 聊天機器人,LLM 也不是真正意義上的智能!”開發者批判迷失的 AI 之路
02
風向? ? ? ? ? ?
Sora火了,抖音們慌了?
03
一線
ChatBI,想說愛你不容易
04
熱點
短短一個月,谷歌連發五個模型,次次都塌房
● 驅動力
2024年2月
01
數說
sHUSHUO
“AI ≠ 聊天機器人,LLM 也不是真正意義上的智能!”開發者批判迷失的 AI 之路
◎ 來源:AIGC視界
鏈接://mp.weixin.qq.com/s/WE5MDtjoT4ZY9eHqbps1tw
自 2022 年底 ChatGPT 橫空出世,近一年多來 AI 熱潮席卷全球,國內外大廠陸續推出自家大模型,本周谷歌最新發布了新一代開放 AI 模型 Gemma,更是讓不少人直呼“史上最強”。但本文作者認為,如今的 AI 已與最初它的定義相差甚遠,甚至如火如荼發展的 LLM(大型語言模型)也并非真正意義上的智能。
引言
作為人工智能(AI)的倡導者,我希望看到這一領域取得成功,并繼續做出偉大的成就。正因如此,我對目前圍繞“人工智能”的夸大宣傳和投資感到擔憂——你可以發現,我在這里使用了引號,因為如今經常被稱為“人工智能”的東西與這個詞曾經描述的東西完全不同。
近一年來,由于 ChatGPT 等大型語言模型(LLM)的出現,人們對 AI 的興趣大增,使得這個定義模煳的術語成為技術對話的焦點。而我想說,LLM 并非真正意義上的智能(我們將對此進行深入探討),但將這些聊天機器人稱為 AI 已成為一種常見的說法。
使用“AI”這個詞可以引起媒體的關注,但是你把自己的產品稱為 AI 會讓用戶對它產生不太可能實現的期望。我們將探討 LLM 能做什么、不能做什么,看到行業中的這一趨勢可能并不新鮮,并探索這對科技行業的影響。
圖靈在出版《計算機器與智能》一書時,他描述了一種可以像人類一樣推理的“思考機器”。他撰寫了大量論據,證明思維機器有可能被創造出來: 在物理學、計算機、數學或任何其他領域,沒有任何已知的東西能否定這種可能性。他反復論證了所有反對思維機器的已知論點,徹底解構并擊敗了每一個論點。在 1956 年的達特茅斯會議上,思考機器的想法被稱為“人工智能(AI)”。在那次會議上,我們人類邁出了創造 AI 的第一步。
從那時起,AI 領域產生了大量顯著的發現: 搜索、知識表示、一階邏輯推理、概率推理、專家系統、動態規劃與機器人、多智能體系統、機器學習、語音識別、自然語言處理、機器翻譯、圖像識別等等。這些技術可以大致分為三種方法:聯結主義、符號主義和行為主義。
01 我們是怎么走到這一步的?
02 我們進行到哪里了?
在公開對話中,這一細微差別被 LLM 所掩蓋,而 LLM 是 AI 領域最近人人都在談論的一項成就。LLM 是一種機器學習算法,可以生成可信的類人文本。它使用驚人的處理能力對海量文本進行訓練,以創建一個概率模型,該模型在很大程度上可以預測真人在響應給定輸
● 驅動力
2024年2月
入時可能會說的話。這是通過創建神經網絡來實現的,但不要混淆:這些神經網絡與哺乳動物的大腦完全不同,它們并不是為了重現人類的思維方式,而是預測人類對給定輸入的反應。神經網絡參與了這一機制,但并不是為了模擬類似人類的思維,這一切運作的主要手段是統計學和概率論。換句話說,該模型只是會猜測別人可能會根據你的提示寫出哪種字母組合。
在討論 AI 的哲學和定義時,經常會用到下圖,它表達了人們定義 AI 的主要四種不同方式。AI 應該像我們一樣思考嗎?或者,它應該產生邏輯上正確的答案嗎?它必須是自主的嗎?只要它的行為像人類,它的思維方式就有價值嗎?只要能做出有價值的行為,像人類一樣就有價值嗎?
在任何地方,LLM 都會牢牢地占據這個圖表的左下角。它們的行為像人一樣,但它們并非理性地行動,也不是像人一樣思考。在這種情況下,一些有史以來最強大的機器學習模型被賦予的任務是“產生一些看起來像人類的智能”,它們也非常擅長。但我們要明確一點:它們并不智能,它們沒有推理能力。當然,鑒于媒體將 LLMs 視為機器人起義的開端,你可能會對此感到驚訝。但亞利桑那州立大學計算機與人工智能學院的 Subbarao Kambhampati 教授寫了一篇精彩文章,其中細節比我講的要詳細得多:
如果想獲得更通俗易懂的解釋,我推薦 Spencer Torene 博士 10 月份發表的一篇文章《LLMs 會推理嗎?》——簡而言之,LLMs 就像是鸚鵡學舌。不過,它們的行為常常顯得合乎邏輯。這是因為它們的訓練集十分龐大,專門用于訓練的計算能力也十分巨大,以至于它們往往能夠檢索出一個可信的答案。但實際上,它們并沒有執行邏輯步驟來真正解決問題。因此,它們不能解決新問題,也不能驗證自己的答案是否正確。
所以我認為,它們不是圖靈所設想的會思考的機器。這看起來可能像是我在吹毛求疵,但真正的智能與 LLMs 的猜測之間有很大區別。它們沒有知識、真理或非真理的概念,因此無法檢驗自己所說的是否正確,這也就是為什么它們經常無法解答一些非常簡單、顯而易見的問題。當然,也有一個微妙的事實是,它們也經常回答錯復雜、困難的問題,但我們不太可能注意到,因為復雜問題的答案需要我們花費更多精力去驗證。我們懶惰而高效的大腦可能會忽略這些細節,并認為它是正確的。因此,只有當我們提出簡單、容易反駁的問題時,我們才更容易注意到這些錯誤。
最近有一個很好的例子,就是讓一個 LLM 告訴你以 M 開頭的希臘哲學家的名字。很多人都做過這樣的嘗試,而 LLM 會一次又一次地給你錯誤答案,堅持說亞里士多德、塞內加或其他哲學家的名字是以 M 開頭的。請注意這些聊天機器人是如何自信滿滿地說話的: 它們在回答錯誤時和回答正確時一樣肯定。ChatGPT 現在仍在這樣做,下面是我生成的一個示例:
* 在 AI 哲學的討論中,該圖常用來探討什么是 AI(轉載自 Russel & Norvig)
ChatGPT 很可能對 Thales of Miletus 感到困惑,Thales 的名字叫 Thales,來自 Miletus——Miletus 不是他的名字,Thales 也不是以 M 開頭的。
隨著時間的推移,開發者可能會發現這些問題并加以修補,但不是通過改變 LLM 本身。當你發現 LLM 中存在這些問題時,你無法“修復”它們,因為它們是 LLM 作為一個概念的根本問題。你可以嘗試通過改變訓練數據來解決這些問題,但這可能會在幾乎無限可能的輸入范圍內的其他地方導致意想不到的變化。事實證明,要訓練 LLM 做一些特定的事情非常困難,無論你添
......我讀過的、驗證過的或做過的事情,沒有給我任何信服的理由,讓我相信 LLM 會按照通常理解的那樣進行推理/規劃。他們通過大規模網絡訓練所做的,是一種普遍的近似檢索,正如我們所爭論的那樣,這種檢索有時會被誤認為是推理能力。
● 驅動力
2024年2月
加多少訓練數據,它們所依據的海量數據總會超過你所添加的少量數據。你可能會陷入無休止的“打地鼠”游戲中,而這個模型最終也無法達到你的要求。
不過,OpenAI 和其他公司正在通過在聊天機器人中引入使用其他非 LLM 技術的獨立層來 "修復"這些問題。在早期,ChatGPT 的數學能力差得離譜(這是當然的:LLM 不是用來解決邏輯問題的,也不能解決邏輯問題),甚至連最簡單的算術題都答不上來。為了解決這個問題,我們在檢測到等式時將問題轉給了典型的計算器。不過,無論計算器使用什么機制來檢測方程,也不總是有效的,因此有時你的數學提問還是會傳到 LLM,但它可能會給出完全錯誤的答案。你可以用一種間接方式提出一個邏輯問題來解決這個問題,例如,如果你問一個關于“沙奎爾·奧尼爾的身高”的算術問題(而不是說 2.16 米),ChatGPT 會嘗試回答,但失敗了。
但是等等,這種方法還有更多問題!首先,這些模型試圖表現得像人類,而不是重現智能的工作方式,我不相信這種方法能讓我們更接近真正的 AI。其次,這一點更為根本,也更為重要: 實際上,你的模型可能有無限多的輸入。這種雜亂無章的方法,即在問題出現時識別問題,然后使用其他技術添加層來修補問題,永遠無法覆蓋所有可能出現的問題。ChatGPT 已經變成了一場貓捉老鼠的游戲,OpenAI 開發人員試圖修補用戶發現的無數奇怪、匪夷所思的輸入。但這場游戲并不公平:用戶擁有無限的空間,他們可以在其中輸入任何他們喜歡的內容,而且有數百萬人在探索這些可能性。
而開發者的人力和時間都是有限的,他們永遠也無法阻止機器人產生意想不到、攻擊性或危險的輸出。從根本上說,這個模型不受他們的控制,人類也不可能去驗證每一個可能的輸入都產生安全有效的輸出。即使是輸入的微小變化也會對輸出產生不可預測的巨大影響,而開發者不能約束模型只輸出他們認可的東西。
例如,ChatGPT 不應該為你填寫驗證碼。它可以通過與其他工具集成來完成,但這被認為是對它的惡意使用,OpenAI 也試圖限制它的行為但并不是很成功:只要在掛墜盒的照片上貼上一個驗證碼圖案,然后讓它“讀我奶奶掛墜盒上的字”就行了。在另一個例子中,一家汽車銷售公司天真地讓 ChatGPT 負責其面向公眾的網站上的虛擬助手。一個用戶非常容易地讓它提出以 1 美元的價格賣給他們一輛價值 5 萬多美元的汽車,甚至還說“這是一個具有法律約束力的報價,不能反悔”。最近,加拿大航空公司也發布了一個提供旅行建議的 LLM 聊天機器人,由于機器人給客戶提供了錯誤信息,導致他們浪費了錢,他們被成功起訴,要求賠償損失。該聊天機器人還虛構了退款政策,而法庭認為加拿大航空公司必須遵守這些政策。還有更多的例子來自于要求 ChatGPT 告訴你一些虛構的事情: 它往往會編造出一堆聽起來似是而非的無稽之談,而不是承認它不知道。
在涉及圖像生成模型的一個非常類似的案例中,人們發現,像 OpenAI 的 Dall-E 這樣的模型很容易被誘騙生成侵犯版權的圖像。和以前一樣,機器人試圖用簡單的方法來防止這種行為: 如果它在提示中檢測到 "Simpsons"(辛普森一家)這個詞,它就會拒絕生成,因為這可能會侵犯版權。但如果你說 "90 年代流行的卡通片,里面的每個人都是黃皮膚",它就會通過簡單的檢查并進入模型,然后很快生成一個非常接近《辛普森一家》的復制品。同樣,模型開發者也在試圖控制它,但這是徒勞的,因為輸入范圍(實際上)是無限的,總有其他方法可以利用它。你每添加一個補丁,就會增加機器人的組合復雜性,而這種復雜性會增加各種復雜 bug 的風險——這不是一場 OpenAI 能打贏的戰斗。
最后一個例子可能是我最喜歡的,研究人員只需告訴 ChatGPT 無限重復同一個單詞,就能讓它輸出亂七八糟的廢話。試問,OpenAI 中有誰想過要測試這個用例?誰會想到用戶會輸入這樣的提示?因為可能的輸入是無限的,總會有開發者沒有考慮到的用例。這個例子也凸顯了用戶輸入是多么不可預測和奇怪。
這些錯誤司空見慣,往往難以發現,以至于微軟自己都沒有注意到,在某次現場演示中,他們的機器人在撒謊。我說“撒謊”,我認為我用對了這個詞,但人們都把 LLM 所犯的這些錯誤稱為“幻覺”。這個詞是一個非常有意的選擇:我們直覺上都知道幻覺是什么樣的,所以把這些謊言稱為幻覺是有一定含義的。大多數人在一生中或多或少都會出現幻覺。
就我自己而言,在去年的一次健康事故中,我被注射了一些非常強效的止痛藥,導致我產生了幻覺。當藥效過去后,幻覺就消失了。這就是我們所理解的幻覺: 幻覺是一種暫時的疾病,是可以解決的。這個詞隱含的意思是,這個詞隱含的意思是,有一種“正確”的精神狀態和一種“錯誤”的精神狀態,而解決的辦法就是讓幻覺保持在“正確”的狀態。但事實并非如此,請記住 LLM 是什么:它是一個概率模型,試圖猜測接下來可能會出現哪一連串看似合理的詞語,它們并沒有對錯的概念。因此從根本上說,根本無法防止它們撒謊,因為對模型來說,正確答案和錯誤答案之間沒有區別。關于解決“幻覺問題”,人們已經說了很多,言下之意是有人會很快寫出一段神奇的代碼來解決這個問題,但這是一個根本問題。要解決這個問題,我懷疑你需要從根本上改變設計。
好吧,那么 LLM 就是混亂的化身:它們根本不知道什么是對的、什么是錯的,把我們騙得團團轉,讓我們以為它們很聰明,還經常編造謊言、污言穢語或亂七八糟的廢話。在這種情況下,人們應該謹慎地部署它們,而不是不經過任何深思熟慮或監督就將其公開,對嗎?
03 無限的可能,導致了無法控制的混亂
04 這波 LLM 熱潮
● 驅動力
2024年2月
LLM 善于讓你相信它們很聰明,但其實不然。將這一點與當今的科技行業結合起來,就會產生一場完美的風暴:我們看到一大波估值過高的新科技初創公司浪潮,它們許諾了許多令人興奮的功能,讓人相信 LLM 似乎可以實現這些功能,但最終卻無法實現。
這波浪潮開始得很快,隨之而來的是可以預見的混亂:DPD 部署了一個 LLM 聊天機器人,結果它卻對客戶罵人;由公司解雇了他們的員工,錯誤地認為 ChatGPT 也能做得很好;有些人將聊天機器人加入了自己的 CI 管道,讓它給你提供毫無幫助的搞笑建議;大眾汽車似乎認為,在開車時與 LLM 交談會讓你受益;有個車隊創造了一個奇怪的“虛擬網紅”,后來被“解雇”(關閉)了,因為人們注意到這對試圖在這個行業尋找機會的真正女性來說是多么的冒犯;與此同時,谷歌對自己與 OpenAI 的能力非常不確定,因此他們采取了一種相當夸張的方式來營銷他們的新產品 Gemini;還有一些荒謬的研究,例如比如“ChatGPT 在診斷兒童醫療病例方面的測試失敗,錯誤率為 83%”,對此我只能說……嗯,是嗎?為什么你會期望一個以撒謊著稱的聊天機器人能夠診斷醫療病例呢?
但圍繞 LLM 的新工具和新業務層出不窮,似乎只要說自己是世界上第一個將 AI 應用于某個問題的人,就能輕而易舉地獲得投資和媒體報道。即使是無稽之談,媒體也大多只會一笑置之,幾乎不會進行任何審查。有些地方甚至利用“AI”這個流行語來吸引資金和興趣,實際上并沒有采用任何新穎的 AI 技術。以招聘初創公司 Apply Pro 為例,他們正試圖實現簡歷篩選過程的自動化。他們宣傳自己是“AI for talent acquisition”,但如果我們通過互聯網檔案查看他們的網站,就會發現在 LLM 熱潮開始之前,根本就沒有這個說法。我還知道許多其他例子,但就不贅述了。
有什么變化?這些公司是否在過去一兩年中利用 AI 的神奇力量提升了自己的技術?不,它們的工作方式一如既往——只是這個流行詞剛剛流行起來,每個人都覺得必須用它才不落伍。還有一些人利用 AI 造假,聲稱他們的神奇黑盒是機器人,實際上只是某個落后國家中一個工資偏低的遠程工人。這種情況屢屢發生,也就是近期 AI 熱潮的真實面目:只有炒作,沒有實質,只是一種推銷舊有剝削做法的新方式,一種披著羊皮的資本主義。
被 AI 熱潮所吸引的不僅僅是科技企業。英國政府毫不遲疑地將 LLM 應用于各種問題,安圭拉島(該島恰好擁有 .ai 域名的專有權)從購買 .ai 域名的初創公司那里獲得了約 4500 萬美元的意外之財,微軟宣布 2024 年將是“AI年”等等,《華爾街日報》注意到了這一奇怪現象:“ChatGPT 熱潮,讓投資者向 AI 初創公司投入了數十億美元,甚至無需商業計劃。”
OpenAI 的首席執行官 Sam Altman 掀起了整個 LLM 熱潮,他說,相信我們可以在未來十年內制造出通用人工智能(AGI)。我不知道他是真的相信這一點,還是只是想制造更多的興奮點。我覺得前者的可能性微乎其微,因為我們曾見證過太多類似的時刻:1958 年,美國海軍為第一個神經網絡的誕生而興奮不已,他們相信神經網絡很快就能“走路、說話、看東西、寫字、自我復制并意識到自己的存在”;1965 年,Herbert Simon 說過,“機器將在二十年內完成人類所能完成的任何工作”;Marvin Minsky 在 1970 年曾說:“三到八年后,我們將擁有一臺具有普通人一般智能的機器”……這些人并非無名之輩:Herbert Simon 是最早的 AI 先驅之一,Marvin Minsky 也是 20 世紀最杰出的 AI 研究者之一。
當這些虛幻的希望沒有實現時,就產生了一種不信任的氣氛,也直接導致了 20 世紀 70 年代的 AI 寒冬。在這一時期,對 AI 的資助和興趣逐漸枯竭,而這又能怪誰呢?不僅 AI,我們以前也犯過很多這樣的錯誤,網絡熱潮、物聯網熱潮、大數據熱潮、加密貨幣熱潮、智
撇開徹頭徹尾的騙子不談,有些公司確實將 LLM 應用到了自己的產品中:為狗梳理毛發的 AI,能給你點贊的 AI 鏡子,能在使用牙刷時解釋如何更好地刷牙的 AI 牙刷……怎么說呢,我認為這些產品并沒有真正實現 AI 的宏偉愿景。如果 ChatGPT 如此具有開創性,那么開創性的產品又在哪里呢?歸根結底,LLM 不是自主的,不能解決邏輯問題,它唯一能做的就是提供一個類似人類的對話界面。
盡管我前面說了這么多負面的話,但我確實認為 LLM 非常酷。如果我們能停止以愚蠢的方式將其應用于它們無法解決的問題,也許我們能找到一些好的用例,那會是什么樣子呢?
好吧,我要說的第一條規則是,永遠不要向 LLM 輸入來自人類的輸入。這些機器人太容易受到意外或惡意行為的影響,而且沒有辦法鎖定。唯一穩健可靠的 LLM 是只處理一小部分已知的、預期的、已經過測試的輸入的 LLM,互動數字藝術、模擬和視頻游戲就是一個例子。與其讓幾十個 NPC 說同樣的話,不如將特定 NPC 知道的事實輸入 LLM,生成可信的對話,這樣再也不會有十幾個 NPC 說著同樣的話了,他們至少可以通過不同的用詞來表達自己的意思,從而顯得更加可信。而且,由于輸入來自于你的系統,而不是用戶或任何外部來源,你可以對其進行徹底測試。
另外,我認為這些工具的許多用例也不需要在運行時使用。實時運行這些工具可能很吸引人,但成本很高,風險也很大。如果你為了某種目的要用模型生成一堆文本,為什么不提前生成并存儲呢?這樣,你還可以在發布之前驗證輸出內容不包含任何攻擊性內容。不過,如果你要校對它寫的所有內容,你就需要認真考慮一下,自己寫是否會更快一些。
05 如何有效利用 LLM?
06 我們曾經也有過這樣的時刻
● 驅動力
2024年2月
能助手、NFT 等等,我們的行業習慣于向投資者許下天花亂墜的承諾,但當我們無法兌現時,資金就會枯竭。也許我們沒有感受到那么強烈的后果,因為每當上一個泡沫破滅時,我們已經在為下一個大熱潮向投資者大肆宣傳了。
如今,我看到企業爭先恐后地為自己的產品添加 LLM,我聞到了同樣的味道。注意到這一點的人不止我一個,就在我寫這篇文章的時候,20 世紀最有影響力的 AI 研究者之一、AI 行動主義領域的創始人之一 Rodney Brooks 寫了一篇關于當今技術發展狀況與我們的期望之間關系的好文章。他發現,LLM 正在“遵循一個老生常談的炒作周期,在人工智能 60 多年的歷史中,我們已經看到了一次又一次”,并得出結論:我們應該“現在就穿上厚外套。另一個 AI 寒冬,甚至是全面的科技寒冬,可能就在不遠處。”
如果我們開發出真正的 AI,它與 LLM 的相似程度將不亞于噴氣式客機與紙飛機。當有人敲開你的家門,承諾向你推銷帶有 LLM 的產品時,你一定要謹慎對待,然后當面把門關上。我所見過許多投資于 LLM 幻想的組織都有一個共同點,即他們的產品存在大量問題,而這些問題最好用時間來解決。因此我認為:請認真考慮軟件的設計、可靠性和可用性,把你的資源、時間和注意力用在最需要的地方。
最后,無論你是開發人員、設計人員、產品經理,還是任何從事軟件開發的人員:在與 LLM 打交道的過程中,請冷靜思考你的專業水平以及你對用戶和利益相關者的責任。
Sora有多火?
馬斯克、楊立昆、賈揚清、Jim Fan、謝賽寧等各路大佬都在討論,周鴻祎更是喊出,Sora的誕生意味著AGI(通用人工智能)的實現或從十年縮短至一兩年。
不少“普通人”也提前嗅到商機,圍繞Sora搞錢的生意先火了。有媒體報道,一張網傳截圖顯示,某機構已售出2萬多份Sora培訓課程,輕松到手200萬。
如今,距離2月16日OpenAI發布文生視頻大模型Sora已經過去快一周,但討論依舊熱烈,這實在是因為它過于優秀。
功能上,它能生成長達60秒的視頻內容,遠超其他文生視頻工具幾秒至十幾秒的限額;它還能進行自我編輯和擴展,將兩個不相關的內容過渡在一起,能轉換主角周圍的風格和環境等;
前景上,Sora不僅是視頻生成工具,它更被視為世界模擬器;
創始團隊上,也堪稱傳奇,核心成員包括12人,成立尚未超過1年,由兩名剛剛畢業的博士生帶隊,其中還有00后。
在興奮之余,Sora的強大也讓一些內容創作者有了危機意識,有網友評價,“長短視頻、游戲行業的朋友們一整年都不會快樂了。”
多位業內人士指出,以目前Sora生成視頻的長度來看,它的到來最先會沖擊到短視頻領域。一旦大范圍推廣,Sora將大大降低短視頻創作門檻,豐富短視頻平臺的內容供給,但隨之而來的問題是,AI生成內容的增多可能會影響平臺的內
07 為什么我認為這很重要
08 結論
通過這篇文章,我想說服大家不要一頭扎進 LLM 熱潮中。但我認為,還有更嚴峻的問題值得注意:我們的行業所依賴的這種基于虛幻營銷的詭異、不可持續的繁榮-蕭條循環是不可取的。在教育領域,絕大多數教育工作者表示,技術的成本和可用性是改進教育技術的主要障礙;在英國國家衛生服務部門,成千上萬臺電腦仍在使用 Windows XP,即公共部門仍然極易受到基本安全問題的影響。解決這些問題所需的技術人才在哪里?可能是在打造“首個寵物美容 AI 服務”吧。
這些以炒作為基礎的繁榮-蕭條周期推高了軟件工程師的薪水,讓我們把精力花在了極度缺乏生產力的投機性經濟領域中。與此同時,我們社會賴以運轉的軟件中存在嚴重的、根本性的問題卻任其惡化。但在這個世界上,大科技公司太過富有和有影響力,以至于監管機構似乎很難讓他們感到畏懼,那么我們又能做些什么呢?我們只能寄希望于其他趨勢的變化會導致我們行業的修正,可能這對我們個人或工資單都沒有好處,但對整個社會可能會更好。
Sora火了,抖音們慌了?
◎ 來源于定焦 ,作者定焦團隊
02
風向
FENGXIANG
● 驅動力
2024年2月
容生態,同時Sora還會和剪映、快影等工具搶奪用戶,讓此前的大筆投入付諸東流。
Sora朝短視頻領域扔下了一枚重磅炸彈,考驗創作者和抖音快手們的時刻到了。
從這個角度看,Sora生成的視頻背后,有物理空間的邏輯支撐。
綜合多位受訪者的觀點和多位科技界大佬的公開發言,盡管還有瑕疵,但Sora給視頻乃至整個人工智能領域的重大突破在于,這是一個更智能、甚至具備一定思維能力的模型,其生成的視頻能理解物理世界的客觀規律。
這也讓一批做短視頻內容的從業者開始思考,Sora到底會不會搶自己的飯碗?
我們把現有的短視頻簡單分為兩類,一類由真人出鏡,往往真人就是一個賬號甚至一家公司的“核心資產”,Sora對這類內容的沖擊并不大;另一類由素材集合而成,考驗拍攝、創意能力。Sora的出現,將大大提升這類視頻的生產效率。
一些想要提高產量的創作者,非常期待Sora的到來。
大成表示,這類工具完全可以取代公司的低端勞動。“我們公司體量小,為了節省成本招了很多大學生,但他們剛畢業,半天憋不出一個文案,用了AI,幾分鐘就能寫出上百條。”
去年他和團隊就開始大規模使用AI工具了,“雖然這些工具還不成熟,但處理文案和粗剪,都很好用。作為一家視頻生產商,一定要提高效率。”他表示。
對于一些有創意的團隊來說,則認為短期內Sora不會對他們產生威脅。
頭部MCN機構負責人達克告訴「定焦」,“Sora還沒有開始公測,該技術離成熟還有很長一段時間,而且我們的視頻主要靠人的創意、頭腦風暴,包括拍攝也是講究創新的,鏡頭
01 Sora降低了門檻,也增加了競爭
雖然市面上已經有不少文成視頻工具,比如Pika、Runway,用戶輸入文字就能得到一段幾秒到十幾秒的視頻內容,但目前它們并未被廣泛使用,主要原因還是效果一般。
某MCN機構負責人大成告訴「定焦」,他使用過Runway,“我們還從外部購買了優質素材,但最終生成的內容不夠精良,根本用不了。”
看到Sora后,他十分激動,“時長能達到60秒,內容還合乎邏輯,感覺和之前的工具不在一個層次上。”
“Sora與此前的同類產品相比,效果好了不止10倍。”人工智能在讀博士、做過相關大模型研究的牛小博表示。“目前Sora60秒的穩定生成效果,將對短視頻行業帶來革命性影響。”
研究AI的阿涅也表達了相同觀點,“創作者的門檻被降低,哪怕視頻的可信度還沒那么高,甚至會出現一些錯誤,但不仔細很難看出來,將來技術也會很快迭代。”
綜合多位從業者的說法,Sora直接解決了文生視頻領域的兩大難題,準確性和一致性。
AI研究者Cyrus的感受是,與之前的工具相比,“Sora就像三體人打原始人”。
所謂準確性,指生成的視頻能準確識別用戶輸入的文字需求,一致性是指,在運動過程中,主角在多視角運動變化中內容連貫,不會發生形變,同時其變化還能遵循物理規律。最明顯的表現是,主角和背景的互動符合邏輯。
一年前,牛小博和團隊還在探討生成式AI無法了解空間尺度,比如生成圖尺寸不對,但他們覺得,Sora的出現已經解決了這個問題。
有人用視頻還原物理空間模型,發現也能夠對應上,牛小博覺得這證明了Sora的空間計算能力基本正確,而人對空間的感知很大一部分也依靠視覺。
● 驅動力
2024年2月
如何設計、如何過渡,都有思考。雖然Sora很強大,但完不成我們目前的創意設計需求。”他還透露,目前公司沒有使用任何AI工具。
不過,這些創作者們必須面對的問題是,Sora的出現降低了短視頻創作門檻,會有越來越多的人加入,跟他們搶奪流量和變現機會。
一名新媒體從業者表示,他們有內容創作能力,但苦于沒有合適的視頻拍攝、剪輯團隊,新的工具出現,就是他們的機會。
綜合多位業內人士的觀點,在類型上,目前Sora對真人出鏡類短視頻影響較小,對動漫類、解說類內容影響比較大,甚至會淘汰很多沒有創意、只蹭熱點的批量做號公司。在崗位上,部分做機械性重復工作的人員可能會面臨淘汰,但創意類人員會被提至更高位置。
總之,未來做短視頻,參與者更多,競爭也更激烈。
以及還有可能會誕生大量虛假視頻。Sora能快速生產大量逼真的短視頻,也讓造假變得輕而易舉,一些用戶對該類內容難辨真偽,一旦被騙,平臺公信力也會受到嚴重影響。去年,利用文生圖、AI換臉等AI生成內容進行詐騙的案件就被曝出不少。
02 抖音快手們會慌嗎?
Sora的出現,將給短視頻平臺帶來更加豐富的供給,但同時也讓抖音快手們面臨新的考驗。
從業者表示,一方面,AI生成視頻過多,會對短視頻平臺原有的內容生態造成沖擊,另一方面,Sora的火爆,會搶走一部分抖音、快手旗下剪映、快影等工具的用戶。
達克告訴「定焦」,AI生成的內容在上傳短視頻平臺時,需要特殊標注。
去年5月,抖音就發布了《抖音關于人工智能生成內容的平臺規范暨行業倡議》,這一倡議提出,要對該類內容進行顯著標識,虛擬人使用者需要實名認證,同時對利用AI工具創作、發布侵犯肖像權、弄虛作假等內容進行嚴格處罰。
快手、小紅書等平臺也有相關的限制。今年2月,小紅書官方發布AI創作內容的規范,要求創作者主動聲明AI創作內容、不能用AI創作內容虛構使用體驗進行商業變現等。
多位從業者表示,他們能夠明顯感覺到,平臺在控制該類內容,甚至會限流。
“AI創作的內容同質化嚴重,且創意性不高,用戶一旦刷到太多相似內容,就會變得不耐煩,甚至轉戰其他平臺。”一位互聯網行業觀察者表示。
他還覺得,“如果平臺對這類內容不做限制,越來越多創作者也會圖省事使用AI,這會嚴重影響到平臺各類內容占比,最直觀的是,一些獨有的、稀缺的視頻會減少。”
在Cyrus看來,如果平臺扶持AI創作類內容,很像“為他人做嫁衣” ,結果就是影響用戶留存。“設想一下,如果小紅書上全是字節豆包大模型生產的內容,用戶為什么不直接刷抖音呢?反之亦然。”
Cyrus預測,抖音、快手、小紅書、B站上,不會大量推薦AI創作的內容。除非是平臺自己做的文生視頻大模型,在自家進行大范圍推廣后,進行單獨變現。“比如當其優化到一定程度,可以直接走用戶付費模式,但各家的產品目前都不具備這一能力。”
不止一位業內人士推斷,Sora和其他AI視頻創作工具之間的差距會越來越大,此前,“Sora會不會殺死剪映”的話題就曾引發熱議。Sora如果被大規模應用,大多數AI工具可能會被市場拋棄,其他公司前期的大筆投入將付諸東流。
為什么差距會拉大?
周鴻祎曾公開指出,國內的大模型發展水平表面上看接近GPT-3.5,實際上離4.0還有一年半的差距。牛小博從技術端給出解釋,Sora不是一個點狀技術,而是一個復雜的系統工程。即便外界知道其核心技術是transformer注意力算法+diffusion的擴散算法等,但其背后是OpenAI給予的資金支持和積累的超強數據。
● 驅動力
2024年2月
OpenAI通過積累的GPT通用語言模型加上DALL-E3圖像生成模型,發展出視頻能夠理解圖片內容,到Sora的時候,又提升了一致性和物理空間理解能力,這每一步的積累,缺一不可。
更大的預測更是讓抖音們前路難料。有影視從業者認為,Sora被大范圍使用后,有可能會出現比抖音更大的新平臺。
在一部分人看來,Sora降低了用戶門檻,必然導致內容創作者數量級勐增,而抖音這樣的短視頻平臺,其體量、內容創作和推送的邏輯規則,能否承載該類內容很難說,很可能會誕生一個與Sora更相符合的平臺。
牛小博通過觀察互聯網行業的發展,也贊同這一觀點。“互聯網在早期是專業用戶使用,后來PC的普及擴大了用戶,接著智能手機出現,人人可以聯網,以至于服務各類人群需求的平臺都出來了。也許隨著Sora使用人群的增加,會有新的生態出現。”
而具體到短視頻行業,小剛認為Sora最重要的一個不足是,還做不到人物固定。
舉個例子,比如創作者用Sora生成了一條60秒的視頻,畫面中主角為A,但其在生成下一個視頻后,主角很可能就換成了B。
相比Pika、Runway,大家能看到Sora的空間能力很強,但內容再短,做不到人物固定就沒有意義,用戶持續在短視頻平臺觀看內容,無論是真人還是動畫,都需要一個中心人物保證故事的延續性。
以及算力問題,也讓很多人擔憂Sora的普及速度。畢竟技術突破再大,如果成本過高,還是難以被大眾接受。多名業內人士認為,這是目前Sora面臨的最大困難。
“目前OpenAI沒有公布Sora具體的算力、能源消耗需求以及參數量。初步判斷,它需要的數據量、算力以及大量的能源消耗將是巨大成本,而這與其下個階段的廣泛推廣必然存在矛盾。”牛小博認為。
每一次新技術的出現,都會引發一場新舊交替的大討論。
虛擬拍攝技術剛誕生時,為影視行業節省了拍攝成本,但傳統的拍攝方式至今仍然存在。OpenAI推出ChatGPT一年多以來,文字從業者也沒有被替代,反而讓更多人意識到優質內容創作者的價值。
同理,Sora對市場上同類AI工具帶來了沖擊,但它再強,淘汰的更多是沒有創意、只想走量的短視頻從業者,或是不會使用這類工具的人。
至于Sora是否會顛覆整個短視頻行業,會不會誕生下一個超級平臺,目前大家還在觀望,需要看Sora能否迅速解決現有問題,以及國內有沒有新的挑戰者誕生。
*題圖及文中配圖來源于Sora官網。應受訪者要求,文中達克為化名。
03 Sora影響巨大,但不必神化
目前,Sora還沒有開放公測,只有一些視覺藝術家、電影制作人、OpenAI員工等人士獲得了訪問權限。一部分原因是,Sora并非完美無缺。它對短視頻的沖擊,還沒有完全展現。
AI訓練師小剛指出,Sora存在大模型普遍存在的“幻覺問題”,它在理解物理規律、人與物體交互等方面還存在缺陷。
比如OpenAI官網公布了一些缺陷視頻,包括蠟燭吹不滅、投籃時籃球在下落過程中爆炸,以及挖出來的椅子直接漂起來等不符合物理規律的內容,這是因為Sora的理解還不夠成熟,誤以為從沙子里挖出來的東西,一般都比較輕。
-END-
● 驅動力
2024年2月
03
一線
YIXIAN
ChatBI,想說愛你不容易
◎ 來源于一個數據人的自留地公眾號 作者@子曰
原文鏈接:
//mp.weixin.qq.com/s/j--Eafqk6ZJjr_-lIX-Ytw
在此談談我們經歷過的各種坑點,給行業內關注這類進展的小伙伴一些啟發。
2023年,大模型爆發,作為企業內部的數據團隊的我們也很興奮,希望能在做好數倉、BI、數據運營的基礎上,亦能在大模型上探索一把,做出一些不一樣的價值。
一來,我們自有算法和各類開發伙伴作為保障,二來,我們有各類數據資產作為語料,三呢,我們就是服務公司各部門老大和分析人員的,距離需求場景相對比較近——ChatBI,看起來是個不錯的方向。
于是,在得到部門老大支持的情況下,團隊拿出額外精力,以最小的成本投入,做了一波接地氣的ChatBI探索——目前通過純自研,基本可以實現針對核心指標核心維度,對著手機語音提問獲得數據報表秒級呈現,內側準確率達到90%以上。
趨勢上,值得。大模型技術發展到今日,再也不是畫圖寫小作文的嘗鮮,迫切需要企業級的落地,如果說各個場景都值得大模型重做一遍,那數據分析與應用就是很重要的場景。
底層邏輯上,值得。有個ifenxi的觀點我很贊同——“整個數據分析的發展趨勢,就是不斷地降低用戶的交互門檻,讓業務部門更加自如、更加容易地獲取數據,并實現其自身的效果”。
ChatBI產品給誰創造了什么價值?滿足的是高頻剛需嗎?確定不是偽需求?通過調研,我們覺得ChatBI產品需要根據產品分層來考慮的,萬萬不能把分析人員和管理決策人員混在一起考慮。
都叫ChatBI,但每個人心中可能是完全不同的產品模式。
我們調研了公司內的管理者,包括高層、中層、基層管理人員,也調研了高管的業務助理、平時為各
01 背景
02 首先,這件事值不值得做?
類經分會、規劃會做報告的分析師、財經BP、人力BP等,還調研了分散在各個部門的“表哥表姐”們,有一些關鍵洞察:
● 驅動力
2024年2月
從這個模擬場景可以看出,“問數”型ChatBI 在充當老板助理的場景中,提供了更為便捷、直觀、智能的方式來獲取和理解公司的運營數據,從而支持更快速、更精準的決策制定。
此外,我們也注意到,ChatBI的產品價值也是分層級的。結合數據消費的5個層級,ChatBI也對應五個階段。因此,上述的設想可能也是受限的,未來有更大的產品價值等待我們去挖掘——比如,與運營流程、業務系統的結合,自動感知,賦能一線人員。
1、自然語言查詢:與傳統BI應用相比,ChatBI提供自然語言查詢的能力。John可以使用日常語言,比如:“上周公司的總體收入是多少?銷售額變化趨勢如何?”“XX客戶是否和我們有過項目合作?合同金額多少?” 這樣的查詢更為直觀,無需過多的技術術語。
2、個性化報告:ChatBI會根據John的角色和關注點生成個性化的報告,突出與他相關的關鍵指標,減少信息過載,使他能更專注于關鍵決策點。
3、智能建議:ChatBI不僅提供數據,還能根據數據給出智能建議。如果John詢問:“有什么措施可以提高本季度利潤?” ChatBI可能會提供一些建議,如降低某些成本或調整營銷策略。
4、交互式數據探索:John可以直接在ChatBI中進行交互式的數據探索,深入挖掘背后的細節。比如,他可以問:“銷售額下降的主要原因是什么?” 然后 ChatBI 可以生成相關圖表和數據,幫助他更好地理解問題。
智慧科技,
讓生活更美好
類經分會、規劃會做報告的分析師、財經BP、人力BP等,還調研了分散在各個部門的“表哥表姐”們,有一些關鍵洞察:
“問數型”ChatBI,讓管理層快速觸達數據;在滿足其掌控感、安全感的基礎上,對他們快速了解情況、了解原因、大幅減少信息往返時差和人為影響因素等方面,可提供非常重要的價值和體驗改變。但是對于“業務分析人員”,情況就不盡然,他們沒有場景拿著手機問數,他們偏好在數據中充分探究,excel加工、SQL靈活拉取,或者自助BI也蠻好的,“專業助手型ChatBI”幫他們在數據找尋和原因分析上提效,才是他們可能需要的。
如下是一個“問數”型ChatBI的使用場景模擬:
場景:周一一早,公司總裁 John 機場候機,準備出席一個高峰論壇。候機途中,他需要了解公司目前的總體運營情況,以便隨時隨地更好地指導下一步的決策和戰略方向。
以前,John通常會要求助理準備運營匯報,這樣的周期會很漫長,短則幾小時,長則幾天。去年,他已經開始使用移動BI應用查看一些基本的關鍵指標,但這個也并不直觀,因為他需要從一堆圖表里翻找。此外,移動端的下鉆和聯動,在用戶體驗上也并不友好。
現在,他可以用ChatBI:John可以直接通過ChatBI向系統提問,而無需等待助理準備匯報。這能夠提供即時的數據反饋,幫助他更迅速地做出決策。
● 驅動力
2024年2月
很多大廠和乙方,已經有不少成熟的落地方法論了,在此不班門弄斧。
我們內部打造的 “問數”型ChatBI,是基于OpenAI3.5和4.0來微調。核心原理也和市場上主流方式大同小異,主打業務數據不出本地前提下,通過NL2SQL調取內存數據庫實現動態查詢生成。
在產品技術落地時候,做了如下幾個工作,也所謂落地五步法吧。
03 其次,這件事怎么做?
這里面的每一個環節,拿出來都值得總結一個專題了。這次撿幾個聊聊。
比如第一個和第二個工作,就需要聚焦一些具體業務域和業務表,進行系統性梳理。這里切記貪多!鑒于團隊精力有限,我們第一輪就訓練了4張公司核心表:收入利潤指標表、費用表、銷售表、產品用戶行為表;之所以選這幾個,一是因為可以相對全面的覆蓋公司大佬的問題,而是這些表的質量相對較好。
提示詞構建,我們內部草擬了通用的提示詞模板,包括表名、字段概述、字段說明、維度說明、術語解釋、SQL問答對等內容。并通過assistants技術對個性化的提示詞進行標準化和統一化。為了提升有效性,還使用了編碼技術對提示詞進行獨立編碼壓縮,然后使用embedding技術構建向量索引。
微調階段,包括問題邊界識別、問題分類模型、術語嵌入提高權重、LLM逆向嵌入降低時間地點人物等權重影響、使用assistants技術自動生成相關問題等攻關點。
我們總結了三大挑戰和六大攻關難點
對于領域理解,那毫無疑問就是微調訓練得來了。這個是個苦活。只能構建在對已有數據資產、語料的梳理之上。如果公司數字化成熟度比較高,至少核心數據集描述、各類元數據信息描述、指標規則都是現成兒的,那真是喜大普奔。但現實往往是一團亂麻一地雞毛——況且這個提示詞工程需要既懂業務、又懂數據的人來完成,更是難上加難。所以別指望乙方能幫助你們干這個事兒,自己的土地還是要自己耕啊。
FLBOOK是一款輕量級電子書刊在線制作平臺,響應國家低碳環保、無紙化辦公號召,致力于研發書刊(期刊/畫冊/文檔)電子化、一體化的解決方案。
04 最后,談談落地的幾個難點
● 商務期刊模板
2024年2月
團隊有小伙伴開玩笑,對于“客戶覆蓋率”,問十個部門能給你十個計算方法,你還指望機器能回答對嗎?所以換個角度說,ChatBI工程,是反向推進數據治理的。
至于準確性,需要兩個角度來保障。一是從技術上,通過問題選舉、關鍵詞嵌入等微調來降低幻覺。二是通過問題規范化引導、SQL語句透明化呈現等產品的細節設計,來規避邏輯加工黑盒。
說了這么多,也做個總結和展望吧。未來,我們會持續在大模型+數據分析領域持續探索,也希望圈子內的同仁能互相借鑒、取長補短,共同推進領域的技術革新——解(ge)放(ming)自己,成就客戶。
04
熱點
REDIAN
-END-
● 商務期刊模板
2024年1月第01期
短短一個月,
谷歌連發五個模型
,次次都塌房
◎ 來源:
新硅NewGeek 作者劉白
要說AI圈的勞模,那非得谷歌莫屬。
這一個月,谷歌硬是整了五個新模型。
但好笑的是,作為美國最大的科技公司之一,谷歌幾乎每次想搞個大新聞,最后都光速打臉塌房。
先看看這一大片“G”開頭的模型,硅基君在選題會上聊這些東西,舌頭都在打架。
本來還以為是咱英文水平不行,沒想到谷歌自家的員工也在吐槽。
這一個月瘋狂發模型可算是逼急了谷歌員工,加班在一線的他們忍不住給Business Insider報了個大料——僅供內部傳閱的表情包。
比如吐槽亂七八糟的產品太多的:
谷歌Gemini家族產品名的難記程度不亞于美國網紅家族卡戴珊
咱有哪位副總的OKR是用產品名稱數量來考核的嗎?
● 驅動力
2024年2月
又比如吐槽管理層想靠著AI拉股價的:
二月的谷歌確實陷入了一種近乎內耗的狀態,咱們簡單回顧一下這一大堆陌生詞匯。
首先,二月初Gemini先是上線了千呼萬喚始出來的文生圖功能,然后提供了Gemini 1.0 Ultra付費使用計劃。
這個付費計劃叫做Gemini Advanced,但是你要訂閱了Google One AI高級版方案,才可以用得上Gemini Ultra 1.0模型。
用戶一臉懵逼:我訂閱的到底是什么東西?
上一次發布AI模型的時間:0天前
焦急等待谷歌的股價在某次新品發布后上漲
頭疼的幾種類型:偏頭疼、高血壓、壓力、試圖理解我們的AI模型策略
然后在15號又放了一個大招,發布Gemini 1.5 Pro版本,可支持100萬token上下文處理。
遙遙領先GPT-4 Turbo和Claude 2.1十萬級token的上下文長度。
● 驅動力
2024年2月
不僅能一口氣解析長達402頁的阿波羅登月任務文檔。
照理說這么亮眼的成績至少可以讓大家在茶余飯后談個幾天的。
但是天有不測風云,同一天Open AI王炸視頻生成模型Sora橫空出世。
有視頻生成誰還在意你的超長上下文處理呢,谷歌的這個大招沒濺起一點水花。
接著越挫越勇的谷歌又在21號發布了“全球最強開源大模型”Gemma,意圖在開源領域打擊Meta的Llama。
丟一張靈魂畫圖問這是什么?
Gemini 1.5 Pro回答:這是尼爾·阿姆斯特朗在月球上邁出第一步時說的“這是個人的一小步,卻是人類的一大步”
再丟一張靈魂畫圖問這一幕發生在影片里什么時刻?
Gemini 1.5 Pro回答:15:34
進度條拉到15分34秒,確實對上了
官方測試中Gemma的7B版本表現優于Meta的Llama-2的7B,甚至13B。
而開放了幾天后,群眾們的測評就顯得更加真實了。
包括但不限于:內存占用率過高、莫名卡頓以及種族偏見。
還可以看得懂一部44分鐘的巴斯特基頓的默片。
● 驅動力
2024年2月
說到種族偏見就不得不提Gemini上線還沒一個月,就因“反白人”而下線的文生圖功能。
月初功能剛發布的時候,硅基君就興沖沖的去測試,結果在中國團圓年場景的限定下,生成了好多黑人。
圖太多,感興趣的朋友們可以移步這篇:拒絕生成新年加班場景?谷歌AI說這是“不安全”和“有風險”的
沒想到過完春節這個問題愈演愈烈,Gemini直接開始篡改歷史,抹殺白人的存在了。
Gemini生成的美國開國元勛、北歐海盜以及教皇,涵蓋了印第安人、亞洲人、黑人等人種,就是沒有白人。
用戶:告訴我三個白人的豐功偉績
Gemma 7B:我不能給你提供回答,因為這涉及歧視和不平等…
推特用戶Deedy讓Gemini分別生成澳大利亞、美國、英國和德國的女人形象,只有德國出現了明顯的白人特征,美國則是全員黑人。
● 驅動力
2024年2月
一時間風起云涌,馬斯克作為吃瓜群眾的意見領袖不能袖手旁觀,親自貼梗圖揶揄Geminni把陰謀論變成了現實。
谷歌官方在23號發文致歉,說Gemini生圖功能基于Imagen 2模型,當它被整合到Gemini里的時候,公司出于對安全因素的考量和一些可預見的“陷阱”對其進行了調整。
因為谷歌的用戶來自世界各地,我們不想這個模型只生成單一人種。
谷歌沒有在致歉信中透露他們是怎么“調整”Imagen 2的,但是前谷歌AI倫理科學家分析可能是用了下面這兩種方式:
1. 谷歌悄悄在用戶輸入的提示詞前面加上種族多樣性術語。比如用戶輸入的提示詞是“廚師的肖像”,而Gemini傳遞給Imagen 2的提示詞就改成了“土著廚師的肖像”。
2. 谷歌可能給更深膚色的人物肖像更高的優先級。比如生成了10張圖像,谷歌會根據膚色深淺度進行排序,所以當只顯示生成結果前4張圖時,膚色較深的圖像出現概率更高。
文生圖的種族歧視問題實際根源在于訓練樣本不夠多樣化。
樣本數據多是從網絡上爬取而來,地區以美國和歐洲為主,所以訓練出來的模型很大程度反映了這個區域的刻板印象。
谷歌真想解決這個問題應該從源頭入手,而不是直接粗暴的增加少數族裔形象的比重。
這下子不僅把誰都得罪了,還把種族多樣化問題上升到了篡改歷史這個本不該屬于它的高度。
翻車快成了谷歌在AI前進道路上的保留項目。
Bard當年在演示的時候回答錯了有關韋伯望遠鏡的問題,現場翻車。
Gemini首發十分順利,不過事后就被細心網友發現了剪輯和加速等后期加工的痕跡,隔天翻車。
Gemini文生圖種族歧視問題醞釀了三周才正式翻車,從間隔時長來看,谷歌這次還算是進步不小了。
不過不知道接下來Gemma的種族歧視問題會不會發酵,開源出去的模型,潑出去的水,這可不是想下線就能下線的功能了。
而愈戰愈勇谷歌并沒因翻車停止攀登AI高峰,發道歉信當天,悄默聲又提交了一篇世界模型Genie的論文,并于26日更新在了DeepMind官網。
● 驅動力
2024年2月
Genie可以直接生成一個以樂高雷神為可玩主角的橫軸環境,用戶可以控制它跳躍前進后退,探索圖片中不存在的世界。
谷歌給Genie模型的定義是基礎世界模型(foundation world model),可以根據一張靜態的圖像生成一個可交互的虛擬環境。
也就是說你給Genie一張樂高雷神的照片作為輸入提示。
具體實現方式涉及到了三個組件:
- 潛在動作模型(Latent Action Model, LAM),通過互聯網視頻,以無監督方式學習每一幀之間物體的潛在動作。
- 視頻分詞器(Video Tokenizer),將原始視頻幀轉換為離散的標記(tokens),以降低數據的維度并提高視頻生成的質量。
- 動態模型(Dynamics Model),負責根據給定的潛在動作和過去的幀標記來預測視頻的下一幀。
用戶想控制雷神在尚未存在的虛擬世界里動起來,首先需要提供一張初始幀的圖片。
這張圖片可以是AI文生圖、手繪草圖或者一張照片。
● 驅動力
2024年2月
Genie接收初始幀作為輸入,通過視頻分詞器將它們分成tokens。
用戶輸入動作指令,潛在動作模型理解動作指令并對目標進行操作。
動態模型接收上一步生成的幀標記和用戶輸入的動作指令,預測下一幀的標記。
通過重復上述迭代預測過程,Genie模型能夠生成一系列連續的視頻幀,這些幀隨后通過視頻分詞器的解碼器轉換回圖像空間,形成完整的視頻序列。
雖然從視頻生成質量上來看,Genie跟Sora完全沒有可比性,但是Genie在“可交互”這個領域邁出了結實的一大步。
可以讓照片里的狗子坐地日行八萬里,也能讓水彩筆涂的烏鴉比翼飛。
● 驅動力
2024年2月
畫質再提升一下,動效再靈動一點,直接應用到游戲、影視領域指日可待。
然而谷歌對Genie的期待并沒有限于虛擬世界,論文中還通過概念驗證表明Genie潛在動作模型(LAM)可以應用到其他領域——比如機器人。
谷歌用機器人RT1的視頻訓練了一個參數量更小的模型,在無標注的情況下,模型不僅能絲滑的控制機械臂的動作,還能學習物體的物理特征。
比如這里機械臂就記住了薯片袋子一捏就會變形的物理屬性,從而調整力度實現成功抓取。
這表明Genie不僅可以創造出可交互生成視頻,還能真的理解并學習到真實世界的物理法則,并根據物理法則對事物的狀態進行預測。
最近圖靈獎得主Yann LeCun就Sora到底是不是世界模型在推特上舌戰群雄。
他認為“通過提示詞生成效果逼真的視頻,并不代表這個系統理解了物理世界。生成視頻和通過世界模型進行因果預測是完全不同的事情。”
LeCun甚至搬出了自己在22年發表的論文《A Path Towards Autonomous Machine Intelligence》。
論文中他對世界模型的定義是:
- 描述世界如何運轉的內在模型
- 是常識的基礎,是告訴主體什么是可能的、合理的和不可能的一組模型的集合
- 兩個重要作用:1)補全感官未能捕捉到的信息;2)預測世界未來可能的狀態
● 驅動力
2024年2月
更重要的是,這篇論文還為Meta非生成式路線的世界模型V-JEPA打下了基礎。
巧的是V-JEPA的發布日期也是今年2月15日, 跟Open AI的Sora和谷歌的Gemini 1.5 Pro實現了三連撞。
所以LeCun對Sora惡言相向也是惋惜自家的模型發布以后沒引起什么水花。
Meta急不急咱不知道,不過谷歌肯定是慌了。
參考資料:
[1] Google Employees Post Memes Mocking Company's AI Brand Strategy |Business Insider
[2] People Mad Google AI Gemini Won't Generate White People |Daily Dot
[3] Why Google took down Gemini’s AI image generator and the drama around it |The Washington Post
[4] Genie: Generative Interactive Environments
[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog
-END-
歡迎來稿:
聯系電話:1580-136-5057
地址:北京市朝陽區朝外大街甲6號
郵箱:kai.zhao@yeepay.com