pofeng: Open AI 極早期歷史 ( from Podcast : 硅谷101 : E107 )

音檔來源 :
硅谷101 : E107｜AI大爆發：OpenAI極早期歷史，以及圖像領域的GPT moment｜AIGC特輯

轉換工具: Whisper Webui on Google colab

還有一位叫Alec Radford

他當時在研究其實後來非常像GPT的一個東西

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

Alec Redford他當時就提出我們應該訓練語言模型

並且不僅是用LSTM來實現

而且需要在很大的數據上面進行訓練

所以他當時就想到通過預測一句話的後面一個單詞

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

它也是GPT的相當於一個技術的奠基

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

它其實和神經網絡具體的架構本身是可以相對獨立的

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM

來實現

但是這個背後的思想的範疇是一樣的

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

比如說像Reddit是一個美國比較流行的論壇

它有一個特點就是所有的人可以匿名的去發一些評論

而且會有對話的一個過程

所以其實那個時候就已經有這樣一個對話機器人

也就後來ChatGPT的前身其實在那個時候已經有一些影子了

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

那些文檔的話都內容比較嚴肅比較刻板

所以就不太會生成一些有意思的東西

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面

做這個訓練

那這樣子的話這個AI它就能夠生成更有意思的東西

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

只要把這個東西不斷地加算力加數據把它scale up

就能夠實現一個類似或者接近於通用人工智能體的一個技術

我覺得當時沒有一個人真的意識到

但我覺得確實那個時候已經埋下了種子

你指的埋下種子是指什麼

就是在隨著大家的研究逐漸深入

大家發現這件事情堆算力就可以解決

00:00:00,000 --> 00:00:02,320

嗨大家好

00:00:02,320 --> 00:00:05,760

開始的時候我們矽谷101聯合B站

00:00:05,760 --> 00:00:07,840

給聽眾發一波福利

00:00:07,840 --> 00:00:09,920

代引號的福利是什麼呢

00:00:09,920 --> 00:00:15,280

B站精心整理的AIGC的視頻教程合集

00:00:15,280 --> 00:00:18,080

最近生成式AI的發展實在是太快了

00:00:18,080 --> 00:00:22,240

我們一檔節目也只能講清楚其中很小的一部分

00:00:22,240 --> 00:00:26,320

但是B站做了一個系統的講AIGC的教程合集

00:00:26,336 --> 00:00:30,656

也邀請我們來給大家推荐一些專業有用的視頻

00:00:30,656 --> 00:00:32,096

去加入這個合集

00:00:32,096 --> 00:00:35,696

想到我們的節目有很多很多關注技術的同學

00:00:35,696 --> 00:00:39,896

所以我是推薦了亞馬遜前首席科學家李沐的專輯

00:00:39,896 --> 00:00:41,296

《跟李沐學AI》

00:00:41,296 --> 00:00:42,696

大家好,我是李沐

00:00:42,696 --> 00:00:44,096

在過去五年裡面

00:00:44,096 --> 00:00:47,696

他在B站上有很多從論文層面的解讀

00:00:47,696 --> 00:00:49,376

因為我自己一直相信

00:00:49,376 --> 00:00:53,216

去讀一手材料是最好的認識一件事情的方法

00:00:53,248 --> 00:00:55,608

同樣我也推薦了自己的視頻

00:00:55,608 --> 00:00:57,968

就是我們講Chad GPT的特輯

00:00:57,968 --> 00:01:00,688

是聊OpenAI黑手黨的一期

00:01:00,688 --> 00:01:02,248

除了OpenAI

00:01:02,248 --> 00:01:06,448

還有這幫出逃的AI叛徒將重塑人類的未來

00:01:06,448 --> 00:01:10,208

Chad GPT背後的公司OpenAI從2015年成立以來

00:01:10,208 --> 00:01:13,288

已經有30多個早期員工集體叛逃

00:01:13,288 --> 00:01:14,848

自己辭職出來單幹

00:01:14,848 --> 00:01:18,648

大家也可以去核心裡面看一看我們的這期視頻

00:01:18,704 --> 00:01:22,864

除此之外這個合集還有AIGC的發展史趨勢

00:01:22,864 --> 00:01:24,464

以及商業競爭的部分

00:01:24,464 --> 00:01:28,824

可以幫助大家非常系統地去了解和認識AI

00:01:28,824 --> 00:01:31,944

另外也有很多很多的實用教程

00:01:31,944 --> 00:01:33,744

比如大家都很感興趣的

00:01:33,744 --> 00:01:36,184

怎麼樣用Mid Journey去畫畫

00:01:36,184 --> 00:01:38,784

怎麼樣用Notion AI去寫作

00:01:38,784 --> 00:01:42,024

也有AI繪畫語音合成編程辦公

00:01:42,024 --> 00:01:44,704

等各種實用教程的大合集

00:01:44,704 --> 00:01:47,584

可以說內容是非常的詳細完整

00:01:47,632 --> 00:01:51,112

為什麼我說它是一個帶引號的福利呢?

00:01:51,112 --> 00:01:55,232

因為我最近其實一直有在收到一些聽眾的來信

00:01:55,232 --> 00:02:00,632

很多人很關心說這一波AI到底會不會取代我們的工作

00:02:00,632 --> 00:02:03,312

如何在AI時代不被淘汰

00:02:03,312 --> 00:02:05,432

我的答案其實也很簡單

00:02:05,432 --> 00:02:07,152

了解它擁抱它

00:02:07,152 --> 00:02:10,432

成為最先會使用AI的那一波人

00:02:10,432 --> 00:02:14,952

所以我會把合集的鏈接放在我們播客的show notes中

00:02:14,952 --> 00:02:17,712

感興趣的同學可以點擊去看一看

00:02:17,712 --> 00:02:22,912

那大家也可以直接在B站上搜索AI工具大法

00:02:22,912 --> 00:02:26,192

來查看AIGC的視頻合集

00:02:26,192 --> 00:02:29,592

另外我也推薦一下我們矽谷101在B站上的視頻

00:02:29,592 --> 00:02:32,752

我們講了很多跟AIGC相關的內容

00:02:32,752 --> 00:02:35,392

比如說我剛剛推薦的OpenAI黑手檔

00:02:35,392 --> 00:02:39,632

還有谷歌與微軟關於Chad GPT的世紀之戰

00:02:39,632 --> 00:02:42,072

以及Chad GPT的風險爭議

00:02:42,072 --> 00:02:44,432

大家感興趣也可以去看一看

00:02:44,928 --> 00:02:49,528

那這期呢我們就來聊一下OpenAI的早期成長史

00:02:49,528 --> 00:02:53,128

跟我們在一起的嘉賓是AI研究者Jim Fan

00:02:53,128 --> 00:02:54,528

Hello Jim你好

00:02:54,528 --> 00:02:55,848

Hello Jim你好

00:02:55,848 --> 00:02:58,648

Jim今天也是在非常忙的時間裡面

00:02:58,648 --> 00:03:01,008

來抽時間參加我們的節目錄製

00:03:01,008 --> 00:03:02,368

Jim的大概背景

00:03:02,368 --> 00:03:05,048

我看你之前是斯坦福計算機的PHD

00:03:05,048 --> 00:03:06,568

也是李飛飛的學生

00:03:06,568 --> 00:03:09,768

早期呢在OpenAI和Google AI都工作過

00:03:09,768 --> 00:03:12,928

也算是OpenAI的應該是第一個實習生吧

00:03:12,928 --> 00:03:14,480

對第一屆實習生對

00:03:14,480 --> 00:03:19,280

你加入OpenAI的時候是在2016年對2016年的暑假的時候

00:03:19,280 --> 00:03:24,080

可不可以跟大家講一下為什麼在那麼早期的時候會選中OpenAI

00:03:24,080 --> 00:03:26,880

我覺得當時也是有些朋友推薦

00:03:26,880 --> 00:03:31,480

那時候看到OpenAI他們的科學家創始團隊特別的厲害

00:03:31,480 --> 00:03:33,680

所以當時就也被他們吸引過去的

00:03:33,680 --> 00:03:37,480

那個時候的OpenAI差不多有30個人左右吧

00:03:37,480 --> 00:03:41,880

基本上每一個人都是響噹噹就名聲特別響的大牛

00:03:42,048 --> 00:03:46,048

比如說當時有Ian Goodfellow是GAN的發明人

00:03:46,048 --> 00:03:48,048

就是生成對抗式網絡

00:03:48,048 --> 00:03:50,048

還有Dirk Kinmach是Adam的發明人

00:03:50,048 --> 00:03:54,048

也是現在所有的深度學習的優化器用的算法

00:03:54,048 --> 00:03:58,048

Andre Caparzee、Ilea、OpenAI的Chief

Scientist等等

00:03:58,048 --> 00:04:00,048

就是都特別特別強的一個陣容

00:04:00,048 --> 00:04:03,048

是那在你加入OpenAI的時候

00:04:03,048 --> 00:04:06,048

你會負責其中的哪些工作

00:04:06,048 --> 00:04:08,048

OpenAI當時他研究的東西

00:04:08,048 --> 00:04:11,008

你覺得跟今天有很大的不一樣嗎

00:04:11,008 --> 00:04:15,008

再說一個背景信息OpenAI大概是在2015年成立的

00:04:15,008 --> 00:04:19,808

你應該就是在OpenAI非常早期一年之內就加入了

00:04:19,808 --> 00:04:22,008

然後做了他們的第一個實習生

00:04:22,008 --> 00:04:25,008

對我覺得非常榮幸能夠在早期的時候看到

00:04:25,008 --> 00:04:29,008

OpenAI內部做的一些研究以及他們的一些想法

00:04:29,008 --> 00:04:33,008

那個時候我負責的項目叫做OpenAI Universe

00:04:33,008 --> 00:04:37,008

那個項目它其實是一個通用決策智能體的一個探索

00:04:37,312 --> 00:04:40,912

Open Air Universe的意思是所有的比如說網站啊

00:04:40,912 --> 00:04:42,992

一些web application 網站的應用

00:04:42,992 --> 00:04:46,152

遊戲等等都可以通過鼠標和鍵盤來控制

00:04:46,552 --> 00:04:49,392

Open Air他們搭建了一個infrastructure吧

00:04:49,392 --> 00:04:52,432

就是能夠用鼠標和鍵盤來控制這些遊戲

00:04:52,432 --> 00:04:56,032

然後能夠比如說去解一些網上的web application

00:04:56,152 --> 00:04:58,512

當時我們就想要訓練智能體

00:04:58,512 --> 00:04:59,672

然後能做這件事情

00:04:59,792 --> 00:05:02,952

當然在16年的時候技術還遠遠沒有很成熟

100

00:05:03,272 --> 00:05:06,712

所以對那個時候我覺得效果並沒有特別的好

101

00:05:06,880 --> 00:05:10,360

但是那時候其實OpenAI一直想要追求的就是通用智能體

102

00:05:10,360 --> 00:05:12,960

那也是我當時實習的項目的一部分

103

00:05:12,960 --> 00:05:16,760

什麼叫通用智能體可不可以跟聽眾們解釋一下

104

00:05:16,760 --> 00:05:20,080

通用智能體的意思就是這一個人工智能

105

00:05:20,080 --> 00:05:23,120

它不是為一個專門的領域所設計的

106

00:05:23,120 --> 00:05:24,960

比如說一個專門的任務所設計的

107

00:05:24,960 --> 00:05:30,160

它能夠用同一個模型做幾百種上千種甚至無數種任務

108

00:05:30,160 --> 00:05:32,560

至少當時是有這樣子一個想法

109

00:05:32,560 --> 00:05:34,912

具體的這個體現就是OpenAI Universe

110

00:05:34,912 --> 00:05:39,212

它的一個實現就是通過看屏幕上面的像素

111

00:05:39,212 --> 00:05:42,912

直接能夠輸出鍵盤和鼠標的一些Action

112

00:05:43,312 --> 00:05:44,992

你說的這個通用智能體

113

00:05:44,992 --> 00:05:48,792

因為我們知道現在OpenAI它的目標包括Sam Altman

114

00:05:48,792 --> 00:05:51,592

他經常在媒體面前講的就是AGI

115

00:05:51,852 --> 00:05:56,192

通用人工智能就是說人工智能在所有的方向做的東西

116

00:05:56,192 --> 00:05:57,592

不弱於人的水平

117

00:05:57,652 --> 00:05:58,892

當然這是我的一個定義

118

00:05:58,892 --> 00:06:00,992

就關於AGI到底是什麼定義的話

119

00:06:00,992 --> 00:06:03,392

我相信業界跟學界有很多很多的說法

120

00:06:03,536 --> 00:06:07,736

那你說的這個通用智能體它跟AGI的這樣的一個關係是什麼呢

121

00:06:07,736 --> 00:06:11,936

我覺得基本上通用智能體和AGI這兩個概念差不多

122

00:06:11,936 --> 00:06:16,336

但是只不過具體怎麼實現它們有很多種不同的方式

123

00:06:16,336 --> 00:06:20,536

比如說後來可能過了好多年OpenAI它們發現了GBT

124

00:06:20,536 --> 00:06:25,336

然後通過自然語言來實現類似通用智能體的一個AI

125

00:06:25,336 --> 00:06:28,936

但是當時其實OpenAI Universe就是我實習的時候參與的那個項目

126

00:06:28,936 --> 00:06:30,736

它走的路徑特別的不一樣

127

00:06:30,944 --> 00:06:35,144

它是通過決策通過這樣子一個鼠標和鍵盤的方式來實現

128

00:06:35,344 --> 00:06:38,384

當然後來發現其實用文本來實現通用智能體

129

00:06:38,384 --> 00:06:42,144

是一條比用鼠標和鍵盤要快很多的一個路徑

130

00:06:42,224 --> 00:06:43,344

但這個是後花了

131

00:06:43,744 --> 00:06:48,024

你可不可以跟大家介紹一下在OpenAI早期你加入的時候

132

00:06:48,344 --> 00:06:53,024

那些加入OpenAI的大牛們你剛剛也簡單的介紹了一些人

133

00:06:53,024 --> 00:06:55,424

然後我記得上次其實我們聊天的時候你有說

134

00:06:55,424 --> 00:06:58,824

在早期OpenAI工作也是一件壓力特別大的事情

135

00:06:58,824 --> 00:07:00,344

因為身邊都是大神嘛

136

00:07:00,432 --> 00:07:03,592

在這群人中你覺得大家的一個共同目標是什麼?

137

00:07:03,592 --> 00:07:07,592

誰在主導整個OpenAI的研究方向?

138

00:07:07,592 --> 00:07:11,232

對我覺得當時OpenAI真的是一個神一樣的地方

139

00:07:11,232 --> 00:07:15,832

因為所有的那些在那邊全職的科學家基本都是業界的大牛

140

00:07:15,832 --> 00:07:19,992

而且他們很多論文我在沒有加入OpenAI之前就全都讀過

141

00:07:19,992 --> 00:07:23,632

所以去那邊基本上就是見到我當時心中的眾神們

142

00:07:23,632 --> 00:07:28,552

所以我覺得那個時候的OpenAI還是研究的方向比較多樣化

143

00:07:28,560 --> 00:07:31,960

因為每一個大神他們其實有自己的一個研究的領域

144

00:07:31,960 --> 00:07:33,760

大家都在探索不同的東西

145

00:07:33,760 --> 00:07:39,160

比如說剛才提到的Ian Goodfellow在研究的是更多的生成對抗式的這種模型

146

00:07:39,160 --> 00:07:43,160

Dirk Kinmar他可能研究的更多是像辨分自編碼器

147

00:07:43,160 --> 00:07:46,160

就是Variational Autoencoder VAE這條路

148

00:07:46,160 --> 00:07:48,360

還有一位叫Alec Radford

149

00:07:48,360 --> 00:07:52,560

他當時在研究其實後來非常像GBT的一個東西

150

00:07:52,560 --> 00:07:57,360

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

151

00:07:57,440 --> 00:08:02,940

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

152

00:08:02,940 --> 00:08:06,440

Alec Redford他當時就提出我們應該訓練語言模型

153

00:08:06,440 --> 00:08:08,940

並且不僅是用LSTM來實現

154

00:08:08,940 --> 00:08:11,940

而且需要在很大的數據上面進行訓練

155

00:08:11,940 --> 00:08:16,940

所以他當時就想到通過預測一句話的後面一個單詞

156

00:08:16,940 --> 00:08:21,440

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

157

00:08:21,440 --> 00:08:25,940

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

158

00:08:26,368 --> 00:08:33,808

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

159

00:08:33,808 --> 00:08:37,008

它也是GPT的相當於一個技術的電機

160

00:08:37,008 --> 00:08:43,088

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

161

00:08:43,088 --> 00:08:47,088

它其實和神經網絡具體的架構本身是可以相對獨立的

162

00:08:47,088 --> 00:08:53,008

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM

來實現

163

00:08:53,008 --> 00:08:56,288

但是這個背後的思想的範疇是一樣的

164

00:08:56,512 --> 00:09:02,272

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

165

00:09:02,272 --> 00:09:05,352

比如說像Reddit是一個美國比較流行的論壇

166

00:09:05,352 --> 00:09:10,992

它有一個特點就是所有的人可以匿名的去發一些評論

167

00:09:10,992 --> 00:09:12,912

而且會有對話的一個過程

168

00:09:12,912 --> 00:09:15,512

所以其實那個時候就已經有這樣一個對話機器人

169

00:09:15,512 --> 00:09:18,992

也就後來ChagPT的前身其實在那個時候已經有一些影子了

170

00:09:18,992 --> 00:09:25,232

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

171

00:09:25,392 --> 00:09:31,192

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

172

00:09:31,192 --> 00:09:34,492

那些文檔的話都內容比較嚴肅比較刻板

173

00:09:34,492 --> 00:09:37,192

所以就不太會生成一些有意思的東西

174

00:09:37,192 --> 00:09:44,792

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面

做這個訓練

175

00:09:44,792 --> 00:09:47,992

那這樣子的話這個AI它就能夠生成更有意思的東西

176

00:09:48,192 --> 00:09:52,352

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

177

00:09:52,352 --> 00:09:56,672

只要把這個東西不斷地加算力加數據把它scale up

178

00:09:56,672 --> 00:10:00,792

就能夠實現一個類似或者接近於通用人工智能體的一個技術

179

00:10:00,792 --> 00:10:02,792

我覺得當時沒有一個人真的意識到

180

00:10:02,792 --> 00:10:05,392

但我覺得確實那個時候已經埋下了種子

181

00:10:05,392 --> 00:10:07,872

你指的埋下種子是指什麼

182

00:10:07,872 --> 00:10:10,912

就是在隨著大家的研究逐漸深入

183

00:10:10,912 --> 00:10:13,952

大家發現這件事情堆算力就可以解決

184

00:10:13,952 --> 00:10:17,552

對在剛提到的Elec他的探索下

185

00:10:17,664 --> 00:10:21,504

之後Transformer出來了OpenEye就提出了GPT

186

00:10:21,504 --> 00:10:25,504

GPT這個算法全稱叫generative pre-training

187

00:10:25,504 --> 00:10:27,064

我這邊大概解釋一下

188

00:10:27,064 --> 00:10:32,264

Transformer那篇論文是谷歌研究院的科學家提出來的

189

00:10:32,264 --> 00:10:34,504

當時提出的時候Transformer有兩個部分

190

00:10:34,504 --> 00:10:36,504

一個是編碼器encoder

191

00:10:36,504 --> 00:10:38,504

還有一個是解碼器decoder

192

00:10:38,504 --> 00:10:41,944

但是GPT他就提出我們不需要編碼器

193

00:10:41,944 --> 00:10:44,184

我們只要解碼器decoder就可以了

194

00:10:44,272 --> 00:10:48,552

decoder他的訓練的原理就是不斷地預測下一個單詞

195

00:10:48,552 --> 00:10:54,072

所以其實在這一點上面和剛提到的LSTM等回饋式神經網絡是特別的像的

196

00:10:54,072 --> 00:11:00,672

因為2016年的時候OpenAI做了那些回饋式神經網絡和下一個單詞預測這樣嘗試

197

00:11:00,672 --> 00:11:07,072

所以對他們來說GPT作為一個純解碼器的一個模型是一個很自然而然的一個眼神

198

00:11:07,072 --> 00:11:12,496

但其實當時學術圈裡面並沒有達成共識為什麼一定只用解碼器

199

00:11:12,496 --> 00:11:18,976

我舉個例子,比如說谷歌在Transformer之後有一篇特別火的資安源處理的工作

叫Bert

200

00:11:18,976 --> 00:11:22,576

Bert其實和GBT是反其道而行之

201

00:11:22,576 --> 00:11:26,736

它是純粹只有編碼器,也就是它是encoder的一個模型

202

00:11:26,736 --> 00:11:29,856

它其實並沒有像GBT那樣的一個解碼器

203

00:11:29,856 --> 00:11:34,896

它是完全通過編碼器來做一個表徵學習,也有所謂的representation

learning

204

00:11:34,896 --> 00:11:39,136

但是GBT的話它提出的是用解碼器來進行生成

205

00:11:39,136 --> 00:11:44,336

所以我覺得那個時候學術圈裡面還是處於一個百花齊放百家真名的狀態

206

00:11:44,336 --> 00:11:48,536

有不同的解碼器、解碼器或者一個混合有各種各樣的學派

207

00:11:48,536 --> 00:11:51,736

當時包括我在內我覺得很多人也沒有意識到

208

00:11:51,736 --> 00:11:53,736

就GPT其實是非常好的一條路

209

00:11:53,736 --> 00:11:55,216

可能比別的模型會更強

210

00:11:55,216 --> 00:11:57,616

當時我覺得絕大部分人都沒有意識到

211

00:11:58,216 --> 00:12:03,016

那大家是怎麼敢在GPT裡面去堆這麼多的算力進去

212

00:12:03,016 --> 00:12:04,616

這麼多的數據進去

213

00:12:04,616 --> 00:12:08,096

因為其實堆算力的過程就是不停地板

214

00:12:08,096 --> 00:12:10,096

資金砸入進去的一個過程

215

00:12:10,096 --> 00:12:13,656

我覺得我們除了說它需要很多的決心

216

00:12:13,656 --> 00:12:17,256

同時我相信大家需要在科研上是看到有反饋的

217

00:12:17,496 --> 00:12:19,816

那為什麼大家最後賭的是GPT

218

00:12:20,256 --> 00:12:24,616

對,我覺得首先我在16年數集之後就離開OpenAI

219

00:12:24,616 --> 00:12:28,256

所以之後他們做GPT的時候我並沒有親自在場

220

00:12:28,376 --> 00:12:30,696

所以我也只從外界來觀察這事

221

00:12:30,856 --> 00:12:35,016

我大致猜測就是後來在GPT之後出了GPT2

222

00:12:35,168 --> 00:12:40,968

GPT2其實跟本來的GPT1的模型算法是幾乎完全一樣的

223

00:12:40,968 --> 00:12:43,928

唯一的區別就是更多的數據、更大的模型

224

00:12:43,928 --> 00:12:46,288

但其實GPT2也沒有特別大

225

00:12:46,288 --> 00:12:48,848

就是大到不容個十個億美金訓練不了

226

00:12:48,848 --> 00:12:50,568

也遠遠沒有到這個規模

227

00:12:50,568 --> 00:12:54,688

但是其實GPT2已經有一些我們稱之為叫emergent property

228

00:12:54,688 --> 00:12:57,008

就一種湧現的一些智能在裡面

229

00:12:57,008 --> 00:13:00,168

比如說它做多任務什麼的會做得特別好

230

00:13:00,168 --> 00:13:02,008

比GPT1會好很多

231

00:13:02,008 --> 00:13:05,128

還包括一些微調、fine tuning什麼也都做得很好

232

00:13:05,424 --> 00:13:08,984

所以我覺得OpenAI可能在那個時候看到GPT-2

233

00:13:08,984 --> 00:13:13,624

它的能力還要生成文本的流暢程度比GPT-1高那麼多

234

00:13:13,624 --> 00:13:15,784

我覺得他們可能看到了這一點

235

00:13:15,784 --> 00:13:17,224

然後他們就下了一個賭注

236

00:13:17,224 --> 00:13:19,944

我們能大量的算力、大量的經費

237

00:13:19,944 --> 00:13:22,584

把GPT-2擴大10倍甚至100倍

238

00:13:22,584 --> 00:13:25,104

所以後來就成為了GPT-3

239

00:13:25,104 --> 00:13:27,504

所以我覺得這條應該是OpenAI內部

240

00:13:27,504 --> 00:13:29,784

他們看到了這樣一種湧現的智能

241

00:13:29,784 --> 00:13:30,904

下了一個賭注

242

00:13:30,904 --> 00:13:32,304

當然有可能賭輸

243

00:13:32,304 --> 00:13:34,944

但是事實上就是歷史證明他們賭贏了

244

00:13:35,056 --> 00:13:37,496

所以我覺得這也是一個很非凡的成就

245

00:13:37,496 --> 00:13:41,656

是的你剛說到其實還有一個點我覺得挺有意思的

246

00:13:41,656 --> 00:13:47,336

你提到Ellick他其實是最早提出用Reddit的數據去做訓練數據的

247

00:13:47,336 --> 00:13:52,016

因為以往大家在堆訓練數據的時候可能會去堆更準確的數據

248

00:13:52,016 --> 00:13:56,936

比如說維基百科他在說一個事實的時候他的數據是非常準的

249

00:13:56,976 --> 00:14:00,216

但我們知道在Reddit上它其實是一個用戶論壇嘛

250

00:14:00,216 --> 00:14:02,376

然後這個論壇上什麼樣的帖子也有

251

00:14:02,376 --> 00:14:05,576

也有很多的回帖也有很多的Meme符號

252

00:14:05,576 --> 00:14:08,936

但是可能在這個論壇上也有很多逆氣

253

00:14:08,936 --> 00:14:11,656

大家去懟一件事情這都是非常正常的

254

00:14:11,656 --> 00:14:14,376

他當時想把Reddit的數據加進去

255

00:14:14,376 --> 00:14:17,056

只是說他為了去擴大數據量

256

00:14:17,056 --> 00:14:20,176

還是說他其實是為了讓他的表述更加生動

257

00:14:20,176 --> 00:14:21,656

還是出於其他的什麼原因

258

00:14:21,824 --> 00:14:27,824

當時我想知道你們在去決定去用一些新的數據去做訓練的時候這個思考是什麼

259

00:14:27,824 --> 00:14:33,824

首先我當時不在那個項目上所以他們的初衷我並不知道這是我的猜想啊

260

00:14:33,824 --> 00:14:37,824

我覺得就像你剛才提到的Reddit它更加生動它沒有那麼死板

261

00:14:37,824 --> 00:14:43,824

它不只是一個平鋪直敘的解釋一個知識點比如說百度百科啊

維基百科都是解釋一個知識點

262

00:14:43,824 --> 00:14:49,776

沒有什麼情感但是其實在Reddit上面中各種各樣的情感很多喜怒哀樂都有

263

00:14:49,776 --> 00:14:53,496

所以我猜測是他們覺得這樣作為一個生成式的模型

264

00:14:53,496 --> 00:14:54,896

至少會特別有意思

265

00:14:54,896 --> 00:14:59,096

因為你可以讓它生成各種語境下面的不同的一些話

266

00:14:59,096 --> 00:15:02,296

但如果GPT模型只用微幾百克來訓練的話

267

00:15:02,296 --> 00:15:05,696

那它生成的永遠是這種平凸直續的比較枯燥的內容

268

00:15:05,696 --> 00:15:10,016

所以我覺得可能一定程度上是從因為他們想要生成內容

269

00:15:10,016 --> 00:15:12,376

什麼樣的內容最有意思生成呢

270

00:15:12,376 --> 00:15:15,576

那可能是要從論壇上面大家這樣一個聊天的記錄

271

00:15:15,576 --> 00:15:18,816

其實Reddit就是一個公開聊天記錄說白了

272

00:15:18,944 --> 00:15:23,344

所以他們拿聊天記錄過來肯定生成的東西會更加生動一些

273

00:15:23,344 --> 00:15:25,744

我估計初衷是這樣的

274

00:15:25,744 --> 00:15:28,544

你早期2016年在的時候

275

00:15:28,544 --> 00:15:33,744

那個時候Sam Altman跟馬斯克因為他們當時是都在OpenAI

276

00:15:33,744 --> 00:15:36,944

你覺得誰對OpenAI的影響更大一點

277

00:15:36,944 --> 00:15:40,944

當然我當時是個實習生沒有接觸過他們決策管理層

278

00:15:40,944 --> 00:15:42,544

所以我不太清楚

279

00:15:42,816 --> 00:15:46,616

不過我覺得當時從技術上面的話我不知道他們參與了多少

280

00:15:46,616 --> 00:15:51,256

但我覺得Illya還有Alec還有Andre Caparzi和Greg

Brockman

281

00:15:51,256 --> 00:15:54,616

我覺得對GBT這樣一個技術的影響是非常的大的

282

00:15:54,816 --> 00:15:57,976

他們是直接去做這樣一個項目的科學家

283

00:15:58,456 --> 00:16:02,256

上次其實我們聊天的時候你還提到一個非常有意思的現象

284

00:16:02,256 --> 00:16:05,496

我們在提到跟AI相關方向的研究的時候

285

00:16:05,496 --> 00:16:07,576

V-RAN早期是非常非常強的

286

00:16:07,696 --> 00:16:12,496

那之後是很多人才跟AI研究相關的去了Google Brain

287

00:16:12,688 --> 00:16:14,848

後來又是去了OpenAI

288

00:16:14,848 --> 00:16:17,688

那如果你作為一個AI研究者

289

00:16:17,688 --> 00:16:21,688

就你覺得什麼是最吸引你去到一家公司的

290

00:16:21,688 --> 00:16:24,408

我現在在英偉達做研究科學家

291

00:16:24,408 --> 00:16:27,048

我覺得加入英偉達有幾個原因吧

292

00:16:27,048 --> 00:16:31,408

一個是英偉達研究院做的研究多樣性比較廣

293

00:16:31,408 --> 00:16:33,568

比如說有做計算識的視覺的

294

00:16:33,568 --> 00:16:35,208

有做自然元處理的

295

00:16:35,208 --> 00:16:36,648

還有做機器人的等等

296

00:16:36,848 --> 00:16:39,488

對我來說我從博士剛畢業的時候

297

00:16:39,488 --> 00:16:42,128

其實我是想要繼續能做一些研究的工作

298

00:16:42,128 --> 00:16:44,048

不一定說就直接去做產品

299

00:16:44,048 --> 00:16:47,168

然後我就因為在研究院給我很多探索的自由

300

00:16:47,168 --> 00:16:50,448

這一點上我是覺得一個很吸引我的地方

301

00:16:50,448 --> 00:16:55,408

第二看一個公司看它資源或者說是長期的計劃是怎麼樣的

302

00:16:55,408 --> 00:16:58,528

我確實覺得英偉達第一資源肯定是很強的

303

00:16:58,528 --> 00:17:00,448

畢竟我們是做GPU的公司

304

00:17:00,448 --> 00:17:04,768

現在GPU就顯卡基本上是訓練AI的主要的硬件

305

00:17:04,944 --> 00:17:07,504

所以我覺得這塊公司資源非常的強

306

00:17:07,504 --> 00:17:12,384

而且公司長期來說因為現在AI的模型基本都是用GPU來訓練的

307

00:17:12,384 --> 00:17:14,384

所以我覺得這塊發展也會比較好

308

00:17:14,384 --> 00:17:17,904

綜上所述就是一個是研究的自由探索自由

309

00:17:17,904 --> 00:17:19,904

還有第二個是未來的發展及資源

310

00:17:19,904 --> 00:17:21,904

這個是我比較重視的幾個方面

311

00:17:21,904 --> 00:17:23,904

我覺得選擇還是非常好的

312

00:17:23,904 --> 00:17:26,464

因為大家現在看英偉達的股價也看到了

313

00:17:26,464 --> 00:17:29,664

我們前期就聊了很多跟OpenAI相關的

314

00:17:29,664 --> 00:17:33,504

包括它的早期的成長包括你早期在中間的一些經歷

315

00:17:33,600 --> 00:17:38,600

接下來我其實也有一些關於大模型的一些觀點性的東西想跟你討論一下

316

00:17:38,600 --> 00:17:42,040

可能也是現在市場上大家關注的比較多的

317

00:17:42,040 --> 00:17:47,440

第一個問題就是未來的大模型你認為它會不會是一個贏者通吃的市場

318

00:17:47,440 --> 00:17:50,480

還是說它會有多個大模型存在的市場

319

00:17:50,480 --> 00:17:55,800

因為我們現在看OpenAI它可能暫時的領先其他大模型一段時間

320

00:17:55,800 --> 00:17:58,880

但它的領先可能是它會吃進去很多的數據

321

00:17:58,880 --> 00:18:00,600

大家會不停地跟OpenAI互動

322

00:18:00,600 --> 00:18:02,720

然後它會有反饋它會變得更強

323

00:18:02,800 --> 00:18:09,240

但是同時我們說不管是谷歌的模型還是說像Stability 包括一些圖片的模型

324

00:18:09,240 --> 00:18:14,480

它們有自己很強的應用你覺得未來的大模型的市場格局會是怎麼樣的呢?

325

00:18:14,480 --> 00:18:22,960

我覺得首先應該不會是迎者通吃肯定會有多個大模型但是我覺得也不會太多

326

00:18:23,136 --> 00:18:27,736

可能曾經比如說像SARS或者是做手機APP

327

00:18:27,736 --> 00:18:31,336

這些可能市面上有幾十萬個幾百萬個APP

328

00:18:31,336 --> 00:18:34,736

只要大家會寫一些代碼的人都能寫一個iPhone的App

329

00:18:35,136 --> 00:18:37,936

但是我覺得這個大模型肯定不可能是這樣

330

00:18:38,136 --> 00:18:39,836

但是大模型也不會只有一家

331

00:18:40,036 --> 00:18:41,936

所以我覺得可能更多的像是一個

332

00:18:41,936 --> 00:18:44,736

比如說有十幾種不同的大模型

333

00:18:44,736 --> 00:18:46,936

然後每一個都是不同公司做的

334

00:18:46,936 --> 00:18:48,536

每一個都有自己的專長

335

00:18:48,636 --> 00:18:51,336

這個是未來相當長一段時間的導向

336

00:18:51,552 --> 00:18:55,552

現在OpenAI確實在語言模型這個事情上面是主導的

337

00:18:55,552 --> 00:18:59,152

但是舉個例子比如說在圖像生成模型上面

338

00:18:59,152 --> 00:19:02,952

現在達利的質量有些時候並比不過Mid Journey

339

00:19:02,952 --> 00:19:06,552

Mid Journey是一個我跟聽眾朋友們很快介紹一下

340

00:19:06,552 --> 00:19:10,552

就是Mid Journey是一家只有11個人的一個初創公司

341

00:19:10,552 --> 00:19:13,552

他們做的就是從文本生成圖片

342

00:19:13,552 --> 00:19:17,552

現在目前基本大家公認Mid Journey生成的圖片的質量

343

00:19:17,552 --> 00:19:20,240

清晰度都是業界算是數一數二的

344

00:19:20,240 --> 00:19:25,040

這一點上我覺得Mid Journey在生成圖片的大模型上是比較領先的

345

00:19:25,040 --> 00:19:27,440

還有一家我聽說叫Eleven Labs

346

00:19:27,440 --> 00:19:30,240

這家公司是生成語音的合成語音

347

00:19:30,240 --> 00:19:32,840

之前我看過他們的一個展示

348

00:19:32,840 --> 00:19:36,640

他們用喬布斯生前的那些聲音合成

349

00:19:36,640 --> 00:19:39,640

你可以讓喬布斯講任何你想讓他講的話

350

00:19:39,640 --> 00:19:42,640

聽上去的聲音就像喬布斯本人在跟你講話一樣

351

00:19:42,640 --> 00:19:45,240

語音的低音的程度已經做得非常的好

352

00:19:45,240 --> 00:19:48,040

所以比如說像這樣子一個語音的大模型

353

00:19:48,040 --> 00:19:49,840

可能又是由不同的公司來主導

354

00:19:50,128 --> 00:19:53,928

所以我覺得未來一個是不會一家獨當

355

00:19:53,928 --> 00:19:55,928

肯定會有多種不同的大模型

356

00:19:55,928 --> 00:19:59,528

而且每一個模型有它的專長有它自己的一個市場

357

00:19:59,528 --> 00:20:03,528

第二我覺得未來是肯定會發展的一個方向是多模態

358

00:20:03,528 --> 00:20:08,928

就是說文本現在肯定是大家目前看到的最火的一個模態

359

00:20:08,928 --> 00:20:13,328

但之後的話比如說像視覺二維視覺甚至三維視覺

360

00:20:13,328 --> 00:20:16,928

還有語音等等或者之後可能還會有機器人等等

361

00:20:16,928 --> 00:20:19,312

就各種各樣的模態都會加進來

362

00:20:19,312 --> 00:20:24,512

我不覺得OpenAI或者任何少數幾家公司能把所有的模態全都做完

363

00:20:24,832 --> 00:20:26,832

所以這也是一個未來的方向的方向

364

00:20:27,232 --> 00:20:29,712

你相信通用人工智能會實現嗎?

365

00:20:30,112 --> 00:20:32,512

我覺得這個詞比較難定義

366

00:20:32,752 --> 00:20:35,952

而且我覺得可能定義這個詞本身意義也不大

367

00:20:35,952 --> 00:20:37,832

因為我現在給一個定義

368

00:20:37,832 --> 00:20:42,032

務必會有聽眾朋友或者學術圈裡面的學者和我持有不同的意見

369

00:20:42,392 --> 00:20:47,432

更有意思的一個討論點是這些模型能帶來多少的經濟價值

370

00:20:47,432 --> 00:20:49,352

我覺得這個經濟價值是巨大的

371

00:20:49,440 --> 00:20:56,800

包括剛才說的多模態基本上模態越多它能夠涵代的商業的應用就越來越多

372

00:20:56,800 --> 00:21:00,000

剛才提到語音啊視覺啊什麼的機器人啊等等

373

00:21:00,000 --> 00:21:03,120

現在光是文本我們已經看到各種各樣不同應用

374

00:21:03,120 --> 00:21:08,720

比如說在辦公立的應用在法律這樣子一個需要專業技能的一個領域裡的應用

375

00:21:08,720 --> 00:21:10,800

在會計裡面等等等等

376

00:21:10,800 --> 00:21:16,000

我們已經看到大模型滲透到商業和我們社會經濟的每一個領域

377

00:21:16,160 --> 00:21:18,720

所以我覺得更重要的一個問題是

378

00:21:18,720 --> 00:21:22,200

這些大模型未來能創造多少的社會價值

379

00:21:22,200 --> 00:21:24,560

我覺得這個社會價值是顛覆性的

380

00:21:24,560 --> 00:21:28,560

我個人覺得人工智能就是一場新的工業革命

381

00:21:28,560 --> 00:21:31,280

而且比前幾次工業革命可能加起來

382

00:21:31,280 --> 00:21:32,960

它的影響力都要大很多

383

00:21:32,960 --> 00:21:37,120

這是一個像指數爆炸一樣的社會價值的創造

384

00:21:37,120 --> 00:21:39,680

所以我覺得通用不通用不是特別重要

385

00:21:39,680 --> 00:21:43,760

重要的是社會價值以及體係都會受到顛覆

386

00:21:44,000 --> 00:21:47,360

對我再說一下我剛剛為什麼問你那個問題

387

00:21:47,360 --> 00:21:49,560

就是你相信通用人工智能嗎

388

00:21:49,560 --> 00:21:52,360

因為在我們在聊到大模型的時候

389

00:21:52,360 --> 00:21:55,240

其實我們有提到基於語言生成的大模型

390

00:21:55,240 --> 00:21:56,600

圖像生成的大模型

391

00:21:56,600 --> 00:21:59,120

甚至你有提到語音合成的大模型

392

00:21:59,120 --> 00:22:01,760

後來我們還提到了基於法律的大模型

393

00:22:01,760 --> 00:22:04,080

生物的大模型辦公軟件的大模型

394

00:22:04,080 --> 00:22:06,000

但是其實有一個基本的是

395

00:22:06,000 --> 00:22:07,880

比如說有一些基於法律的模型

396

00:22:07,880 --> 00:22:11,240

它可能是搭建在GBT上的一個應用

397

00:22:11,264 --> 00:22:15,264

它可能是其中的一個插件或者在它上面有一層優化

398

00:22:15,264 --> 00:22:18,064

我更想問的是你認為這種大模型

399

00:22:18,064 --> 00:22:23,184

它們未來有可能會訓練成一個通材還是專材

400

00:22:23,184 --> 00:22:26,504

當然我假設一個模型搭在CHEDGBT上

401

00:22:26,504 --> 00:22:29,144

我在上面再加一些法律方面的優化

402

00:22:29,144 --> 00:22:32,024

它最後能變成一個法律專家

403

00:22:32,024 --> 00:22:35,024

或者說一個生物的模型搭在CHEDGBT上

404

00:22:35,024 --> 00:22:38,224

最後變成一個可以合成蛋白質結構的模型

405

00:22:38,432 --> 00:22:41,472

但是還是說它需要分別的大模型

406

00:22:41,472 --> 00:22:45,032

就是專門的生物的數據庫去做生物的這條線

407

00:22:45,032 --> 00:22:47,832

還是說它都可以運用一個底層架構

408

00:22:48,112 --> 00:22:52,232

我考慮的是這個模型它到底未來是一個通材還是專材

409

00:22:52,632 --> 00:22:54,032

哦懂了懂了

410

00:22:54,032 --> 00:22:58,232

我覺得更有可能的是就像你剛才提到的一個通材的模型

411

00:22:58,632 --> 00:23:00,912

當然這個通用是否達到人類的智能

412

00:23:00,912 --> 00:23:02,832

就是我剛說的大家有不同的定義

413

00:23:02,832 --> 00:23:05,512

大家學術圈也不一定是有一個統一的定義

414

00:23:05,680 --> 00:23:12,080

但是我覺得一個通材的語言模型然後在上面加插件的這樣一個模式將會是一個未來的導向

415

00:23:12,760 --> 00:23:17,480

當然這個插件怎麼做以及這個通材上面的那一層是什麼

416

00:23:17,760 --> 00:23:20,520

我覺得這個可能不同公司會有一些不同的答案

417

00:23:20,880 --> 00:23:25,280

比如說現在我們看到OpenAI他們就實現了這樣一個Chat GPT的應用商店

418

00:23:25,720 --> 00:23:27,520

然後我覺得這個是一種方式

419

00:23:27,728 --> 00:23:30,568

另外一種可能是比如說現在有一個大模型

420

00:23:30,568 --> 00:23:32,648

但是我想把它應用在法律

421

00:23:32,648 --> 00:23:36,568

我可能在法律的領域裡面做一定的比如說真流等等

422

00:23:36,568 --> 00:23:41,128

可以讓這個模型變得在法律的領域裡面能夠更加的專業

423

00:23:41,128 --> 00:23:45,688

並且可能它會比一個完全通材的一個模型效率會更高

424

00:23:45,688 --> 00:23:48,688

因為那個模型它不需要知道任何醫學的知識等等

425

00:23:48,688 --> 00:23:50,528

它只要知道法律知識就可以了

426

00:23:50,528 --> 00:23:54,768

所以它也可以是一個通用模型的專業化的一個版本

427

00:23:54,992 --> 00:23:59,392

但是我覺得一個通用的模型這樣一個基石是很重要的

428

00:23:59,392 --> 00:24:02,672

有了這個基石以後要么做插件要么做一些蒸餾

429

00:24:02,672 --> 00:24:05,472

或者一個更加專業的版本我覺得這個都是可行的

430

00:24:05,472 --> 00:24:10,272

對但它們都是可以在大的模型下面或者說找一些開源的模型

431

00:24:10,272 --> 00:24:14,512

它們只是需要做一些優化或者加入一些特定領域的數據

432

00:24:14,512 --> 00:24:16,592

進行一些特定領域的訓練對吧

433

00:24:16,592 --> 00:24:18,672

它們不需要再從頭搭一個了

434

00:24:18,672 --> 00:24:22,512

對不過我覺得不一定每一家公司都能這樣做

435

00:24:22,656 --> 00:24:26,936

因為通用模型訓練起來肯定是難度非常非常的大

436

00:24:26,936 --> 00:24:30,856

現在能訓練通用模型的公司全世界屈指可數

437

00:24:30,856 --> 00:24:35,176

所以我覺得有些比如說中型企業甚至是初創公司

438

00:24:35,176 --> 00:24:38,856

如果想要用到這些語言模型做一些專業的事情的話

439

00:24:38,856 --> 00:24:42,776

我覺得一條更快的路不是先訓練一個通用模型

440

00:24:42,776 --> 00:24:45,256

再把它進行專業化或者加個插件

441

00:24:45,256 --> 00:24:47,736

而是直接去訓練一個專業的模型

442

00:24:47,736 --> 00:24:50,296

但是我覺得主要的原因是可能經費不夠

443

00:24:50,296 --> 00:24:51,504

公司的規模不夠

444

00:24:51,504 --> 00:24:54,704

在這樣子一個情況下那是迫不得已只能走這條路

445

00:24:55,024 --> 00:24:58,944

但我覺得這條路也是能夠解決某一個公司想解決的問題的

446

00:24:59,304 --> 00:25:01,384

所以我覺得通用模型是一件好事情

447

00:25:01,384 --> 00:25:04,624

但是可能對於某些特定的商業模式它沒有必要

448

00:25:04,824 --> 00:25:07,024

嗯Mid Journey 算是哪一類

449

00:25:07,304 --> 00:25:09,904

我覺得Mid Journey 目前應該是一個通用模型

450

00:25:10,104 --> 00:25:13,944

因為基本上所有的畫風不同的畫風它都能生成

451

00:25:13,944 --> 00:25:17,264

比如說它能夠合成看上去非常逼真的照片

452

00:25:17,504 --> 00:25:20,544

它也能夠合成一些像科幻的電影裡面的一些場景

453

00:25:20,672 --> 00:25:23,792

還能合成動脈,還能合成素描,油畫等等

454

00:25:23,992 --> 00:25:26,632

所以我覺得它現在目前是一個通用的模型

455

00:25:27,032 --> 00:25:30,272

對,雖然Mid Journey現在有很多很多的用戶啊

456

00:25:30,272 --> 00:25:32,072

就我也是它的付費用戶之一

457

00:25:32,232 --> 00:25:34,152

但是我一直都很好奇

458

00:25:34,152 --> 00:25:37,952

它這樣一家創業公司僅憑它的付費用戶的收入

459

00:25:38,112 --> 00:25:42,952

它是不是能夠支撐它的成本去訓練這樣一個通用的模型

460

00:25:42,952 --> 00:25:45,672

因為我們知道現在整個大模型的訓練成本

461

00:25:45,672 --> 00:25:47,952

包括堆算力整個還挺貴的

462

00:25:47,968 --> 00:25:51,168

它其實也不是完全是一個創業公司能夠做的事情

463

00:25:51,608 --> 00:25:53,368

對確實非常的昂貴

464

00:25:53,968 --> 00:25:55,928

不過我覺得還有另外一條路

465

00:25:55,928 --> 00:25:58,928

一個比較好的商業模式是和企業合作

466

00:25:59,368 --> 00:26:03,608

舉個例子有很多做遊戲或者電影特效的一些企業

467

00:26:03,608 --> 00:26:06,008

他們可能需要一些企業級的這種模型

468

00:26:06,368 --> 00:26:08,248

然後我覺得類似Made Journey這樣的公司

469

00:26:08,248 --> 00:26:10,408

有可能是可以通過和企業合作

470

00:26:10,408 --> 00:26:12,048

然後能夠獲得更大的訂單

471

00:26:12,328 --> 00:26:14,568

而不只是通過每一個散戶過來

472

00:26:14,568 --> 00:26:16,248

付一個每個月的訂閱費

473

00:26:16,400 --> 00:26:18,800

那個可能加錢不是特別多

474

00:26:18,800 --> 00:26:23,160

所以我覺得對於像這樣一個生成式的AI的初創公司的話

475

00:26:23,160 --> 00:26:24,400

有這兩條路可以走

476

00:26:24,400 --> 00:26:28,400

就是類似於他們在做一個SaaS級的產品

477

00:26:28,400 --> 00:26:31,400

相當於為企業來提供一些增值服務

478

00:26:31,400 --> 00:26:34,000

其實有點類似於Jasper他們現在做的

479

00:26:34,000 --> 00:26:38,000

對其實英偉達在上一次GTC發布會的時候

480

00:26:38,000 --> 00:26:42,400

也提到英偉達更多的是一個為企業服務的大模型

481

00:26:42,560 --> 00:26:46,560

叫NVIDIA AI Foundations 其實也是剛才提到類似的想法

482

00:26:46,560 --> 00:26:51,560

比如說為企業做一些這種生成圖片和大的預言模型

483

00:26:51,560 --> 00:26:55,560

其實就在我們今天這個訪談開始的前一兩天

484

00:26:55,560 --> 00:27:01,560

我看業界大家又在歡呼一件事情就是Meta AI它做的Segment

Anything

485

00:27:01,560 --> 00:27:03,560

它是一個圖片的模型

486

00:27:03,560 --> 00:27:08,336

然後我看你在推特上是把它稱為是GPT-3 Moment

487

00:27:08,336 --> 00:27:11,336

在計算機世界領域它算是一個GPT-3 Moment

488

00:27:11,336 --> 00:27:13,536

因為我現在其實還沒有看那篇論文

489

00:27:13,536 --> 00:27:15,536

你可不可以跟大家解釋一下

490

00:27:15,536 --> 00:27:19,016

這個Segment Anything它主要的突破點在哪裡

491

00:27:19,016 --> 00:27:20,416

為什麼它意義重大

492

00:27:20,416 --> 00:27:22,816

對那篇論文我特別喜歡

493

00:27:22,816 --> 00:27:25,016

它解決的叫Image Segmentation

494

00:27:25,016 --> 00:27:27,016

也就是圖像分割的問題

495

00:27:27,016 --> 00:27:29,136

簡言之給一個圖片

496

00:27:29,136 --> 00:27:32,016

這圖片裡面比如說有三條狗兩隻貓

497

00:27:32,016 --> 00:27:35,616

AI它能不能把三條狗和兩隻貓的整個輪廓

498

00:27:35,616 --> 00:27:36,816

把它全部都勾下來

499

00:27:37,072 --> 00:27:41,112

這個就是一個很經典的計算機視覺問題叫圖像分割

500

00:27:41,112 --> 00:27:43,312

然後這個問題非常的難

501

00:27:43,312 --> 00:27:46,592

在計算機視覺領域也有幾十年的研究的歷史

502

00:27:46,592 --> 00:27:51,312

我覺得這一篇論文基本上完全用到了這樣大模型的一個範式

503

00:27:51,312 --> 00:27:52,472

大模型的思路

504

00:27:52,472 --> 00:27:56,952

首先我覺得它不是第一篇用Transformer來做分割的模型

505

00:27:56,952 --> 00:27:59,672

因為之前其實有很多論文用到了Transformer

506

00:27:59,672 --> 00:28:04,992

但是我覺得它確實是第一篇大規模用這樣一個大模型的思維去解的

507

00:28:05,232 --> 00:28:07,592

然後什麼意思呢?有以下幾條

508

00:28:07,592 --> 00:28:11,512

第一個是它的神經網絡的架構非常的簡單

509

00:28:11,512 --> 00:28:13,632

又簡單又比較Scalable

510

00:28:13,632 --> 00:28:15,672

當然也是用Constorm一個變體

511

00:28:15,672 --> 00:28:18,432

但是它裡面並沒有一些話裡胡哨的一些東西

512

00:28:18,432 --> 00:28:20,472

一個很簡潔的通用的一個架構

513

00:28:20,472 --> 00:28:25,752

第二條就是它有一個我們稱之為叫做Data Flywheel的一個東西

514

00:28:25,752 --> 00:28:30,232

一開始時候可能有少量的人工標註的一些圖像分割的數據

515

00:28:30,232 --> 00:28:31,232

一些訓練數據

516

00:28:31,232 --> 00:28:34,752

通過這個訓練數據已經能夠訓練一個版本的模型

517

00:28:34,768 --> 00:28:36,768

但這個模型可能效果不是特別好

518

00:28:36,768 --> 00:28:39,768

但是你可以用這個效果不太好的模型

519

00:28:39,768 --> 00:28:42,768

自動分割大量沒有人工標註的那些圖片

520

00:28:42,768 --> 00:28:47,768

可以顧一些人,比如說來在這些基礎上面再做一些標註

521

00:28:47,768 --> 00:28:49,768

這些標註就比較簡單了

522

00:28:49,768 --> 00:28:51,768

因為比叢林開始標肯定要簡單嘛

523

00:28:51,768 --> 00:28:54,768

如果這個機器已經標對了,那你就直接跳過就行了

524

00:28:54,768 --> 00:28:57,768

標錯的話你再幫它修改一下

525

00:28:57,768 --> 00:28:59,768

所以這個第二步已經是簡單很多

526

00:29:00,064 --> 00:29:05,264

這樣的話你可以讓這種高質量的標註的數據多很多而不需要顧太多的人

527

00:29:05,264 --> 00:29:06,264

這是第二步

528

00:29:06,264 --> 00:29:11,184

第三步就直接可以讓模型直接再去標剩下的各種各樣的所有的

529

00:29:11,184 --> 00:29:16,144

比如說我記得它應該有上千萬張圖片就直接用這個算法去標上千萬張

530

00:29:16,144 --> 00:29:21,384

然後用一些heuristic的一些方法你能夠從中獲得比較高質量的標註

531

00:29:21,384 --> 00:29:25,424

然後你把那些算法不是那麼的confident的一些內容給去掉

532

00:29:25,536 --> 00:29:30,136

通過這樣一個Data Flywheel,它就能夠做到一個越來越好的圖像風格的效果

533

00:29:30,136 --> 00:29:34,296

後來Facebook他們把他們的數據以及模型全部都開源了

534

00:29:34,296 --> 00:29:38,536

然後我覺得這個對AI的研究的社區也是相當有幫助的

535

00:29:38,536 --> 00:29:41,296

因為現在大部分的公司都不會開源大模型

536

00:29:41,296 --> 00:29:44,016

所以我覺得這一點上面他們也做得非常的好

537

00:29:44,592 --> 00:29:52,032

對那這篇論文出來了以後你覺得它會對哪些行業的發展產生非常重大的影響

538

00:29:52,032 --> 00:29:56,392

就比如說當你提到圖形標注的時候包括這些高質量的標注

539

00:29:56,392 --> 00:29:58,472

最後它可能會產生一個數據飛輪

540

00:29:58,952 --> 00:30:04,872

你覺得比如說它會對自動駕駛行業的Corner Case有更多精準的判斷嗎

541

00:30:05,472 --> 00:30:10,552

對我覺得它對無人駕駛啊機器人這些上面都會有比較大的幫助

542

00:30:10,688 --> 00:30:12,688

當然因為這個模型剛剛開源

543

00:30:12,688 --> 00:30:15,688

所以目前還沒有看到有大的一些項目真的用到

544

00:30:15,688 --> 00:30:19,188

但是我覺得之後未來一年應該會看到各種各樣的應用

545

00:30:19,688 --> 00:30:24,188

你為什麼覺得它的作用會像GVT-3那麼大

546

00:30:24,188 --> 00:30:27,688

是因為它對圖像領域的一個巨大的貢獻

547

00:30:27,688 --> 00:30:31,688

因為它的這個模型有一些Zero Shot的效果

548

00:30:31,688 --> 00:30:36,188

比如說之前從來沒有見過的物體它也能夠分割出來

549

00:30:36,208 --> 00:30:39,488

包括在有些可能非常特殊的一些情況

550

00:30:39,488 --> 00:30:43,008

比如說在海底啊或者說在醫學的一些影像上面

551

00:30:43,008 --> 00:30:44,528

它也能夠做一個分割

552

00:30:44,528 --> 00:30:48,688

這些都是有可能是之前在訓練的時候沒有遇到過的場景

553

00:30:48,688 --> 00:30:51,968

所以它能夠做到一個非常強的靈樣本的泛化

554

00:30:51,968 --> 00:30:54,688

所以我覺得這個有點類似GP3

555

00:30:54,688 --> 00:30:58,288

哦你這麼說我更加理解了

556

00:30:58,288 --> 00:31:02,608

類似於這個模型它已經不僅僅只是靠視覺來識別

557

00:31:02,624 --> 00:31:04,984

它同時還加入了它理解的部分

558

00:31:04,984 --> 00:31:05,344

對不對

559

00:31:05,344 --> 00:31:08,064

就是你說它可以識別它沒有見過的物體

560

00:31:08,384 --> 00:31:10,184

對我覺得它這個模型

561

00:31:10,184 --> 00:31:12,784

它學會了物體這樣一個抽象的概念

562

00:31:12,904 --> 00:31:14,464

因為對於我們人來說

563

00:31:14,464 --> 00:31:17,784

我們偶爾也會遇到一些奇形怪狀的東西

564

00:31:18,144 --> 00:31:20,424

但是我們照樣都知道這也是一個物體

565

00:31:20,424 --> 00:31:23,064

儘管我們之前可能這輩子從來沒有見過

566

00:31:23,064 --> 00:31:24,904

這樣一個特定的奇形怪狀的東西

567

00:31:24,904 --> 00:31:26,424

我們還是知道它是一個物體

568

00:31:26,624 --> 00:31:28,784

我覺得至少從他們的論文上看

569

00:31:28,784 --> 00:31:31,664

這一篇SAM這個模型也能夠做到這個

570

00:31:31,776 --> 00:31:35,776

之前從來沒有見過的某一種物體但是它能夠把它分割出來

571

00:31:35,776 --> 00:31:39,616

所以它學會了這樣一個很通用的物體的抽象的概念

572

00:31:39,616 --> 00:31:43,056

這個就有點類似GP3 所以我就打了這樣的比喻

573

00:31:43,056 --> 00:31:47,616

所以我覺得最近整個人工智能的發展太快了

574

00:31:47,616 --> 00:31:52,256

非常的激動人心我感覺每個月都有好多好多的新的進展出來

575

00:31:52,256 --> 00:31:54,048

對非常的激動

576

00:31:54,048 --> 00:31:57,528

你會覺得現在的人工智能的這些大模型

577

00:31:57,528 --> 00:32:02,848

它會像是之前我們說互聯網跟移動互聯網時代的一個操作系統

578

00:32:02,848 --> 00:32:08,248

比如說像一個Windows系統或者像一個Android的

或者蘋果的這樣的一個系統

579

00:32:08,248 --> 00:32:12,728

所有的這些應用是構建在上面的也還是一個一個的小應用

580

00:32:12,728 --> 00:32:17,488

我不知道你作為一個人工智能的研究者你會怎麼樣去定義這些大模型

581

00:32:17,568 --> 00:32:20,288

我知道現在大家可能對未來還有很多看不清楚的地方

582

00:32:20,288 --> 00:32:25,088

但還是很想知道你覺得他們未來會演變成一個大概什麼樣的形態

583

00:32:25,328 --> 00:32:27,568

對我覺得你剛才這個比喻特別的好

584

00:32:27,688 --> 00:32:31,968

就是這些大模型尤其是語言模型是一個操作系統

585

00:32:32,208 --> 00:32:35,008

然後剩下的東西就是上面這個應用層

586

00:32:35,328 --> 00:32:37,728

我覺得這個比喻特別恰當的一個原因是

587

00:32:37,728 --> 00:32:40,968

我就說當年喬布斯推出的第一款iPhone吧

588

00:32:41,448 --> 00:32:45,208

我覺得iPhone它的特點就是一整個手機都是一個觸摸屏

589

00:32:45,360 --> 00:32:49,860

沒有物理的鍵盤你完全用手指做所有在手機上面想做的事情

590

00:32:49,860 --> 00:32:52,560

包括撥號呀什麼的全都沒有一個物理鍵盤

591

00:32:52,560 --> 00:32:57,560

我覺得喬布斯當時提出iPhone一個最大的革新是這樣一個人機交互的界面

592

00:32:57,560 --> 00:33:00,060

他重定義了人機交互應該是什麼樣的

593

00:33:00,060 --> 00:33:03,460

iPhone之前對吧黑媒那些手機人機交互是通過鍵盤

594

00:33:03,460 --> 00:33:05,160

但是iPhone是通過觸摸屏

595

00:33:05,160 --> 00:33:08,360

之後所有的手機智能手機全是用觸摸屏

596

00:33:08,360 --> 00:33:12,560

所以我覺得這是一個人機交互的一個革命性的一個創舉

597

00:33:12,720 --> 00:33:15,920

我覺得現在大元模型也非常的像

598

00:33:15,920 --> 00:33:20,400

大元模型也將會重定義人機交互這樣一個方式

599

00:33:20,400 --> 00:33:23,960

可能我們現在是用觸摸屏或者用鼠標和鍵盤

600

00:33:23,960 --> 00:33:26,120

來和我們的電腦和手機交互

601

00:33:26,120 --> 00:33:28,480

但之後的話我們就完全通過語音

602

00:33:28,480 --> 00:33:31,800

或者不通過點鼠標不通過用手機上的應用

603

00:33:31,800 --> 00:33:34,400

而是直接上來我就開始寫一句話

604

00:33:34,400 --> 00:33:36,640

我今天想要去法國旅行

605

00:33:36,640 --> 00:33:38,360

幫我做一個旅行計劃

606

00:33:38,360 --> 00:33:40,560

然後這個大元模型

607

00:33:40,560 --> 00:33:47,760

以及這個元模型上面應用插件

比如說可能有些旅行內規劃的一些插件或者訂旅館呀或者訂機票的插件等等

608

00:33:47,760 --> 00:33:53,360

AI它來幫你做整個規劃你就只要負責確認一下最後付款就可以了

609

00:33:53,360 --> 00:33:59,360

所以我覺得你剛說這個操作系統比喻特別恰當因為這是新的一場人機交互的革命

610

00:33:59,360 --> 00:34:04,160

之後的話都是通過這種語言啊語音這樣的一個很自然而然的指令

611

00:34:04,160 --> 00:34:09,560

而不是通過我們去下載一個程序安裝然後鼠標和按鈕點來點去這樣子一個方式

612

00:34:09,872 --> 00:34:12,832

對而且我覺得你剛剛說的有一個點特別好

613

00:34:12,832 --> 00:34:18,072

就是你說其實iPhone它的意義它是定義了一個人機交互的方式

614

00:34:18,072 --> 00:34:21,832

我記得上次我們吃飯的時候其實有聊到我們說ChadGBT

615

00:34:21,832 --> 00:34:24,872

其實GBT模型在很早之前就有了嘛

616

00:34:24,872 --> 00:34:27,632

那ChadGBT很厲害的一個事情是

617

00:34:27,632 --> 00:34:30,992

它把它定義成了一個聊天的對話的形式

618

00:34:30,992 --> 00:34:34,112

而且那個產品的頁面是非常非常簡單的

619

00:34:34,128 --> 00:34:35,568

從這個意義上來說

620

00:34:35,568 --> 00:34:38,928

我們就覺得OpenAI它在怎麼把一個研究成果

621

00:34:38,928 --> 00:34:40,448

展示給公眾的時候

622

00:34:40,448 --> 00:34:42,768

這個步驟是做得非常厲害的

623

00:34:43,208 --> 00:34:46,288

對其實這也是一種人機交互上的突破

624

00:34:46,568 --> 00:34:50,728

因為其實GPD3以及3.5那時候已經出來了一段時間了

625

00:34:50,728 --> 00:34:52,448

至少根據Sam Altman的說法

626

00:34:52,608 --> 00:34:57,088

但是XGPT是第一個把它做成一個聊天機器人的交互介面

627

00:34:57,248 --> 00:34:59,568

而且那個介面確實非常乾淨好用

628

00:34:59,568 --> 00:35:00,608

大家都能用

629

00:35:00,608 --> 00:35:03,608

而不需要比如說自己去寫代碼才能用GPD3

630

00:35:03,824 --> 00:35:10,104

所以我覺得人機交互在未來很有可能跟人工智能大模型研究本身一樣的重要

631

00:35:10,104 --> 00:35:15,864

嗯是你覺得你現在的工作中最exciting的部分是什麼

632

00:35:15,864 --> 00:35:18,864

我現在在做一些多模態的研究

633

00:35:18,864 --> 00:35:23,344

還有對於人工智能決策上的就是做decision決策上的研究

634

00:35:23,344 --> 00:35:27,784

然後這兩塊我都覺得第一非常有意思第二未來的潛力也非常大

635

00:35:27,784 --> 00:35:32,984

首先多模態的話GPD4剛剛開始把視覺這塊加進來

636

00:35:33,024 --> 00:35:36,024

但是GPD4的視覺它還是一個靜態的視覺

637

00:35:36,024 --> 00:35:38,824

也就是說它一次輸入一張靜態的圖片

638

00:35:38,824 --> 00:35:41,424

可能還有些文本能夠再輸出一些文本

639

00:35:41,424 --> 00:35:43,624

但是我覺得未來多模態肯定會有

640

00:35:43,624 --> 00:35:46,324

比如說視頻或者三維或者語音

641

00:35:46,324 --> 00:35:48,024

這樣子模態也全都加進來

642

00:35:48,424 --> 00:35:53,424

並且不僅是輸入輸出也有可能是合成圖片合成語音等等

643

00:35:53,624 --> 00:35:56,324

所以我覺得這個是一個未來的必經的導向

644

00:35:56,624 --> 00:35:59,824

我自己在上個月也有一篇工作叫Prismar

645

00:35:59,968 --> 00:36:02,268

其實也是類似這樣一個想法

646

00:36:02,268 --> 00:36:06,168

就是如何把一些圖片的模態能夠接入大宇宙模型

647

00:36:06,168 --> 00:36:09,568

不需要太多的額外的訓練或額外的參數

648

00:36:09,568 --> 00:36:12,368

它就能把這幾個模態進行一個深度的融合

649

00:36:12,368 --> 00:36:14,368

所以這是一個很有意思的研究方向

650

00:36:14,368 --> 00:36:18,168

另外一方面我也在研究智能體做決策

651

00:36:18,168 --> 00:36:21,168

比如說在機器人或在遊戲裡面

652

00:36:21,168 --> 00:36:23,668

如何讓人工智能自主地探索

653

00:36:23,668 --> 00:36:24,968

完成各種各樣的任務

654

00:36:24,968 --> 00:36:27,360

這個是一個很難的研究問題

655

00:36:27,360 --> 00:36:32,040

目前為止也有很多種不同的方法能夠探索所以現在正在進行中

656

00:36:32,400 --> 00:36:35,600

我舉一個例子比如說我今天我現在在波士頓

657

00:36:35,600 --> 00:36:37,840

然後我想從波士頓飛舊金山

658

00:36:38,000 --> 00:36:42,600

我給AI一個任務讓它定一張從波士頓到舊金山的機票

659

00:36:42,600 --> 00:36:46,520

且還要便宜然後時間段會是在一個什麼樣的時間段內

660

00:36:46,560 --> 00:36:48,760

它完全定好發到我的郵箱

661

00:36:48,800 --> 00:36:51,680

你覺得現在整個AI可以做這件事情嗎

662

00:36:52,080 --> 00:36:53,600

現在肯定應該可以做了

663

00:36:53,744 --> 00:36:58,544

其實這個就可以通過GPT4或ChatGPT的插件就能做到

664

00:36:58,544 --> 00:37:02,184

你剛提到的比如說寫email或者上網瀏覽等等

665

00:37:02,184 --> 00:37:04,184

這些功能肯定是都能實現了

666

00:37:04,184 --> 00:37:05,944

我只想告訴他一個語言

667

00:37:05,944 --> 00:37:09,984

你來幫我訂一張從波士頓到舊金山的機票週一

668

00:37:09,984 --> 00:37:12,184

然後我要直飛比較便宜的

669

00:37:12,184 --> 00:37:13,184

對對

670

00:37:13,184 --> 00:37:15,904

這個的話可以通過一些對於Prompt

671

00:37:15,904 --> 00:37:18,504

也就是大語言模型提示的一些編寫

672

00:37:18,504 --> 00:37:20,384

就能夠做到你剛說的這個功能

673

00:37:20,496 --> 00:37:24,896

不過我這邊想加一句就是儘管這個東西可以做一個demo

674

00:37:24,896 --> 00:37:27,496

但是它沒有那麼的可靠

675

00:37:27,496 --> 00:37:32,376

比如說你讓它試十次我覺得有可能會有那麼四到五次

676

00:37:32,376 --> 00:37:33,776

它都會犯一些錯

677

00:37:33,776 --> 00:37:35,976

但這個犯的錯可能就會比較致命

678

00:37:35,976 --> 00:37:37,776

比如說你是要去波士頓

679

00:37:37,776 --> 00:37:40,376

它可能一不小心訂成了去舊金山的機票

680

00:37:40,376 --> 00:37:42,536

或者說是它沒有找到最便宜的

681

00:37:42,536 --> 00:37:45,136

它可能瀏覽了前三個搜索的結果

682

00:37:45,136 --> 00:37:46,736

但是可能最便宜的在第四個

683

00:37:46,736 --> 00:37:48,336

它就沒有看到那個等等

684

00:37:48,384 --> 00:37:50,584

所以我覺得還是沒有那麼的可靠

685

00:37:50,584 --> 00:37:52,784

但是至少目前我覺得是可以實現的

686

00:37:53,184 --> 00:37:55,384

我其實覺得現在整個大模型來說

687

00:37:55,384 --> 00:37:58,784

最重要的就是它如何去解決準確性的問題

688

00:37:58,784 --> 00:38:01,784

我該如何信任它給我的決策對不對

689

00:38:01,784 --> 00:38:04,784

這個我覺得是一個目前最大的難題之一

690

00:38:04,984 --> 00:38:07,584

如何讓它做到可靠並且是安全的

691

00:38:07,584 --> 00:38:09,384

比如說它會不會一不當心

692

00:38:09,384 --> 00:38:12,184

把你的信用卡的信息然後發在網上等等

693

00:38:12,184 --> 00:38:14,984

它不是說故意做但它可能就出錯了

694

00:38:15,184 --> 00:38:17,344

但是它也沒有跟你及時彙報

695

00:38:17,344 --> 00:38:21,504

你如果沒有仔細看的話可能就沒意識到結果你的個人信息就洩漏了

696

00:38:21,504 --> 00:38:25,784

或者說是它可能一不當心上了一個釣魚網站又把個人信息寫在上面

697

00:38:25,784 --> 00:38:28,784

它可能沒有辦法判斷那個網站是否是釣魚的

698

00:38:28,784 --> 00:38:32,104

所以我覺得這一塊上面還是有很多研究需要做的

699

00:38:32,104 --> 00:38:36,104

對對對就看起來它是一個挺簡單的人物

700

00:38:36,104 --> 00:38:40,304

但是交給機器的時候可能還是有很多我們意想不到的一些點會卡住

701

00:38:40,304 --> 00:38:42,704

而且我覺得它其實也是一個交互問題

702

00:38:42,720 --> 00:38:46,320

比如說我用語音輸入的話那它如何跟我互動

703

00:38:46,320 --> 00:38:49,920

然後它做決策的時候整個的流程怎麼走下來

704

00:38:49,920 --> 00:38:52,720

其實感覺還有很多很多的產品的問題需要解決

705

00:38:52,720 --> 00:38:56,120

對這個我覺得也不是一時半刻能解決的

706

00:38:56,120 --> 00:38:59,720

但是未來這些方向我覺得都非常激動人心

707

00:38:59,720 --> 00:39:02,720

你剛提到你現在工作中做的圖片模式

708

00:39:02,720 --> 00:39:05,320

可以介入到語言的大模型中

709

00:39:05,424 --> 00:39:09,544

包括我記得之前就是我們有嘉賓到我們《貴果101》的節目上聊

710

00:39:09,544 --> 00:39:12,424

他們就也是預測未來多模態的一些發展嘛

711

00:39:12,424 --> 00:39:15,584

就是說那未來我們想要去畫一個什麼樣的圖

712

00:39:15,584 --> 00:39:17,664

可能不需要輸入pumped詞了

713

00:39:17,664 --> 00:39:20,784

可以有更多的交互方式去告訴他怎麼畫

714

00:39:20,784 --> 00:39:23,864

好像這是大家都是在研究的一個方向

715

00:39:23,864 --> 00:39:27,944

對其實我覺得多模態一定程度上也是當提到的

716

00:39:27,944 --> 00:39:30,104

讓人際交互變得更加自然

717

00:39:30,104 --> 00:39:33,984

現在我覺得首先文本已經是一個很好的人際交互的界面了

718

00:39:34,128 --> 00:39:36,528

肯定是比我自己去安裝一個程序啊

719

00:39:36,528 --> 00:39:38,528

去點滑鼠什麼的更加自然的

720

00:39:38,528 --> 00:39:42,528

但是有很多問題並不是文本能夠很方便的表達

721

00:39:42,528 --> 00:39:45,328

有些時候可能給AI看一個圖片

722

00:39:45,328 --> 00:39:47,328

跟著這個圖片講會清晰很多

723

00:39:47,328 --> 00:39:49,528

就像有些時候我們人在交流的時候

724

00:39:49,528 --> 00:39:51,928

講一大段話不如就直接畫上圖

725

00:39:51,928 --> 00:39:53,328

來得清晰畫一個圖表

726

00:39:53,328 --> 00:39:55,328

所以我覺得其實多麼大的研究

727

00:39:55,328 --> 00:39:56,928

還有包括另外一個語音

728

00:39:56,928 --> 00:39:58,928

有些時候通過語音直接輸入

729

00:39:58,928 --> 00:40:00,928

也會是一個非常自然的一個界面

730

00:40:01,184 --> 00:40:07,864

所以我覺得現在多莫泰的研究也是一定程度上在推進剛才說的人機交互界面的可用程度

731

00:40:07,864 --> 00:40:09,864

對這是一個很重要的導向

732

00:40:09,864 --> 00:40:14,424

對對對然後你剛提到你研究的另一塊智能體的決策是什麼樣的

733

00:40:14,424 --> 00:40:18,664

我不知道它跟我剛剛訂機票的那個例子是不是有一些相同之處

734

00:40:18,664 --> 00:40:22,184

對其實剛才你說的這個就是一個決策的國產

735

00:40:22,184 --> 00:40:25,064

現在GPD-4有一定的決策能力

736

00:40:25,064 --> 00:40:29,184

但我覺得第一不是特別強有些複雜性還是做不了

737

00:40:29,184 --> 00:40:30,984

第二它不是特別可耗

738

00:40:31,152 --> 00:40:35,072

所以怎麼讓智能體做一些非常可靠的決策

739

00:40:35,072 --> 00:40:38,352

而且保證它按照規則來安全的執行

740

00:40:38,352 --> 00:40:41,152

然後我覺得這塊也是很多研究的一個方向

741

00:40:41,152 --> 00:40:44,792

因為我知道Jim之前是研究機器人的

742

00:40:44,792 --> 00:40:47,952

然後你為什麼從研究機器人轉向了多莫泰

743

00:40:47,952 --> 00:40:51,072

它這個中間是有比較傳承的一部分嗎

744

00:40:51,072 --> 00:40:56,072

對我覺得機器人其實是對於多莫泰的一個很好的研究的載體

745

00:40:56,072 --> 00:40:59,760

因為舉個例子有些任務我們想傳達給機器人

746

00:40:59,760 --> 00:41:01,960

可能完全通過文本會比較困難

747

00:41:02,320 --> 00:41:04,320

但有時候我們比如說告訴機器人

748

00:41:04,320 --> 00:41:05,560

這件事應該怎麼做

749

00:41:05,560 --> 00:41:08,320

可能機器人看著我們就是看了一段視頻

750

00:41:08,320 --> 00:41:09,360

我們就表演給他看

751

00:41:09,360 --> 00:41:11,920

比如說我現在想要做某一道菜

752

00:41:11,920 --> 00:41:13,000

做個番茄炒蛋

753

00:41:13,000 --> 00:41:14,600

這是我做的方式

754

00:41:14,600 --> 00:41:16,000

然後機器人看完以後

755

00:41:16,000 --> 00:41:17,720

他就也能夠去做番茄炒蛋

756

00:41:18,200 --> 00:41:20,720

這個要比我們詳細地把這整個過程

757

00:41:20,720 --> 00:41:22,240

要拿一個什麼材料等等

758

00:41:22,240 --> 00:41:24,440

全部都寫下來可能會更加的容易

759

00:41:24,752 --> 00:41:30,352

或者是我們可能又需要給機器人表演一遍這個菜該怎麼做同時也要有個講解

760

00:41:30,352 --> 00:41:36,152

用一些這種圖文並茂的給機器人一個輸入讓他才能夠聽得懂我們這樣一個想要他做的任務

761

00:41:36,152 --> 00:41:39,952

所以我覺得多麼太是一個對於機器人的一個很自然的界面

762

00:41:39,952 --> 00:41:42,952

理解聽起來還是一脈相承的

763

00:41:42,952 --> 00:41:45,352

那謝謝Jim 你有什麼要補充的嗎

764

00:41:45,352 --> 00:41:51,072

最後我就想說我覺得人工智能現在基本上是一個幾何爆炸的速度在發展

765

00:41:51,072 --> 00:41:54,832

可能我今天說的話說不定下週就有些模型已經能做到了

766

00:41:54,832 --> 00:41:58,272

可能我今天覺得是難題下周有篇論文出來已經解決了

767

00:41:58,272 --> 00:42:00,872

我覺得這個又是一個很激動人心的時候

768

00:42:00,872 --> 00:42:04,872

然後確實也是一個讓人非常感覺有點追無上時代的步伐

769

00:42:04,872 --> 00:42:06,472

因為實在步伐實在太快了

770

00:42:06,472 --> 00:42:08,072

我也在努力的追趕

771

00:42:08,072 --> 00:42:11,672

也希望大家聽了我們今天這個討論也有所幫助

772

00:42:11,672 --> 00:42:15,272

哇你是一個AI研究者你都覺得追不上步伐

773

00:42:15,272 --> 00:42:19,072

那我們來看到就覺得更快了對就眼花繚亂

774

00:42:19,104 --> 00:42:21,344

最後我稍微補充一個小問題

775

00:42:21,344 --> 00:42:24,784

為什麼人工智能會在今天這樣一個時間點

776

00:42:24,784 --> 00:42:26,544

形成一個爆炸式的發展

777

00:42:26,544 --> 00:42:29,744

它的幾個重要的貢獻點跟節點是什麼

778

00:42:29,744 --> 00:42:31,984

你可不可以幫大家簡單的梳理一下

779

00:42:31,984 --> 00:42:35,344

我覺得一個是算力和數據吧

780

00:42:35,344 --> 00:42:37,744

這個肯定是最最重要的

781

00:42:37,744 --> 00:42:41,744

然後算力的話用GPU能夠訓練這些大模型

782

00:42:41,744 --> 00:42:43,984

我覺得GPU可能也就在過去幾年裡面

783

00:42:43,984 --> 00:42:47,504

能夠達到一個大模型所需要的算力

784

00:42:47,600 --> 00:42:53,000

所以這個也是相對於人工智能的模型的能力也是跟著硬件發展而發展的

785

00:42:53,000 --> 00:42:56,600

然後硬件沒有到的話我覺得訓練這些大模型也非常的吃力

786

00:42:56,600 --> 00:42:58,000

所以這是一個時間點

787

00:42:58,000 --> 00:43:01,400

另外就是大家意識到通過大量的下載

788

00:43:01,400 --> 00:43:05,200

就從網上下載文本的數據能夠讓這模型變得越來越好

789

00:43:05,200 --> 00:43:09,600

可能比如說在GPD3之前大家在學術圈裡面做研究的時候

790

00:43:09,600 --> 00:43:11,600

都是用幾個固定的數據機

791

00:43:11,600 --> 00:43:15,400

剛提到的維基百科也好聯合國的一些文件也好等等

792

00:43:15,568 --> 00:43:19,968

但那些數據集體上面訓練的模型它不會有這種湧現的智能

793

00:43:19,968 --> 00:43:21,768

因為它的數據實在太少了

794

00:43:21,768 --> 00:43:24,168

但是後來的話GPD3就告訴我們

795

00:43:24,168 --> 00:43:27,968

通過大量的下載網上的文本的數據不斷地增加算力

796

00:43:27,968 --> 00:43:29,968

你可以有這樣一個湧現的智能

797

00:43:29,968 --> 00:43:34,168

所以我覺得從GPD3開始的時候大家才意識到大模型

798

00:43:34,168 --> 00:43:37,968

是一條通向一個更加通用的人工智能的路

799

00:43:37,968 --> 00:43:40,568

所以就是為什麼現在是這個時間的節點

800

00:43:40,568 --> 00:43:43,568

簡單來說就是對算力對數據

801

00:43:43,568 --> 00:43:44,720

好

802

00:43:44,720 --> 00:43:48,400

謝謝Jim今天的分享非常的精彩

803

00:43:48,400 --> 00:43:49,840

那另外我聲明一點

804

00:43:49,840 --> 00:43:51,640

今天Jim所有的發言呢

805

00:43:51,640 --> 00:43:54,320

都只代表個人觀點不代表公司

806

00:43:54,320 --> 00:43:55,520

好謝謝

807

00:43:55,520 --> 00:43:56,520

謝謝謝謝

808

00:43:58,240 --> 00:44:00,760

另外我們這期講OpenAI成章史的內容

809

00:44:00,760 --> 00:44:04,320

也有一個更加清晰完整的視頻盤點

810

00:44:04,320 --> 00:44:08,400

大家可以在B站上搜索矽谷101來關注我們

811

00:44:08,400 --> 00:44:10,200

這個視頻不是播客的副盤

812

00:44:10,200 --> 00:44:12,160

是專門為視頻去創作的

813

00:44:12,160 --> 00:44:14,560

也是我個人非常喜歡的一期

814

00:44:14,592 --> 00:44:20,832

當然也歡迎大家去關注我們開頭提到的B站整理的AIGC的優質內容合集

815

00:44:20,832 --> 00:44:23,672

建立自己關注的渠道和資源庫

816

00:44:23,672 --> 00:44:27,392

關注的方法是播客Show Notes中點鏈接

817

00:44:27,392 --> 00:44:31,112

或者在B站搜索AI工具大法

818

00:44:31,112 --> 00:44:37,392

也歡迎大家在我們的評論區推薦你們看過的高質量的AI視頻

819

00:44:37,392 --> 00:44:39,392

大家來相互的學習一下

820

00:44:39,728 --> 00:44:45,488

這就是我們今天的節目如果大家對我們的節目有什麼樣的觀點和看法

821

00:44:45,488 --> 00:44:50,088

也歡迎大家給我們寫評論寫留言感謝大家的收聽謝謝

pofeng

Open AI 極早期歷史 ( from Podcast : 硅谷101 : E107 )

沒有留言:

張貼留言