Open AI 極早期歷史 ( from Podcast : 硅谷101 : E107 )


他當時在研究其實後來非常像GPT的一個東西

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

Alec Redford他當時就提出我們應該訓練語言模型

並且不僅是用LSTM來實現

而且需要在很大的數據上面進行訓練

所以他當時就想到通過預測一句話的後面一個單詞

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

它也是GPT的相當於一個技術的奠基

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

它其實和神經網絡具體的架構本身是可以相對獨立的

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現

但是這個背後的思想的範疇是一樣的

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

比如說像Reddit是一個美國比較流行的論壇

它有一個特點就是所有的人可以匿名的去發一些評論

而且會有對話的一個過程

所以其實那個時候就已經有這樣一個對話機器人

也就後來ChatGPT的前身其實在那個時候已經有一些影子了

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

那些文檔的話都內容比較嚴肅比較刻板

所以就不太會生成一些有意思的東西

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練

那這樣子的話這個AI它就能夠生成更有意思的東西

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

只要把這個東西不斷地加算力加數據把它scale up

就能夠實現一個類似或者接近於通用人工智能體的一個技術

我覺得當時沒有一個人真的意識到

但我覺得確實那個時候已經埋下了種子

你指的埋下種子是指什麼

就是在隨著大家的研究逐漸深入

大家發現這件事情堆算力就可以解決




1
00:00:00,000 --> 00:00:02,320
嗨大家好

2
00:00:02,320 --> 00:00:05,760
開始的時候我們矽谷101聯合B站

3
00:00:05,760 --> 00:00:07,840
給聽眾發一波福利

4
00:00:07,840 --> 00:00:09,920
代引號的福利是什麼呢

5
00:00:09,920 --> 00:00:15,280
B站精心整理的AIGC的視頻教程合集

6
00:00:15,280 --> 00:00:18,080
最近生成式AI的發展實在是太快了

7
00:00:18,080 --> 00:00:22,240
我們一檔節目也只能講清楚其中很小的一部分

8
00:00:22,240 --> 00:00:26,320
但是B站做了一個系統的講AIGC的教程合集

9
00:00:26,336 --> 00:00:30,656
也邀請我們來給大家推荐一些專業有用的視頻

10
00:00:30,656 --> 00:00:32,096
去加入這個合集

11
00:00:32,096 --> 00:00:35,696
想到我們的節目有很多很多關注技術的同學

12
00:00:35,696 --> 00:00:39,896
所以我是推薦了亞馬遜前首席科學家李沐的專輯

13
00:00:39,896 --> 00:00:41,296
《跟李沐學AI》

14
00:00:41,296 --> 00:00:42,696
大家好,我是李沐

15
00:00:42,696 --> 00:00:44,096
在過去五年裡面

16
00:00:44,096 --> 00:00:47,696
他在B站上有很多從論文層面的解讀

17
00:00:47,696 --> 00:00:49,376
因為我自己一直相信

18
00:00:49,376 --> 00:00:53,216
去讀一手材料是最好的認識一件事情的方法

19
00:00:53,248 --> 00:00:55,608
同樣我也推薦了自己的視頻

20
00:00:55,608 --> 00:00:57,968
就是我們講Chad GPT的特輯

21
00:00:57,968 --> 00:01:00,688
是聊OpenAI黑手黨的一期

22
00:01:00,688 --> 00:01:02,248
除了OpenAI

23
00:01:02,248 --> 00:01:06,448
還有這幫出逃的AI叛徒將重塑人類的未來

24
00:01:06,448 --> 00:01:10,208
Chad GPT背後的公司OpenAI從2015年成立以來

25
00:01:10,208 --> 00:01:13,288
已經有30多個早期員工集體叛逃

26
00:01:13,288 --> 00:01:14,848
自己辭職出來單幹

27
00:01:14,848 --> 00:01:18,648
大家也可以去核心裡面看一看我們的這期視頻

28
00:01:18,704 --> 00:01:22,864
除此之外這個合集還有AIGC的發展史趨勢

29
00:01:22,864 --> 00:01:24,464
以及商業競爭的部分

30
00:01:24,464 --> 00:01:28,824
可以幫助大家非常系統地去了解和認識AI

31
00:01:28,824 --> 00:01:31,944
另外也有很多很多的實用教程

32
00:01:31,944 --> 00:01:33,744
比如大家都很感興趣的

33
00:01:33,744 --> 00:01:36,184
怎麼樣用Mid Journey去畫畫

34
00:01:36,184 --> 00:01:38,784
怎麼樣用Notion AI去寫作

35
00:01:38,784 --> 00:01:42,024
也有AI繪畫語音合成編程辦公

36
00:01:42,024 --> 00:01:44,704
等各種實用教程的大合集

37
00:01:44,704 --> 00:01:47,584
可以說內容是非常的詳細完整

38
00:01:47,632 --> 00:01:51,112
為什麼我說它是一個帶引號的福利呢?

39
00:01:51,112 --> 00:01:55,232
因為我最近其實一直有在收到一些聽眾的來信

40
00:01:55,232 --> 00:02:00,632
很多人很關心說這一波AI到底會不會取代我們的工作

41
00:02:00,632 --> 00:02:03,312
如何在AI時代不被淘汰

42
00:02:03,312 --> 00:02:05,432
我的答案其實也很簡單

43
00:02:05,432 --> 00:02:07,152
了解它擁抱它

44
00:02:07,152 --> 00:02:10,432
成為最先會使用AI的那一波人

45
00:02:10,432 --> 00:02:14,952
所以我會把合集的鏈接放在我們播客的show notes中

46
00:02:14,952 --> 00:02:17,712
感興趣的同學可以點擊去看一看

47
00:02:17,712 --> 00:02:22,912
那大家也可以直接在B站上搜索AI工具大法

48
00:02:22,912 --> 00:02:26,192
來查看AIGC的視頻合集

49
00:02:26,192 --> 00:02:29,592
另外我也推薦一下我們矽谷101在B站上的視頻

50
00:02:29,592 --> 00:02:32,752
我們講了很多跟AIGC相關的內容

51
00:02:32,752 --> 00:02:35,392
比如說我剛剛推薦的OpenAI黑手檔

52
00:02:35,392 --> 00:02:39,632
還有谷歌與微軟關於Chad GPT的世紀之戰

53
00:02:39,632 --> 00:02:42,072
以及Chad GPT的風險爭議

54
00:02:42,072 --> 00:02:44,432
大家感興趣也可以去看一看

55
00:02:44,928 --> 00:02:49,528
那這期呢我們就來聊一下OpenAI的早期成長史

56
00:02:49,528 --> 00:02:53,128
跟我們在一起的嘉賓是AI研究者Jim Fan

57
00:02:53,128 --> 00:02:54,528
Hello Jim你好

58
00:02:54,528 --> 00:02:55,848
Hello Jim你好

59
00:02:55,848 --> 00:02:58,648
Jim今天也是在非常忙的時間裡面

60
00:02:58,648 --> 00:03:01,008
來抽時間參加我們的節目錄製

61
00:03:01,008 --> 00:03:02,368
Jim的大概背景

62
00:03:02,368 --> 00:03:05,048
我看你之前是斯坦福計算機的PHD

63
00:03:05,048 --> 00:03:06,568
也是李飛飛的學生

64
00:03:06,568 --> 00:03:09,768
早期呢在OpenAI和Google AI都工作過

65
00:03:09,768 --> 00:03:12,928
也算是OpenAI的應該是第一個實習生吧

66
00:03:12,928 --> 00:03:14,480
對第一屆實習生對

67
00:03:14,480 --> 00:03:19,280
你加入OpenAI的時候是在2016年對2016年的暑假的時候

68
00:03:19,280 --> 00:03:24,080
可不可以跟大家講一下為什麼在那麼早期的時候會選中OpenAI

69
00:03:24,080 --> 00:03:26,880
我覺得當時也是有些朋友推薦

70
00:03:26,880 --> 00:03:31,480
那時候看到OpenAI他們的科學家創始團隊特別的厲害

71
00:03:31,480 --> 00:03:33,680
所以當時就也被他們吸引過去的

72
00:03:33,680 --> 00:03:37,480
那個時候的OpenAI差不多有30個人左右吧

73
00:03:37,480 --> 00:03:41,880
基本上每一個人都是響噹噹就名聲特別響的大牛

74
00:03:42,048 --> 00:03:46,048
比如說當時有Ian Goodfellow是GAN的發明人

75
00:03:46,048 --> 00:03:48,048
就是生成對抗式網絡

76
00:03:48,048 --> 00:03:50,048
還有Dirk Kinmach是Adam的發明人

77
00:03:50,048 --> 00:03:54,048
也是現在所有的深度學習的優化器用的算法

78
00:03:54,048 --> 00:03:58,048
Andre Caparzee、Ilea、OpenAI的Chief
Scientist等等

79
00:03:58,048 --> 00:04:00,048
就是都特別特別強的一個陣容

80
00:04:00,048 --> 00:04:03,048
是那在你加入OpenAI的時候

81
00:04:03,048 --> 00:04:06,048
你會負責其中的哪些工作

82
00:04:06,048 --> 00:04:08,048
OpenAI當時他研究的東西

83
00:04:08,048 --> 00:04:11,008
你覺得跟今天有很大的不一樣嗎

84
00:04:11,008 --> 00:04:15,008
再說一個背景信息OpenAI大概是在2015年成立的

85
00:04:15,008 --> 00:04:19,808
你應該就是在OpenAI非常早期一年之內就加入了

86
00:04:19,808 --> 00:04:22,008
然後做了他們的第一個實習生

87
00:04:22,008 --> 00:04:25,008
對我覺得非常榮幸能夠在早期的時候看到

88
00:04:25,008 --> 00:04:29,008
OpenAI內部做的一些研究以及他們的一些想法

89
00:04:29,008 --> 00:04:33,008
那個時候我負責的項目叫做OpenAI Universe

90
00:04:33,008 --> 00:04:37,008
那個項目它其實是一個通用決策智能體的一個探索

91
00:04:37,312 --> 00:04:40,912
Open Air Universe的意思是所有的比如說網站啊

92
00:04:40,912 --> 00:04:42,992
一些web application 網站的應用

93
00:04:42,992 --> 00:04:46,152
遊戲等等都可以通過鼠標和鍵盤來控制

94
00:04:46,552 --> 00:04:49,392
Open Air他們搭建了一個infrastructure吧

95
00:04:49,392 --> 00:04:52,432
就是能夠用鼠標和鍵盤來控制這些遊戲

96
00:04:52,432 --> 00:04:56,032
然後能夠比如說去解一些網上的web application

97
00:04:56,152 --> 00:04:58,512
當時我們就想要訓練智能體

98
00:04:58,512 --> 00:04:59,672
然後能做這件事情

99
00:04:59,792 --> 00:05:02,952
當然在16年的時候技術還遠遠沒有很成熟

100
00:05:03,272 --> 00:05:06,712
所以對那個時候我覺得效果並沒有特別的好

101
00:05:06,880 --> 00:05:10,360
但是那時候其實OpenAI一直想要追求的就是通用智能體

102
00:05:10,360 --> 00:05:12,960
那也是我當時實習的項目的一部分

103
00:05:12,960 --> 00:05:16,760
什麼叫通用智能體可不可以跟聽眾們解釋一下

104
00:05:16,760 --> 00:05:20,080
通用智能體的意思就是這一個人工智能

105
00:05:20,080 --> 00:05:23,120
它不是為一個專門的領域所設計的

106
00:05:23,120 --> 00:05:24,960
比如說一個專門的任務所設計的

107
00:05:24,960 --> 00:05:30,160
它能夠用同一個模型做幾百種上千種甚至無數種任務

108
00:05:30,160 --> 00:05:32,560
至少當時是有這樣子一個想法

109
00:05:32,560 --> 00:05:34,912
具體的這個體現就是OpenAI Universe

110
00:05:34,912 --> 00:05:39,212
它的一個實現就是通過看屏幕上面的像素

111
00:05:39,212 --> 00:05:42,912
直接能夠輸出鍵盤和鼠標的一些Action

112
00:05:43,312 --> 00:05:44,992
你說的這個通用智能體

113
00:05:44,992 --> 00:05:48,792
因為我們知道現在OpenAI它的目標包括Sam Altman

114
00:05:48,792 --> 00:05:51,592
他經常在媒體面前講的就是AGI

115
00:05:51,852 --> 00:05:56,192
通用人工智能就是說人工智能在所有的方向做的東西

116
00:05:56,192 --> 00:05:57,592
不弱於人的水平

117
00:05:57,652 --> 00:05:58,892
當然這是我的一個定義

118
00:05:58,892 --> 00:06:00,992
就關於AGI到底是什麼定義的話

119
00:06:00,992 --> 00:06:03,392
我相信業界跟學界有很多很多的說法

120
00:06:03,536 --> 00:06:07,736
那你說的這個通用智能體它跟AGI的這樣的一個關係是什麼呢

121
00:06:07,736 --> 00:06:11,936
我覺得基本上通用智能體和AGI這兩個概念差不多

122
00:06:11,936 --> 00:06:16,336
但是只不過具體怎麼實現它們有很多種不同的方式

123
00:06:16,336 --> 00:06:20,536
比如說後來可能過了好多年OpenAI它們發現了GBT

124
00:06:20,536 --> 00:06:25,336
然後通過自然語言來實現類似通用智能體的一個AI

125
00:06:25,336 --> 00:06:28,936
但是當時其實OpenAI Universe就是我實習的時候參與的那個項目

126
00:06:28,936 --> 00:06:30,736
它走的路徑特別的不一樣

127
00:06:30,944 --> 00:06:35,144
它是通過決策通過這樣子一個鼠標和鍵盤的方式來實現

128
00:06:35,344 --> 00:06:38,384
當然後來發現其實用文本來實現通用智能體

129
00:06:38,384 --> 00:06:42,144
是一條比用鼠標和鍵盤要快很多的一個路徑

130
00:06:42,224 --> 00:06:43,344
但這個是後花了

131
00:06:43,744 --> 00:06:48,024
你可不可以跟大家介紹一下在OpenAI早期你加入的時候

132
00:06:48,344 --> 00:06:53,024
那些加入OpenAI的大牛們你剛剛也簡單的介紹了一些人

133
00:06:53,024 --> 00:06:55,424
然後我記得上次其實我們聊天的時候你有說

134
00:06:55,424 --> 00:06:58,824
在早期OpenAI工作也是一件壓力特別大的事情

135
00:06:58,824 --> 00:07:00,344
因為身邊都是大神嘛

136
00:07:00,432 --> 00:07:03,592
在這群人中你覺得大家的一個共同目標是什麼?

137
00:07:03,592 --> 00:07:07,592
誰在主導整個OpenAI的研究方向?

138
00:07:07,592 --> 00:07:11,232
對我覺得當時OpenAI真的是一個神一樣的地方

139
00:07:11,232 --> 00:07:15,832
因為所有的那些在那邊全職的科學家基本都是業界的大牛

140
00:07:15,832 --> 00:07:19,992
而且他們很多論文我在沒有加入OpenAI之前就全都讀過

141
00:07:19,992 --> 00:07:23,632
所以去那邊基本上就是見到我當時心中的眾神們

142
00:07:23,632 --> 00:07:28,552
所以我覺得那個時候的OpenAI還是研究的方向比較多樣化

143
00:07:28,560 --> 00:07:31,960
因為每一個大神他們其實有自己的一個研究的領域

144
00:07:31,960 --> 00:07:33,760
大家都在探索不同的東西

145
00:07:33,760 --> 00:07:39,160
比如說剛才提到的Ian Goodfellow在研究的是更多的生成對抗式的這種模型

146
00:07:39,160 --> 00:07:43,160
Dirk Kinmar他可能研究的更多是像辨分自編碼器

147
00:07:43,160 --> 00:07:46,160
就是Variational Autoencoder VAE這條路

148
00:07:46,160 --> 00:07:48,360
還有一位叫Alec Radford

149
00:07:48,360 --> 00:07:52,560
他當時在研究其實後來非常像GBT的一個東西

150
00:07:52,560 --> 00:07:57,360
當然那個時候還沒有Transformer這樣子一個神經網絡的架構

151
00:07:57,440 --> 00:08:02,940
那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

152
00:08:02,940 --> 00:08:06,440
Alec Redford他當時就提出我們應該訓練語言模型

153
00:08:06,440 --> 00:08:08,940
並且不僅是用LSTM來實現

154
00:08:08,940 --> 00:08:11,940
而且需要在很大的數據上面進行訓練

155
00:08:11,940 --> 00:08:16,940
所以他當時就想到通過預測一句話的後面一個單詞

156
00:08:16,940 --> 00:08:21,440
這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

157
00:08:21,440 --> 00:08:25,940
所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

158
00:08:26,368 --> 00:08:33,808
所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

159
00:08:33,808 --> 00:08:37,008
它也是GPT的相當於一個技術的電機

160
00:08:37,008 --> 00:08:43,088
對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

161
00:08:43,088 --> 00:08:47,088
它其實和神經網絡具體的架構本身是可以相對獨立的

162
00:08:47,088 --> 00:08:53,008
所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現

163
00:08:53,008 --> 00:08:56,288
但是這個背後的思想的範疇是一樣的

164
00:08:56,512 --> 00:09:02,272
還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

165
00:09:02,272 --> 00:09:05,352
比如說像Reddit是一個美國比較流行的論壇

166
00:09:05,352 --> 00:09:10,992
它有一個特點就是所有的人可以匿名的去發一些評論

167
00:09:10,992 --> 00:09:12,912
而且會有對話的一個過程

168
00:09:12,912 --> 00:09:15,512
所以其實那個時候就已經有這樣一個對話機器人

169
00:09:15,512 --> 00:09:18,992
也就後來ChagPT的前身其實在那個時候已經有一些影子了

170
00:09:18,992 --> 00:09:25,232
當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

171
00:09:25,392 --> 00:09:31,192
因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

172
00:09:31,192 --> 00:09:34,492
那些文檔的話都內容比較嚴肅比較刻板

173
00:09:34,492 --> 00:09:37,192
所以就不太會生成一些有意思的東西

174
00:09:37,192 --> 00:09:44,792
但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練

175
00:09:44,792 --> 00:09:47,992
那這樣子的話這個AI它就能夠生成更有意思的東西

176
00:09:48,192 --> 00:09:52,352
但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

177
00:09:52,352 --> 00:09:56,672
只要把這個東西不斷地加算力加數據把它scale up

178
00:09:56,672 --> 00:10:00,792
就能夠實現一個類似或者接近於通用人工智能體的一個技術

179
00:10:00,792 --> 00:10:02,792
我覺得當時沒有一個人真的意識到

180
00:10:02,792 --> 00:10:05,392
但我覺得確實那個時候已經埋下了種子

181
00:10:05,392 --> 00:10:07,872
你指的埋下種子是指什麼

182
00:10:07,872 --> 00:10:10,912
就是在隨著大家的研究逐漸深入

183
00:10:10,912 --> 00:10:13,952
大家發現這件事情堆算力就可以解決

184
00:10:13,952 --> 00:10:17,552
對在剛提到的Elec他的探索下

185
00:10:17,664 --> 00:10:21,504
之後Transformer出來了OpenEye就提出了GPT

186
00:10:21,504 --> 00:10:25,504
GPT這個算法全稱叫generative pre-training

187
00:10:25,504 --> 00:10:27,064
我這邊大概解釋一下

188
00:10:27,064 --> 00:10:32,264
Transformer那篇論文是谷歌研究院的科學家提出來的

189
00:10:32,264 --> 00:10:34,504
當時提出的時候Transformer有兩個部分

190
00:10:34,504 --> 00:10:36,504
一個是編碼器encoder

191
00:10:36,504 --> 00:10:38,504
還有一個是解碼器decoder

192
00:10:38,504 --> 00:10:41,944
但是GPT他就提出我們不需要編碼器

193
00:10:41,944 --> 00:10:44,184
我們只要解碼器decoder就可以了

194
00:10:44,272 --> 00:10:48,552
decoder他的訓練的原理就是不斷地預測下一個單詞

195
00:10:48,552 --> 00:10:54,072
所以其實在這一點上面和剛提到的LSTM等回饋式神經網絡是特別的像的

196
00:10:54,072 --> 00:11:00,672
因為2016年的時候OpenAI做了那些回饋式神經網絡和下一個單詞預測這樣嘗試

197
00:11:00,672 --> 00:11:07,072
所以對他們來說GPT作為一個純解碼器的一個模型是一個很自然而然的一個眼神

198
00:11:07,072 --> 00:11:12,496
但其實當時學術圈裡面並沒有達成共識為什麼一定只用解碼器

199
00:11:12,496 --> 00:11:18,976
我舉個例子,比如說谷歌在Transformer之後有一篇特別火的資安源處理的工作
叫Bert

200
00:11:18,976 --> 00:11:22,576
Bert其實和GBT是反其道而行之

201
00:11:22,576 --> 00:11:26,736
它是純粹只有編碼器,也就是它是encoder的一個模型

202
00:11:26,736 --> 00:11:29,856
它其實並沒有像GBT那樣的一個解碼器

203
00:11:29,856 --> 00:11:34,896
它是完全通過編碼器來做一個表徵學習,也有所謂的representation
learning

204
00:11:34,896 --> 00:11:39,136
但是GBT的話它提出的是用解碼器來進行生成

205
00:11:39,136 --> 00:11:44,336
所以我覺得那個時候學術圈裡面還是處於一個百花齊放百家真名的狀態

206
00:11:44,336 --> 00:11:48,536
有不同的解碼器、解碼器或者一個混合有各種各樣的學派

207
00:11:48,536 --> 00:11:51,736
當時包括我在內我覺得很多人也沒有意識到

208
00:11:51,736 --> 00:11:53,736
就GPT其實是非常好的一條路

209
00:11:53,736 --> 00:11:55,216
可能比別的模型會更強

210
00:11:55,216 --> 00:11:57,616
當時我覺得絕大部分人都沒有意識到

211
00:11:58,216 --> 00:12:03,016
那大家是怎麼敢在GPT裡面去堆這麼多的算力進去

212
00:12:03,016 --> 00:12:04,616
這麼多的數據進去

213
00:12:04,616 --> 00:12:08,096
因為其實堆算力的過程就是不停地板

214
00:12:08,096 --> 00:12:10,096
資金砸入進去的一個過程

215
00:12:10,096 --> 00:12:13,656
我覺得我們除了說它需要很多的決心

216
00:12:13,656 --> 00:12:17,256
同時我相信大家需要在科研上是看到有反饋的

217
00:12:17,496 --> 00:12:19,816
那為什麼大家最後賭的是GPT

218
00:12:20,256 --> 00:12:24,616
對,我覺得首先我在16年數集之後就離開OpenAI

219
00:12:24,616 --> 00:12:28,256
所以之後他們做GPT的時候我並沒有親自在場

220
00:12:28,376 --> 00:12:30,696
所以我也只從外界來觀察這事

221
00:12:30,856 --> 00:12:35,016
我大致猜測就是後來在GPT之後出了GPT2

222
00:12:35,168 --> 00:12:40,968
GPT2其實跟本來的GPT1的模型算法是幾乎完全一樣的

223
00:12:40,968 --> 00:12:43,928
唯一的區別就是更多的數據、更大的模型

224
00:12:43,928 --> 00:12:46,288
但其實GPT2也沒有特別大

225
00:12:46,288 --> 00:12:48,848
就是大到不容個十個億美金訓練不了

226
00:12:48,848 --> 00:12:50,568
也遠遠沒有到這個規模

227
00:12:50,568 --> 00:12:54,688
但是其實GPT2已經有一些我們稱之為叫emergent property

228
00:12:54,688 --> 00:12:57,008
就一種湧現的一些智能在裡面

229
00:12:57,008 --> 00:13:00,168
比如說它做多任務什麼的會做得特別好

230
00:13:00,168 --> 00:13:02,008
比GPT1會好很多

231
00:13:02,008 --> 00:13:05,128
還包括一些微調、fine tuning什麼也都做得很好

232
00:13:05,424 --> 00:13:08,984
所以我覺得OpenAI可能在那個時候看到GPT-2

233
00:13:08,984 --> 00:13:13,624
它的能力還要生成文本的流暢程度比GPT-1高那麼多

234
00:13:13,624 --> 00:13:15,784
我覺得他們可能看到了這一點

235
00:13:15,784 --> 00:13:17,224
然後他們就下了一個賭注

236
00:13:17,224 --> 00:13:19,944
我們能大量的算力、大量的經費

237
00:13:19,944 --> 00:13:22,584
把GPT-2擴大10倍甚至100倍

238
00:13:22,584 --> 00:13:25,104
所以後來就成為了GPT-3

239
00:13:25,104 --> 00:13:27,504
所以我覺得這條應該是OpenAI內部

240
00:13:27,504 --> 00:13:29,784
他們看到了這樣一種湧現的智能

241
00:13:29,784 --> 00:13:30,904
下了一個賭注

242
00:13:30,904 --> 00:13:32,304
當然有可能賭輸

243
00:13:32,304 --> 00:13:34,944
但是事實上就是歷史證明他們賭贏了

244
00:13:35,056 --> 00:13:37,496
所以我覺得這也是一個很非凡的成就

245
00:13:37,496 --> 00:13:41,656
是的你剛說到其實還有一個點我覺得挺有意思的

246
00:13:41,656 --> 00:13:47,336
你提到Ellick他其實是最早提出用Reddit的數據去做訓練數據的

247
00:13:47,336 --> 00:13:52,016
因為以往大家在堆訓練數據的時候可能會去堆更準確的數據

248
00:13:52,016 --> 00:13:56,936
比如說維基百科他在說一個事實的時候他的數據是非常準的

249
00:13:56,976 --> 00:14:00,216
但我們知道在Reddit上它其實是一個用戶論壇嘛

250
00:14:00,216 --> 00:14:02,376
然後這個論壇上什麼樣的帖子也有

251
00:14:02,376 --> 00:14:05,576
也有很多的回帖也有很多的Meme符號

252
00:14:05,576 --> 00:14:08,936
但是可能在這個論壇上也有很多逆氣

253
00:14:08,936 --> 00:14:11,656
大家去懟一件事情這都是非常正常的

254
00:14:11,656 --> 00:14:14,376
他當時想把Reddit的數據加進去

255
00:14:14,376 --> 00:14:17,056
只是說他為了去擴大數據量

256
00:14:17,056 --> 00:14:20,176
還是說他其實是為了讓他的表述更加生動

257
00:14:20,176 --> 00:14:21,656
還是出於其他的什麼原因

258
00:14:21,824 --> 00:14:27,824
當時我想知道你們在去決定去用一些新的數據去做訓練的時候這個思考是什麼

259
00:14:27,824 --> 00:14:33,824
首先我當時不在那個項目上所以他們的初衷我並不知道這是我的猜想啊

260
00:14:33,824 --> 00:14:37,824
我覺得就像你剛才提到的Reddit它更加生動它沒有那麼死板

261
00:14:37,824 --> 00:14:43,824
它不只是一個平鋪直敘的解釋一個知識點比如說百度百科啊
維基百科都是解釋一個知識點

262
00:14:43,824 --> 00:14:49,776
沒有什麼情感但是其實在Reddit上面中各種各樣的情感很多喜怒哀樂都有

263
00:14:49,776 --> 00:14:53,496
所以我猜測是他們覺得這樣作為一個生成式的模型

264
00:14:53,496 --> 00:14:54,896
至少會特別有意思

265
00:14:54,896 --> 00:14:59,096
因為你可以讓它生成各種語境下面的不同的一些話

266
00:14:59,096 --> 00:15:02,296
但如果GPT模型只用微幾百克來訓練的話

267
00:15:02,296 --> 00:15:05,696
那它生成的永遠是這種平凸直續的比較枯燥的內容

268
00:15:05,696 --> 00:15:10,016
所以我覺得可能一定程度上是從因為他們想要生成內容

269
00:15:10,016 --> 00:15:12,376
什麼樣的內容最有意思生成呢

270
00:15:12,376 --> 00:15:15,576
那可能是要從論壇上面大家這樣一個聊天的記錄

271
00:15:15,576 --> 00:15:18,816
其實Reddit就是一個公開聊天記錄說白了

272
00:15:18,944 --> 00:15:23,344
所以他們拿聊天記錄過來肯定生成的東西會更加生動一些

273
00:15:23,344 --> 00:15:25,744
我估計初衷是這樣的

274
00:15:25,744 --> 00:15:28,544
你早期2016年在的時候

275
00:15:28,544 --> 00:15:33,744
那個時候Sam Altman跟馬斯克因為他們當時是都在OpenAI

276
00:15:33,744 --> 00:15:36,944
你覺得誰對OpenAI的影響更大一點

277
00:15:36,944 --> 00:15:40,944
當然我當時是個實習生沒有接觸過他們決策管理層

278
00:15:40,944 --> 00:15:42,544
所以我不太清楚

279
00:15:42,816 --> 00:15:46,616
不過我覺得當時從技術上面的話我不知道他們參與了多少

280
00:15:46,616 --> 00:15:51,256
但我覺得Illya還有Alec還有Andre Caparzi和Greg
Brockman

281
00:15:51,256 --> 00:15:54,616
我覺得對GBT這樣一個技術的影響是非常的大的

282
00:15:54,816 --> 00:15:57,976
他們是直接去做這樣一個項目的科學家

283
00:15:58,456 --> 00:16:02,256
上次其實我們聊天的時候你還提到一個非常有意思的現象

284
00:16:02,256 --> 00:16:05,496
我們在提到跟AI相關方向的研究的時候

285
00:16:05,496 --> 00:16:07,576
V-RAN早期是非常非常強的

286
00:16:07,696 --> 00:16:12,496
那之後是很多人才跟AI研究相關的去了Google Brain

287
00:16:12,688 --> 00:16:14,848
後來又是去了OpenAI

288
00:16:14,848 --> 00:16:17,688
那如果你作為一個AI研究者

289
00:16:17,688 --> 00:16:21,688
就你覺得什麼是最吸引你去到一家公司的

290
00:16:21,688 --> 00:16:24,408
我現在在英偉達做研究科學家

291
00:16:24,408 --> 00:16:27,048
我覺得加入英偉達有幾個原因吧

292
00:16:27,048 --> 00:16:31,408
一個是英偉達研究院做的研究多樣性比較廣

293
00:16:31,408 --> 00:16:33,568
比如說有做計算識的視覺的

294
00:16:33,568 --> 00:16:35,208
有做自然元處理的

295
00:16:35,208 --> 00:16:36,648
還有做機器人的等等

296
00:16:36,848 --> 00:16:39,488
對我來說我從博士剛畢業的時候

297
00:16:39,488 --> 00:16:42,128
其實我是想要繼續能做一些研究的工作

298
00:16:42,128 --> 00:16:44,048
不一定說就直接去做產品

299
00:16:44,048 --> 00:16:47,168
然後我就因為在研究院給我很多探索的自由

300
00:16:47,168 --> 00:16:50,448
這一點上我是覺得一個很吸引我的地方

301
00:16:50,448 --> 00:16:55,408
第二看一個公司看它資源或者說是長期的計劃是怎麼樣的

302
00:16:55,408 --> 00:16:58,528
我確實覺得英偉達第一資源肯定是很強的

303
00:16:58,528 --> 00:17:00,448
畢竟我們是做GPU的公司

304
00:17:00,448 --> 00:17:04,768
現在GPU就顯卡基本上是訓練AI的主要的硬件

305
00:17:04,944 --> 00:17:07,504
所以我覺得這塊公司資源非常的強

306
00:17:07,504 --> 00:17:12,384
而且公司長期來說因為現在AI的模型基本都是用GPU來訓練的

307
00:17:12,384 --> 00:17:14,384
所以我覺得這塊發展也會比較好

308
00:17:14,384 --> 00:17:17,904
綜上所述就是一個是研究的自由探索自由

309
00:17:17,904 --> 00:17:19,904
還有第二個是未來的發展及資源

310
00:17:19,904 --> 00:17:21,904
這個是我比較重視的幾個方面

311
00:17:21,904 --> 00:17:23,904
我覺得選擇還是非常好的

312
00:17:23,904 --> 00:17:26,464
因為大家現在看英偉達的股價也看到了

313
00:17:26,464 --> 00:17:29,664
我們前期就聊了很多跟OpenAI相關的

314
00:17:29,664 --> 00:17:33,504
包括它的早期的成長包括你早期在中間的一些經歷

315
00:17:33,600 --> 00:17:38,600
接下來我其實也有一些關於大模型的一些觀點性的東西想跟你討論一下

316
00:17:38,600 --> 00:17:42,040
可能也是現在市場上大家關注的比較多的

317
00:17:42,040 --> 00:17:47,440
第一個問題就是未來的大模型你認為它會不會是一個贏者通吃的市場

318
00:17:47,440 --> 00:17:50,480
還是說它會有多個大模型存在的市場

319
00:17:50,480 --> 00:17:55,800
因為我們現在看OpenAI它可能暫時的領先其他大模型一段時間

320
00:17:55,800 --> 00:17:58,880
但它的領先可能是它會吃進去很多的數據

321
00:17:58,880 --> 00:18:00,600
大家會不停地跟OpenAI互動

322
00:18:00,600 --> 00:18:02,720
然後它會有反饋它會變得更強

323
00:18:02,800 --> 00:18:09,240
但是同時我們說不管是谷歌的模型還是說像Stability 包括一些圖片的模型

324
00:18:09,240 --> 00:18:14,480
它們有自己很強的應用你覺得未來的大模型的市場格局會是怎麼樣的呢?

325
00:18:14,480 --> 00:18:22,960
我覺得首先應該不會是迎者通吃肯定會有多個大模型但是我覺得也不會太多

326
00:18:23,136 --> 00:18:27,736
可能曾經比如說像SARS或者是做手機APP

327
00:18:27,736 --> 00:18:31,336
這些可能市面上有幾十萬個幾百萬個APP

328
00:18:31,336 --> 00:18:34,736
只要大家會寫一些代碼的人都能寫一個iPhone的App

329
00:18:35,136 --> 00:18:37,936
但是我覺得這個大模型肯定不可能是這樣

330
00:18:38,136 --> 00:18:39,836
但是大模型也不會只有一家

331
00:18:40,036 --> 00:18:41,936
所以我覺得可能更多的像是一個

332
00:18:41,936 --> 00:18:44,736
比如說有十幾種不同的大模型

333
00:18:44,736 --> 00:18:46,936
然後每一個都是不同公司做的

334
00:18:46,936 --> 00:18:48,536
每一個都有自己的專長

335
00:18:48,636 --> 00:18:51,336
這個是未來相當長一段時間的導向

336
00:18:51,552 --> 00:18:55,552
現在OpenAI確實在語言模型這個事情上面是主導的

337
00:18:55,552 --> 00:18:59,152
但是舉個例子比如說在圖像生成模型上面

338
00:18:59,152 --> 00:19:02,952
現在達利的質量有些時候並比不過Mid Journey

339
00:19:02,952 --> 00:19:06,552
Mid Journey是一個我跟聽眾朋友們很快介紹一下

340
00:19:06,552 --> 00:19:10,552
就是Mid Journey是一家只有11個人的一個初創公司

341
00:19:10,552 --> 00:19:13,552
他們做的就是從文本生成圖片

342
00:19:13,552 --> 00:19:17,552
現在目前基本大家公認Mid Journey生成的圖片的質量

343
00:19:17,552 --> 00:19:20,240
清晰度都是業界算是數一數二的

344
00:19:20,240 --> 00:19:25,040
這一點上我覺得Mid Journey在生成圖片的大模型上是比較領先的

345
00:19:25,040 --> 00:19:27,440
還有一家我聽說叫Eleven Labs

346
00:19:27,440 --> 00:19:30,240
這家公司是生成語音的合成語音

347
00:19:30,240 --> 00:19:32,840
之前我看過他們的一個展示

348
00:19:32,840 --> 00:19:36,640
他們用喬布斯生前的那些聲音合成

349
00:19:36,640 --> 00:19:39,640
你可以讓喬布斯講任何你想讓他講的話

350
00:19:39,640 --> 00:19:42,640
聽上去的聲音就像喬布斯本人在跟你講話一樣

351
00:19:42,640 --> 00:19:45,240
語音的低音的程度已經做得非常的好

352
00:19:45,240 --> 00:19:48,040
所以比如說像這樣子一個語音的大模型

353
00:19:48,040 --> 00:19:49,840
可能又是由不同的公司來主導

354
00:19:50,128 --> 00:19:53,928
所以我覺得未來一個是不會一家獨當

355
00:19:53,928 --> 00:19:55,928
肯定會有多種不同的大模型

356
00:19:55,928 --> 00:19:59,528
而且每一個模型有它的專長有它自己的一個市場

357
00:19:59,528 --> 00:20:03,528
第二我覺得未來是肯定會發展的一個方向是多模態

358
00:20:03,528 --> 00:20:08,928
就是說文本現在肯定是大家目前看到的最火的一個模態

359
00:20:08,928 --> 00:20:13,328
但之後的話比如說像視覺二維視覺甚至三維視覺

360
00:20:13,328 --> 00:20:16,928
還有語音等等或者之後可能還會有機器人等等

361
00:20:16,928 --> 00:20:19,312
就各種各樣的模態都會加進來

362
00:20:19,312 --> 00:20:24,512
我不覺得OpenAI或者任何少數幾家公司能把所有的模態全都做完

363
00:20:24,832 --> 00:20:26,832
所以這也是一個未來的方向的方向

364
00:20:27,232 --> 00:20:29,712
你相信通用人工智能會實現嗎?

365
00:20:30,112 --> 00:20:32,512
我覺得這個詞比較難定義

366
00:20:32,752 --> 00:20:35,952
而且我覺得可能定義這個詞本身意義也不大

367
00:20:35,952 --> 00:20:37,832
因為我現在給一個定義

368
00:20:37,832 --> 00:20:42,032
務必會有聽眾朋友或者學術圈裡面的學者和我持有不同的意見

369
00:20:42,392 --> 00:20:47,432
更有意思的一個討論點是這些模型能帶來多少的經濟價值

370
00:20:47,432 --> 00:20:49,352
我覺得這個經濟價值是巨大的

371
00:20:49,440 --> 00:20:56,800
包括剛才說的多模態基本上模態越多它能夠涵代的商業的應用就越來越多

372
00:20:56,800 --> 00:21:00,000
剛才提到語音啊視覺啊什麼的機器人啊等等

373
00:21:00,000 --> 00:21:03,120
現在光是文本我們已經看到各種各樣不同應用

374
00:21:03,120 --> 00:21:08,720
比如說在辦公立的應用在法律這樣子一個需要專業技能的一個領域裡的應用

375
00:21:08,720 --> 00:21:10,800
在會計裡面等等等等

376
00:21:10,800 --> 00:21:16,000
我們已經看到大模型滲透到商業和我們社會經濟的每一個領域

377
00:21:16,160 --> 00:21:18,720
所以我覺得更重要的一個問題是

378
00:21:18,720 --> 00:21:22,200
這些大模型未來能創造多少的社會價值

379
00:21:22,200 --> 00:21:24,560
我覺得這個社會價值是顛覆性的

380
00:21:24,560 --> 00:21:28,560
我個人覺得人工智能就是一場新的工業革命

381
00:21:28,560 --> 00:21:31,280
而且比前幾次工業革命可能加起來

382
00:21:31,280 --> 00:21:32,960
它的影響力都要大很多

383
00:21:32,960 --> 00:21:37,120
這是一個像指數爆炸一樣的社會價值的創造

384
00:21:37,120 --> 00:21:39,680
所以我覺得通用不通用不是特別重要

385
00:21:39,680 --> 00:21:43,760
重要的是社會價值以及體係都會受到顛覆

386
00:21:44,000 --> 00:21:47,360
對我再說一下我剛剛為什麼問你那個問題

387
00:21:47,360 --> 00:21:49,560
就是你相信通用人工智能嗎

388
00:21:49,560 --> 00:21:52,360
因為在我們在聊到大模型的時候

389
00:21:52,360 --> 00:21:55,240
其實我們有提到基於語言生成的大模型

390
00:21:55,240 --> 00:21:56,600
圖像生成的大模型

391
00:21:56,600 --> 00:21:59,120
甚至你有提到語音合成的大模型

392
00:21:59,120 --> 00:22:01,760
後來我們還提到了基於法律的大模型

393
00:22:01,760 --> 00:22:04,080
生物的大模型辦公軟件的大模型

394
00:22:04,080 --> 00:22:06,000
但是其實有一個基本的是

395
00:22:06,000 --> 00:22:07,880
比如說有一些基於法律的模型

396
00:22:07,880 --> 00:22:11,240
它可能是搭建在GBT上的一個應用

397
00:22:11,264 --> 00:22:15,264
它可能是其中的一個插件或者在它上面有一層優化

398
00:22:15,264 --> 00:22:18,064
我更想問的是你認為這種大模型

399
00:22:18,064 --> 00:22:23,184
它們未來有可能會訓練成一個通材還是專材

400
00:22:23,184 --> 00:22:26,504
當然我假設一個模型搭在CHEDGBT上

401
00:22:26,504 --> 00:22:29,144
我在上面再加一些法律方面的優化

402
00:22:29,144 --> 00:22:32,024
它最後能變成一個法律專家

403
00:22:32,024 --> 00:22:35,024
或者說一個生物的模型搭在CHEDGBT上

404
00:22:35,024 --> 00:22:38,224
最後變成一個可以合成蛋白質結構的模型

405
00:22:38,432 --> 00:22:41,472
但是還是說它需要分別的大模型

406
00:22:41,472 --> 00:22:45,032
就是專門的生物的數據庫去做生物的這條線

407
00:22:45,032 --> 00:22:47,832
還是說它都可以運用一個底層架構

408
00:22:48,112 --> 00:22:52,232
我考慮的是這個模型它到底未來是一個通材還是專材

409
00:22:52,632 --> 00:22:54,032
哦懂了懂了

410
00:22:54,032 --> 00:22:58,232
我覺得更有可能的是就像你剛才提到的一個通材的模型

411
00:22:58,632 --> 00:23:00,912
當然這個通用是否達到人類的智能

412
00:23:00,912 --> 00:23:02,832
就是我剛說的大家有不同的定義

413
00:23:02,832 --> 00:23:05,512
大家學術圈也不一定是有一個統一的定義

414
00:23:05,680 --> 00:23:12,080
但是我覺得一個通材的語言模型然後在上面加插件的這樣一個模式將會是一個未來的導向

415
00:23:12,760 --> 00:23:17,480
當然這個插件怎麼做以及這個通材上面的那一層是什麼

416
00:23:17,760 --> 00:23:20,520
我覺得這個可能不同公司會有一些不同的答案

417
00:23:20,880 --> 00:23:25,280
比如說現在我們看到OpenAI他們就實現了這樣一個Chat GPT的應用商店

418
00:23:25,720 --> 00:23:27,520
然後我覺得這個是一種方式

419
00:23:27,728 --> 00:23:30,568
另外一種可能是比如說現在有一個大模型

420
00:23:30,568 --> 00:23:32,648
但是我想把它應用在法律

421
00:23:32,648 --> 00:23:36,568
我可能在法律的領域裡面做一定的比如說真流等等

422
00:23:36,568 --> 00:23:41,128
可以讓這個模型變得在法律的領域裡面能夠更加的專業

423
00:23:41,128 --> 00:23:45,688
並且可能它會比一個完全通材的一個模型效率會更高

424
00:23:45,688 --> 00:23:48,688
因為那個模型它不需要知道任何醫學的知識等等

425
00:23:48,688 --> 00:23:50,528
它只要知道法律知識就可以了

426
00:23:50,528 --> 00:23:54,768
所以它也可以是一個通用模型的專業化的一個版本

427
00:23:54,992 --> 00:23:59,392
但是我覺得一個通用的模型這樣一個基石是很重要的

428
00:23:59,392 --> 00:24:02,672
有了這個基石以後要么做插件要么做一些蒸餾

429
00:24:02,672 --> 00:24:05,472
或者一個更加專業的版本我覺得這個都是可行的

430
00:24:05,472 --> 00:24:10,272
對但它們都是可以在大的模型下面或者說找一些開源的模型

431
00:24:10,272 --> 00:24:14,512
它們只是需要做一些優化或者加入一些特定領域的數據

432
00:24:14,512 --> 00:24:16,592
進行一些特定領域的訓練對吧

433
00:24:16,592 --> 00:24:18,672
它們不需要再從頭搭一個了

434
00:24:18,672 --> 00:24:22,512
對不過我覺得不一定每一家公司都能這樣做

435
00:24:22,656 --> 00:24:26,936
因為通用模型訓練起來肯定是難度非常非常的大

436
00:24:26,936 --> 00:24:30,856
現在能訓練通用模型的公司全世界屈指可數

437
00:24:30,856 --> 00:24:35,176
所以我覺得有些比如說中型企業甚至是初創公司

438
00:24:35,176 --> 00:24:38,856
如果想要用到這些語言模型做一些專業的事情的話

439
00:24:38,856 --> 00:24:42,776
我覺得一條更快的路不是先訓練一個通用模型

440
00:24:42,776 --> 00:24:45,256
再把它進行專業化或者加個插件

441
00:24:45,256 --> 00:24:47,736
而是直接去訓練一個專業的模型

442
00:24:47,736 --> 00:24:50,296
但是我覺得主要的原因是可能經費不夠

443
00:24:50,296 --> 00:24:51,504
公司的規模不夠

444
00:24:51,504 --> 00:24:54,704
在這樣子一個情況下那是迫不得已只能走這條路

445
00:24:55,024 --> 00:24:58,944
但我覺得這條路也是能夠解決某一個公司想解決的問題的

446
00:24:59,304 --> 00:25:01,384
所以我覺得通用模型是一件好事情

447
00:25:01,384 --> 00:25:04,624
但是可能對於某些特定的商業模式它沒有必要

448
00:25:04,824 --> 00:25:07,024
嗯Mid Journey 算是哪一類

449
00:25:07,304 --> 00:25:09,904
我覺得Mid Journey 目前應該是一個通用模型

450
00:25:10,104 --> 00:25:13,944
因為基本上所有的畫風不同的畫風它都能生成

451
00:25:13,944 --> 00:25:17,264
比如說它能夠合成看上去非常逼真的照片

452
00:25:17,504 --> 00:25:20,544
它也能夠合成一些像科幻的電影裡面的一些場景

453
00:25:20,672 --> 00:25:23,792
還能合成動脈,還能合成素描,油畫等等

454
00:25:23,992 --> 00:25:26,632
所以我覺得它現在目前是一個通用的模型

455
00:25:27,032 --> 00:25:30,272
對,雖然Mid Journey現在有很多很多的用戶啊

456
00:25:30,272 --> 00:25:32,072
就我也是它的付費用戶之一

457
00:25:32,232 --> 00:25:34,152
但是我一直都很好奇

458
00:25:34,152 --> 00:25:37,952
它這樣一家創業公司僅憑它的付費用戶的收入

459
00:25:38,112 --> 00:25:42,952
它是不是能夠支撐它的成本去訓練這樣一個通用的模型

460
00:25:42,952 --> 00:25:45,672
因為我們知道現在整個大模型的訓練成本

461
00:25:45,672 --> 00:25:47,952
包括堆算力整個還挺貴的

462
00:25:47,968 --> 00:25:51,168
它其實也不是完全是一個創業公司能夠做的事情

463
00:25:51,608 --> 00:25:53,368
對確實非常的昂貴

464
00:25:53,968 --> 00:25:55,928
不過我覺得還有另外一條路

465
00:25:55,928 --> 00:25:58,928
一個比較好的商業模式是和企業合作

466
00:25:59,368 --> 00:26:03,608
舉個例子有很多做遊戲或者電影特效的一些企業

467
00:26:03,608 --> 00:26:06,008
他們可能需要一些企業級的這種模型

468
00:26:06,368 --> 00:26:08,248
然後我覺得類似Made Journey這樣的公司

469
00:26:08,248 --> 00:26:10,408
有可能是可以通過和企業合作

470
00:26:10,408 --> 00:26:12,048
然後能夠獲得更大的訂單

471
00:26:12,328 --> 00:26:14,568
而不只是通過每一個散戶過來

472
00:26:14,568 --> 00:26:16,248
付一個每個月的訂閱費

473
00:26:16,400 --> 00:26:18,800
那個可能加錢不是特別多

474
00:26:18,800 --> 00:26:23,160
所以我覺得對於像這樣一個生成式的AI的初創公司的話

475
00:26:23,160 --> 00:26:24,400
有這兩條路可以走

476
00:26:24,400 --> 00:26:28,400
就是類似於他們在做一個SaaS級的產品

477
00:26:28,400 --> 00:26:31,400
相當於為企業來提供一些增值服務

478
00:26:31,400 --> 00:26:34,000
其實有點類似於Jasper他們現在做的

479
00:26:34,000 --> 00:26:38,000
對其實英偉達在上一次GTC發布會的時候

480
00:26:38,000 --> 00:26:42,400
也提到英偉達更多的是一個為企業服務的大模型

481
00:26:42,560 --> 00:26:46,560
叫NVIDIA AI Foundations 其實也是剛才提到類似的想法

482
00:26:46,560 --> 00:26:51,560
比如說為企業做一些這種生成圖片和大的預言模型

483
00:26:51,560 --> 00:26:55,560
其實就在我們今天這個訪談開始的前一兩天

484
00:26:55,560 --> 00:27:01,560
我看業界大家又在歡呼一件事情就是Meta AI它做的Segment
Anything

485
00:27:01,560 --> 00:27:03,560
它是一個圖片的模型

486
00:27:03,560 --> 00:27:08,336
然後我看你在推特上是把它稱為是GPT-3 Moment

487
00:27:08,336 --> 00:27:11,336
在計算機世界領域它算是一個GPT-3 Moment

488
00:27:11,336 --> 00:27:13,536
因為我現在其實還沒有看那篇論文

489
00:27:13,536 --> 00:27:15,536
你可不可以跟大家解釋一下

490
00:27:15,536 --> 00:27:19,016
這個Segment Anything它主要的突破點在哪裡

491
00:27:19,016 --> 00:27:20,416
為什麼它意義重大

492
00:27:20,416 --> 00:27:22,816
對那篇論文我特別喜歡

493
00:27:22,816 --> 00:27:25,016
它解決的叫Image Segmentation

494
00:27:25,016 --> 00:27:27,016
也就是圖像分割的問題

495
00:27:27,016 --> 00:27:29,136
簡言之給一個圖片

496
00:27:29,136 --> 00:27:32,016
這圖片裡面比如說有三條狗兩隻貓

497
00:27:32,016 --> 00:27:35,616
AI它能不能把三條狗和兩隻貓的整個輪廓

498
00:27:35,616 --> 00:27:36,816
把它全部都勾下來

499
00:27:37,072 --> 00:27:41,112
這個就是一個很經典的計算機視覺問題叫圖像分割

500
00:27:41,112 --> 00:27:43,312
然後這個問題非常的難

501
00:27:43,312 --> 00:27:46,592
在計算機視覺領域也有幾十年的研究的歷史

502
00:27:46,592 --> 00:27:51,312
我覺得這一篇論文基本上完全用到了這樣大模型的一個範式

503
00:27:51,312 --> 00:27:52,472
大模型的思路

504
00:27:52,472 --> 00:27:56,952
首先我覺得它不是第一篇用Transformer來做分割的模型

505
00:27:56,952 --> 00:27:59,672
因為之前其實有很多論文用到了Transformer

506
00:27:59,672 --> 00:28:04,992
但是我覺得它確實是第一篇大規模用這樣一個大模型的思維去解的

507
00:28:05,232 --> 00:28:07,592
然後什麼意思呢?有以下幾條

508
00:28:07,592 --> 00:28:11,512
第一個是它的神經網絡的架構非常的簡單

509
00:28:11,512 --> 00:28:13,632
又簡單又比較Scalable

510
00:28:13,632 --> 00:28:15,672
當然也是用Constorm一個變體

511
00:28:15,672 --> 00:28:18,432
但是它裡面並沒有一些話裡胡哨的一些東西

512
00:28:18,432 --> 00:28:20,472
一個很簡潔的通用的一個架構

513
00:28:20,472 --> 00:28:25,752
第二條就是它有一個我們稱之為叫做Data Flywheel的一個東西

514
00:28:25,752 --> 00:28:30,232
一開始時候可能有少量的人工標註的一些圖像分割的數據

515
00:28:30,232 --> 00:28:31,232
一些訓練數據

516
00:28:31,232 --> 00:28:34,752
通過這個訓練數據已經能夠訓練一個版本的模型

517
00:28:34,768 --> 00:28:36,768
但這個模型可能效果不是特別好

518
00:28:36,768 --> 00:28:39,768
但是你可以用這個效果不太好的模型

519
00:28:39,768 --> 00:28:42,768
自動分割大量沒有人工標註的那些圖片

520
00:28:42,768 --> 00:28:47,768
可以顧一些人,比如說來在這些基礎上面再做一些標註

521
00:28:47,768 --> 00:28:49,768
這些標註就比較簡單了

522
00:28:49,768 --> 00:28:51,768
因為比叢林開始標肯定要簡單嘛

523
00:28:51,768 --> 00:28:54,768
如果這個機器已經標對了,那你就直接跳過就行了

524
00:28:54,768 --> 00:28:57,768
標錯的話你再幫它修改一下

525
00:28:57,768 --> 00:28:59,768
所以這個第二步已經是簡單很多

526
00:29:00,064 --> 00:29:05,264
這樣的話你可以讓這種高質量的標註的數據多很多而不需要顧太多的人

527
00:29:05,264 --> 00:29:06,264
這是第二步

528
00:29:06,264 --> 00:29:11,184
第三步就直接可以讓模型直接再去標剩下的各種各樣的所有的

529
00:29:11,184 --> 00:29:16,144
比如說我記得它應該有上千萬張圖片就直接用這個算法去標上千萬張

530
00:29:16,144 --> 00:29:21,384
然後用一些heuristic的一些方法你能夠從中獲得比較高質量的標註

531
00:29:21,384 --> 00:29:25,424
然後你把那些算法不是那麼的confident的一些內容給去掉

532
00:29:25,536 --> 00:29:30,136
通過這樣一個Data Flywheel,它就能夠做到一個越來越好的圖像風格的效果

533
00:29:30,136 --> 00:29:34,296
後來Facebook他們把他們的數據以及模型全部都開源了

534
00:29:34,296 --> 00:29:38,536
然後我覺得這個對AI的研究的社區也是相當有幫助的

535
00:29:38,536 --> 00:29:41,296
因為現在大部分的公司都不會開源大模型

536
00:29:41,296 --> 00:29:44,016
所以我覺得這一點上面他們也做得非常的好

537
00:29:44,592 --> 00:29:52,032
對那這篇論文出來了以後你覺得它會對哪些行業的發展產生非常重大的影響

538
00:29:52,032 --> 00:29:56,392
就比如說當你提到圖形標注的時候包括這些高質量的標注

539
00:29:56,392 --> 00:29:58,472
最後它可能會產生一個數據飛輪

540
00:29:58,952 --> 00:30:04,872
你覺得比如說它會對自動駕駛行業的Corner Case有更多精準的判斷嗎

541
00:30:05,472 --> 00:30:10,552
對我覺得它對無人駕駛啊機器人這些上面都會有比較大的幫助

542
00:30:10,688 --> 00:30:12,688
當然因為這個模型剛剛開源

543
00:30:12,688 --> 00:30:15,688
所以目前還沒有看到有大的一些項目真的用到

544
00:30:15,688 --> 00:30:19,188
但是我覺得之後未來一年應該會看到各種各樣的應用

545
00:30:19,688 --> 00:30:24,188
你為什麼覺得它的作用會像GVT-3那麼大

546
00:30:24,188 --> 00:30:27,688
是因為它對圖像領域的一個巨大的貢獻

547
00:30:27,688 --> 00:30:31,688
因為它的這個模型有一些Zero Shot的效果

548
00:30:31,688 --> 00:30:36,188
比如說之前從來沒有見過的物體它也能夠分割出來

549
00:30:36,208 --> 00:30:39,488
包括在有些可能非常特殊的一些情況

550
00:30:39,488 --> 00:30:43,008
比如說在海底啊或者說在醫學的一些影像上面

551
00:30:43,008 --> 00:30:44,528
它也能夠做一個分割

552
00:30:44,528 --> 00:30:48,688
這些都是有可能是之前在訓練的時候沒有遇到過的場景

553
00:30:48,688 --> 00:30:51,968
所以它能夠做到一個非常強的靈樣本的泛化

554
00:30:51,968 --> 00:30:54,688
所以我覺得這個有點類似GP3

555
00:30:54,688 --> 00:30:58,288
哦你這麼說我更加理解了

556
00:30:58,288 --> 00:31:02,608
類似於這個模型它已經不僅僅只是靠視覺來識別

557
00:31:02,624 --> 00:31:04,984
它同時還加入了它理解的部分

558
00:31:04,984 --> 00:31:05,344
對不對

559
00:31:05,344 --> 00:31:08,064
就是你說它可以識別它沒有見過的物體

560
00:31:08,384 --> 00:31:10,184
對我覺得它這個模型

561
00:31:10,184 --> 00:31:12,784
它學會了物體這樣一個抽象的概念

562
00:31:12,904 --> 00:31:14,464
因為對於我們人來說

563
00:31:14,464 --> 00:31:17,784
我們偶爾也會遇到一些奇形怪狀的東西

564
00:31:18,144 --> 00:31:20,424
但是我們照樣都知道這也是一個物體

565
00:31:20,424 --> 00:31:23,064
儘管我們之前可能這輩子從來沒有見過

566
00:31:23,064 --> 00:31:24,904
這樣一個特定的奇形怪狀的東西

567
00:31:24,904 --> 00:31:26,424
我們還是知道它是一個物體

568
00:31:26,624 --> 00:31:28,784
我覺得至少從他們的論文上看

569
00:31:28,784 --> 00:31:31,664
這一篇SAM這個模型也能夠做到這個

570
00:31:31,776 --> 00:31:35,776
之前從來沒有見過的某一種物體但是它能夠把它分割出來

571
00:31:35,776 --> 00:31:39,616
所以它學會了這樣一個很通用的物體的抽象的概念

572
00:31:39,616 --> 00:31:43,056
這個就有點類似GP3 所以我就打了這樣的比喻

573
00:31:43,056 --> 00:31:47,616
所以我覺得最近整個人工智能的發展太快了

574
00:31:47,616 --> 00:31:52,256
非常的激動人心我感覺每個月都有好多好多的新的進展出來

575
00:31:52,256 --> 00:31:54,048
對非常的激動

576
00:31:54,048 --> 00:31:57,528
你會覺得現在的人工智能的這些大模型

577
00:31:57,528 --> 00:32:02,848
它會像是之前我們說互聯網跟移動互聯網時代的一個操作系統

578
00:32:02,848 --> 00:32:08,248
比如說像一個Windows系統或者像一個Android的
或者蘋果的這樣的一個系統

579
00:32:08,248 --> 00:32:12,728
所有的這些應用是構建在上面的也還是一個一個的小應用

580
00:32:12,728 --> 00:32:17,488
我不知道你作為一個人工智能的研究者你會怎麼樣去定義這些大模型

581
00:32:17,568 --> 00:32:20,288
我知道現在大家可能對未來還有很多看不清楚的地方

582
00:32:20,288 --> 00:32:25,088
但還是很想知道你覺得他們未來會演變成一個大概什麼樣的形態

583
00:32:25,328 --> 00:32:27,568
對我覺得你剛才這個比喻特別的好

584
00:32:27,688 --> 00:32:31,968
就是這些大模型尤其是語言模型是一個操作系統

585
00:32:32,208 --> 00:32:35,008
然後剩下的東西就是上面這個應用層

586
00:32:35,328 --> 00:32:37,728
我覺得這個比喻特別恰當的一個原因是

587
00:32:37,728 --> 00:32:40,968
我就說當年喬布斯推出的第一款iPhone吧

588
00:32:41,448 --> 00:32:45,208
我覺得iPhone它的特點就是一整個手機都是一個觸摸屏

589
00:32:45,360 --> 00:32:49,860
沒有物理的鍵盤你完全用手指做所有在手機上面想做的事情

590
00:32:49,860 --> 00:32:52,560
包括撥號呀什麼的全都沒有一個物理鍵盤

591
00:32:52,560 --> 00:32:57,560
我覺得喬布斯當時提出iPhone一個最大的革新是這樣一個人機交互的界面

592
00:32:57,560 --> 00:33:00,060
他重定義了人機交互應該是什麼樣的

593
00:33:00,060 --> 00:33:03,460
iPhone之前對吧黑媒那些手機人機交互是通過鍵盤

594
00:33:03,460 --> 00:33:05,160
但是iPhone是通過觸摸屏

595
00:33:05,160 --> 00:33:08,360
之後所有的手機智能手機全是用觸摸屏

596
00:33:08,360 --> 00:33:12,560
所以我覺得這是一個人機交互的一個革命性的一個創舉

597
00:33:12,720 --> 00:33:15,920
我覺得現在大元模型也非常的像

598
00:33:15,920 --> 00:33:20,400
大元模型也將會重定義人機交互這樣一個方式

599
00:33:20,400 --> 00:33:23,960
可能我們現在是用觸摸屏或者用鼠標和鍵盤

600
00:33:23,960 --> 00:33:26,120
來和我們的電腦和手機交互

601
00:33:26,120 --> 00:33:28,480
但之後的話我們就完全通過語音

602
00:33:28,480 --> 00:33:31,800
或者不通過點鼠標不通過用手機上的應用

603
00:33:31,800 --> 00:33:34,400
而是直接上來我就開始寫一句話

604
00:33:34,400 --> 00:33:36,640
我今天想要去法國旅行

605
00:33:36,640 --> 00:33:38,360
幫我做一個旅行計劃

606
00:33:38,360 --> 00:33:40,560
然後這個大元模型

607
00:33:40,560 --> 00:33:47,760
以及這個元模型上面應用插件
比如說可能有些旅行內規劃的一些插件或者訂旅館呀或者訂機票的插件等等

608
00:33:47,760 --> 00:33:53,360
AI它來幫你做整個規劃你就只要負責確認一下最後付款就可以了

609
00:33:53,360 --> 00:33:59,360
所以我覺得你剛說這個操作系統比喻特別恰當因為這是新的一場人機交互的革命

610
00:33:59,360 --> 00:34:04,160
之後的話都是通過這種語言啊語音這樣的一個很自然而然的指令

611
00:34:04,160 --> 00:34:09,560
而不是通過我們去下載一個程序安裝然後鼠標和按鈕點來點去這樣子一個方式

612
00:34:09,872 --> 00:34:12,832
對而且我覺得你剛剛說的有一個點特別好

613
00:34:12,832 --> 00:34:18,072
就是你說其實iPhone它的意義它是定義了一個人機交互的方式

614
00:34:18,072 --> 00:34:21,832
我記得上次我們吃飯的時候其實有聊到我們說ChadGBT

615
00:34:21,832 --> 00:34:24,872
其實GBT模型在很早之前就有了嘛

616
00:34:24,872 --> 00:34:27,632
那ChadGBT很厲害的一個事情是

617
00:34:27,632 --> 00:34:30,992
它把它定義成了一個聊天的對話的形式

618
00:34:30,992 --> 00:34:34,112
而且那個產品的頁面是非常非常簡單的

619
00:34:34,128 --> 00:34:35,568
從這個意義上來說

620
00:34:35,568 --> 00:34:38,928
我們就覺得OpenAI它在怎麼把一個研究成果

621
00:34:38,928 --> 00:34:40,448
展示給公眾的時候

622
00:34:40,448 --> 00:34:42,768
這個步驟是做得非常厲害的

623
00:34:43,208 --> 00:34:46,288
對其實這也是一種人機交互上的突破

624
00:34:46,568 --> 00:34:50,728
因為其實GPD3以及3.5那時候已經出來了一段時間了

625
00:34:50,728 --> 00:34:52,448
至少根據Sam Altman的說法

626
00:34:52,608 --> 00:34:57,088
但是XGPT是第一個把它做成一個聊天機器人的交互介面

627
00:34:57,248 --> 00:34:59,568
而且那個介面確實非常乾淨好用

628
00:34:59,568 --> 00:35:00,608
大家都能用

629
00:35:00,608 --> 00:35:03,608
而不需要比如說自己去寫代碼才能用GPD3

630
00:35:03,824 --> 00:35:10,104
所以我覺得人機交互在未來很有可能跟人工智能大模型研究本身一樣的重要

631
00:35:10,104 --> 00:35:15,864
嗯是你覺得你現在的工作中最exciting的部分是什麼

632
00:35:15,864 --> 00:35:18,864
我現在在做一些多模態的研究

633
00:35:18,864 --> 00:35:23,344
還有對於人工智能決策上的就是做decision決策上的研究

634
00:35:23,344 --> 00:35:27,784
然後這兩塊我都覺得第一非常有意思第二未來的潛力也非常大

635
00:35:27,784 --> 00:35:32,984
首先多模態的話GPD4剛剛開始把視覺這塊加進來

636
00:35:33,024 --> 00:35:36,024
但是GPD4的視覺它還是一個靜態的視覺

637
00:35:36,024 --> 00:35:38,824
也就是說它一次輸入一張靜態的圖片

638
00:35:38,824 --> 00:35:41,424
可能還有些文本能夠再輸出一些文本

639
00:35:41,424 --> 00:35:43,624
但是我覺得未來多模態肯定會有

640
00:35:43,624 --> 00:35:46,324
比如說視頻或者三維或者語音

641
00:35:46,324 --> 00:35:48,024
這樣子模態也全都加進來

642
00:35:48,424 --> 00:35:53,424
並且不僅是輸入輸出也有可能是合成圖片合成語音等等

643
00:35:53,624 --> 00:35:56,324
所以我覺得這個是一個未來的必經的導向

644
00:35:56,624 --> 00:35:59,824
我自己在上個月也有一篇工作叫Prismar

645
00:35:59,968 --> 00:36:02,268
其實也是類似這樣一個想法

646
00:36:02,268 --> 00:36:06,168
就是如何把一些圖片的模態能夠接入大宇宙模型

647
00:36:06,168 --> 00:36:09,568
不需要太多的額外的訓練或額外的參數

648
00:36:09,568 --> 00:36:12,368
它就能把這幾個模態進行一個深度的融合

649
00:36:12,368 --> 00:36:14,368
所以這是一個很有意思的研究方向

650
00:36:14,368 --> 00:36:18,168
另外一方面我也在研究智能體做決策

651
00:36:18,168 --> 00:36:21,168
比如說在機器人或在遊戲裡面

652
00:36:21,168 --> 00:36:23,668
如何讓人工智能自主地探索

653
00:36:23,668 --> 00:36:24,968
完成各種各樣的任務

654
00:36:24,968 --> 00:36:27,360
這個是一個很難的研究問題

655
00:36:27,360 --> 00:36:32,040
目前為止也有很多種不同的方法能夠探索所以現在正在進行中

656
00:36:32,400 --> 00:36:35,600
我舉一個例子比如說我今天我現在在波士頓

657
00:36:35,600 --> 00:36:37,840
然後我想從波士頓飛舊金山

658
00:36:38,000 --> 00:36:42,600
我給AI一個任務讓它定一張從波士頓到舊金山的機票

659
00:36:42,600 --> 00:36:46,520
且還要便宜然後時間段會是在一個什麼樣的時間段內

660
00:36:46,560 --> 00:36:48,760
它完全定好發到我的郵箱

661
00:36:48,800 --> 00:36:51,680
你覺得現在整個AI可以做這件事情嗎

662
00:36:52,080 --> 00:36:53,600
現在肯定應該可以做了

663
00:36:53,744 --> 00:36:58,544
其實這個就可以通過GPT4或ChatGPT的插件就能做到

664
00:36:58,544 --> 00:37:02,184
你剛提到的比如說寫email或者上網瀏覽等等

665
00:37:02,184 --> 00:37:04,184
這些功能肯定是都能實現了

666
00:37:04,184 --> 00:37:05,944
我只想告訴他一個語言

667
00:37:05,944 --> 00:37:09,984
你來幫我訂一張從波士頓到舊金山的機票週一

668
00:37:09,984 --> 00:37:12,184
然後我要直飛比較便宜的

669
00:37:12,184 --> 00:37:13,184
對對

670
00:37:13,184 --> 00:37:15,904
這個的話可以通過一些對於Prompt

671
00:37:15,904 --> 00:37:18,504
也就是大語言模型提示的一些編寫

672
00:37:18,504 --> 00:37:20,384
就能夠做到你剛說的這個功能

673
00:37:20,496 --> 00:37:24,896
不過我這邊想加一句就是儘管這個東西可以做一個demo

674
00:37:24,896 --> 00:37:27,496
但是它沒有那麼的可靠

675
00:37:27,496 --> 00:37:32,376
比如說你讓它試十次我覺得有可能會有那麼四到五次

676
00:37:32,376 --> 00:37:33,776
它都會犯一些錯

677
00:37:33,776 --> 00:37:35,976
但這個犯的錯可能就會比較致命

678
00:37:35,976 --> 00:37:37,776
比如說你是要去波士頓

679
00:37:37,776 --> 00:37:40,376
它可能一不小心訂成了去舊金山的機票

680
00:37:40,376 --> 00:37:42,536
或者說是它沒有找到最便宜的

681
00:37:42,536 --> 00:37:45,136
它可能瀏覽了前三個搜索的結果

682
00:37:45,136 --> 00:37:46,736
但是可能最便宜的在第四個

683
00:37:46,736 --> 00:37:48,336
它就沒有看到那個等等

684
00:37:48,384 --> 00:37:50,584
所以我覺得還是沒有那麼的可靠

685
00:37:50,584 --> 00:37:52,784
但是至少目前我覺得是可以實現的

686
00:37:53,184 --> 00:37:55,384
我其實覺得現在整個大模型來說

687
00:37:55,384 --> 00:37:58,784
最重要的就是它如何去解決準確性的問題

688
00:37:58,784 --> 00:38:01,784
我該如何信任它給我的決策對不對

689
00:38:01,784 --> 00:38:04,784
這個我覺得是一個目前最大的難題之一

690
00:38:04,984 --> 00:38:07,584
如何讓它做到可靠並且是安全的

691
00:38:07,584 --> 00:38:09,384
比如說它會不會一不當心

692
00:38:09,384 --> 00:38:12,184
把你的信用卡的信息然後發在網上等等

693
00:38:12,184 --> 00:38:14,984
它不是說故意做但它可能就出錯了

694
00:38:15,184 --> 00:38:17,344
但是它也沒有跟你及時彙報

695
00:38:17,344 --> 00:38:21,504
你如果沒有仔細看的話可能就沒意識到結果你的個人信息就洩漏了

696
00:38:21,504 --> 00:38:25,784
或者說是它可能一不當心上了一個釣魚網站又把個人信息寫在上面

697
00:38:25,784 --> 00:38:28,784
它可能沒有辦法判斷那個網站是否是釣魚的

698
00:38:28,784 --> 00:38:32,104
所以我覺得這一塊上面還是有很多研究需要做的

699
00:38:32,104 --> 00:38:36,104
對對對就看起來它是一個挺簡單的人物

700
00:38:36,104 --> 00:38:40,304
但是交給機器的時候可能還是有很多我們意想不到的一些點會卡住

701
00:38:40,304 --> 00:38:42,704
而且我覺得它其實也是一個交互問題

702
00:38:42,720 --> 00:38:46,320
比如說我用語音輸入的話那它如何跟我互動

703
00:38:46,320 --> 00:38:49,920
然後它做決策的時候整個的流程怎麼走下來

704
00:38:49,920 --> 00:38:52,720
其實感覺還有很多很多的產品的問題需要解決

705
00:38:52,720 --> 00:38:56,120
對這個我覺得也不是一時半刻能解決的

706
00:38:56,120 --> 00:38:59,720
但是未來這些方向我覺得都非常激動人心

707
00:38:59,720 --> 00:39:02,720
你剛提到你現在工作中做的圖片模式

708
00:39:02,720 --> 00:39:05,320
可以介入到語言的大模型中

709
00:39:05,424 --> 00:39:09,544
包括我記得之前就是我們有嘉賓到我們《貴果101》的節目上聊

710
00:39:09,544 --> 00:39:12,424
他們就也是預測未來多模態的一些發展嘛

711
00:39:12,424 --> 00:39:15,584
就是說那未來我們想要去畫一個什麼樣的圖

712
00:39:15,584 --> 00:39:17,664
可能不需要輸入pumped詞了

713
00:39:17,664 --> 00:39:20,784
可以有更多的交互方式去告訴他怎麼畫

714
00:39:20,784 --> 00:39:23,864
好像這是大家都是在研究的一個方向

715
00:39:23,864 --> 00:39:27,944
對其實我覺得多模態一定程度上也是當提到的

716
00:39:27,944 --> 00:39:30,104
讓人際交互變得更加自然

717
00:39:30,104 --> 00:39:33,984
現在我覺得首先文本已經是一個很好的人際交互的界面了

718
00:39:34,128 --> 00:39:36,528
肯定是比我自己去安裝一個程序啊

719
00:39:36,528 --> 00:39:38,528
去點滑鼠什麼的更加自然的

720
00:39:38,528 --> 00:39:42,528
但是有很多問題並不是文本能夠很方便的表達

721
00:39:42,528 --> 00:39:45,328
有些時候可能給AI看一個圖片

722
00:39:45,328 --> 00:39:47,328
跟著這個圖片講會清晰很多

723
00:39:47,328 --> 00:39:49,528
就像有些時候我們人在交流的時候

724
00:39:49,528 --> 00:39:51,928
講一大段話不如就直接畫上圖

725
00:39:51,928 --> 00:39:53,328
來得清晰畫一個圖表

726
00:39:53,328 --> 00:39:55,328
所以我覺得其實多麼大的研究

727
00:39:55,328 --> 00:39:56,928
還有包括另外一個語音

728
00:39:56,928 --> 00:39:58,928
有些時候通過語音直接輸入

729
00:39:58,928 --> 00:40:00,928
也會是一個非常自然的一個界面

730
00:40:01,184 --> 00:40:07,864
所以我覺得現在多莫泰的研究也是一定程度上在推進剛才說的人機交互界面的可用程度

731
00:40:07,864 --> 00:40:09,864
對這是一個很重要的導向

732
00:40:09,864 --> 00:40:14,424
對對對然後你剛提到你研究的另一塊智能體的決策是什麼樣的

733
00:40:14,424 --> 00:40:18,664
我不知道它跟我剛剛訂機票的那個例子是不是有一些相同之處

734
00:40:18,664 --> 00:40:22,184
對其實剛才你說的這個就是一個決策的國產

735
00:40:22,184 --> 00:40:25,064
現在GPD-4有一定的決策能力

736
00:40:25,064 --> 00:40:29,184
但我覺得第一不是特別強有些複雜性還是做不了

737
00:40:29,184 --> 00:40:30,984
第二它不是特別可耗

738
00:40:31,152 --> 00:40:35,072
所以怎麼讓智能體做一些非常可靠的決策

739
00:40:35,072 --> 00:40:38,352
而且保證它按照規則來安全的執行

740
00:40:38,352 --> 00:40:41,152
然後我覺得這塊也是很多研究的一個方向

741
00:40:41,152 --> 00:40:44,792
因為我知道Jim之前是研究機器人的

742
00:40:44,792 --> 00:40:47,952
然後你為什麼從研究機器人轉向了多莫泰

743
00:40:47,952 --> 00:40:51,072
它這個中間是有比較傳承的一部分嗎

744
00:40:51,072 --> 00:40:56,072
對我覺得機器人其實是對於多莫泰的一個很好的研究的載體

745
00:40:56,072 --> 00:40:59,760
因為舉個例子有些任務我們想傳達給機器人

746
00:40:59,760 --> 00:41:01,960
可能完全通過文本會比較困難

747
00:41:02,320 --> 00:41:04,320
但有時候我們比如說告訴機器人

748
00:41:04,320 --> 00:41:05,560
這件事應該怎麼做

749
00:41:05,560 --> 00:41:08,320
可能機器人看著我們就是看了一段視頻

750
00:41:08,320 --> 00:41:09,360
我們就表演給他看

751
00:41:09,360 --> 00:41:11,920
比如說我現在想要做某一道菜

752
00:41:11,920 --> 00:41:13,000
做個番茄炒蛋

753
00:41:13,000 --> 00:41:14,600
這是我做的方式

754
00:41:14,600 --> 00:41:16,000
然後機器人看完以後

755
00:41:16,000 --> 00:41:17,720
他就也能夠去做番茄炒蛋

756
00:41:18,200 --> 00:41:20,720
這個要比我們詳細地把這整個過程

757
00:41:20,720 --> 00:41:22,240
要拿一個什麼材料等等

758
00:41:22,240 --> 00:41:24,440
全部都寫下來可能會更加的容易

759
00:41:24,752 --> 00:41:30,352
或者是我們可能又需要給機器人表演一遍這個菜該怎麼做同時也要有個講解

760
00:41:30,352 --> 00:41:36,152
用一些這種圖文並茂的給機器人一個輸入讓他才能夠聽得懂我們這樣一個想要他做的任務

761
00:41:36,152 --> 00:41:39,952
所以我覺得多麼太是一個對於機器人的一個很自然的界面

762
00:41:39,952 --> 00:41:42,952
理解聽起來還是一脈相承的

763
00:41:42,952 --> 00:41:45,352
那謝謝Jim 你有什麼要補充的嗎

764
00:41:45,352 --> 00:41:51,072
最後我就想說我覺得人工智能現在基本上是一個幾何爆炸的速度在發展

765
00:41:51,072 --> 00:41:54,832
可能我今天說的話說不定下週就有些模型已經能做到了

766
00:41:54,832 --> 00:41:58,272
可能我今天覺得是難題下周有篇論文出來已經解決了

767
00:41:58,272 --> 00:42:00,872
我覺得這個又是一個很激動人心的時候

768
00:42:00,872 --> 00:42:04,872
然後確實也是一個讓人非常感覺有點追無上時代的步伐

769
00:42:04,872 --> 00:42:06,472
因為實在步伐實在太快了

770
00:42:06,472 --> 00:42:08,072
我也在努力的追趕

771
00:42:08,072 --> 00:42:11,672
也希望大家聽了我們今天這個討論也有所幫助

772
00:42:11,672 --> 00:42:15,272
哇你是一個AI研究者你都覺得追不上步伐

773
00:42:15,272 --> 00:42:19,072
那我們來看到就覺得更快了對就眼花繚亂

774
00:42:19,104 --> 00:42:21,344
最後我稍微補充一個小問題

775
00:42:21,344 --> 00:42:24,784
為什麼人工智能會在今天這樣一個時間點

776
00:42:24,784 --> 00:42:26,544
形成一個爆炸式的發展

777
00:42:26,544 --> 00:42:29,744
它的幾個重要的貢獻點跟節點是什麼

778
00:42:29,744 --> 00:42:31,984
你可不可以幫大家簡單的梳理一下

779
00:42:31,984 --> 00:42:35,344
我覺得一個是算力和數據吧

780
00:42:35,344 --> 00:42:37,744
這個肯定是最最重要的

781
00:42:37,744 --> 00:42:41,744
然後算力的話用GPU能夠訓練這些大模型

782
00:42:41,744 --> 00:42:43,984
我覺得GPU可能也就在過去幾年裡面

783
00:42:43,984 --> 00:42:47,504
能夠達到一個大模型所需要的算力

784
00:42:47,600 --> 00:42:53,000
所以這個也是相對於人工智能的模型的能力也是跟著硬件發展而發展的

785
00:42:53,000 --> 00:42:56,600
然後硬件沒有到的話我覺得訓練這些大模型也非常的吃力

786
00:42:56,600 --> 00:42:58,000
所以這是一個時間點

787
00:42:58,000 --> 00:43:01,400
另外就是大家意識到通過大量的下載

788
00:43:01,400 --> 00:43:05,200
就從網上下載文本的數據能夠讓這模型變得越來越好

789
00:43:05,200 --> 00:43:09,600
可能比如說在GPD3之前大家在學術圈裡面做研究的時候

790
00:43:09,600 --> 00:43:11,600
都是用幾個固定的數據機

791
00:43:11,600 --> 00:43:15,400
剛提到的維基百科也好聯合國的一些文件也好等等

792
00:43:15,568 --> 00:43:19,968
但那些數據集體上面訓練的模型它不會有這種湧現的智能

793
00:43:19,968 --> 00:43:21,768
因為它的數據實在太少了

794
00:43:21,768 --> 00:43:24,168
但是後來的話GPD3就告訴我們

795
00:43:24,168 --> 00:43:27,968
通過大量的下載網上的文本的數據不斷地增加算力

796
00:43:27,968 --> 00:43:29,968
你可以有這樣一個湧現的智能

797
00:43:29,968 --> 00:43:34,168
所以我覺得從GPD3開始的時候大家才意識到大模型

798
00:43:34,168 --> 00:43:37,968
是一條通向一個更加通用的人工智能的路

799
00:43:37,968 --> 00:43:40,568
所以就是為什麼現在是這個時間的節點

800
00:43:40,568 --> 00:43:43,568
簡單來說就是對算力對數據

801
00:43:43,568 --> 00:43:44,720

802
00:43:44,720 --> 00:43:48,400
謝謝Jim今天的分享非常的精彩

803
00:43:48,400 --> 00:43:49,840
那另外我聲明一點

804
00:43:49,840 --> 00:43:51,640
今天Jim所有的發言呢

805
00:43:51,640 --> 00:43:54,320
都只代表個人觀點不代表公司

806
00:43:54,320 --> 00:43:55,520
好謝謝

807
00:43:55,520 --> 00:43:56,520
謝謝謝謝

808
00:43:58,240 --> 00:44:00,760
另外我們這期講OpenAI成章史的內容

809
00:44:00,760 --> 00:44:04,320
也有一個更加清晰完整的視頻盤點

810
00:44:04,320 --> 00:44:08,400
大家可以在B站上搜索矽谷101來關注我們

811
00:44:08,400 --> 00:44:10,200
這個視頻不是播客的副盤

812
00:44:10,200 --> 00:44:12,160
是專門為視頻去創作的

813
00:44:12,160 --> 00:44:14,560
也是我個人非常喜歡的一期

814
00:44:14,592 --> 00:44:20,832
當然也歡迎大家去關注我們開頭提到的B站整理的AIGC的優質內容合集

815
00:44:20,832 --> 00:44:23,672
建立自己關注的渠道和資源庫

816
00:44:23,672 --> 00:44:27,392
關注的方法是播客Show Notes中點鏈接

817
00:44:27,392 --> 00:44:31,112
或者在B站搜索AI工具大法

818
00:44:31,112 --> 00:44:37,392
也歡迎大家在我們的評論區推薦你們看過的高質量的AI視頻

819
00:44:37,392 --> 00:44:39,392
大家來相互的學習一下

820
00:44:39,728 --> 00:44:45,488
這就是我們今天的節目如果大家對我們的節目有什麼樣的觀點和看法

821
00:44:45,488 --> 00:44:50,088
也歡迎大家給我們寫評論寫留言感謝大家的收聽謝謝

沒有留言:

張貼留言