音檔來源 :
硅谷101 : E107|AI大爆發:OpenAI極早期歷史,以及圖像領域的GPT moment|AIGC特輯
還有一位叫Alec Radford
他當時在研究其實後來非常像GPT的一個東西
當然那個時候還沒有Transformer這樣子一個神經網絡的架構
那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種
Alec Redford他當時就提出我們應該訓練語言模型
並且不僅是用LSTM來實現
而且需要在很大的數據上面進行訓練
所以他當時就想到通過預測一句話的後面一個單詞
這樣子一個非常簡單的一個目標函數來訓練整個神經網絡
所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了
所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身
它也是GPT的相當於一個技術的奠基
對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數
它其實和神經網絡具體的架構本身是可以相對獨立的
所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現
但是這個背後的思想的範疇是一樣的
還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據
比如說像Reddit是一個美國比較流行的論壇
它有一個特點就是所有的人可以匿名的去發一些評論
而且會有對話的一個過程
所以其實那個時候就已經有這樣一個對話機器人
也就後來ChatGPT的前身其實在那個時候已經有一些影子了
當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣
因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔
那些文檔的話都內容比較嚴肅比較刻板
所以就不太會生成一些有意思的東西
但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練
那這樣子的話這個AI它就能夠生成更有意思的東西
但我不覺得16年的時候OpenAI或者任何學術圈的人意識到
只要把這個東西不斷地加算力加數據把它scale up
就能夠實現一個類似或者接近於通用人工智能體的一個技術
我覺得當時沒有一個人真的意識到
但我覺得確實那個時候已經埋下了種子
你指的埋下種子是指什麼
就是在隨著大家的研究逐漸深入
大家發現這件事情堆算力就可以解決
1
00:00:00,000 --> 00:00:02,320
嗨大家好
2
00:00:02,320 --> 00:00:05,760
開始的時候我們矽谷101聯合B站
3
00:00:05,760 --> 00:00:07,840
給聽眾發一波福利
4
00:00:07,840 --> 00:00:09,920
代引號的福利是什麼呢
5
00:00:09,920 --> 00:00:15,280
B站精心整理的AIGC的視頻教程合集
6
00:00:15,280 --> 00:00:18,080
最近生成式AI的發展實在是太快了
7
00:00:18,080 --> 00:00:22,240
我們一檔節目也只能講清楚其中很小的一部分
8
00:00:22,240 --> 00:00:26,320
但是B站做了一個系統的講AIGC的教程合集
9
00:00:26,336 --> 00:00:30,656
也邀請我們來給大家推荐一些專業有用的視頻
10
00:00:30,656 --> 00:00:32,096
去加入這個合集
11
00:00:32,096 --> 00:00:35,696
想到我們的節目有很多很多關注技術的同學
12
00:00:35,696 --> 00:00:39,896
所以我是推薦了亞馬遜前首席科學家李沐的專輯
13
00:00:39,896 --> 00:00:41,296
《跟李沐學AI》
14
00:00:41,296 --> 00:00:42,696
大家好,我是李沐
15
00:00:42,696 --> 00:00:44,096
在過去五年裡面
16
00:00:44,096 --> 00:00:47,696
他在B站上有很多從論文層面的解讀
17
00:00:47,696 --> 00:00:49,376
因為我自己一直相信
18
00:00:49,376 --> 00:00:53,216
去讀一手材料是最好的認識一件事情的方法
19
00:00:53,248 --> 00:00:55,608
同樣我也推薦了自己的視頻
20
00:00:55,608 --> 00:00:57,968
就是我們講Chad GPT的特輯
21
00:00:57,968 --> 00:01:00,688
是聊OpenAI黑手黨的一期
22
00:01:00,688 --> 00:01:02,248
除了OpenAI
23
00:01:02,248 --> 00:01:06,448
還有這幫出逃的AI叛徒將重塑人類的未來
24
00:01:06,448 --> 00:01:10,208
Chad GPT背後的公司OpenAI從2015年成立以來
25
00:01:10,208 --> 00:01:13,288
已經有30多個早期員工集體叛逃
26
00:01:13,288 --> 00:01:14,848
自己辭職出來單幹
27
00:01:14,848 --> 00:01:18,648
大家也可以去核心裡面看一看我們的這期視頻
28
00:01:18,704 --> 00:01:22,864
除此之外這個合集還有AIGC的發展史趨勢
29
00:01:22,864 --> 00:01:24,464
以及商業競爭的部分
30
00:01:24,464 --> 00:01:28,824
可以幫助大家非常系統地去了解和認識AI
31
00:01:28,824 --> 00:01:31,944
另外也有很多很多的實用教程
32
00:01:31,944 --> 00:01:33,744
比如大家都很感興趣的
33
00:01:33,744 --> 00:01:36,184
怎麼樣用Mid Journey去畫畫
34
00:01:36,184 --> 00:01:38,784
怎麼樣用Notion AI去寫作
35
00:01:38,784 --> 00:01:42,024
也有AI繪畫語音合成編程辦公
36
00:01:42,024 --> 00:01:44,704
等各種實用教程的大合集
37
00:01:44,704 --> 00:01:47,584
可以說內容是非常的詳細完整
38
00:01:47,632 --> 00:01:51,112
為什麼我說它是一個帶引號的福利呢?
39
00:01:51,112 --> 00:01:55,232
因為我最近其實一直有在收到一些聽眾的來信
40
00:01:55,232 --> 00:02:00,632
很多人很關心說這一波AI到底會不會取代我們的工作
41
00:02:00,632 --> 00:02:03,312
如何在AI時代不被淘汰
42
00:02:03,312 --> 00:02:05,432
我的答案其實也很簡單
43
00:02:05,432 --> 00:02:07,152
了解它擁抱它
44
00:02:07,152 --> 00:02:10,432
成為最先會使用AI的那一波人
45
00:02:10,432 --> 00:02:14,952
所以我會把合集的鏈接放在我們播客的show notes中
46
00:02:14,952 --> 00:02:17,712
感興趣的同學可以點擊去看一看
47
00:02:17,712 --> 00:02:22,912
那大家也可以直接在B站上搜索AI工具大法
48
00:02:22,912 --> 00:02:26,192
來查看AIGC的視頻合集
49
00:02:26,192 --> 00:02:29,592
另外我也推薦一下我們矽谷101在B站上的視頻
50
00:02:29,592 --> 00:02:32,752
我們講了很多跟AIGC相關的內容
51
00:02:32,752 --> 00:02:35,392
比如說我剛剛推薦的OpenAI黑手檔
52
00:02:35,392 --> 00:02:39,632
還有谷歌與微軟關於Chad GPT的世紀之戰
53
00:02:39,632 --> 00:02:42,072
以及Chad GPT的風險爭議
54
00:02:42,072 --> 00:02:44,432
大家感興趣也可以去看一看
55
00:02:44,928 --> 00:02:49,528
那這期呢我們就來聊一下OpenAI的早期成長史
56
00:02:49,528 --> 00:02:53,128
跟我們在一起的嘉賓是AI研究者Jim Fan
57
00:02:53,128 --> 00:02:54,528
Hello Jim你好
58
00:02:54,528 --> 00:02:55,848
Hello Jim你好
59
00:02:55,848 --> 00:02:58,648
Jim今天也是在非常忙的時間裡面
60
00:02:58,648 --> 00:03:01,008
來抽時間參加我們的節目錄製
61
00:03:01,008 --> 00:03:02,368
Jim的大概背景
62
00:03:02,368 --> 00:03:05,048
我看你之前是斯坦福計算機的PHD
63
00:03:05,048 --> 00:03:06,568
也是李飛飛的學生
64
00:03:06,568 --> 00:03:09,768
早期呢在OpenAI和Google AI都工作過
65
00:03:09,768 --> 00:03:12,928
也算是OpenAI的應該是第一個實習生吧
66
00:03:12,928 --> 00:03:14,480
對第一屆實習生對
67
00:03:14,480 --> 00:03:19,280
你加入OpenAI的時候是在2016年對2016年的暑假的時候
68
00:03:19,280 --> 00:03:24,080
可不可以跟大家講一下為什麼在那麼早期的時候會選中OpenAI
69
00:03:24,080 --> 00:03:26,880
我覺得當時也是有些朋友推薦
70
00:03:26,880 --> 00:03:31,480
那時候看到OpenAI他們的科學家創始團隊特別的厲害
71
00:03:31,480 --> 00:03:33,680
所以當時就也被他們吸引過去的
72
00:03:33,680 --> 00:03:37,480
那個時候的OpenAI差不多有30個人左右吧
73
00:03:37,480 --> 00:03:41,880
基本上每一個人都是響噹噹就名聲特別響的大牛
74
00:03:42,048 --> 00:03:46,048
比如說當時有Ian Goodfellow是GAN的發明人
75
00:03:46,048 --> 00:03:48,048
就是生成對抗式網絡
76
00:03:48,048 --> 00:03:50,048
還有Dirk Kinmach是Adam的發明人
77
00:03:50,048 --> 00:03:54,048
也是現在所有的深度學習的優化器用的算法
78
00:03:54,048 --> 00:03:58,048
Andre Caparzee、Ilea、OpenAI的Chief
Scientist等等
79
00:03:58,048 --> 00:04:00,048
就是都特別特別強的一個陣容
80
00:04:00,048 --> 00:04:03,048
是那在你加入OpenAI的時候
81
00:04:03,048 --> 00:04:06,048
你會負責其中的哪些工作
82
00:04:06,048 --> 00:04:08,048
OpenAI當時他研究的東西
83
00:04:08,048 --> 00:04:11,008
你覺得跟今天有很大的不一樣嗎
84
00:04:11,008 --> 00:04:15,008
再說一個背景信息OpenAI大概是在2015年成立的
85
00:04:15,008 --> 00:04:19,808
你應該就是在OpenAI非常早期一年之內就加入了
86
00:04:19,808 --> 00:04:22,008
然後做了他們的第一個實習生
87
00:04:22,008 --> 00:04:25,008
對我覺得非常榮幸能夠在早期的時候看到
88
00:04:25,008 --> 00:04:29,008
OpenAI內部做的一些研究以及他們的一些想法
89
00:04:29,008 --> 00:04:33,008
那個時候我負責的項目叫做OpenAI Universe
90
00:04:33,008 --> 00:04:37,008
那個項目它其實是一個通用決策智能體的一個探索
91
00:04:37,312 --> 00:04:40,912
Open Air Universe的意思是所有的比如說網站啊
92
00:04:40,912 --> 00:04:42,992
一些web application 網站的應用
93
00:04:42,992 --> 00:04:46,152
遊戲等等都可以通過鼠標和鍵盤來控制
94
00:04:46,552 --> 00:04:49,392
Open Air他們搭建了一個infrastructure吧
95
00:04:49,392 --> 00:04:52,432
就是能夠用鼠標和鍵盤來控制這些遊戲
96
00:04:52,432 --> 00:04:56,032
然後能夠比如說去解一些網上的web application
97
00:04:56,152 --> 00:04:58,512
當時我們就想要訓練智能體
98
00:04:58,512 --> 00:04:59,672
然後能做這件事情
99
00:04:59,792 --> 00:05:02,952
當然在16年的時候技術還遠遠沒有很成熟
100
00:05:03,272 --> 00:05:06,712
所以對那個時候我覺得效果並沒有特別的好
101
00:05:06,880 --> 00:05:10,360
但是那時候其實OpenAI一直想要追求的就是通用智能體
102
00:05:10,360 --> 00:05:12,960
那也是我當時實習的項目的一部分
103
00:05:12,960 --> 00:05:16,760
什麼叫通用智能體可不可以跟聽眾們解釋一下
104
00:05:16,760 --> 00:05:20,080
通用智能體的意思就是這一個人工智能
105
00:05:20,080 --> 00:05:23,120
它不是為一個專門的領域所設計的
106
00:05:23,120 --> 00:05:24,960
比如說一個專門的任務所設計的
107
00:05:24,960 --> 00:05:30,160
它能夠用同一個模型做幾百種上千種甚至無數種任務
108
00:05:30,160 --> 00:05:32,560
至少當時是有這樣子一個想法
109
00:05:32,560 --> 00:05:34,912
具體的這個體現就是OpenAI Universe
110
00:05:34,912 --> 00:05:39,212
它的一個實現就是通過看屏幕上面的像素
111
00:05:39,212 --> 00:05:42,912
直接能夠輸出鍵盤和鼠標的一些Action
112
00:05:43,312 --> 00:05:44,992
你說的這個通用智能體
113
00:05:44,992 --> 00:05:48,792
因為我們知道現在OpenAI它的目標包括Sam Altman
114
00:05:48,792 --> 00:05:51,592
他經常在媒體面前講的就是AGI
115
00:05:51,852 --> 00:05:56,192
通用人工智能就是說人工智能在所有的方向做的東西
116
00:05:56,192 --> 00:05:57,592
不弱於人的水平
117
00:05:57,652 --> 00:05:58,892
當然這是我的一個定義
118
00:05:58,892 --> 00:06:00,992
就關於AGI到底是什麼定義的話
119
00:06:00,992 --> 00:06:03,392
我相信業界跟學界有很多很多的說法
120
00:06:03,536 --> 00:06:07,736
那你說的這個通用智能體它跟AGI的這樣的一個關係是什麼呢
121
00:06:07,736 --> 00:06:11,936
我覺得基本上通用智能體和AGI這兩個概念差不多
122
00:06:11,936 --> 00:06:16,336
但是只不過具體怎麼實現它們有很多種不同的方式
123
00:06:16,336 --> 00:06:20,536
比如說後來可能過了好多年OpenAI它們發現了GBT
124
00:06:20,536 --> 00:06:25,336
然後通過自然語言來實現類似通用智能體的一個AI
125
00:06:25,336 --> 00:06:28,936
但是當時其實OpenAI Universe就是我實習的時候參與的那個項目
126
00:06:28,936 --> 00:06:30,736
它走的路徑特別的不一樣
127
00:06:30,944 --> 00:06:35,144
它是通過決策通過這樣子一個鼠標和鍵盤的方式來實現
128
00:06:35,344 --> 00:06:38,384
當然後來發現其實用文本來實現通用智能體
129
00:06:38,384 --> 00:06:42,144
是一條比用鼠標和鍵盤要快很多的一個路徑
130
00:06:42,224 --> 00:06:43,344
但這個是後花了
131
00:06:43,744 --> 00:06:48,024
你可不可以跟大家介紹一下在OpenAI早期你加入的時候
132
00:06:48,344 --> 00:06:53,024
那些加入OpenAI的大牛們你剛剛也簡單的介紹了一些人
133
00:06:53,024 --> 00:06:55,424
然後我記得上次其實我們聊天的時候你有說
134
00:06:55,424 --> 00:06:58,824
在早期OpenAI工作也是一件壓力特別大的事情
135
00:06:58,824 --> 00:07:00,344
因為身邊都是大神嘛
136
00:07:00,432 --> 00:07:03,592
在這群人中你覺得大家的一個共同目標是什麼?
137
00:07:03,592 --> 00:07:07,592
誰在主導整個OpenAI的研究方向?
138
00:07:07,592 --> 00:07:11,232
對我覺得當時OpenAI真的是一個神一樣的地方
139
00:07:11,232 --> 00:07:15,832
因為所有的那些在那邊全職的科學家基本都是業界的大牛
140
00:07:15,832 --> 00:07:19,992
而且他們很多論文我在沒有加入OpenAI之前就全都讀過
141
00:07:19,992 --> 00:07:23,632
所以去那邊基本上就是見到我當時心中的眾神們
142
00:07:23,632 --> 00:07:28,552
所以我覺得那個時候的OpenAI還是研究的方向比較多樣化
143
00:07:28,560 --> 00:07:31,960
因為每一個大神他們其實有自己的一個研究的領域
144
00:07:31,960 --> 00:07:33,760
大家都在探索不同的東西
145
00:07:33,760 --> 00:07:39,160
比如說剛才提到的Ian Goodfellow在研究的是更多的生成對抗式的這種模型
146
00:07:39,160 --> 00:07:43,160
Dirk Kinmar他可能研究的更多是像辨分自編碼器
147
00:07:43,160 --> 00:07:46,160
就是Variational Autoencoder VAE這條路
148
00:07:46,160 --> 00:07:48,360
還有一位叫Alec Radford
149
00:07:48,360 --> 00:07:52,560
他當時在研究其實後來非常像GBT的一個東西
150
00:07:52,560 --> 00:07:57,360
當然那個時候還沒有Transformer這樣子一個神經網絡的架構
151
00:07:57,440 --> 00:08:02,940
那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種
152
00:08:02,940 --> 00:08:06,440
Alec Redford他當時就提出我們應該訓練語言模型
153
00:08:06,440 --> 00:08:08,940
並且不僅是用LSTM來實現
154
00:08:08,940 --> 00:08:11,940
而且需要在很大的數據上面進行訓練
155
00:08:11,940 --> 00:08:16,940
所以他當時就想到通過預測一句話的後面一個單詞
156
00:08:16,940 --> 00:08:21,440
這樣子一個非常簡單的一個目標函數來訓練整個神經網絡
157
00:08:21,440 --> 00:08:25,940
所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了
158
00:08:26,368 --> 00:08:33,808
所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身
159
00:08:33,808 --> 00:08:37,008
它也是GPT的相當於一個技術的電機
160
00:08:37,008 --> 00:08:43,088
對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數
161
00:08:43,088 --> 00:08:47,088
它其實和神經網絡具體的架構本身是可以相對獨立的
162
00:08:47,088 --> 00:08:53,008
所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現
163
00:08:53,008 --> 00:08:56,288
但是這個背後的思想的範疇是一樣的
164
00:08:56,512 --> 00:09:02,272
還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據
165
00:09:02,272 --> 00:09:05,352
比如說像Reddit是一個美國比較流行的論壇
166
00:09:05,352 --> 00:09:10,992
它有一個特點就是所有的人可以匿名的去發一些評論
167
00:09:10,992 --> 00:09:12,912
而且會有對話的一個過程
168
00:09:12,912 --> 00:09:15,512
所以其實那個時候就已經有這樣一個對話機器人
169
00:09:15,512 --> 00:09:18,992
也就後來ChagPT的前身其實在那個時候已經有一些影子了
170
00:09:18,992 --> 00:09:25,232
當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣
171
00:09:25,392 --> 00:09:31,192
因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔
172
00:09:31,192 --> 00:09:34,492
那些文檔的話都內容比較嚴肅比較刻板
173
00:09:34,492 --> 00:09:37,192
所以就不太會生成一些有意思的東西
174
00:09:37,192 --> 00:09:44,792
但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練
175
00:09:44,792 --> 00:09:47,992
那這樣子的話這個AI它就能夠生成更有意思的東西
176
00:09:48,192 --> 00:09:52,352
但我不覺得16年的時候OpenAI或者任何學術圈的人意識到
177
00:09:52,352 --> 00:09:56,672
只要把這個東西不斷地加算力加數據把它scale up
178
00:09:56,672 --> 00:10:00,792
就能夠實現一個類似或者接近於通用人工智能體的一個技術
179
00:10:00,792 --> 00:10:02,792
我覺得當時沒有一個人真的意識到
180
00:10:02,792 --> 00:10:05,392
但我覺得確實那個時候已經埋下了種子
181
00:10:05,392 --> 00:10:07,872
你指的埋下種子是指什麼
182
00:10:07,872 --> 00:10:10,912
就是在隨著大家的研究逐漸深入
183
00:10:10,912 --> 00:10:13,952
大家發現這件事情堆算力就可以解決
184
00:10:13,952 --> 00:10:17,552
對在剛提到的Elec他的探索下
185
00:10:17,664 --> 00:10:21,504
之後Transformer出來了OpenEye就提出了GPT
186
00:10:21,504 --> 00:10:25,504
GPT這個算法全稱叫generative pre-training
187
00:10:25,504 --> 00:10:27,064
我這邊大概解釋一下
188
00:10:27,064 --> 00:10:32,264
Transformer那篇論文是谷歌研究院的科學家提出來的
189
00:10:32,264 --> 00:10:34,504
當時提出的時候Transformer有兩個部分
190
00:10:34,504 --> 00:10:36,504
一個是編碼器encoder
191
00:10:36,504 --> 00:10:38,504
還有一個是解碼器decoder
192
00:10:38,504 --> 00:10:41,944
但是GPT他就提出我們不需要編碼器
193
00:10:41,944 --> 00:10:44,184
我們只要解碼器decoder就可以了
194
00:10:44,272 --> 00:10:48,552
decoder他的訓練的原理就是不斷地預測下一個單詞
195
00:10:48,552 --> 00:10:54,072
所以其實在這一點上面和剛提到的LSTM等回饋式神經網絡是特別的像的
196
00:10:54,072 --> 00:11:00,672
因為2016年的時候OpenAI做了那些回饋式神經網絡和下一個單詞預測這樣嘗試
197
00:11:00,672 --> 00:11:07,072
所以對他們來說GPT作為一個純解碼器的一個模型是一個很自然而然的一個眼神
198
00:11:07,072 --> 00:11:12,496
但其實當時學術圈裡面並沒有達成共識為什麼一定只用解碼器
199
00:11:12,496 --> 00:11:18,976
我舉個例子,比如說谷歌在Transformer之後有一篇特別火的資安源處理的工作
叫Bert
200
00:11:18,976 --> 00:11:22,576
Bert其實和GBT是反其道而行之
201
00:11:22,576 --> 00:11:26,736
它是純粹只有編碼器,也就是它是encoder的一個模型
202
00:11:26,736 --> 00:11:29,856
它其實並沒有像GBT那樣的一個解碼器
203
00:11:29,856 --> 00:11:34,896
它是完全通過編碼器來做一個表徵學習,也有所謂的representation
learning
204
00:11:34,896 --> 00:11:39,136
但是GBT的話它提出的是用解碼器來進行生成
205
00:11:39,136 --> 00:11:44,336
所以我覺得那個時候學術圈裡面還是處於一個百花齊放百家真名的狀態
206
00:11:44,336 --> 00:11:48,536
有不同的解碼器、解碼器或者一個混合有各種各樣的學派
207
00:11:48,536 --> 00:11:51,736
當時包括我在內我覺得很多人也沒有意識到
208
00:11:51,736 --> 00:11:53,736
就GPT其實是非常好的一條路
209
00:11:53,736 --> 00:11:55,216
可能比別的模型會更強
210
00:11:55,216 --> 00:11:57,616
當時我覺得絕大部分人都沒有意識到
211
00:11:58,216 --> 00:12:03,016
那大家是怎麼敢在GPT裡面去堆這麼多的算力進去
212
00:12:03,016 --> 00:12:04,616
這麼多的數據進去
213
00:12:04,616 --> 00:12:08,096
因為其實堆算力的過程就是不停地板
214
00:12:08,096 --> 00:12:10,096
資金砸入進去的一個過程
215
00:12:10,096 --> 00:12:13,656
我覺得我們除了說它需要很多的決心
216
00:12:13,656 --> 00:12:17,256
同時我相信大家需要在科研上是看到有反饋的
217
00:12:17,496 --> 00:12:19,816
那為什麼大家最後賭的是GPT
218
00:12:20,256 --> 00:12:24,616
對,我覺得首先我在16年數集之後就離開OpenAI
219
00:12:24,616 --> 00:12:28,256
所以之後他們做GPT的時候我並沒有親自在場
220
00:12:28,376 --> 00:12:30,696
所以我也只從外界來觀察這事
221
00:12:30,856 --> 00:12:35,016
我大致猜測就是後來在GPT之後出了GPT2
222
00:12:35,168 --> 00:12:40,968
GPT2其實跟本來的GPT1的模型算法是幾乎完全一樣的
223
00:12:40,968 --> 00:12:43,928
唯一的區別就是更多的數據、更大的模型
224
00:12:43,928 --> 00:12:46,288
但其實GPT2也沒有特別大
225
00:12:46,288 --> 00:12:48,848
就是大到不容個十個億美金訓練不了
226
00:12:48,848 --> 00:12:50,568
也遠遠沒有到這個規模
227
00:12:50,568 --> 00:12:54,688
但是其實GPT2已經有一些我們稱之為叫emergent property
228
00:12:54,688 --> 00:12:57,008
就一種湧現的一些智能在裡面
229
00:12:57,008 --> 00:13:00,168
比如說它做多任務什麼的會做得特別好
230
00:13:00,168 --> 00:13:02,008
比GPT1會好很多
231
00:13:02,008 --> 00:13:05,128
還包括一些微調、fine tuning什麼也都做得很好
232
00:13:05,424 --> 00:13:08,984
所以我覺得OpenAI可能在那個時候看到GPT-2
233
00:13:08,984 --> 00:13:13,624
它的能力還要生成文本的流暢程度比GPT-1高那麼多
234
00:13:13,624 --> 00:13:15,784
我覺得他們可能看到了這一點
235
00:13:15,784 --> 00:13:17,224
然後他們就下了一個賭注
236
00:13:17,224 --> 00:13:19,944
我們能大量的算力、大量的經費
237
00:13:19,944 --> 00:13:22,584
把GPT-2擴大10倍甚至100倍
238
00:13:22,584 --> 00:13:25,104
所以後來就成為了GPT-3
239
00:13:25,104 --> 00:13:27,504
所以我覺得這條應該是OpenAI內部
240
00:13:27,504 --> 00:13:29,784
他們看到了這樣一種湧現的智能
241
00:13:29,784 --> 00:13:30,904
下了一個賭注
242
00:13:30,904 --> 00:13:32,304
當然有可能賭輸
243
00:13:32,304 --> 00:13:34,944
但是事實上就是歷史證明他們賭贏了
244
00:13:35,056 --> 00:13:37,496
所以我覺得這也是一個很非凡的成就
245
00:13:37,496 --> 00:13:41,656
是的你剛說到其實還有一個點我覺得挺有意思的
246
00:13:41,656 --> 00:13:47,336
你提到Ellick他其實是最早提出用Reddit的數據去做訓練數據的
247
00:13:47,336 --> 00:13:52,016
因為以往大家在堆訓練數據的時候可能會去堆更準確的數據
248
00:13:52,016 --> 00:13:56,936
比如說維基百科他在說一個事實的時候他的數據是非常準的
249
00:13:56,976 --> 00:14:00,216
但我們知道在Reddit上它其實是一個用戶論壇嘛
250
00:14:00,216 --> 00:14:02,376
然後這個論壇上什麼樣的帖子也有
251
00:14:02,376 --> 00:14:05,576
也有很多的回帖也有很多的Meme符號
252
00:14:05,576 --> 00:14:08,936
但是可能在這個論壇上也有很多逆氣
253
00:14:08,936 --> 00:14:11,656
大家去懟一件事情這都是非常正常的
254
00:14:11,656 --> 00:14:14,376
他當時想把Reddit的數據加進去
255
00:14:14,376 --> 00:14:17,056
只是說他為了去擴大數據量
256
00:14:17,056 --> 00:14:20,176
還是說他其實是為了讓他的表述更加生動
257
00:14:20,176 --> 00:14:21,656
還是出於其他的什麼原因
258
00:14:21,824 --> 00:14:27,824
當時我想知道你們在去決定去用一些新的數據去做訓練的時候這個思考是什麼
259
00:14:27,824 --> 00:14:33,824
首先我當時不在那個項目上所以他們的初衷我並不知道這是我的猜想啊
260
00:14:33,824 --> 00:14:37,824
我覺得就像你剛才提到的Reddit它更加生動它沒有那麼死板
261
00:14:37,824 --> 00:14:43,824
它不只是一個平鋪直敘的解釋一個知識點比如說百度百科啊
維基百科都是解釋一個知識點
262
00:14:43,824 --> 00:14:49,776
沒有什麼情感但是其實在Reddit上面中各種各樣的情感很多喜怒哀樂都有
263
00:14:49,776 --> 00:14:53,496
所以我猜測是他們覺得這樣作為一個生成式的模型
264
00:14:53,496 --> 00:14:54,896
至少會特別有意思
265
00:14:54,896 --> 00:14:59,096
因為你可以讓它生成各種語境下面的不同的一些話
266
00:14:59,096 --> 00:15:02,296
但如果GPT模型只用微幾百克來訓練的話
267
00:15:02,296 --> 00:15:05,696
那它生成的永遠是這種平凸直續的比較枯燥的內容
268
00:15:05,696 --> 00:15:10,016
所以我覺得可能一定程度上是從因為他們想要生成內容
269
00:15:10,016 --> 00:15:12,376
什麼樣的內容最有意思生成呢
270
00:15:12,376 --> 00:15:15,576
那可能是要從論壇上面大家這樣一個聊天的記錄
271
00:15:15,576 --> 00:15:18,816
其實Reddit就是一個公開聊天記錄說白了
272
00:15:18,944 --> 00:15:23,344
所以他們拿聊天記錄過來肯定生成的東西會更加生動一些
273
00:15:23,344 --> 00:15:25,744
我估計初衷是這樣的
274
00:15:25,744 --> 00:15:28,544
你早期2016年在的時候
275
00:15:28,544 --> 00:15:33,744
那個時候Sam Altman跟馬斯克因為他們當時是都在OpenAI
276
00:15:33,744 --> 00:15:36,944
你覺得誰對OpenAI的影響更大一點
277
00:15:36,944 --> 00:15:40,944
當然我當時是個實習生沒有接觸過他們決策管理層
278
00:15:40,944 --> 00:15:42,544
所以我不太清楚
279
00:15:42,816 --> 00:15:46,616
不過我覺得當時從技術上面的話我不知道他們參與了多少
280
00:15:46,616 --> 00:15:51,256
但我覺得Illya還有Alec還有Andre Caparzi和Greg
Brockman
281
00:15:51,256 --> 00:15:54,616
我覺得對GBT這樣一個技術的影響是非常的大的
282
00:15:54,816 --> 00:15:57,976
他們是直接去做這樣一個項目的科學家
283
00:15:58,456 --> 00:16:02,256
上次其實我們聊天的時候你還提到一個非常有意思的現象
284
00:16:02,256 --> 00:16:05,496
我們在提到跟AI相關方向的研究的時候
285
00:16:05,496 --> 00:16:07,576
V-RAN早期是非常非常強的
286
00:16:07,696 --> 00:16:12,496
那之後是很多人才跟AI研究相關的去了Google Brain
287
00:16:12,688 --> 00:16:14,848
後來又是去了OpenAI
288
00:16:14,848 --> 00:16:17,688
那如果你作為一個AI研究者
289
00:16:17,688 --> 00:16:21,688
就你覺得什麼是最吸引你去到一家公司的
290
00:16:21,688 --> 00:16:24,408
我現在在英偉達做研究科學家
291
00:16:24,408 --> 00:16:27,048
我覺得加入英偉達有幾個原因吧
292
00:16:27,048 --> 00:16:31,408
一個是英偉達研究院做的研究多樣性比較廣
293
00:16:31,408 --> 00:16:33,568
比如說有做計算識的視覺的
294
00:16:33,568 --> 00:16:35,208
有做自然元處理的
295
00:16:35,208 --> 00:16:36,648
還有做機器人的等等
296
00:16:36,848 --> 00:16:39,488
對我來說我從博士剛畢業的時候
297
00:16:39,488 --> 00:16:42,128
其實我是想要繼續能做一些研究的工作
298
00:16:42,128 --> 00:16:44,048
不一定說就直接去做產品
299
00:16:44,048 --> 00:16:47,168
然後我就因為在研究院給我很多探索的自由
300
00:16:47,168 --> 00:16:50,448
這一點上我是覺得一個很吸引我的地方
301
00:16:50,448 --> 00:16:55,408
第二看一個公司看它資源或者說是長期的計劃是怎麼樣的
302
00:16:55,408 --> 00:16:58,528
我確實覺得英偉達第一資源肯定是很強的
303
00:16:58,528 --> 00:17:00,448
畢竟我們是做GPU的公司
304
00:17:00,448 --> 00:17:04,768
現在GPU就顯卡基本上是訓練AI的主要的硬件
305
00:17:04,944 --> 00:17:07,504
所以我覺得這塊公司資源非常的強
306
00:17:07,504 --> 00:17:12,384
而且公司長期來說因為現在AI的模型基本都是用GPU來訓練的
307
00:17:12,384 --> 00:17:14,384
所以我覺得這塊發展也會比較好
308
00:17:14,384 --> 00:17:17,904
綜上所述就是一個是研究的自由探索自由
309
00:17:17,904 --> 00:17:19,904
還有第二個是未來的發展及資源
310
00:17:19,904 --> 00:17:21,904
這個是我比較重視的幾個方面
311
00:17:21,904 --> 00:17:23,904
我覺得選擇還是非常好的
312
00:17:23,904 --> 00:17:26,464
因為大家現在看英偉達的股價也看到了
313
00:17:26,464 --> 00:17:29,664
我們前期就聊了很多跟OpenAI相關的
314
00:17:29,664 --> 00:17:33,504
包括它的早期的成長包括你早期在中間的一些經歷
315
00:17:33,600 --> 00:17:38,600
接下來我其實也有一些關於大模型的一些觀點性的東西想跟你討論一下
316
00:17:38,600 --> 00:17:42,040
可能也是現在市場上大家關注的比較多的
317
00:17:42,040 --> 00:17:47,440
第一個問題就是未來的大模型你認為它會不會是一個贏者通吃的市場
318
00:17:47,440 --> 00:17:50,480
還是說它會有多個大模型存在的市場
319
00:17:50,480 --> 00:17:55,800
因為我們現在看OpenAI它可能暫時的領先其他大模型一段時間
320
00:17:55,800 --> 00:17:58,880
但它的領先可能是它會吃進去很多的數據
321
00:17:58,880 --> 00:18:00,600
大家會不停地跟OpenAI互動
322
00:18:00,600 --> 00:18:02,720
然後它會有反饋它會變得更強
323
00:18:02,800 --> 00:18:09,240
但是同時我們說不管是谷歌的模型還是說像Stability 包括一些圖片的模型
324
00:18:09,240 --> 00:18:14,480
它們有自己很強的應用你覺得未來的大模型的市場格局會是怎麼樣的呢?
325
00:18:14,480 --> 00:18:22,960
我覺得首先應該不會是迎者通吃肯定會有多個大模型但是我覺得也不會太多
326
00:18:23,136 --> 00:18:27,736
可能曾經比如說像SARS或者是做手機APP
327
00:18:27,736 --> 00:18:31,336
這些可能市面上有幾十萬個幾百萬個APP
328
00:18:31,336 --> 00:18:34,736
只要大家會寫一些代碼的人都能寫一個iPhone的App
329
00:18:35,136 --> 00:18:37,936
但是我覺得這個大模型肯定不可能是這樣
330
00:18:38,136 --> 00:18:39,836
但是大模型也不會只有一家
331
00:18:40,036 --> 00:18:41,936
所以我覺得可能更多的像是一個
332
00:18:41,936 --> 00:18:44,736
比如說有十幾種不同的大模型
333
00:18:44,736 --> 00:18:46,936
然後每一個都是不同公司做的
334
00:18:46,936 --> 00:18:48,536
每一個都有自己的專長
335
00:18:48,636 --> 00:18:51,336
這個是未來相當長一段時間的導向
336
00:18:51,552 --> 00:18:55,552
現在OpenAI確實在語言模型這個事情上面是主導的
337
00:18:55,552 --> 00:18:59,152
但是舉個例子比如說在圖像生成模型上面
338
00:18:59,152 --> 00:19:02,952
現在達利的質量有些時候並比不過Mid Journey
339
00:19:02,952 --> 00:19:06,552
Mid Journey是一個我跟聽眾朋友們很快介紹一下
340
00:19:06,552 --> 00:19:10,552
就是Mid Journey是一家只有11個人的一個初創公司
341
00:19:10,552 --> 00:19:13,552
他們做的就是從文本生成圖片
342
00:19:13,552 --> 00:19:17,552
現在目前基本大家公認Mid Journey生成的圖片的質量
343
00:19:17,552 --> 00:19:20,240
清晰度都是業界算是數一數二的
344
00:19:20,240 --> 00:19:25,040
這一點上我覺得Mid Journey在生成圖片的大模型上是比較領先的
345
00:19:25,040 --> 00:19:27,440
還有一家我聽說叫Eleven Labs
346
00:19:27,440 --> 00:19:30,240
這家公司是生成語音的合成語音
347
00:19:30,240 --> 00:19:32,840
之前我看過他們的一個展示
348
00:19:32,840 --> 00:19:36,640
他們用喬布斯生前的那些聲音合成
349
00:19:36,640 --> 00:19:39,640
你可以讓喬布斯講任何你想讓他講的話
350
00:19:39,640 --> 00:19:42,640
聽上去的聲音就像喬布斯本人在跟你講話一樣
351
00:19:42,640 --> 00:19:45,240
語音的低音的程度已經做得非常的好
352
00:19:45,240 --> 00:19:48,040
所以比如說像這樣子一個語音的大模型
353
00:19:48,040 --> 00:19:49,840
可能又是由不同的公司來主導
354
00:19:50,128 --> 00:19:53,928
所以我覺得未來一個是不會一家獨當
355
00:19:53,928 --> 00:19:55,928
肯定會有多種不同的大模型
356
00:19:55,928 --> 00:19:59,528
而且每一個模型有它的專長有它自己的一個市場
357
00:19:59,528 --> 00:20:03,528
第二我覺得未來是肯定會發展的一個方向是多模態
358
00:20:03,528 --> 00:20:08,928
就是說文本現在肯定是大家目前看到的最火的一個模態
359
00:20:08,928 --> 00:20:13,328
但之後的話比如說像視覺二維視覺甚至三維視覺
360
00:20:13,328 --> 00:20:16,928
還有語音等等或者之後可能還會有機器人等等
361
00:20:16,928 --> 00:20:19,312
就各種各樣的模態都會加進來
362
00:20:19,312 --> 00:20:24,512
我不覺得OpenAI或者任何少數幾家公司能把所有的模態全都做完
363
00:20:24,832 --> 00:20:26,832
所以這也是一個未來的方向的方向
364
00:20:27,232 --> 00:20:29,712
你相信通用人工智能會實現嗎?
365
00:20:30,112 --> 00:20:32,512
我覺得這個詞比較難定義
366
00:20:32,752 --> 00:20:35,952
而且我覺得可能定義這個詞本身意義也不大
367
00:20:35,952 --> 00:20:37,832
因為我現在給一個定義
368
00:20:37,832 --> 00:20:42,032
務必會有聽眾朋友或者學術圈裡面的學者和我持有不同的意見
369
00:20:42,392 --> 00:20:47,432
更有意思的一個討論點是這些模型能帶來多少的經濟價值
370
00:20:47,432 --> 00:20:49,352
我覺得這個經濟價值是巨大的
371
00:20:49,440 --> 00:20:56,800
包括剛才說的多模態基本上模態越多它能夠涵代的商業的應用就越來越多
372
00:20:56,800 --> 00:21:00,000
剛才提到語音啊視覺啊什麼的機器人啊等等
373
00:21:00,000 --> 00:21:03,120
現在光是文本我們已經看到各種各樣不同應用
374
00:21:03,120 --> 00:21:08,720
比如說在辦公立的應用在法律這樣子一個需要專業技能的一個領域裡的應用
375
00:21:08,720 --> 00:21:10,800
在會計裡面等等等等
376
00:21:10,800 --> 00:21:16,000
我們已經看到大模型滲透到商業和我們社會經濟的每一個領域
377
00:21:16,160 --> 00:21:18,720
所以我覺得更重要的一個問題是
378
00:21:18,720 --> 00:21:22,200
這些大模型未來能創造多少的社會價值
379
00:21:22,200 --> 00:21:24,560
我覺得這個社會價值是顛覆性的
380
00:21:24,560 --> 00:21:28,560
我個人覺得人工智能就是一場新的工業革命
381
00:21:28,560 --> 00:21:31,280
而且比前幾次工業革命可能加起來
382
00:21:31,280 --> 00:21:32,960
它的影響力都要大很多
383
00:21:32,960 --> 00:21:37,120
這是一個像指數爆炸一樣的社會價值的創造
384
00:21:37,120 --> 00:21:39,680
所以我覺得通用不通用不是特別重要
385
00:21:39,680 --> 00:21:43,760
重要的是社會價值以及體係都會受到顛覆
386
00:21:44,000 --> 00:21:47,360
對我再說一下我剛剛為什麼問你那個問題
387
00:21:47,360 --> 00:21:49,560
就是你相信通用人工智能嗎
388
00:21:49,560 --> 00:21:52,360
因為在我們在聊到大模型的時候
389
00:21:52,360 --> 00:21:55,240
其實我們有提到基於語言生成的大模型
390
00:21:55,240 --> 00:21:56,600
圖像生成的大模型
391
00:21:56,600 --> 00:21:59,120
甚至你有提到語音合成的大模型
392
00:21:59,120 --> 00:22:01,760
後來我們還提到了基於法律的大模型
393
00:22:01,760 --> 00:22:04,080
生物的大模型辦公軟件的大模型
394
00:22:04,080 --> 00:22:06,000
但是其實有一個基本的是
395
00:22:06,000 --> 00:22:07,880
比如說有一些基於法律的模型
396
00:22:07,880 --> 00:22:11,240
它可能是搭建在GBT上的一個應用
397
00:22:11,264 --> 00:22:15,264
它可能是其中的一個插件或者在它上面有一層優化
398
00:22:15,264 --> 00:22:18,064
我更想問的是你認為這種大模型
399
00:22:18,064 --> 00:22:23,184
它們未來有可能會訓練成一個通材還是專材
400
00:22:23,184 --> 00:22:26,504
當然我假設一個模型搭在CHEDGBT上
401
00:22:26,504 --> 00:22:29,144
我在上面再加一些法律方面的優化
402
00:22:29,144 --> 00:22:32,024
它最後能變成一個法律專家
403
00:22:32,024 --> 00:22:35,024
或者說一個生物的模型搭在CHEDGBT上
404
00:22:35,024 --> 00:22:38,224
最後變成一個可以合成蛋白質結構的模型
405
00:22:38,432 --> 00:22:41,472
但是還是說它需要分別的大模型
406
00:22:41,472 --> 00:22:45,032
就是專門的生物的數據庫去做生物的這條線
407
00:22:45,032 --> 00:22:47,832
還是說它都可以運用一個底層架構
408
00:22:48,112 --> 00:22:52,232
我考慮的是這個模型它到底未來是一個通材還是專材
409
00:22:52,632 --> 00:22:54,032
哦懂了懂了
410
00:22:54,032 --> 00:22:58,232
我覺得更有可能的是就像你剛才提到的一個通材的模型
411
00:22:58,632 --> 00:23:00,912
當然這個通用是否達到人類的智能
412
00:23:00,912 --> 00:23:02,832
就是我剛說的大家有不同的定義
413
00:23:02,832 --> 00:23:05,512
大家學術圈也不一定是有一個統一的定義
414
00:23:05,680 --> 00:23:12,080
但是我覺得一個通材的語言模型然後在上面加插件的這樣一個模式將會是一個未來的導向
415
00:23:12,760 --> 00:23:17,480
當然這個插件怎麼做以及這個通材上面的那一層是什麼
416
00:23:17,760 --> 00:23:20,520
我覺得這個可能不同公司會有一些不同的答案
417
00:23:20,880 --> 00:23:25,280
比如說現在我們看到OpenAI他們就實現了這樣一個Chat GPT的應用商店
418
00:23:25,720 --> 00:23:27,520
然後我覺得這個是一種方式
419
00:23:27,728 --> 00:23:30,568
另外一種可能是比如說現在有一個大模型
420
00:23:30,568 --> 00:23:32,648
但是我想把它應用在法律
421
00:23:32,648 --> 00:23:36,568
我可能在法律的領域裡面做一定的比如說真流等等
422
00:23:36,568 --> 00:23:41,128
可以讓這個模型變得在法律的領域裡面能夠更加的專業
423
00:23:41,128 --> 00:23:45,688
並且可能它會比一個完全通材的一個模型效率會更高
424
00:23:45,688 --> 00:23:48,688
因為那個模型它不需要知道任何醫學的知識等等
425
00:23:48,688 --> 00:23:50,528
它只要知道法律知識就可以了
426
00:23:50,528 --> 00:23:54,768
所以它也可以是一個通用模型的專業化的一個版本
427
00:23:54,992 --> 00:23:59,392
但是我覺得一個通用的模型這樣一個基石是很重要的
428
00:23:59,392 --> 00:24:02,672
有了這個基石以後要么做插件要么做一些蒸餾
429
00:24:02,672 --> 00:24:05,472
或者一個更加專業的版本我覺得這個都是可行的
430
00:24:05,472 --> 00:24:10,272
對但它們都是可以在大的模型下面或者說找一些開源的模型
431
00:24:10,272 --> 00:24:14,512
它們只是需要做一些優化或者加入一些特定領域的數據
432
00:24:14,512 --> 00:24:16,592
進行一些特定領域的訓練對吧
433
00:24:16,592 --> 00:24:18,672
它們不需要再從頭搭一個了
434
00:24:18,672 --> 00:24:22,512
對不過我覺得不一定每一家公司都能這樣做
435
00:24:22,656 --> 00:24:26,936
因為通用模型訓練起來肯定是難度非常非常的大
436
00:24:26,936 --> 00:24:30,856
現在能訓練通用模型的公司全世界屈指可數
437
00:24:30,856 --> 00:24:35,176
所以我覺得有些比如說中型企業甚至是初創公司
438
00:24:35,176 --> 00:24:38,856
如果想要用到這些語言模型做一些專業的事情的話
439
00:24:38,856 --> 00:24:42,776
我覺得一條更快的路不是先訓練一個通用模型
440
00:24:42,776 --> 00:24:45,256
再把它進行專業化或者加個插件
441
00:24:45,256 --> 00:24:47,736
而是直接去訓練一個專業的模型
442
00:24:47,736 --> 00:24:50,296
但是我覺得主要的原因是可能經費不夠
443
00:24:50,296 --> 00:24:51,504
公司的規模不夠
444
00:24:51,504 --> 00:24:54,704
在這樣子一個情況下那是迫不得已只能走這條路
445
00:24:55,024 --> 00:24:58,944
但我覺得這條路也是能夠解決某一個公司想解決的問題的
446
00:24:59,304 --> 00:25:01,384
所以我覺得通用模型是一件好事情
447
00:25:01,384 --> 00:25:04,624
但是可能對於某些特定的商業模式它沒有必要
448
00:25:04,824 --> 00:25:07,024
嗯Mid Journey 算是哪一類
449
00:25:07,304 --> 00:25:09,904
我覺得Mid Journey 目前應該是一個通用模型
450
00:25:10,104 --> 00:25:13,944
因為基本上所有的畫風不同的畫風它都能生成
451
00:25:13,944 --> 00:25:17,264
比如說它能夠合成看上去非常逼真的照片
452
00:25:17,504 --> 00:25:20,544
它也能夠合成一些像科幻的電影裡面的一些場景
453
00:25:20,672 --> 00:25:23,792
還能合成動脈,還能合成素描,油畫等等
454
00:25:23,992 --> 00:25:26,632
所以我覺得它現在目前是一個通用的模型
455
00:25:27,032 --> 00:25:30,272
對,雖然Mid Journey現在有很多很多的用戶啊
456
00:25:30,272 --> 00:25:32,072
就我也是它的付費用戶之一
457
00:25:32,232 --> 00:25:34,152
但是我一直都很好奇
458
00:25:34,152 --> 00:25:37,952
它這樣一家創業公司僅憑它的付費用戶的收入
459
00:25:38,112 --> 00:25:42,952
它是不是能夠支撐它的成本去訓練這樣一個通用的模型
460
00:25:42,952 --> 00:25:45,672
因為我們知道現在整個大模型的訓練成本
461
00:25:45,672 --> 00:25:47,952
包括堆算力整個還挺貴的
462
00:25:47,968 --> 00:25:51,168
它其實也不是完全是一個創業公司能夠做的事情
463
00:25:51,608 --> 00:25:53,368
對確實非常的昂貴
464
00:25:53,968 --> 00:25:55,928
不過我覺得還有另外一條路
465
00:25:55,928 --> 00:25:58,928
一個比較好的商業模式是和企業合作
466
00:25:59,368 --> 00:26:03,608
舉個例子有很多做遊戲或者電影特效的一些企業
467
00:26:03,608 --> 00:26:06,008
他們可能需要一些企業級的這種模型
468
00:26:06,368 --> 00:26:08,248
然後我覺得類似Made Journey這樣的公司
469
00:26:08,248 --> 00:26:10,408
有可能是可以通過和企業合作
470
00:26:10,408 --> 00:26:12,048
然後能夠獲得更大的訂單
471
00:26:12,328 --> 00:26:14,568
而不只是通過每一個散戶過來
472
00:26:14,568 --> 00:26:16,248
付一個每個月的訂閱費
473
00:26:16,400 --> 00:26:18,800
那個可能加錢不是特別多
474
00:26:18,800 --> 00:26:23,160
所以我覺得對於像這樣一個生成式的AI的初創公司的話
475
00:26:23,160 --> 00:26:24,400
有這兩條路可以走
476
00:26:24,400 --> 00:26:28,400
就是類似於他們在做一個SaaS級的產品
477
00:26:28,400 --> 00:26:31,400
相當於為企業來提供一些增值服務
478
00:26:31,400 --> 00:26:34,000
其實有點類似於Jasper他們現在做的
479
00:26:34,000 --> 00:26:38,000
對其實英偉達在上一次GTC發布會的時候
480
00:26:38,000 --> 00:26:42,400
也提到英偉達更多的是一個為企業服務的大模型
481
00:26:42,560 --> 00:26:46,560
叫NVIDIA AI Foundations 其實也是剛才提到類似的想法
482
00:26:46,560 --> 00:26:51,560
比如說為企業做一些這種生成圖片和大的預言模型
483
00:26:51,560 --> 00:26:55,560
其實就在我們今天這個訪談開始的前一兩天
484
00:26:55,560 --> 00:27:01,560
我看業界大家又在歡呼一件事情就是Meta AI它做的Segment
Anything
485
00:27:01,560 --> 00:27:03,560
它是一個圖片的模型
486
00:27:03,560 --> 00:27:08,336
然後我看你在推特上是把它稱為是GPT-3 Moment
487
00:27:08,336 --> 00:27:11,336
在計算機世界領域它算是一個GPT-3 Moment
488
00:27:11,336 --> 00:27:13,536
因為我現在其實還沒有看那篇論文
489
00:27:13,536 --> 00:27:15,536
你可不可以跟大家解釋一下
490
00:27:15,536 --> 00:27:19,016
這個Segment Anything它主要的突破點在哪裡
491
00:27:19,016 --> 00:27:20,416
為什麼它意義重大
492
00:27:20,416 --> 00:27:22,816
對那篇論文我特別喜歡
493
00:27:22,816 --> 00:27:25,016
它解決的叫Image Segmentation
494
00:27:25,016 --> 00:27:27,016
也就是圖像分割的問題
495
00:27:27,016 --> 00:27:29,136
簡言之給一個圖片
496
00:27:29,136 --> 00:27:32,016
這圖片裡面比如說有三條狗兩隻貓
497
00:27:32,016 --> 00:27:35,616
AI它能不能把三條狗和兩隻貓的整個輪廓
498
00:27:35,616 --> 00:27:36,816
把它全部都勾下來
499
00:27:37,072 --> 00:27:41,112
這個就是一個很經典的計算機視覺問題叫圖像分割
500
00:27:41,112 --> 00:27:43,312
然後這個問題非常的難
501
00:27:43,312 --> 00:27:46,592
在計算機視覺領域也有幾十年的研究的歷史
502
00:27:46,592 --> 00:27:51,312
我覺得這一篇論文基本上完全用到了這樣大模型的一個範式
503
00:27:51,312 --> 00:27:52,472
大模型的思路
504
00:27:52,472 --> 00:27:56,952
首先我覺得它不是第一篇用Transformer來做分割的模型
505
00:27:56,952 --> 00:27:59,672
因為之前其實有很多論文用到了Transformer
506
00:27:59,672 --> 00:28:04,992
但是我覺得它確實是第一篇大規模用這樣一個大模型的思維去解的
507
00:28:05,232 --> 00:28:07,592
然後什麼意思呢?有以下幾條
508
00:28:07,592 --> 00:28:11,512
第一個是它的神經網絡的架構非常的簡單
509
00:28:11,512 --> 00:28:13,632
又簡單又比較Scalable
510
00:28:13,632 --> 00:28:15,672
當然也是用Constorm一個變體
511
00:28:15,672 --> 00:28:18,432
但是它裡面並沒有一些話裡胡哨的一些東西
512
00:28:18,432 --> 00:28:20,472
一個很簡潔的通用的一個架構
513
00:28:20,472 --> 00:28:25,752
第二條就是它有一個我們稱之為叫做Data Flywheel的一個東西
514
00:28:25,752 --> 00:28:30,232
一開始時候可能有少量的人工標註的一些圖像分割的數據
515
00:28:30,232 --> 00:28:31,232
一些訓練數據
516
00:28:31,232 --> 00:28:34,752
通過這個訓練數據已經能夠訓練一個版本的模型
517
00:28:34,768 --> 00:28:36,768
但這個模型可能效果不是特別好
518
00:28:36,768 --> 00:28:39,768
但是你可以用這個效果不太好的模型
519
00:28:39,768 --> 00:28:42,768
自動分割大量沒有人工標註的那些圖片
520
00:28:42,768 --> 00:28:47,768
可以顧一些人,比如說來在這些基礎上面再做一些標註
521
00:28:47,768 --> 00:28:49,768
這些標註就比較簡單了
522
00:28:49,768 --> 00:28:51,768
因為比叢林開始標肯定要簡單嘛
523
00:28:51,768 --> 00:28:54,768
如果這個機器已經標對了,那你就直接跳過就行了
524
00:28:54,768 --> 00:28:57,768
標錯的話你再幫它修改一下
525
00:28:57,768 --> 00:28:59,768
所以這個第二步已經是簡單很多
526
00:29:00,064 --> 00:29:05,264
這樣的話你可以讓這種高質量的標註的數據多很多而不需要顧太多的人
527
00:29:05,264 --> 00:29:06,264
這是第二步
528
00:29:06,264 --> 00:29:11,184
第三步就直接可以讓模型直接再去標剩下的各種各樣的所有的
529
00:29:11,184 --> 00:29:16,144
比如說我記得它應該有上千萬張圖片就直接用這個算法去標上千萬張
530
00:29:16,144 --> 00:29:21,384
然後用一些heuristic的一些方法你能夠從中獲得比較高質量的標註
531
00:29:21,384 --> 00:29:25,424
然後你把那些算法不是那麼的confident的一些內容給去掉
532
00:29:25,536 --> 00:29:30,136
通過這樣一個Data Flywheel,它就能夠做到一個越來越好的圖像風格的效果
533
00:29:30,136 --> 00:29:34,296
後來Facebook他們把他們的數據以及模型全部都開源了
534
00:29:34,296 --> 00:29:38,536
然後我覺得這個對AI的研究的社區也是相當有幫助的
535
00:29:38,536 --> 00:29:41,296
因為現在大部分的公司都不會開源大模型
536
00:29:41,296 --> 00:29:44,016
所以我覺得這一點上面他們也做得非常的好
537
00:29:44,592 --> 00:29:52,032
對那這篇論文出來了以後你覺得它會對哪些行業的發展產生非常重大的影響
538
00:29:52,032 --> 00:29:56,392
就比如說當你提到圖形標注的時候包括這些高質量的標注
539
00:29:56,392 --> 00:29:58,472
最後它可能會產生一個數據飛輪
540
00:29:58,952 --> 00:30:04,872
你覺得比如說它會對自動駕駛行業的Corner Case有更多精準的判斷嗎
541
00:30:05,472 --> 00:30:10,552
對我覺得它對無人駕駛啊機器人這些上面都會有比較大的幫助
542
00:30:10,688 --> 00:30:12,688
當然因為這個模型剛剛開源
543
00:30:12,688 --> 00:30:15,688
所以目前還沒有看到有大的一些項目真的用到
544
00:30:15,688 --> 00:30:19,188
但是我覺得之後未來一年應該會看到各種各樣的應用
545
00:30:19,688 --> 00:30:24,188
你為什麼覺得它的作用會像GVT-3那麼大
546
00:30:24,188 --> 00:30:27,688
是因為它對圖像領域的一個巨大的貢獻
547
00:30:27,688 --> 00:30:31,688
因為它的這個模型有一些Zero Shot的效果
548
00:30:31,688 --> 00:30:36,188
比如說之前從來沒有見過的物體它也能夠分割出來
549
00:30:36,208 --> 00:30:39,488
包括在有些可能非常特殊的一些情況
550
00:30:39,488 --> 00:30:43,008
比如說在海底啊或者說在醫學的一些影像上面
551
00:30:43,008 --> 00:30:44,528
它也能夠做一個分割
552
00:30:44,528 --> 00:30:48,688
這些都是有可能是之前在訓練的時候沒有遇到過的場景
553
00:30:48,688 --> 00:30:51,968
所以它能夠做到一個非常強的靈樣本的泛化
554
00:30:51,968 --> 00:30:54,688
所以我覺得這個有點類似GP3
555
00:30:54,688 --> 00:30:58,288
哦你這麼說我更加理解了
556
00:30:58,288 --> 00:31:02,608
類似於這個模型它已經不僅僅只是靠視覺來識別
557
00:31:02,624 --> 00:31:04,984
它同時還加入了它理解的部分
558
00:31:04,984 --> 00:31:05,344
對不對
559
00:31:05,344 --> 00:31:08,064
就是你說它可以識別它沒有見過的物體
560
00:31:08,384 --> 00:31:10,184
對我覺得它這個模型
561
00:31:10,184 --> 00:31:12,784
它學會了物體這樣一個抽象的概念
562
00:31:12,904 --> 00:31:14,464
因為對於我們人來說
563
00:31:14,464 --> 00:31:17,784
我們偶爾也會遇到一些奇形怪狀的東西
564
00:31:18,144 --> 00:31:20,424
但是我們照樣都知道這也是一個物體
565
00:31:20,424 --> 00:31:23,064
儘管我們之前可能這輩子從來沒有見過
566
00:31:23,064 --> 00:31:24,904
這樣一個特定的奇形怪狀的東西
567
00:31:24,904 --> 00:31:26,424
我們還是知道它是一個物體
568
00:31:26,624 --> 00:31:28,784
我覺得至少從他們的論文上看
569
00:31:28,784 --> 00:31:31,664
這一篇SAM這個模型也能夠做到這個
570
00:31:31,776 --> 00:31:35,776
之前從來沒有見過的某一種物體但是它能夠把它分割出來
571
00:31:35,776 --> 00:31:39,616
所以它學會了這樣一個很通用的物體的抽象的概念
572
00:31:39,616 --> 00:31:43,056
這個就有點類似GP3 所以我就打了這樣的比喻
573
00:31:43,056 --> 00:31:47,616
所以我覺得最近整個人工智能的發展太快了
574
00:31:47,616 --> 00:31:52,256
非常的激動人心我感覺每個月都有好多好多的新的進展出來
575
00:31:52,256 --> 00:31:54,048
對非常的激動
576
00:31:54,048 --> 00:31:57,528
你會覺得現在的人工智能的這些大模型
577
00:31:57,528 --> 00:32:02,848
它會像是之前我們說互聯網跟移動互聯網時代的一個操作系統
578
00:32:02,848 --> 00:32:08,248
比如說像一個Windows系統或者像一個Android的
或者蘋果的這樣的一個系統
579
00:32:08,248 --> 00:32:12,728
所有的這些應用是構建在上面的也還是一個一個的小應用
580
00:32:12,728 --> 00:32:17,488
我不知道你作為一個人工智能的研究者你會怎麼樣去定義這些大模型
581
00:32:17,568 --> 00:32:20,288
我知道現在大家可能對未來還有很多看不清楚的地方
582
00:32:20,288 --> 00:32:25,088
但還是很想知道你覺得他們未來會演變成一個大概什麼樣的形態
583
00:32:25,328 --> 00:32:27,568
對我覺得你剛才這個比喻特別的好
584
00:32:27,688 --> 00:32:31,968
就是這些大模型尤其是語言模型是一個操作系統
585
00:32:32,208 --> 00:32:35,008
然後剩下的東西就是上面這個應用層
586
00:32:35,328 --> 00:32:37,728
我覺得這個比喻特別恰當的一個原因是
587
00:32:37,728 --> 00:32:40,968
我就說當年喬布斯推出的第一款iPhone吧
588
00:32:41,448 --> 00:32:45,208
我覺得iPhone它的特點就是一整個手機都是一個觸摸屏
589
00:32:45,360 --> 00:32:49,860
沒有物理的鍵盤你完全用手指做所有在手機上面想做的事情
590
00:32:49,860 --> 00:32:52,560
包括撥號呀什麼的全都沒有一個物理鍵盤
591
00:32:52,560 --> 00:32:57,560
我覺得喬布斯當時提出iPhone一個最大的革新是這樣一個人機交互的界面
592
00:32:57,560 --> 00:33:00,060
他重定義了人機交互應該是什麼樣的
593
00:33:00,060 --> 00:33:03,460
iPhone之前對吧黑媒那些手機人機交互是通過鍵盤
594
00:33:03,460 --> 00:33:05,160
但是iPhone是通過觸摸屏
595
00:33:05,160 --> 00:33:08,360
之後所有的手機智能手機全是用觸摸屏
596
00:33:08,360 --> 00:33:12,560
所以我覺得這是一個人機交互的一個革命性的一個創舉
597
00:33:12,720 --> 00:33:15,920
我覺得現在大元模型也非常的像
598
00:33:15,920 --> 00:33:20,400
大元模型也將會重定義人機交互這樣一個方式
599
00:33:20,400 --> 00:33:23,960
可能我們現在是用觸摸屏或者用鼠標和鍵盤
600
00:33:23,960 --> 00:33:26,120
來和我們的電腦和手機交互
601
00:33:26,120 --> 00:33:28,480
但之後的話我們就完全通過語音
602
00:33:28,480 --> 00:33:31,800
或者不通過點鼠標不通過用手機上的應用
603
00:33:31,800 --> 00:33:34,400
而是直接上來我就開始寫一句話
604
00:33:34,400 --> 00:33:36,640
我今天想要去法國旅行
605
00:33:36,640 --> 00:33:38,360
幫我做一個旅行計劃
606
00:33:38,360 --> 00:33:40,560
然後這個大元模型
607
00:33:40,560 --> 00:33:47,760
以及這個元模型上面應用插件
比如說可能有些旅行內規劃的一些插件或者訂旅館呀或者訂機票的插件等等
608
00:33:47,760 --> 00:33:53,360
AI它來幫你做整個規劃你就只要負責確認一下最後付款就可以了
609
00:33:53,360 --> 00:33:59,360
所以我覺得你剛說這個操作系統比喻特別恰當因為這是新的一場人機交互的革命
610
00:33:59,360 --> 00:34:04,160
之後的話都是通過這種語言啊語音這樣的一個很自然而然的指令
611
00:34:04,160 --> 00:34:09,560
而不是通過我們去下載一個程序安裝然後鼠標和按鈕點來點去這樣子一個方式
612
00:34:09,872 --> 00:34:12,832
對而且我覺得你剛剛說的有一個點特別好
613
00:34:12,832 --> 00:34:18,072
就是你說其實iPhone它的意義它是定義了一個人機交互的方式
614
00:34:18,072 --> 00:34:21,832
我記得上次我們吃飯的時候其實有聊到我們說ChadGBT
615
00:34:21,832 --> 00:34:24,872
其實GBT模型在很早之前就有了嘛
616
00:34:24,872 --> 00:34:27,632
那ChadGBT很厲害的一個事情是
617
00:34:27,632 --> 00:34:30,992
它把它定義成了一個聊天的對話的形式
618
00:34:30,992 --> 00:34:34,112
而且那個產品的頁面是非常非常簡單的
619
00:34:34,128 --> 00:34:35,568
從這個意義上來說
620
00:34:35,568 --> 00:34:38,928
我們就覺得OpenAI它在怎麼把一個研究成果
621
00:34:38,928 --> 00:34:40,448
展示給公眾的時候
622
00:34:40,448 --> 00:34:42,768
這個步驟是做得非常厲害的
623
00:34:43,208 --> 00:34:46,288
對其實這也是一種人機交互上的突破
624
00:34:46,568 --> 00:34:50,728
因為其實GPD3以及3.5那時候已經出來了一段時間了
625
00:34:50,728 --> 00:34:52,448
至少根據Sam Altman的說法
626
00:34:52,608 --> 00:34:57,088
但是XGPT是第一個把它做成一個聊天機器人的交互介面
627
00:34:57,248 --> 00:34:59,568
而且那個介面確實非常乾淨好用
628
00:34:59,568 --> 00:35:00,608
大家都能用
629
00:35:00,608 --> 00:35:03,608
而不需要比如說自己去寫代碼才能用GPD3
630
00:35:03,824 --> 00:35:10,104
所以我覺得人機交互在未來很有可能跟人工智能大模型研究本身一樣的重要
631
00:35:10,104 --> 00:35:15,864
嗯是你覺得你現在的工作中最exciting的部分是什麼
632
00:35:15,864 --> 00:35:18,864
我現在在做一些多模態的研究
633
00:35:18,864 --> 00:35:23,344
還有對於人工智能決策上的就是做decision決策上的研究
634
00:35:23,344 --> 00:35:27,784
然後這兩塊我都覺得第一非常有意思第二未來的潛力也非常大
635
00:35:27,784 --> 00:35:32,984
首先多模態的話GPD4剛剛開始把視覺這塊加進來
636
00:35:33,024 --> 00:35:36,024
但是GPD4的視覺它還是一個靜態的視覺
637
00:35:36,024 --> 00:35:38,824
也就是說它一次輸入一張靜態的圖片
638
00:35:38,824 --> 00:35:41,424
可能還有些文本能夠再輸出一些文本
639
00:35:41,424 --> 00:35:43,624
但是我覺得未來多模態肯定會有
640
00:35:43,624 --> 00:35:46,324
比如說視頻或者三維或者語音
641
00:35:46,324 --> 00:35:48,024
這樣子模態也全都加進來
642
00:35:48,424 --> 00:35:53,424
並且不僅是輸入輸出也有可能是合成圖片合成語音等等
643
00:35:53,624 --> 00:35:56,324
所以我覺得這個是一個未來的必經的導向
644
00:35:56,624 --> 00:35:59,824
我自己在上個月也有一篇工作叫Prismar
645
00:35:59,968 --> 00:36:02,268
其實也是類似這樣一個想法
646
00:36:02,268 --> 00:36:06,168
就是如何把一些圖片的模態能夠接入大宇宙模型
647
00:36:06,168 --> 00:36:09,568
不需要太多的額外的訓練或額外的參數
648
00:36:09,568 --> 00:36:12,368
它就能把這幾個模態進行一個深度的融合
649
00:36:12,368 --> 00:36:14,368
所以這是一個很有意思的研究方向
650
00:36:14,368 --> 00:36:18,168
另外一方面我也在研究智能體做決策
651
00:36:18,168 --> 00:36:21,168
比如說在機器人或在遊戲裡面
652
00:36:21,168 --> 00:36:23,668
如何讓人工智能自主地探索
653
00:36:23,668 --> 00:36:24,968
完成各種各樣的任務
654
00:36:24,968 --> 00:36:27,360
這個是一個很難的研究問題
655
00:36:27,360 --> 00:36:32,040
目前為止也有很多種不同的方法能夠探索所以現在正在進行中
656
00:36:32,400 --> 00:36:35,600
我舉一個例子比如說我今天我現在在波士頓
657
00:36:35,600 --> 00:36:37,840
然後我想從波士頓飛舊金山
658
00:36:38,000 --> 00:36:42,600
我給AI一個任務讓它定一張從波士頓到舊金山的機票
659
00:36:42,600 --> 00:36:46,520
且還要便宜然後時間段會是在一個什麼樣的時間段內
660
00:36:46,560 --> 00:36:48,760
它完全定好發到我的郵箱
661
00:36:48,800 --> 00:36:51,680
你覺得現在整個AI可以做這件事情嗎
662
00:36:52,080 --> 00:36:53,600
現在肯定應該可以做了
663
00:36:53,744 --> 00:36:58,544
其實這個就可以通過GPT4或ChatGPT的插件就能做到
664
00:36:58,544 --> 00:37:02,184
你剛提到的比如說寫email或者上網瀏覽等等
665
00:37:02,184 --> 00:37:04,184
這些功能肯定是都能實現了
666
00:37:04,184 --> 00:37:05,944
我只想告訴他一個語言
667
00:37:05,944 --> 00:37:09,984
你來幫我訂一張從波士頓到舊金山的機票週一
668
00:37:09,984 --> 00:37:12,184
然後我要直飛比較便宜的
669
00:37:12,184 --> 00:37:13,184
對對
670
00:37:13,184 --> 00:37:15,904
這個的話可以通過一些對於Prompt
671
00:37:15,904 --> 00:37:18,504
也就是大語言模型提示的一些編寫
672
00:37:18,504 --> 00:37:20,384
就能夠做到你剛說的這個功能
673
00:37:20,496 --> 00:37:24,896
不過我這邊想加一句就是儘管這個東西可以做一個demo
674
00:37:24,896 --> 00:37:27,496
但是它沒有那麼的可靠
675
00:37:27,496 --> 00:37:32,376
比如說你讓它試十次我覺得有可能會有那麼四到五次
676
00:37:32,376 --> 00:37:33,776
它都會犯一些錯
677
00:37:33,776 --> 00:37:35,976
但這個犯的錯可能就會比較致命
678
00:37:35,976 --> 00:37:37,776
比如說你是要去波士頓
679
00:37:37,776 --> 00:37:40,376
它可能一不小心訂成了去舊金山的機票
680
00:37:40,376 --> 00:37:42,536
或者說是它沒有找到最便宜的
681
00:37:42,536 --> 00:37:45,136
它可能瀏覽了前三個搜索的結果
682
00:37:45,136 --> 00:37:46,736
但是可能最便宜的在第四個
683
00:37:46,736 --> 00:37:48,336
它就沒有看到那個等等
684
00:37:48,384 --> 00:37:50,584
所以我覺得還是沒有那麼的可靠
685
00:37:50,584 --> 00:37:52,784
但是至少目前我覺得是可以實現的
686
00:37:53,184 --> 00:37:55,384
我其實覺得現在整個大模型來說
687
00:37:55,384 --> 00:37:58,784
最重要的就是它如何去解決準確性的問題
688
00:37:58,784 --> 00:38:01,784
我該如何信任它給我的決策對不對
689
00:38:01,784 --> 00:38:04,784
這個我覺得是一個目前最大的難題之一
690
00:38:04,984 --> 00:38:07,584
如何讓它做到可靠並且是安全的
691
00:38:07,584 --> 00:38:09,384
比如說它會不會一不當心
692
00:38:09,384 --> 00:38:12,184
把你的信用卡的信息然後發在網上等等
693
00:38:12,184 --> 00:38:14,984
它不是說故意做但它可能就出錯了
694
00:38:15,184 --> 00:38:17,344
但是它也沒有跟你及時彙報
695
00:38:17,344 --> 00:38:21,504
你如果沒有仔細看的話可能就沒意識到結果你的個人信息就洩漏了
696
00:38:21,504 --> 00:38:25,784
或者說是它可能一不當心上了一個釣魚網站又把個人信息寫在上面
697
00:38:25,784 --> 00:38:28,784
它可能沒有辦法判斷那個網站是否是釣魚的
698
00:38:28,784 --> 00:38:32,104
所以我覺得這一塊上面還是有很多研究需要做的
699
00:38:32,104 --> 00:38:36,104
對對對就看起來它是一個挺簡單的人物
700
00:38:36,104 --> 00:38:40,304
但是交給機器的時候可能還是有很多我們意想不到的一些點會卡住
701
00:38:40,304 --> 00:38:42,704
而且我覺得它其實也是一個交互問題
702
00:38:42,720 --> 00:38:46,320
比如說我用語音輸入的話那它如何跟我互動
703
00:38:46,320 --> 00:38:49,920
然後它做決策的時候整個的流程怎麼走下來
704
00:38:49,920 --> 00:38:52,720
其實感覺還有很多很多的產品的問題需要解決
705
00:38:52,720 --> 00:38:56,120
對這個我覺得也不是一時半刻能解決的
706
00:38:56,120 --> 00:38:59,720
但是未來這些方向我覺得都非常激動人心
707
00:38:59,720 --> 00:39:02,720
你剛提到你現在工作中做的圖片模式
708
00:39:02,720 --> 00:39:05,320
可以介入到語言的大模型中
709
00:39:05,424 --> 00:39:09,544
包括我記得之前就是我們有嘉賓到我們《貴果101》的節目上聊
710
00:39:09,544 --> 00:39:12,424
他們就也是預測未來多模態的一些發展嘛
711
00:39:12,424 --> 00:39:15,584
就是說那未來我們想要去畫一個什麼樣的圖
712
00:39:15,584 --> 00:39:17,664
可能不需要輸入pumped詞了
713
00:39:17,664 --> 00:39:20,784
可以有更多的交互方式去告訴他怎麼畫
714
00:39:20,784 --> 00:39:23,864
好像這是大家都是在研究的一個方向
715
00:39:23,864 --> 00:39:27,944
對其實我覺得多模態一定程度上也是當提到的
716
00:39:27,944 --> 00:39:30,104
讓人際交互變得更加自然
717
00:39:30,104 --> 00:39:33,984
現在我覺得首先文本已經是一個很好的人際交互的界面了
718
00:39:34,128 --> 00:39:36,528
肯定是比我自己去安裝一個程序啊
719
00:39:36,528 --> 00:39:38,528
去點滑鼠什麼的更加自然的
720
00:39:38,528 --> 00:39:42,528
但是有很多問題並不是文本能夠很方便的表達
721
00:39:42,528 --> 00:39:45,328
有些時候可能給AI看一個圖片
722
00:39:45,328 --> 00:39:47,328
跟著這個圖片講會清晰很多
723
00:39:47,328 --> 00:39:49,528
就像有些時候我們人在交流的時候
724
00:39:49,528 --> 00:39:51,928
講一大段話不如就直接畫上圖
725
00:39:51,928 --> 00:39:53,328
來得清晰畫一個圖表
726
00:39:53,328 --> 00:39:55,328
所以我覺得其實多麼大的研究
727
00:39:55,328 --> 00:39:56,928
還有包括另外一個語音
728
00:39:56,928 --> 00:39:58,928
有些時候通過語音直接輸入
729
00:39:58,928 --> 00:40:00,928
也會是一個非常自然的一個界面
730
00:40:01,184 --> 00:40:07,864
所以我覺得現在多莫泰的研究也是一定程度上在推進剛才說的人機交互界面的可用程度
731
00:40:07,864 --> 00:40:09,864
對這是一個很重要的導向
732
00:40:09,864 --> 00:40:14,424
對對對然後你剛提到你研究的另一塊智能體的決策是什麼樣的
733
00:40:14,424 --> 00:40:18,664
我不知道它跟我剛剛訂機票的那個例子是不是有一些相同之處
734
00:40:18,664 --> 00:40:22,184
對其實剛才你說的這個就是一個決策的國產
735
00:40:22,184 --> 00:40:25,064
現在GPD-4有一定的決策能力
736
00:40:25,064 --> 00:40:29,184
但我覺得第一不是特別強有些複雜性還是做不了
737
00:40:29,184 --> 00:40:30,984
第二它不是特別可耗
738
00:40:31,152 --> 00:40:35,072
所以怎麼讓智能體做一些非常可靠的決策
739
00:40:35,072 --> 00:40:38,352
而且保證它按照規則來安全的執行
740
00:40:38,352 --> 00:40:41,152
然後我覺得這塊也是很多研究的一個方向
741
00:40:41,152 --> 00:40:44,792
因為我知道Jim之前是研究機器人的
742
00:40:44,792 --> 00:40:47,952
然後你為什麼從研究機器人轉向了多莫泰
743
00:40:47,952 --> 00:40:51,072
它這個中間是有比較傳承的一部分嗎
744
00:40:51,072 --> 00:40:56,072
對我覺得機器人其實是對於多莫泰的一個很好的研究的載體
745
00:40:56,072 --> 00:40:59,760
因為舉個例子有些任務我們想傳達給機器人
746
00:40:59,760 --> 00:41:01,960
可能完全通過文本會比較困難
747
00:41:02,320 --> 00:41:04,320
但有時候我們比如說告訴機器人
748
00:41:04,320 --> 00:41:05,560
這件事應該怎麼做
749
00:41:05,560 --> 00:41:08,320
可能機器人看著我們就是看了一段視頻
750
00:41:08,320 --> 00:41:09,360
我們就表演給他看
751
00:41:09,360 --> 00:41:11,920
比如說我現在想要做某一道菜
752
00:41:11,920 --> 00:41:13,000
做個番茄炒蛋
753
00:41:13,000 --> 00:41:14,600
這是我做的方式
754
00:41:14,600 --> 00:41:16,000
然後機器人看完以後
755
00:41:16,000 --> 00:41:17,720
他就也能夠去做番茄炒蛋
756
00:41:18,200 --> 00:41:20,720
這個要比我們詳細地把這整個過程
757
00:41:20,720 --> 00:41:22,240
要拿一個什麼材料等等
758
00:41:22,240 --> 00:41:24,440
全部都寫下來可能會更加的容易
759
00:41:24,752 --> 00:41:30,352
或者是我們可能又需要給機器人表演一遍這個菜該怎麼做同時也要有個講解
760
00:41:30,352 --> 00:41:36,152
用一些這種圖文並茂的給機器人一個輸入讓他才能夠聽得懂我們這樣一個想要他做的任務
761
00:41:36,152 --> 00:41:39,952
所以我覺得多麼太是一個對於機器人的一個很自然的界面
762
00:41:39,952 --> 00:41:42,952
理解聽起來還是一脈相承的
763
00:41:42,952 --> 00:41:45,352
那謝謝Jim 你有什麼要補充的嗎
764
00:41:45,352 --> 00:41:51,072
最後我就想說我覺得人工智能現在基本上是一個幾何爆炸的速度在發展
765
00:41:51,072 --> 00:41:54,832
可能我今天說的話說不定下週就有些模型已經能做到了
766
00:41:54,832 --> 00:41:58,272
可能我今天覺得是難題下周有篇論文出來已經解決了
767
00:41:58,272 --> 00:42:00,872
我覺得這個又是一個很激動人心的時候
768
00:42:00,872 --> 00:42:04,872
然後確實也是一個讓人非常感覺有點追無上時代的步伐
769
00:42:04,872 --> 00:42:06,472
因為實在步伐實在太快了
770
00:42:06,472 --> 00:42:08,072
我也在努力的追趕
771
00:42:08,072 --> 00:42:11,672
也希望大家聽了我們今天這個討論也有所幫助
772
00:42:11,672 --> 00:42:15,272
哇你是一個AI研究者你都覺得追不上步伐
773
00:42:15,272 --> 00:42:19,072
那我們來看到就覺得更快了對就眼花繚亂
774
00:42:19,104 --> 00:42:21,344
最後我稍微補充一個小問題
775
00:42:21,344 --> 00:42:24,784
為什麼人工智能會在今天這樣一個時間點
776
00:42:24,784 --> 00:42:26,544
形成一個爆炸式的發展
777
00:42:26,544 --> 00:42:29,744
它的幾個重要的貢獻點跟節點是什麼
778
00:42:29,744 --> 00:42:31,984
你可不可以幫大家簡單的梳理一下
779
00:42:31,984 --> 00:42:35,344
我覺得一個是算力和數據吧
780
00:42:35,344 --> 00:42:37,744
這個肯定是最最重要的
781
00:42:37,744 --> 00:42:41,744
然後算力的話用GPU能夠訓練這些大模型
782
00:42:41,744 --> 00:42:43,984
我覺得GPU可能也就在過去幾年裡面
783
00:42:43,984 --> 00:42:47,504
能夠達到一個大模型所需要的算力
784
00:42:47,600 --> 00:42:53,000
所以這個也是相對於人工智能的模型的能力也是跟著硬件發展而發展的
785
00:42:53,000 --> 00:42:56,600
然後硬件沒有到的話我覺得訓練這些大模型也非常的吃力
786
00:42:56,600 --> 00:42:58,000
所以這是一個時間點
787
00:42:58,000 --> 00:43:01,400
另外就是大家意識到通過大量的下載
788
00:43:01,400 --> 00:43:05,200
就從網上下載文本的數據能夠讓這模型變得越來越好
789
00:43:05,200 --> 00:43:09,600
可能比如說在GPD3之前大家在學術圈裡面做研究的時候
790
00:43:09,600 --> 00:43:11,600
都是用幾個固定的數據機
791
00:43:11,600 --> 00:43:15,400
剛提到的維基百科也好聯合國的一些文件也好等等
792
00:43:15,568 --> 00:43:19,968
但那些數據集體上面訓練的模型它不會有這種湧現的智能
793
00:43:19,968 --> 00:43:21,768
因為它的數據實在太少了
794
00:43:21,768 --> 00:43:24,168
但是後來的話GPD3就告訴我們
795
00:43:24,168 --> 00:43:27,968
通過大量的下載網上的文本的數據不斷地增加算力
796
00:43:27,968 --> 00:43:29,968
你可以有這樣一個湧現的智能
797
00:43:29,968 --> 00:43:34,168
所以我覺得從GPD3開始的時候大家才意識到大模型
798
00:43:34,168 --> 00:43:37,968
是一條通向一個更加通用的人工智能的路
799
00:43:37,968 --> 00:43:40,568
所以就是為什麼現在是這個時間的節點
800
00:43:40,568 --> 00:43:43,568
簡單來說就是對算力對數據
801
00:43:43,568 --> 00:43:44,720
好
802
00:43:44,720 --> 00:43:48,400
謝謝Jim今天的分享非常的精彩
803
00:43:48,400 --> 00:43:49,840
那另外我聲明一點
804
00:43:49,840 --> 00:43:51,640
今天Jim所有的發言呢
805
00:43:51,640 --> 00:43:54,320
都只代表個人觀點不代表公司
806
00:43:54,320 --> 00:43:55,520
好謝謝
807
00:43:55,520 --> 00:43:56,520
謝謝謝謝
808
00:43:58,240 --> 00:44:00,760
另外我們這期講OpenAI成章史的內容
809
00:44:00,760 --> 00:44:04,320
也有一個更加清晰完整的視頻盤點
810
00:44:04,320 --> 00:44:08,400
大家可以在B站上搜索矽谷101來關注我們
811
00:44:08,400 --> 00:44:10,200
這個視頻不是播客的副盤
812
00:44:10,200 --> 00:44:12,160
是專門為視頻去創作的
813
00:44:12,160 --> 00:44:14,560
也是我個人非常喜歡的一期
814
00:44:14,592 --> 00:44:20,832
當然也歡迎大家去關注我們開頭提到的B站整理的AIGC的優質內容合集
815
00:44:20,832 --> 00:44:23,672
建立自己關注的渠道和資源庫
816
00:44:23,672 --> 00:44:27,392
關注的方法是播客Show Notes中點鏈接
817
00:44:27,392 --> 00:44:31,112
或者在B站搜索AI工具大法
818
00:44:31,112 --> 00:44:37,392
也歡迎大家在我們的評論區推薦你們看過的高質量的AI視頻
819
00:44:37,392 --> 00:44:39,392
大家來相互的學習一下
820
00:44:39,728 --> 00:44:45,488
這就是我們今天的節目如果大家對我們的節目有什麼樣的觀點和看法
821
00:44:45,488 --> 00:44:50,088
也歡迎大家給我們寫評論寫留言感謝大家的收聽謝謝
沒有留言:
張貼留言