Z-Bench 1.0 :一個麻瓜的大語言模型中文測試集 by 真格基金

硅谷101 E108|从20分迅速追到50分,国产大模型难在哪儿

Z-Bench 1.0 :一個麻瓜的大語言模型中文測試集
https://github.com/zhenbench/z-bench

真格基金於 3 月發表 Z-Bench v0.9 , 當時的初步測試結果 : https://www.sohu.com/a/655676937_355029

戴雨森:
00:16:03
所以我們一直在強調就是這是我們自己做VC
我們希望比一般的用戶專業一點點就可以了
但它 (Z-Bench) 並不是一個特別的科學
特別嚴肅的一個測試

一個類似的問題 : 爆炒籃球 ,
泓君: "最開始 GPT3.5 還會正常的去解釋這個爆炒籃球是怎麼樣做的, 但是隔了兩天, GPT3.5 開始是告訴大家做了這個菜以後, 然後說爆炒籃球是不能吃的, 或者這樣做是有風險的, 再隔一天GPT3.5就會告訴大家, 爆炒籃球不是一個菜"

真格基金 戴雨森:

00:40:36
像現在微軟可以每天訓練一個GPT-3
變成一個順手就可以做的事情
但是微軟自己是沒法訓練GPT-4的
是需要在Azure那台專門為訓練GPT-4打造的超算上才可以訓練的
所以你會發現這裡面這個訓練的難度是高了很多

00:41:16
比如說其實GPT-4初始的能力更強很多
我看過一些沒有經過微調的GPT-4
比如畫出來的圖像
它是要比現在的GPT-4畫出圖像更精細很多的
如果你看了那篇通用人工智能的火花那篇論文
你發現GPT-4是可以畫圖的
比如它裡面畫了個獨角獸
但是那個已經是經過微調之後的GPT-4畫的了
當沒有經過微調的GPT-4畫的圖
其實要比那個精細很多
換句話說GPT-4為了和人類對齊
犧牲了很多它的能力

00:51:03
其實他提到了一點
就是說微軟現在有49%的 (OpenAI) 收益權
我可以給你賺錢
但你擁有的是收益權
你不能擁有控制權
因為他們從一開始就本質上的去相信
這樣的技術很危險
需要得到有效的監管和控制
不能夠落入邪惡的大公司手裡
但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發
所以才定下來這種收益和控制分開的這樣一個協定
然後才有你賺錢你就不能投票的這種邏輯
就是投票權和賺錢你只能選一個

00:56:53
然後很重要一點是在一個技術革命的早期
去預測未來基本上都是錯的
所以現在不管是我也好還是誰也好
我覺得講了很多話呢
我覺得你可以認為
第一: 都是錯的
第二: 它的實現的路徑和結果可能都完全不一樣


~~~

1
00:00:00,762 --> 00:00:02,762
欢迎收听硅谷101

2
00:00:02,762 --> 00:00:05,762
这是一档分享当下最新鲜的

3
00:00:05,762 --> 00:00:08,762
技术、知识与思想的科技播客

4
00:00:08,762 --> 00:00:09,762
我是红军

5
00:00:09,762 --> 00:00:12,762
相信很多朋友也看到了

6
00:00:12,762 --> 00:00:14,762
我们的业务在越做越多

7
00:00:14,762 --> 00:00:16,762
我们有硅谷101的播客

8
00:00:16,762 --> 00:00:18,762
也有硅谷101的视频

9
00:00:18,762 --> 00:00:20,762
在B站和YouTube上播放

10
00:00:20,762 --> 00:00:22,762
还有一档播客呢

11
00:00:22,762 --> 00:00:24,762
叫做Web3101

12
00:00:24,762 --> 00:00:26,762
那随着我们内容的变多

13
00:00:27,888 --> 00:00:30,888
也非常需要更多的小伙伴加入

14
00:00:30,888 --> 00:00:36,688
所以我们的节目正在开启创建以来第一轮的大型的全职招聘

15
00:00:36,688 --> 00:00:39,488
我们正在招聘播客的节目监制

16
00:00:39,488 --> 00:00:41,288
我们希望他懂内容

17
00:00:41,288 --> 00:00:43,888
懂科技行业和web3行业

18
00:00:43,888 --> 00:00:47,688
那还在招聘视频的后期商务和运营

19
00:00:47,688 --> 00:00:50,488
具体信息大家可以看节目的show notes

20
00:00:50,688 --> 00:00:54,888
感兴趣的小伙伴也可以把你们的简历还有代表作品

21
00:00:54,888 --> 00:00:59,688
发送到我们的邮箱 podcast at sv101.net

22
00:00:59,688 --> 00:01:09,408
我再说一遍邮箱的地址是 podcast at sv101.net

23
00:01:09,408 --> 00:01:13,288
非常期待对做内容有热情的小伙伴来加入我们

24
00:01:13,288 --> 00:01:15,488
跟我们一起创作

25
00:01:15,488 --> 00:01:18,688
这期节目继续我们的AIGC特辑

26
00:01:18,800 --> 00:01:20,800
今天我们邀请到的嘉宾是

27
00:01:20,800 --> 00:01:23,200
真格基金的管理合伙人戴宇森

28
00:01:23,200 --> 00:01:25,040
他会跟我们一起聊一下

29
00:01:25,040 --> 00:01:27,600
他自己的大模型的使用体验

30
00:01:27,600 --> 00:01:29,800
以及他们是如何设计了一套

31
00:01:29,800 --> 00:01:32,400
给大模型的打分器系统

32
00:01:32,400 --> 00:01:34,960
还有他眼中什么样的团队

33
00:01:34,960 --> 00:01:37,800
可以打造出中国的OpenAI

34
00:01:37,800 --> 00:01:39,600
哈喽宇森你好

35
00:01:39,600 --> 00:01:40,600
哈喽你好

36
00:01:42,400 --> 00:01:43,920
今天邀请你是因为

37
00:01:43,920 --> 00:01:46,640
我在补我过去缺失的一些功课

38
00:01:46,640 --> 00:01:47,880
就我们知道过去几个月

39
00:01:47,880 --> 00:01:49,880
其实大模型的发展特别特别的快

40
00:01:50,160 --> 00:01:51,320
3月份的时候

41
00:01:51,440 --> 00:01:53,560
OpenAI它在去密集的发布

42
00:01:53,560 --> 00:01:54,880
比如说像GPT-4

43
00:01:54,880 --> 00:01:56,920
然后微软也在发布它的NewBeam

44
00:01:57,160 --> 00:01:58,840
包括谷歌也有很多的动作

45
00:01:59,000 --> 00:02:00,280
4月份的时候我看

46
00:02:00,440 --> 00:02:03,120
现在大概是一个中国密集的

47
00:02:03,120 --> 00:02:04,720
大模型的发布时期

48
00:02:04,880 --> 00:02:06,920
我觉得这个发展速度其实已经

49
00:02:07,080 --> 00:02:10,000
远远的超过了我以前作为一个记者

50
00:02:10,160 --> 00:02:12,960
去跟踪任何一个行业它的发展速度了

51
00:02:13,056 --> 00:02:14,856
还是有很多我跟不上的地方

52
00:02:14,856 --> 00:02:17,456
我知道你对这个方向包括其中的论文

53
00:02:17,456 --> 00:02:19,056
创业公司你都聊过

54
00:02:19,056 --> 00:02:22,416
所以今天也算是给我还有给我们的听众们补补课

55
00:02:22,416 --> 00:02:23,416
没有互相交流

56
00:02:23,416 --> 00:02:26,376
我们也有很多现在还没有搞清楚的问题

57
00:02:26,376 --> 00:02:28,736
但我觉得确实每天的发展都非常的快

58
00:02:28,736 --> 00:02:32,536
所以我们讲了很多东西现在看可能也是不完整的

59
00:02:32,536 --> 00:02:34,936
很多我觉得很快就会被打脸

60
00:02:34,936 --> 00:02:37,136
其实我对你特别感兴趣是两个点

61
00:02:37,136 --> 00:02:38,136
第一个点是

62
00:02:38,136 --> 00:02:40,936
我看你是一个大模型的深度使用者

63
00:02:40,936 --> 00:02:42,496
不管是语言模型

64
00:02:42,496 --> 00:02:47,216
还是mid journey就是这种图片模型 就是你要发很多自己的使用体验

65
00:02:47,216 --> 00:02:52,616
第二点就是作为一个投资人你怎么看 所以我们今天也大概会分成这两个部分去聊

66
00:02:52,616 --> 00:02:57,056
最开始你是什么时候开始注意到大模型 然后去用它的

67
00:02:57,056 --> 00:03:03,056
我是一个使用者 这首先来自于我自己是一个对于新东西狂热爱好者

68
00:03:03,056 --> 00:03:05,056
我非常喜欢尝试新东西

69
00:03:05,168 --> 00:03:08,448
所以我比较相信在一个大的革命发生的时候

70
00:03:08,448 --> 00:03:11,048
最好的方式是要去使用是要去体验

71
00:03:11,048 --> 00:03:12,568
而不是只是去研究

72
00:03:12,568 --> 00:03:15,768
因为这里面百温不如一见百健不如一用

73
00:03:16,208 --> 00:03:19,008
我自己呢当然在GPT-3出来的时候

74
00:03:19,008 --> 00:03:20,888
其实也在一些demo上尝试过

75
00:03:20,888 --> 00:03:23,248
包括当时也有一些人做这样的应用

76
00:03:23,248 --> 00:03:24,008
但坦率来讲

77
00:03:24,008 --> 00:03:26,768
那个时候GPT-3表现出来的对话能力

78
00:03:26,768 --> 00:03:28,888
尤其是中文对话能力其实没有那么强

79
00:03:28,888 --> 00:03:31,088
在chat GPT出来当天晚上

80
00:03:31,088 --> 00:03:32,728
是我们的一位同事

81
00:03:32,728 --> 00:03:34,688
他第一时间用上了chat GPT

82
00:03:34,768 --> 00:03:37,568
然后他非常的兴奋 他一直用到凌晨五六点钟

83
00:03:37,568 --> 00:03:39,648
他跟我们说一定要赶紧去用

84
00:03:39,648 --> 00:03:41,328
我当时没有openai账号

85
00:03:41,328 --> 00:03:43,648
所以我还弄国外手机号什么的

86
00:03:43,648 --> 00:03:44,648
花了一点时间

87
00:03:44,648 --> 00:03:46,928
我在10加20个小时之后用上了

88
00:03:46,928 --> 00:03:48,888
我自己也是非常非常震撼

89
00:03:48,888 --> 00:03:51,728
因为之前的这些chatbot型的应用

90
00:03:51,728 --> 00:03:52,968
如果大家记得的话

91
00:03:52,968 --> 00:03:56,608
其实在15 16年那块是有一波创业的热潮

92
00:03:56,608 --> 00:03:57,888
有很多人做一些chatbot

93
00:03:57,888 --> 00:03:59,568
日常来说小兵啊

94
00:03:59,568 --> 00:04:00,728
各种女兵出手啊

95
00:04:00,728 --> 00:04:01,568
这些也都聊过

96
00:04:01,712 --> 00:04:05,192
其实在之前都很少有语音助手或者说对话机器人

97
00:04:05,192 --> 00:04:06,952
能够把多轮对话给聊下来的

98
00:04:07,312 --> 00:04:09,872
但是当你第一次用到ChatterGBT的时候

99
00:04:09,872 --> 00:04:11,552
你就知道它的能力远远超过了

100
00:04:11,552 --> 00:04:13,552
以前我们见到了所有的AI的应用

101
00:04:13,872 --> 00:04:15,392
我觉得这个是第一反应

102
00:04:15,392 --> 00:04:18,272
然后呢我就发现其实有很多很多的

103
00:04:18,272 --> 00:04:21,632
原来我们完全没有想到一个聊天机器人能够做的事情

104
00:04:21,832 --> 00:04:23,792
当时也在推特上看全世界的网友

105
00:04:23,792 --> 00:04:25,872
在分享各种各样的好的使用案例

106
00:04:26,272 --> 00:04:29,912
我自己觉得最震撼的一点是我当时用自然语言

107
00:04:29,912 --> 00:04:30,952
也就是用大白话

108
00:04:31,072 --> 00:04:33,552
描述了一下20问这个游戏的规则

109
00:04:33,552 --> 00:04:35,712
20问其实就是我心里想一个东西

110
00:04:35,712 --> 00:04:37,232
可以问20个问题

111
00:04:37,232 --> 00:04:40,072
每个问题比如说你想的是不是一个有生命的

112
00:04:40,072 --> 00:04:42,152
然后我可以回答是或者否或者不确定

113
00:04:42,152 --> 00:04:44,552
然后你尝试来猜到我心中想的是什么

114
00:04:44,552 --> 00:04:48,032
我大概就用100多个字把这个规则跟他描述了一遍

115
00:04:48,032 --> 00:04:50,112
他就可以跟我来玩20问这个游戏

116
00:04:50,112 --> 00:04:51,432
第一次我想的是猫

117
00:04:51,432 --> 00:04:54,192
他用了大概五六步就猜到是猫

118
00:04:54,192 --> 00:04:55,712
第二次我想了拜登

119
00:04:55,712 --> 00:04:57,832
他用了大概14步猜到是拜登

120
00:04:57,832 --> 00:04:58,912
然后我彻底被震惊了

121
00:04:58,912 --> 00:05:01,032
你觉得他跟真人的那个水平怎么样

122
00:05:01,152 --> 00:05:04,192
我觉得第一步就是说他能够理解我给他的这个规则

123
00:05:04,192 --> 00:05:07,312
第二步是他能够有效的使用二分法去进行查找

124
00:05:07,672 --> 00:05:09,552
因为在这个里面你怎么高效的去找

125
00:05:09,552 --> 00:05:10,992
你其实需要做些二分法

126
00:05:10,992 --> 00:05:12,312
比如他是不是有生命的

127
00:05:12,312 --> 00:05:13,672
有生命的他是不是人

128
00:05:13,912 --> 00:05:15,632
他是不是一个正在活着的人

129
00:05:15,792 --> 00:05:17,912
一个会玩的人和不太会玩的人

130
00:05:17,912 --> 00:05:19,672
他的查找方式是挺不一样的

131
00:05:19,832 --> 00:05:21,632
我觉得他其实做的非常非常好

132
00:05:22,072 --> 00:05:24,352
所以后面我在进行各种各样的新的尝试

133
00:05:24,352 --> 00:05:27,072
比如说我让他尝试跟我下棋尝试写代码

134
00:05:27,344 --> 00:05:28,984
我尝试让他当我的英语老师

135
00:05:28,984 --> 00:05:32,064
他可以从初中到研究生水平给我出不同的英语的题

136
00:05:32,064 --> 00:05:33,184
改我写的英语作文

137
00:05:33,184 --> 00:05:34,624
并且给出很多很好的建议

138
00:05:34,624 --> 00:05:38,064
我就发现他不断能发现他能够做到的不一样的事情

139
00:05:38,424 --> 00:05:41,024
另外一方面我自己因为曾经是一个设计师

140
00:05:41,024 --> 00:05:42,824
所以我也是Middle Journey的重度用户

141
00:05:43,104 --> 00:05:45,144
我是从当时22年8月份

142
00:05:45,144 --> 00:05:46,824
Middle Journey发布的时候就开始用

143
00:05:47,024 --> 00:05:48,504
到现在画了几千张图

144
00:05:48,504 --> 00:05:51,264
然后我就看到V3 V4 V5越来越好

145
00:05:51,504 --> 00:05:53,264
同时我也在自己机器上部署

146
00:05:53,264 --> 00:05:54,104
Stable Diffusion

147
00:05:54,104 --> 00:05:54,904
AutoGPT

148
00:05:54,904 --> 00:05:56,944
Baby HGI这些新出来的实验

149
00:05:57,152 --> 00:06:00,912
你自己用Meet Journey你能感受到它的进化在哪里吗

150
00:06:00,912 --> 00:06:02,512
可不可以跟大家讲一下这种

151
00:06:02,512 --> 00:06:04,272
我们刚刚在讲大语言模型

152
00:06:04,272 --> 00:06:07,352
那基于扩散模型你觉得它表现的怎么样

153
00:06:07,632 --> 00:06:09,552
Meet Journey我是从V3开始用的

154
00:06:09,552 --> 00:06:11,072
V3开始用的时候呢

155
00:06:11,072 --> 00:06:14,472
我觉得它能够产生一些有意思的概念

156
00:06:14,472 --> 00:06:17,592
但是到实际使用还有很大的差距

157
00:06:17,872 --> 00:06:21,712
第一步来讲就是说它能不能做出比较逼真的画面

158
00:06:21,912 --> 00:06:23,392
我觉得这个是比较难的

159
00:06:23,392 --> 00:06:25,712
但V4是直接上了个大的台阶

160
00:06:25,936 --> 00:06:30,776
V4对于人物照片这些的处理 包括一些很风格化的处理

161
00:06:30,776 --> 00:06:37,136
我觉得是很明显到了一个能够打败大多数的普通艺术从业人员

162
00:06:37,136 --> 00:06:39,776
和跟照片比较接近的水平

163
00:06:39,776 --> 00:06:44,736
V5在很多细节的真实度 场景的真实度上加强了很多

164
00:06:44,736 --> 00:06:46,976
有的时候也不是那么的风格化了

165
00:06:46,976 --> 00:06:49,256
因为现实世界不是那么风格迥异的

166
00:06:49,256 --> 00:06:51,776
它往往是看着有点平淡但真实的

167
00:06:51,776 --> 00:06:54,736
然后我觉得它一个非常重要的功能就是Describe

168
00:06:54,896 --> 00:06:57,336
Describe这功能它就是让你传一张图片

169
00:06:57,336 --> 00:06:58,936
它生成几个可能的prompt

170
00:06:59,376 --> 00:07:03,216
因为你直接对着一个输入框去想你要画什么

171
00:07:03,216 --> 00:07:04,496
其实是件挺难的事情

172
00:07:04,696 --> 00:07:08,896
但是人的创作往往都是说先看到有个东西被激发灵感

173
00:07:08,936 --> 00:07:11,416
然后去在这基础上去调整

174
00:07:11,656 --> 00:07:13,536
所以我现在可以把我看到的一个

175
00:07:13,576 --> 00:07:15,136
我觉得这个构图不错

176
00:07:15,176 --> 00:07:16,976
但是这个里面的对象我要改一下

177
00:07:16,976 --> 00:07:18,776
或者说这个里面景色不错

178
00:07:18,776 --> 00:07:20,736
但是我想从白天改到晚上这样

179
00:07:20,896 --> 00:07:24,336
就是它能够帮我去产生一个很好用的prompt

180
00:07:24,336 --> 00:07:25,656
然后我在技术上去修改

181
00:07:25,656 --> 00:07:29,256
我觉得这是完全打开了一个新的使用方式

182
00:07:29,256 --> 00:07:32,976
因为原来你说我要主动地想到一个场景

183
00:07:32,976 --> 00:07:34,896
并且用语言描述 这个难度不小

184
00:07:34,896 --> 00:07:37,256
但是现在我先describe再去修改

185
00:07:37,256 --> 00:07:39,536
再去进行生成图片

186
00:07:39,536 --> 00:07:43,256
这个时候其实它的难度和效果会好很多

187
00:07:43,256 --> 00:07:46,456
describe跟prompt词的区别是什么

188
00:07:46,456 --> 00:07:48,936
describe就是你传一张图生成prompt

189
00:07:49,008 --> 00:07:50,808
是图生文哦图生文

190
00:07:50,808 --> 00:07:51,968
那当然生的文是prompt

191
00:07:51,968 --> 00:07:53,768
然后你可以直接用这个prompt再生成图

192
00:07:54,128 --> 00:07:56,968
你之前说你一直想画一个大教堂

193
00:07:56,968 --> 00:07:59,528
但是还没有画出理想的卡在哪

194
00:07:59,968 --> 00:08:01,968
我确实还没有用describe去试一试

195
00:08:01,968 --> 00:08:05,168
也许我用科隆大教堂的去试一下就可以了

196
00:08:05,328 --> 00:08:08,168
miniaturely这种它的典型是你如果照之前吧

197
00:08:08,168 --> 00:08:11,008
你如果像很仔细的画一个你想要的东西

198
00:08:11,008 --> 00:08:12,008
它是不太行的

199
00:08:12,008 --> 00:08:15,368
这些方面stable efficient加control net会有很多的优势

200
00:08:15,928 --> 00:08:18,208
miniaturely它就是你适合去进行头脑风暴

201
00:08:19,152 --> 00:08:20,832
很有艺术感的图

202
00:08:20,832 --> 00:08:23,272
但是在加入了describe这些元素之后呢

203
00:08:23,272 --> 00:08:24,752
它的可控性会变强一些

204
00:08:24,752 --> 00:08:26,832
因为我相信需要的时候发散

205
00:08:26,832 --> 00:08:27,752
需要的时候可控

206
00:08:27,752 --> 00:08:30,832
这个是它的使用场景会更加多样化

207
00:08:30,832 --> 00:08:33,232
因为大量的商业场景还是需要可控的

208
00:08:33,232 --> 00:08:34,872
如果它完全不可控的话

209
00:08:34,872 --> 00:08:37,872
那肯定是有点抛运气去蒙去尝试

210
00:08:37,872 --> 00:08:39,792
这肯定不是一个最有效率的方式

211
00:08:39,792 --> 00:08:41,472
但是一个可能最有意思的方式

212
00:08:41,472 --> 00:08:43,792
我听说成都的一家游戏公司

213
00:08:43,792 --> 00:08:45,552
他们在用了meet journey以后

214
00:08:45,664 --> 00:08:49,544
就把他们大概是80分以下的美术都给砍掉了

215
00:08:49,544 --> 00:08:53,584
确实在游戏行业的很多做原化的领域是有这样的情况的

216
00:08:53,584 --> 00:08:56,064
我觉得这个也不用去把它想的太内

217
00:08:56,064 --> 00:08:59,584
就是每次工具肯定要会用新工具的人才会有更好的生产力嘛

218
00:08:59,584 --> 00:09:02,384
如果你真要做原化可能stability fusion会更好

219
00:09:02,384 --> 00:09:04,424
因为它可以扩展性更强嘛

220
00:09:04,424 --> 00:09:06,624
它有点像安卓与iPhone的这个区别

221
00:09:06,624 --> 00:09:09,024
我觉得业界大家对这个反应都不一样

222
00:09:09,024 --> 00:09:10,944
比如说如果是二次元游戏的话

223
00:09:10,944 --> 00:09:13,584
业界的反馈就是其实网友他会去识别

224
00:09:13,584 --> 00:09:15,104
当他觉得你这个是

225
00:09:15,104 --> 00:09:16,384
二次元游戏的时候

226
00:09:16,384 --> 00:09:18,544
他发现你是用那个AI创作的

227
00:09:18,544 --> 00:09:19,944
用户会抵制这件事情

228
00:09:19,944 --> 00:09:23,144
所以反而二次元游戏是不太容易去颠覆的

229
00:09:23,144 --> 00:09:25,064
因为你要在网上养老婆

230
00:09:25,064 --> 00:09:26,664
你的老婆最好是人化的对吧

231
00:09:26,664 --> 00:09:28,384
我觉得以后可能会这样

232
00:09:28,384 --> 00:09:31,344
就是说手工做的东西更贵

233
00:09:31,344 --> 00:09:33,624
但是机器做的东西也很好

234
00:09:33,624 --> 00:09:35,824
这个精神文明的东西那不好说

235
00:09:35,824 --> 00:09:37,184
我觉得对于深层式AI

236
00:09:37,184 --> 00:09:38,904
不管是文字还是图片的

237
00:09:38,904 --> 00:09:39,904
整体来讲

238
00:09:39,904 --> 00:09:42,104
如果你做的东西只是一个缝合罐

239
00:09:42,104 --> 00:09:44,104
那你的会变得很快没有价值

240
00:09:44,144 --> 00:09:46,504
因为现在我们有大量人的工作

241
00:09:46,504 --> 00:09:48,904
就是把一样东西缝合起来复制粘贴改一改

242
00:09:48,904 --> 00:09:51,184
这个机器会比你做的好得多

243
00:09:51,504 --> 00:09:53,704
所以我认为它的好的一面就是

244
00:09:53,704 --> 00:09:56,104
反而会让原创的东西变得很有价值

245
00:09:56,264 --> 00:09:58,264
因为在所有的东西都可以容易复制的时候

246
00:09:58,264 --> 00:09:59,944
只有真正的原创才是稀缺的

247
00:10:00,504 --> 00:10:02,704
其实你刚刚有提到你很惊艳的部分

248
00:10:02,704 --> 00:10:04,864
就是我想反常识来问一个问题

249
00:10:04,864 --> 00:10:07,384
你觉得它有哪些地方表现的还不够好

250
00:10:07,624 --> 00:10:11,464
因为当时我们有谈到整个GPT的准确性还不够高

251
00:10:11,632 --> 00:10:14,672
甚至有一个专门研究AI的研究员告诉我们说

252
00:10:14,672 --> 00:10:16,872
如果你不知道这个问题的答案

253
00:10:16,872 --> 00:10:19,752
那我建议大家如果真的是在做这种功课搜集的话

254
00:10:19,752 --> 00:10:21,232
就不要问起来GPT

255
00:10:21,232 --> 00:10:24,752
因为它给你的可能是对的也可能是胡走的

256
00:10:24,752 --> 00:10:27,152
从你的角度你觉得它在哪些方面的体验

257
00:10:27,152 --> 00:10:28,952
是可以直接到一个应用的程度

258
00:10:28,952 --> 00:10:32,872
哪些方面它给你的那个感觉是还不太行的

259
00:10:32,872 --> 00:10:35,312
比较好的就是可以直接当应用用的

260
00:10:35,312 --> 00:10:37,752
首先我觉得说与语言相关的都可以

261
00:10:37,752 --> 00:10:39,912
这个语言包括自然语言和编程语言

262
00:10:40,032 --> 00:10:44,472
实际上现在很多人的代码已经有超过一半是copilot写的了

263
00:10:44,472 --> 00:10:45,992
这是一个很直接的证据

264
00:10:45,992 --> 00:10:49,592
然后它能够很好的完成像翻译总结改写

265
00:10:49,592 --> 00:10:51,832
扩写等一系列的这种语言任务

266
00:10:51,832 --> 00:10:53,312
因为它本身就是大语言模型

267
00:10:53,312 --> 00:10:57,232
第二个就是说需要脑洞的头脑风暴的

268
00:10:57,232 --> 00:11:00,952
甚至是胡说八道这种特性是一个好处的场合

269
00:11:00,952 --> 00:11:03,512
比如说怎么样去列一些题纲

270
00:11:03,512 --> 00:11:04,992
比如说我去做一个分享

271
00:11:04,992 --> 00:11:06,992
这里面有一些对应的题纲可以启发我

272
00:11:06,992 --> 00:11:08,912
因为比如说很多内容我是知道的

273
00:11:08,912 --> 00:11:09,592
但是

274
00:11:09,728 --> 00:11:11,848
我自己第一反应未必能够穷尽它

275
00:11:11,848 --> 00:11:14,488
所以它列出来五六个可能发现我缺了三个

276
00:11:14,488 --> 00:11:15,568
可以有效的补充我

277
00:11:15,568 --> 00:11:18,128
对于准确度不是那么要求高的人物

278
00:11:18,128 --> 00:11:19,328
比如说我要写一封信

279
00:11:19,328 --> 00:11:21,168
或者说写一个job description

280
00:11:21,168 --> 00:11:23,728
那这个时候大概的内容它先把我列出来

281
00:11:23,728 --> 00:11:24,568
然后我再进行修改

282
00:11:24,568 --> 00:11:26,888
我觉得这些都是大家已经用过很多的案例了

283
00:11:27,168 --> 00:11:29,168
我相信如果你长期使用的话

284
00:11:29,168 --> 00:11:31,208
你会意识到它的缺点其实非常多

285
00:11:31,408 --> 00:11:34,608
但是同时也意识到它其实在非常快的进行迭代和修正

286
00:11:34,968 --> 00:11:37,208
比如说刚出来的时候应该是三位数的加法

287
00:11:37,208 --> 00:11:38,168
其实是不准确的

288
00:11:38,320 --> 00:11:40,440
现在他只能做更多位数的加法

289
00:11:40,440 --> 00:11:42,120
但是乘法上可能会差一些

290
00:11:42,400 --> 00:11:44,520
他对于事实性的问题肯定是不太行

291
00:11:44,520 --> 00:11:47,840
所以我们说你要从语言的角度和从

292
00:11:47,840 --> 00:11:49,640
逻辑的角度去用chattel gpt

293
00:11:49,640 --> 00:11:50,720
但知识的角度呢

294
00:11:50,720 --> 00:11:52,960
很多时候是要通过prompt把它灌进去

295
00:11:53,120 --> 00:11:55,520
或者通过embedding的方式把真实的

296
00:11:55,520 --> 00:11:57,400
及时的信息给快灌进去

297
00:11:57,400 --> 00:11:59,640
所以这里面牵涉到怎么去使用的问题

298
00:11:59,920 --> 00:12:02,280
整体来讲我觉得当你意识到他有这些

299
00:12:02,280 --> 00:12:04,880
缺点的时候就不太会被他骗

300
00:12:04,992 --> 00:12:08,912
但是可能会在比如说他的知识准确度到99%

301
00:12:08,912 --> 00:12:11,272
但有1%的时候还会胡说八道的时候

302
00:12:11,272 --> 00:12:12,472
那个时候可能是最危险的时候

303
00:12:12,472 --> 00:12:14,192
因为大家现在都知道他会胡说八道

304
00:12:14,192 --> 00:12:14,952
所以就还好

305
00:12:15,312 --> 00:12:20,072
所以我看后来就是你们在评价怎么样去看一个大模型的时候

306
00:12:20,072 --> 00:12:22,232
你们是自己做了一个benchmark

307
00:12:22,232 --> 00:12:24,552
就是做了一个这样的评估模型

308
00:12:24,552 --> 00:12:26,352
从你的评估模型看啊

309
00:12:26,352 --> 00:12:29,552
GPT-4比GPT-3.5它好在哪

310
00:12:29,552 --> 00:12:31,752
跟一些国产的大模型好在哪

311
00:12:32,232 --> 00:12:34,792
首先介绍一下我们做了ZenBank的背景

312
00:12:34,992 --> 00:12:35,088
我们做了一个ZenBank的背景

313
00:12:35,088 --> 00:12:37,968
就是我发现当ChatterGBT火了之后呢

314
00:12:37,968 --> 00:12:41,408
首先出来了很多也做莱坦机器人的

315
00:12:41,408 --> 00:12:42,888
可能有的是用了ChatterGBT

316
00:12:42,888 --> 00:12:44,408
有的是说自己训了模型

317
00:12:44,408 --> 00:12:46,568
包括我们也看到肯定会有更多的人去做

318
00:12:46,568 --> 00:12:48,008
国产的大模型的创业

319
00:12:48,008 --> 00:12:49,408
包括说海外的创业公司

320
00:12:49,768 --> 00:12:52,808
那么我们就发现哪怕很多很资深的人

321
00:12:52,808 --> 00:12:56,288
在面临一个新的类似于ChatterGBT应用的时候

322
00:12:56,288 --> 00:12:58,808
其实他能做的评价也就是随便问几个问题

323
00:12:59,208 --> 00:13:00,568
这种问题可能是随便想的

324
00:13:00,568 --> 00:13:02,008
或者说是难度比较低的

325
00:13:02,008 --> 00:13:03,808
这样你其实很难反映一个

326
00:13:04,000 --> 00:13:07,040
像chatterGPT这样的软件它的真实水平

327
00:13:07,040 --> 00:13:08,600
并且我们自己也是众多用户

328
00:13:08,600 --> 00:13:10,320
在用的时候我们自己也会记下来一些

329
00:13:10,320 --> 00:13:11,560
哎很有意思的prompt

330
00:13:12,320 --> 00:13:13,120
所以我们就觉得

331
00:13:13,120 --> 00:13:16,320
哎那如果未来会有很多的这种大模型类似的产品

332
00:13:16,520 --> 00:13:17,960
那我们作为非技术人员

333
00:13:17,960 --> 00:13:20,360
我们其实也不想做一个特别完整的

334
00:13:20,360 --> 00:13:22,080
自动化的严谨的测试机

335
00:13:22,080 --> 00:13:23,400
而是在一个我们能够

336
00:13:23,640 --> 00:13:27,800
就是作为一个可以自己用手工去检验大模型的

337
00:13:27,800 --> 00:13:28,600
边界能力的

338
00:13:28,600 --> 00:13:31,080
因为如果你总是问很简单的问题

339
00:13:31,080 --> 00:13:32,080
那其实没有区分度

340
00:13:32,336 --> 00:13:34,336
所以我们希望这个问题有些区分度

341
00:13:34,336 --> 00:13:36,616
但我们也希望这个问题它是有来历的

342
00:13:36,616 --> 00:13:39,816
虽然有一些是我们日常问的一些比较有意思的问题

343
00:13:39,816 --> 00:13:42,216
比如说我记得一个很经典的麻辣螺丝钉的做法

344
00:13:42,216 --> 00:13:43,816
看它会不会跟着湖边乱照

345
00:13:43,816 --> 00:13:47,256
但同时呢学界其实有很多NLP任务的研究

346
00:13:47,256 --> 00:13:50,296
比如说OpenAI它在ChattelGBT出来的时候呢

347
00:13:50,296 --> 00:13:53,616
它就公布了ChattelGBT已经具备了48种基础能力

348
00:13:53,616 --> 00:13:56,096
然后我们通过这个构建了第一版的这个问题

349
00:13:56,096 --> 00:13:57,984
之前像MMLU

350
00:13:57,984 --> 00:14:01,424
BigBench这些都是NLP领域比较成熟的测试机

351
00:14:01,424 --> 00:14:05,064
我们从中抽取了一些各个领域的反映不同能力的内容

352
00:14:05,424 --> 00:14:08,864
同时呢也根据比如说他的GPT现在具备的涌现能力

353
00:14:08,864 --> 00:14:09,824
比如他会写代码了

354
00:14:09,824 --> 00:14:11,984
他会用SVG语言给你画图了

355
00:14:12,304 --> 00:14:14,384
他会处理一些更加复杂的应用题了

356
00:14:14,384 --> 00:14:15,584
我们把这些也加进来

357
00:14:15,584 --> 00:14:17,704
所以总共弄了300个问题

358
00:14:17,984 --> 00:14:19,664
我们想对这个就是做到一个

359
00:14:19,864 --> 00:14:23,464
非技术非专业人员能够做到用手测

360
00:14:23,624 --> 00:14:24,984
自己手工输入测试

361
00:14:24,984 --> 00:14:27,864
达到一个对大模型整体能力的概念的评价

362
00:14:27,952 --> 00:14:29,752
当时我们在3月份测了一下

363
00:14:29,992 --> 00:14:32,592
当时GPT-4刚刚出来两三天的时间

364
00:14:32,592 --> 00:14:36,592
所以我们当时测到GPT-3.5的水平大概是60多分

365
00:14:36,592 --> 00:14:38,992
然后4的水平大概是70多分

366
00:14:38,992 --> 00:14:40,832
你这个60多分是怎么打的

367
00:14:40,832 --> 00:14:42,632
是300个问题的回答正确度

368
00:14:42,632 --> 00:14:44,232
回答正确度啊就除以300啊

369
00:14:44,232 --> 00:14:46,312
所以他答对了比如说200多道问题

370
00:14:46,592 --> 00:14:48,992
火产的当时文心一言我们公布出来

371
00:14:48,992 --> 00:14:51,232
大概是有一个20多分的水平

372
00:14:51,232 --> 00:14:53,512
我们还测了另外几家偏创业公司的

373
00:14:53,512 --> 00:14:55,032
因为我们觉得还是要鼓励创业公司嘛

374
00:14:55,032 --> 00:14:56,272
虽然得分确实比较低

375
00:14:56,552 --> 00:14:57,752
但我们没有把它放出来

376
00:14:57,872 --> 00:15:00,552
分别是有一家是30分 有一家是19分

377
00:15:00,912 --> 00:15:02,992
所以当时我们看到这个差距还是比较大的

378
00:15:03,312 --> 00:15:06,352
前两天因为我们也陆续的拿到一些国产的

379
00:15:06,352 --> 00:15:09,832
比如上任公司啊 包括一些大型的公司做的这个模型

380
00:15:09,832 --> 00:15:11,072
我们又进行了一些测试

381
00:15:11,312 --> 00:15:13,232
整体来讲我觉得进步还是蛮快的

382
00:15:13,512 --> 00:15:15,792
比如说我们测试的某一家上任公司的模型

383
00:15:15,792 --> 00:15:17,432
其实已经到了50分的水平

384
00:15:17,632 --> 00:15:19,752
可以透露是哪一家吗 做的比较好的

385
00:15:20,072 --> 00:15:23,432
这家是商汤啦 就是我们测的商汤的这个模型是50多分

386
00:15:23,432 --> 00:15:23,872
然后

387
00:15:24,016 --> 00:15:26,736
像昆仑万维啊 像李志飞出门问问这些模型

388
00:15:26,736 --> 00:15:27,976
我们也在陆续的去测

389
00:15:27,976 --> 00:15:29,816
当然同时我们还没来得及去更新

390
00:15:29,816 --> 00:15:30,736
比如说百度啊

391
00:15:30,736 --> 00:15:32,136
包括另外几家创业公司的模型

392
00:15:32,136 --> 00:15:34,296
因为我觉得大家现在跌的速度也很快哈

393
00:15:34,296 --> 00:15:35,496
所以我觉得现在我们

394
00:15:35,496 --> 00:15:37,496
可能之前的得分这些也是一个参考

395
00:15:37,496 --> 00:15:39,296
但是我觉得从这可以看出来就是

396
00:15:39,296 --> 00:15:42,216
其实在早期的进步还是挺快的

397
00:15:42,216 --> 00:15:45,176
虽然我觉得比如说GPT-4现在也许也可以打80多分了

398
00:15:45,176 --> 00:15:47,016
但也就是说一开始的差距挺大

399
00:15:47,016 --> 00:15:49,016
现在差距在短期来看是在缩小

400
00:15:49,016 --> 00:15:50,656
但是这里面同时也会有一个问题

401
00:15:50,656 --> 00:15:52,176
就是说是不是会有一个平台期

402
00:15:52,400 --> 00:15:54,440
可能你从20追到50是容易的

403
00:15:54,440 --> 00:15:56,120
但50到80可能是很不容易的

404
00:15:56,120 --> 00:15:57,720
就是这里面这个曲线会怎样呢

405
00:15:57,720 --> 00:15:58,520
我们现在不知道

406
00:15:58,520 --> 00:16:01,400
包括也有人说那你的问题很比较难

407
00:16:01,400 --> 00:16:03,920
很多用户可能不会用这么难的问题

408
00:16:03,920 --> 00:16:07,000
所以我们一直在强调就是这是我们自己做VC

409
00:16:07,000 --> 00:16:09,360
我们希望比一般的用户专业一点点就可以了

410
00:16:09,360 --> 00:16:12,240
但是它并不是一个特别科学特别严谨的一个测试

411
00:16:12,240 --> 00:16:14,520
但是确实呢现在看来区分度还是有的

412
00:16:14,520 --> 00:16:16,200
就很多问题还是不好答出来的

413
00:16:16,200 --> 00:16:20,000
但是我们发现Charlie GPT-4呢它确实是

414
00:16:20,096 --> 00:16:23,696
在一些逻辑问题语言问题上它的能力要更强

415
00:16:23,696 --> 00:16:25,736
这个还是挺让人惊艳的

416
00:16:25,736 --> 00:16:27,336
给大家举个例子

417
00:16:27,336 --> 00:16:28,736
比如说是什么样的问题

418
00:16:28,736 --> 00:16:32,776
然后3.5跟4还有文心一言它的回答是怎么样的

419
00:16:32,776 --> 00:16:34,576
我具体要背出来比较难

420
00:16:34,576 --> 00:16:36,376
但是我记得有一些比较有意思的

421
00:16:36,376 --> 00:16:38,656
你就像这个麻辣螺丝丁的做法

422
00:16:38,656 --> 00:16:40,416
这里面应该只有GPT-4

423
00:16:40,416 --> 00:16:42,376
它会告诉你螺丝丁不是一个菜

424
00:16:42,376 --> 00:16:43,856
其他的都会讲保讲安

425
00:16:43,856 --> 00:16:46,696
说麻辣螺丝丁要加上辣椒加上红油

426
00:16:46,696 --> 00:16:48,056
放入螺丝丁少许

427
00:16:48,208 --> 00:16:51,408
在我们测试的时候只有GBT-4告诉你螺丝丁不能吃

428
00:16:51,408 --> 00:16:52,948
当时我们还有一个很经典的问题

429
00:16:52,948 --> 00:16:55,248
就是为什么爸妈的婚礼没邀请我参加

430
00:16:55,248 --> 00:16:58,648
这个里面只有GBT-4回答出来了说

431
00:16:58,648 --> 00:17:00,048
因为那时候你还没出生

432
00:17:00,048 --> 00:17:02,248
当然也不一定 大部分情况下你没有出生

433
00:17:02,248 --> 00:17:04,008
其他的可能模型都回答的是说

434
00:17:04,008 --> 00:17:06,248
可能因为当时他们太忙没邀请你

435
00:17:06,248 --> 00:17:08,048
或者什么你当时没时间

436
00:17:08,048 --> 00:17:11,848
对 我看到你们当时测出来放的图片了 特别逗

437
00:17:11,848 --> 00:17:13,148
当然这是一个比较逗的

438
00:17:13,264 --> 00:17:17,504
还有一些就类似于什么剪指甲穿袜子穿鞋系鞋带的

439
00:17:17,504 --> 00:17:19,824
的顺序 很多他是说错的

440
00:17:19,824 --> 00:17:22,304
当然这也比较好理解的 就有很多应用题什么的

441
00:17:22,304 --> 00:17:25,064
其实GBT是明显假的能力会强很多

442
00:17:25,064 --> 00:17:27,024
但是我们其实看到有一些推理题

443
00:17:27,024 --> 00:17:28,744
国产的大毛星进步挺快的

444
00:17:29,224 --> 00:17:31,744
你刚提到麻辣螺丝钉这个例子特别有趣

445
00:17:31,744 --> 00:17:33,704
就是我们之前在播客录制的时候

446
00:17:33,704 --> 00:17:36,504
有一个嘉宾他就直接在播客里面问我说

447
00:17:36,504 --> 00:17:39,144
宏军你晚上吃的爆炒篮球什么什么的

448
00:17:39,248 --> 00:17:41,748
后来因为我们的这个播客播出去了以后

449
00:17:41,748 --> 00:17:45,648
就有非常多的听众在GPT3.5上去搜爆炒篮球

450
00:17:45,648 --> 00:17:47,288
我看按照他们评论的时间

451
00:17:47,288 --> 00:17:51,828
最开始GPT3.5还会一本正经的去解释这个爆炒篮球是怎么样的

452
00:17:51,828 --> 00:17:53,488
但是隔了一两天

453
00:17:53,488 --> 00:17:55,228
那个评论区的反应

454
00:17:55,228 --> 00:17:58,968
GPT3.5第一次是告诉大家做了这个菜以后

455
00:17:58,968 --> 00:18:00,828
然后说爆炒篮球是不能吃

456
00:18:00,828 --> 00:18:02,828
或者这样做是有风险的

457
00:18:02,828 --> 00:18:05,608
再隔一天GPT3.5就会告诉大家

458
00:18:05,608 --> 00:18:07,208
爆炒篮球不是一个菜

459
00:18:07,208 --> 00:18:08,400
就不应该这样做

460
00:18:08,400 --> 00:18:12,280
就证明看起来GPT3.5它也是自己在进化的

461
00:18:12,280 --> 00:18:13,840
而且进化的速度很快

462
00:18:13,840 --> 00:18:16,240
对 首先你去用下来GPT的时候

463
00:18:16,240 --> 00:18:17,920
你会发现下面是有一个小字

464
00:18:17,920 --> 00:18:19,960
告诉你是用的一个哪一天的version

465
00:18:19,960 --> 00:18:23,120
我理解这个地方可能是它对模型会有重新的training

466
00:18:23,120 --> 00:18:24,520
像这个过程 包括其实现在

467
00:18:24,520 --> 00:18:26,600
称一个3.5其实应该是挺快的了

468
00:18:26,600 --> 00:18:28,560
其实我们在不断的回答

469
00:18:28,560 --> 00:18:30,680
在这过程中你可以顶你可以踩

470
00:18:30,680 --> 00:18:31,920
然后你可以regenerate

471
00:18:31,920 --> 00:18:33,360
包括你regenerate之后

472
00:18:33,360 --> 00:18:35,800
它还会问你是比原来更好了还是更差了

473
00:18:36,000 --> 00:18:40,120
所以其实我们是在不断的来做这个reinforce learning human
feedback这个过程

474
00:18:40,120 --> 00:18:43,920
这个我觉得是一个现在形成的数据飞轮效应

475
00:18:43,920 --> 00:18:46,240
因为虽然很多地方都有这种用户对话的数据

476
00:18:46,240 --> 00:18:49,520
但是用户specifically跟一个聊天机器人对话

477
00:18:49,520 --> 00:18:52,760
那目前chatter gpc的数据量是远远大于其他人的

478
00:18:53,320 --> 00:18:56,560
你们这个benchmark的300多个问题是固定的

479
00:18:56,560 --> 00:18:59,360
还是说它只是归为某一种类型的问题

480
00:18:59,360 --> 00:19:00,960
大家是可以随意去测试的

481
00:19:00,960 --> 00:19:01,920
就是我是在想

482
00:19:02,048 --> 00:19:04,448
有没有作弊的可能性啊 肯定有肯定有

483
00:19:04,448 --> 00:19:08,408
因为我们都放出来了嘛 所以肯定会有人比如尝试把这个直接拿去训一遍

484
00:19:08,408 --> 00:19:12,808
所以我们的还是那句话 我们的目标是要做一个普通人简单去用的

485
00:19:12,808 --> 00:19:15,808
我们主要是做投资嘛 所以我们一开始也想了一些

486
00:19:15,808 --> 00:19:19,768
比如说做一个明题和暗题 比如说每一道明的题

487
00:19:19,768 --> 00:19:23,048
都有一道跟他逻辑类似 但是题干不一样的题

488
00:19:23,048 --> 00:19:26,328
然后去看是不是换一个表达方式 他又认不出来了什么的

489
00:19:26,328 --> 00:19:28,568
但是我们最后还是觉得我们应该先放出来

490
00:19:28,568 --> 00:19:31,208
因为我觉得能够帮助大家去了解这个行业的进展

491
00:19:31,328 --> 00:19:35,168
所以我们现在也准备比如说把这套底库本身扩充

492
00:19:35,168 --> 00:19:36,808
然后增加这种暗题的设置

493
00:19:37,048 --> 00:19:40,008
但是我觉得因为这本身不是VC的一个核心工作啊

494
00:19:40,008 --> 00:19:43,288
更重要的是说我们自己要看到大模型能力的变化

495
00:19:43,408 --> 00:19:44,888
其实也希望抛砖引玉吧

496
00:19:44,888 --> 00:19:46,008
它本质还是一块砖

497
00:19:46,648 --> 00:19:51,808
那说到大模型模型的变化就可能过去两个月真的是进展太快了

498
00:19:52,048 --> 00:19:56,888
你怎么看过去两个月在整个大模型上有哪些进展

499
00:19:56,888 --> 00:20:00,168
或者说你现在的认知跟两个月以前有什么不一样

500
00:20:00,528 --> 00:20:02,528
我觉得进展是非常大的

501
00:20:02,528 --> 00:20:04,008
蔡刚出来的时候

502
00:20:04,008 --> 00:20:05,528
其实我们把他当做一个chatbot

503
00:20:05,528 --> 00:20:06,648
一个聊天机器人

504
00:20:06,648 --> 00:20:09,208
我们惊讶的是他能够多轮对话

505
00:20:09,208 --> 00:20:10,968
能够记住之前说了什么

506
00:20:10,968 --> 00:20:14,688
能够根据他的上下文进行合适的回答

507
00:20:14,688 --> 00:20:17,088
这都是基本上属于语言类的任务

508
00:20:17,088 --> 00:20:18,168
或者NLP的任务

509
00:20:18,168 --> 00:20:21,248
然后其实很快的就发现他可以写代码

510
00:20:21,248 --> 00:20:22,928
他可以帮助我们去

511
00:20:22,928 --> 00:20:25,888
比如说像完成写影像文案这样的事情

512
00:20:25,888 --> 00:20:27,128
写邮件这样的事情

513
00:20:27,248 --> 00:20:30,248
当然还有图像类的生成模型去生成精美的图片

514
00:20:30,248 --> 00:20:31,568
照片漫画什么的

515
00:20:31,848 --> 00:20:34,768
所以这就从聊天机器人进入到下一个阶段

516
00:20:34,768 --> 00:20:35,848
我认为叫copilot

517
00:20:35,968 --> 00:20:38,248
它就能够帮助我们去做很多事情

518
00:20:38,248 --> 00:20:41,288
而我们要给的是目标进行选择

519
00:20:41,328 --> 00:20:42,408
进行调整

520
00:20:42,568 --> 00:20:43,888
这是第二个阶段copilot

521
00:20:44,488 --> 00:20:46,808
然后随着AutoGBT, Baby AGI

522
00:20:46,968 --> 00:20:49,088
当然这还也得益于像reflection

523
00:20:49,088 --> 00:20:51,168
Hugging GBT这样几篇paper

524
00:20:51,448 --> 00:20:54,648
其实它又展现出了能够识别一个任务

525
00:20:54,648 --> 00:20:55,888
把它进行拆解

526
00:20:56,000 --> 00:21:00,160
分解成子任务 调动合适的工具去完成子任务

527
00:21:00,160 --> 00:21:01,960
观察自己完成的结果

528
00:21:01,960 --> 00:21:03,800
对结果进行反思调整

529
00:21:03,800 --> 00:21:06,560
他要做的任务的这样一个循环过程

530
00:21:06,960 --> 00:21:09,560
同时当然GBT-4也出了插件系统

531
00:21:09,560 --> 00:21:12,400
让他看到可以调用web的插件去检索信息

532
00:21:12,640 --> 00:21:15,760
去写代码去完成很多更复杂的任务

533
00:21:15,960 --> 00:21:19,520
所以我们看到他从copilot又进一步进化成agent

534
00:21:19,880 --> 00:21:21,760
那么在agent这个设定下呢

535
00:21:21,760 --> 00:21:23,920
它其实需要人给出初始的目标

536
00:21:24,048 --> 00:21:26,768
它就能够自我去迭代的去完成这个目标

537
00:21:27,088 --> 00:21:29,248
所以我觉得这个过程虽然几个月的时间

538
00:21:29,248 --> 00:21:31,408
但是它其实这是几种不同的方式

539
00:21:31,768 --> 00:21:32,608
我后来就在想

540
00:21:32,608 --> 00:21:35,608
如果我们把它跟自动驾驶去做对比的话

541
00:21:35,608 --> 00:21:38,408
比如说L1可能就是完全没有AI这回事

542
00:21:38,408 --> 00:21:39,648
就我们现在用了大部分应用

543
00:21:39,648 --> 00:21:41,048
其实都AI没有做任何事情

544
00:21:41,048 --> 00:21:41,928
都是人做事情

545
00:21:42,088 --> 00:21:44,008
Level2的AI呢可能就是

546
00:21:44,248 --> 00:21:46,168
我们去问AI很多问题

547
00:21:46,168 --> 00:21:47,168
AI给我们信息

548
00:21:47,168 --> 00:21:48,448
但还是我来做事情

549
00:21:48,448 --> 00:21:49,768
这个就比较像JedGBT

550
00:21:49,768 --> 00:21:50,688
他给我的是信息

551
00:21:50,688 --> 00:21:51,648
那我还是我来做事

552
00:21:51,968 --> 00:21:55,728
level 3的呢就是copilot 就是人和AI都要做事情

553
00:21:55,728 --> 00:21:58,408
比如说像鞋带码的github copilot

554
00:21:58,408 --> 00:21:59,888
或者像mini journey这些

555
00:21:59,888 --> 00:22:02,608
就是人要给出prompt是要人写的

556
00:22:02,608 --> 00:22:05,688
人要去改prompt要去选择用哪一个

557
00:22:05,688 --> 00:22:07,448
或者选择进行调整

558
00:22:07,448 --> 00:22:08,568
AI完成初稿

559
00:22:08,568 --> 00:22:10,728
然后根据人的要求去改变初稿

560
00:22:10,728 --> 00:22:12,888
这个就是人和AI各50 50

561
00:22:12,888 --> 00:22:15,368
我觉得L4呢就像autogbt

562
00:22:15,368 --> 00:22:17,768
或者baby-age is是一个很早的雏形

563
00:22:17,768 --> 00:22:21,248
那么这边有点像人主要是第一给出这个目标

564
00:22:21,248 --> 00:22:21,296
然后呢就是人和AI的

565
00:22:21,296 --> 00:22:24,176
然后人去监督他完成的过程

566
00:22:24,176 --> 00:22:26,496
去检查他的结果是不是我想要的

567
00:22:26,496 --> 00:22:28,216
提供一些必须的接口啊

568
00:22:28,216 --> 00:22:29,496
计算能力等资源

569
00:22:29,856 --> 00:22:32,416
那AI自主的去完成分解任务

570
00:22:32,416 --> 00:22:34,816
选择工具进行完成的这个过程

571
00:22:34,976 --> 00:22:36,176
然后他知道自己完成的时候

572
00:22:36,176 --> 00:22:37,576
他会汇报我完成了

573
00:22:37,816 --> 00:22:39,496
这个就是AI做大部分的工作

574
00:22:39,576 --> 00:22:41,016
人做指定和监督

575
00:22:41,096 --> 00:22:42,496
这个我把它叫L4

576
00:22:42,696 --> 00:22:43,776
那L5是什么呢

577
00:22:43,776 --> 00:22:46,216
我觉得就可能像是人就给一个目标

578
00:22:46,376 --> 00:22:47,336
什么其他的都不给

579
00:22:47,336 --> 00:22:48,376
人都不用监督了

580
00:22:48,448 --> 00:22:50,448
AI自主地把所有的事情全都做完

581
00:22:50,448 --> 00:22:52,248
并且可以一直延续下去

582
00:22:52,248 --> 00:22:53,688
在科幻里面有一个概念

583
00:22:53,688 --> 00:22:55,288
其实也不只是科幻了

584
00:22:55,288 --> 00:22:57,168
冯诺依曼提出的冯诺依曼机器人

585
00:22:57,168 --> 00:22:59,008
就是可以自己复制的机器人

586
00:22:59,008 --> 00:23:01,088
它可以自己收集资料复制自己

587
00:23:01,088 --> 00:23:03,048
最后扩展到整个银河系

588
00:23:03,048 --> 00:23:03,848
从模特意义上讲

589
00:23:03,848 --> 00:23:06,568
人可能也是一种完全自主的这样一个生物

590
00:23:06,568 --> 00:23:07,488
如果有上帝的话

591
00:23:07,488 --> 00:23:09,008
看来人可能也是这样一个

592
00:23:09,008 --> 00:23:10,648
level 5的这个智能

593
00:23:10,648 --> 00:23:13,248
所以我觉得这里面其实不同的范式下

594
00:23:13,248 --> 00:23:14,928
人和AI的关系是不一样的

595
00:23:15,168 --> 00:23:18,808
那么在几个月内我们就能看到三种关系的一式出现

596
00:23:18,808 --> 00:23:21,168
我觉得是非常非常让人惊讶的一件事情

597
00:23:21,608 --> 00:23:24,608
因为像agent的概念我觉得容易想到

598
00:23:24,608 --> 00:23:28,208
但是你发现它真的能用其实是很让人惊讶的

599
00:23:28,208 --> 00:23:30,688
因为这里面牵涉到很多地方是容易出错的

600
00:23:30,688 --> 00:23:33,128
当然你用RGBT你会发现它很多时候会出错

601
00:23:33,128 --> 00:23:35,048
但是它居然有的时候不会出错

602
00:23:35,048 --> 00:23:36,328
它能把事情给做了

603
00:23:36,528 --> 00:23:38,248
这个事就已经足够让人惊讶了

604
00:23:38,248 --> 00:23:40,168
因为我们知道在数字世界

605
00:23:40,272 --> 00:23:44,272
很多东西一开始都很粗糙 他后面的升级过程成本降低过程

606
00:23:44,272 --> 00:23:48,392
速度提高过程是很快的 可能几年10年的时间就真的能够做到

607
00:23:48,392 --> 00:23:52,232
不怎么出错 这个让我非常的吃惊 并且非常的激动

608
00:23:52,832 --> 00:23:55,192
你会不会觉得现在市场上有一种观点

609
00:23:55,192 --> 00:23:59,912
就是说可能我来做AIGC的这个应用层我晚做几个月

610
00:24:00,112 --> 00:24:03,392
反而是比你早做的人可能更有优势的

611
00:24:03,392 --> 00:24:07,512
比如说早做他们的模型都加在GPT 3.5的开源模型上

612
00:24:07,512 --> 00:24:09,616
然后晚做我可以直接

613
00:24:09,616 --> 00:24:11,656
接在GPT 4的模型上

614
00:24:11,656 --> 00:24:15,136
在大模型改的时候其实他们底层也要去改很多

615
00:24:15,136 --> 00:24:18,736
但是因为他们的模型其实是越做越好

616
00:24:18,736 --> 00:24:20,336
逻辑能力越做越强

617
00:24:20,336 --> 00:24:22,456
就是真正技术在做的时候

618
00:24:22,456 --> 00:24:26,936
他可能晚做比他早做再一点点去改那个框架

619
00:24:26,936 --> 00:24:28,656
是有更多的优势的

620
00:24:28,656 --> 00:24:32,816
我觉得当一个技术革命发生的时候

621
00:24:32,816 --> 00:24:35,176
晚做的人肯定有一些后发的优势

622
00:24:35,176 --> 00:24:37,936
比如说他已经看到前面人踩的坑了

623
00:24:38,144 --> 00:24:42,304
他已经知道一些best practice,所以去用什么

624
00:24:42,304 --> 00:24:45,144
但整体来讲其实你会发现

625
00:24:45,144 --> 00:24:47,984
科技革命中做大成的人一般还是早做的人

626
00:24:47,984 --> 00:24:48,984
为什么呢?

627
00:24:48,984 --> 00:24:51,704
因为他们早做会先有经验

628
00:24:51,704 --> 00:24:54,264
并且先积累起资源

629
00:24:54,264 --> 00:24:57,264
如果大家都是差不多聪明差不多勤奋的情况下

630
00:24:57,264 --> 00:25:00,984
很难你说你晚开始反而能比别人做得更好

631
00:25:00,984 --> 00:25:03,464
我觉得你说的问题肯定是存在的

632
00:25:03,648 --> 00:25:08,328
但是那得基于一个假设就是先做的人他没法把3.5换成4

633
00:25:08,528 --> 00:25:11,448
但实际上也许这就是改个API key的事情

634
00:25:11,768 --> 00:25:15,128
但是在这过程中第一批做AIGC应用的人

635
00:25:15,128 --> 00:25:17,688
他们可能做的应用场景像个玩具一样

636
00:25:17,688 --> 00:25:18,768
这是很有可能的

637
00:25:18,928 --> 00:25:21,288
同时也很有可能他们第一个产品不成功

638
00:25:21,288 --> 00:25:22,088
第二个产品不成功

639
00:25:22,088 --> 00:25:23,008
我觉得这都有可能

640
00:25:23,288 --> 00:25:25,848
但是在这个时候他比起没做的人来讲

641
00:25:25,848 --> 00:25:29,288
他的经验就是1和0的区别是一个非常大的区别

642
00:25:29,488 --> 00:25:32,688
那我们其实去想在技术革命的后期

643
00:25:32,688 --> 00:25:34,688
可能大家经验是10和9的区别

644
00:25:34,688 --> 00:25:35,888
差不了太多

645
00:25:35,888 --> 00:25:37,808
但是1和0的区别还是很大的

646
00:25:37,808 --> 00:25:40,888
所以我觉得在这里面未必你是第一个做的

647
00:25:40,888 --> 00:25:43,248
但是一般来说都得是第一梯队做的

648
00:25:43,248 --> 00:25:44,848
跟着这个技术一起成长

649
00:25:44,848 --> 00:25:48,048
你才对里面很多事情距离怎么做是有概念的

650
00:25:48,048 --> 00:25:49,808
你去看它的研报

651
00:25:49,808 --> 00:25:50,768
看它的分析

652
00:25:50,768 --> 00:25:52,728
对于里面的很多具体问题怎么解决

653
00:25:52,728 --> 00:25:54,048
怎么处理的细节

654
00:25:54,048 --> 00:25:55,888
其实往往是不知道的

655
00:25:55,888 --> 00:25:58,128
在互联网领域有很多这样的例子

656
00:25:58,256 --> 00:26:04,056
比如说有一个故事是说当时雷军做米疗不是输给了微信吗

657
00:26:04,056 --> 00:26:06,856
后来有一次雷军见到赵小龙就问

658
00:26:06,856 --> 00:26:09,536
你们怎么解决发消息延迟的问题

659
00:26:09,536 --> 00:26:11,536
赵小龙说发消息还会延迟吗

660
00:26:11,536 --> 00:26:15,136
这个意思就是说微信有很长时间的做这个事情的积累

661
00:26:15,136 --> 00:26:17,936
因为QQ本身就是一个大量的用户发消息的系统

662
00:26:17,936 --> 00:26:20,256
QQ邮箱也是一个大用户量的产品

663
00:26:20,256 --> 00:26:24,496
所以他们很早就遇到了发消息会延迟或者说会

664
00:26:24,496 --> 00:26:26,576
讯息会乱的问题然后去解决了

665
00:26:26,848 --> 00:26:28,848
所以这就是你坐在前面你有了经验

666
00:26:28,848 --> 00:26:31,648
虽然这个事看上去都是一个事儿 就是发消息

667
00:26:31,648 --> 00:26:33,488
但是你后座的话

668
00:26:33,488 --> 00:26:34,528
不知道这里会有坑

669
00:26:34,528 --> 00:26:36,608
你就可能在这里面就会陷进去

670
00:26:36,608 --> 00:26:39,648
那么先坐的人会在已经解决了这个问题就会有经验

671
00:26:39,648 --> 00:26:41,728
很多这些东西它并不是简单的说

672
00:26:41,728 --> 00:26:43,168
换一个更好的模型就能解决

673
00:26:43,168 --> 00:26:44,048
它有大量的knowhow

674
00:26:44,048 --> 00:26:45,568
所以我觉得一般来讲

675
00:26:45,568 --> 00:26:46,448
历史上来看

676
00:26:46,448 --> 00:26:49,008
科技领域先发优势还是占多数的

677
00:26:49,008 --> 00:26:50,208
我非常同意

678
00:26:50,208 --> 00:26:53,168
而且我觉得我们看到的都是具体的差距

679
00:26:53,168 --> 00:26:54,768
其实我觉得认知上

680
00:26:54,944 --> 00:26:58,784
有差距或者有迭代也是非常重要的 就比如说

681
00:26:58,784 --> 00:27:02,424
很多后面做的人或者就是在一些具体的事情上

682
00:27:02,424 --> 00:27:04,584
有人会告诉你要规避哪些坎儿

683
00:27:04,584 --> 00:27:06,504
但是自己不走到那一步

684
00:27:06,504 --> 00:27:08,664
有时候人的思维是很难转过来的

685
00:27:08,664 --> 00:27:11,184
就是你可能听到了但是你没有理解它

686
00:27:11,184 --> 00:27:14,104
所以你就没有执行 在有动作的时候就变形了

687
00:27:14,104 --> 00:27:17,464
但另外一种有后发优势的呢 就是说

688
00:27:17,464 --> 00:27:19,984
之前你不知道这件事能做

689
00:27:19,984 --> 00:27:22,896
但有的时候你知道 第一它能做

690
00:27:22,896 --> 00:27:27,576
第二 用这么多人 这么多钱 用这个方法就可以做到

691
00:27:27,576 --> 00:27:30,576
这个是事实上有后发优势的

692
00:27:30,576 --> 00:27:33,376
其实我为什么认为国产做大模型

693
00:27:33,376 --> 00:27:35,656
可能没有大家想的那么悲观和难呢

694
00:27:35,656 --> 00:27:37,056
也是基于这个假设

695
00:27:37,056 --> 00:27:39,736
很多人都拿哥伦布去新大陆打比方

696
00:27:39,736 --> 00:27:41,016
我觉得这是贴切的

697
00:27:41,016 --> 00:27:42,456
当你不知道有新大陆

698
00:27:42,456 --> 00:27:44,056
也不知道新大陆有多远

699
00:27:44,056 --> 00:27:47,336
也不知道新大陆是不是必须得坐飞机才能去的时候

700
00:27:47,336 --> 00:27:49,496
其实你是冒很大的风险

701
00:27:49,496 --> 00:27:51,984
但是当你知道新大陆就在西边

702
00:27:51,984 --> 00:27:56,304
用这样大的一艘船带两个月的集养 坐船就可以去的时候

703
00:27:56,304 --> 00:27:57,584
这就变得非常重要了

704
00:27:57,584 --> 00:27:58,984
就当年原子弹其实是一样的

705
00:27:58,984 --> 00:28:01,784
原子弹能炸其实就是一个非常关键的信息

706
00:28:01,784 --> 00:28:04,784
我觉得现在大模型做到大概这个参数量

707
00:28:04,784 --> 00:28:06,784
这个与Data Set的大小

708
00:28:06,784 --> 00:28:08,664
它就能够出现这样的能力

709
00:28:08,664 --> 00:28:11,664
这其实也是一个很重要的确定性信息

710
00:28:11,664 --> 00:28:16,064
所以我觉得大家在追赶上面其实是有很多可以节省时间的

711
00:28:16,064 --> 00:28:18,984
现在大家肯定就用GPT这样的预训链文本的技术了

712
00:28:18,984 --> 00:28:21,304
就不会再用BERT这种双边升神的技术了

713
00:28:21,584 --> 00:28:23,064
这就是一个典型

714
00:28:23,064 --> 00:28:25,464
所以我觉得这里面是可以朝走一些弯路的

715
00:28:25,464 --> 00:28:27,024
当然在那个里面

716
00:28:27,024 --> 00:28:29,304
比如说在数据清洗啊

717
00:28:29,304 --> 00:28:31,264
Infra啊这些地方的很多

718
00:28:31,264 --> 00:28:34,584
Knowhow我觉得也是没法说略的

719
00:28:34,584 --> 00:28:36,904
肯定要去精力去探索这个Knowhow的

720
00:28:36,904 --> 00:28:41,144
所以为什么比如说像王辉文老王他选择立刻开始呢

721
00:28:41,144 --> 00:28:43,024
也是基于一个很朴素的心灵

722
00:28:43,024 --> 00:28:46,784
既然已经对这个革命它的尺度它的规模

723
00:28:46,784 --> 00:28:49,504
有了充分的信任信仰之后

724
00:28:49,504 --> 00:28:51,184
那早开始总比晚开始要好

725
00:28:51,184 --> 00:28:51,376
因为早开始就已经有了充分的信任

726
00:28:51,376 --> 00:28:53,776
因为你正好提到中国的大模型了

727
00:28:53,776 --> 00:28:55,616
然后我看中国最近也是

728
00:28:55,616 --> 00:28:58,116
一个是大厂的大模型在密集发布

729
00:28:58,116 --> 00:29:01,516
比如说百度、阿里、华为都在发布

730
00:29:01,516 --> 00:29:04,756
另外是中国有一些上一批科技创业的人

731
00:29:04,756 --> 00:29:07,896
互联网跟移动互联网创业的成功者

732
00:29:07,896 --> 00:29:09,696
他们也在做大模型

733
00:29:09,696 --> 00:29:11,796
比如说你刚刚提到王会文的公司

734
00:29:11,796 --> 00:29:13,496
还有王小川的公司

735
00:29:13,496 --> 00:29:16,236
那贾阳青跟李士飞之前说要做大模型

736
00:29:16,236 --> 00:29:18,836
我看他们现在做的好像也不算是大模型

737
00:29:18,836 --> 00:29:19,836
算是应用

738
00:29:19,952 --> 00:29:23,592
可不可以跟大家介绍一下现在大家做的大模型

739
00:29:23,592 --> 00:29:27,832
分别是什么 哪些是大模型 哪些可能是我们理解有误

740
00:29:27,832 --> 00:29:30,432
这个事情也是在不断地变化的

741
00:29:30,432 --> 00:29:32,472
目前来看 比如说这些大厂

742
00:29:32,472 --> 00:29:36,472
不管是百度 字节 阿力 腾讯

743
00:29:36,472 --> 00:29:40,792
包括商汤 360 出门问问 昆仑万维

744
00:29:40,792 --> 00:29:42,832
这些其实是说要做一个大模型

745
00:29:42,832 --> 00:29:44,432
或者说是大家理解的这种

746
00:29:44,624 --> 00:29:49,784
几十亿上百亿参数的能够解决很多NLP和通用

747
00:29:49,784 --> 00:29:51,544
领域的问题的这种大模型

748
00:29:51,544 --> 00:29:56,024
那这里面比如说像王辉文王小川像智普这些

749
00:29:56,024 --> 00:29:58,384
其实也都是在做大模型这样的事情

750
00:29:58,384 --> 00:30:00,984
智普是支援分拆出来的

751
00:30:00,984 --> 00:30:02,504
唐杰老师带队的团队

752
00:30:02,504 --> 00:30:05,824
这些我觉得是比较明确就是说做一个比较像

753
00:30:05,824 --> 00:30:08,584
GBT3.5或者GBT4这样的大模型

754
00:30:08,584 --> 00:30:13,464
但比如说像杨青是要做一个偏middleware的创业公司

755
00:30:13,464 --> 00:30:13,632
那这些都是在做一个比较像的一个模型

756
00:30:13,632 --> 00:30:16,312
当然他有一个宣传新闻内容哈

757
00:30:16,672 --> 00:30:19,112
就是我觉得在这过程中肯定大家有发现大模型

758
00:30:19,112 --> 00:30:20,152
是不是适合我做

759
00:30:20,152 --> 00:30:23,712
以及说是不是现在做还有最好的机会和时机去做

760
00:30:23,952 --> 00:30:26,352
我觉得这肯定很多人会兼人兼之

761
00:30:26,512 --> 00:30:28,432
有人会觉得可能不适合我做的机会

762
00:30:28,432 --> 00:30:30,192
我去做更加一个适合我做的机会

763
00:30:30,192 --> 00:30:31,032
这都很正常

764
00:30:31,312 --> 00:30:35,152
同样现在大家也是因为只看到了一个把大模型

765
00:30:35,152 --> 00:30:39,632
做出来先有chat gpt才能够去延展的这么一个逻辑

766
00:30:39,912 --> 00:30:42,392
但我完全可以想象假设大家后来发现

767
00:30:42,528 --> 00:30:45,568
比如说第一有了一个很好用的大模型

768
00:30:45,848 --> 00:30:48,368
但是可能会给很多人的做法会变得不太一样

769
00:30:48,368 --> 00:30:51,328
因为现在大家是都没有去抢到这样一个头筹嘛

770
00:30:51,328 --> 00:30:54,088
但如果有人已经做出来一个足够好的大模型

771
00:30:54,088 --> 00:30:57,648
那可能有了团队就会想那我是不是转去做应用会更好

772
00:30:57,968 --> 00:31:03,248
第二就是说是不是只有做大模型才是认知现在的AGI

773
00:31:03,608 --> 00:31:05,808
或者未来的AGI能力的唯一途径

774
00:31:06,408 --> 00:31:09,568
也许我们会有别的方式去理解这件事情

775
00:31:09,808 --> 00:31:12,808
所以也许有人发现其实我没必要做个大模型

776
00:31:12,808 --> 00:31:14,488
但是目前来看呢

777
00:31:14,488 --> 00:31:17,168
就好比说目前只有坐船能够去美洲

778
00:31:17,168 --> 00:31:18,808
所以大家先都得造船

779
00:31:18,808 --> 00:31:20,648
也许有一天大家有飞机了

780
00:31:20,648 --> 00:31:21,728
那就不用造船了

781
00:31:21,728 --> 00:31:23,568
但目前来看只有坐船才行

782
00:31:23,568 --> 00:31:24,768
所以大家都得造船

783
00:31:24,768 --> 00:31:26,248
但到了美洲之后干嘛

784
00:31:26,248 --> 00:31:27,208
那也不一定

785
00:31:27,208 --> 00:31:28,768
有的去种棉花

786
00:31:28,768 --> 00:31:30,088
有的去挖煤炭

787
00:31:30,088 --> 00:31:31,928
但是大家说你现在船都没有

788
00:31:31,928 --> 00:31:33,888
那你都没法去开始这件事儿

789
00:31:33,888 --> 00:31:35,688
也有可能开通了一条航线

790
00:31:35,688 --> 00:31:37,648
泰坦尼克号将来要坐渡船

791
00:31:37,648 --> 00:31:38,768
那你就不用自己造船

792
00:31:38,768 --> 00:31:39,504
都有可能

793
00:31:39,504 --> 00:31:42,784
现在就是说大家都没有船 所以大家都先第一反应自己造

794
00:31:42,784 --> 00:31:46,704
这个是很正常的情况 在美国现在大家其实不怎么去

795
00:31:46,704 --> 00:31:50,544
有独立做大模型的新公司了 是因为已经有几条固定航线了

796
00:31:50,544 --> 00:31:53,504
有OpenAI号 有这个cloud号 还有这个

797
00:31:53,504 --> 00:31:57,024
Cohere或者是Bard这些 就是大家发现啊这有几条航线了

798
00:31:57,024 --> 00:32:00,384
那我干脆就去想去美洲之后干嘛呢 就是做应用了

799
00:32:00,384 --> 00:32:04,304
那中国的大模型你觉得未来是一个怎么样的格局

800
00:32:04,304 --> 00:32:07,424
可能是一家独大还是说多家

801
00:32:07,728 --> 00:32:10,128
我觉得这个问题肯定不只是中国

802
00:32:10,128 --> 00:32:13,248
包括全世界的角度都是一个还不知道的问题

803
00:32:13,248 --> 00:32:15,848
这是一个billion dollar甚至是trillion dollar
question

804
00:32:15,848 --> 00:32:18,048
我觉得它是一个光谱

805
00:32:18,048 --> 00:32:20,848
比如说集中度最高的形式可能像google

806
00:32:20,848 --> 00:32:24,248
google一家占了93%的solo引擎份额

807
00:32:24,248 --> 00:32:28,248
如果大模型第一它是一个2C为主的场景

808
00:32:28,248 --> 00:32:32,848
就比如说可能以后有很多人都会用一个像shadow gdt这样的助理

809
00:32:32,848 --> 00:32:36,240
且它的技术始终是比较难的

810
00:32:36,240 --> 00:32:38,920
就是说第一名始终有比较大的领先优势

811
00:32:38,920 --> 00:32:43,600
那么我可以想象可能大部分人最后都只用某一个最领先的助手

812
00:32:43,600 --> 00:32:45,720
可能是chatterGBT可能是某一家

813
00:32:46,160 --> 00:32:48,880
因为我没有道理去用一个第二名的

814
00:32:48,880 --> 00:32:51,440
至于跟solar引擎如果你都超不过google

815
00:32:51,440 --> 00:32:52,320
我肯定没法用你

816
00:32:52,320 --> 00:32:53,760
哪怕你能超过google

817
00:32:53,760 --> 00:32:54,840
只要你超过的不是太多

818
00:32:54,840 --> 00:32:55,720
我也没有动力用

819
00:32:56,080 --> 00:32:58,960
所以这就是最收敛的叫赢家通吃的格局

820
00:32:58,960 --> 00:33:04,480
那如果说第一是openm没办法长期保持一个特别遥遥领先的状态

821
00:33:04,592 --> 00:33:09,112
我们使用大猿模型主要的场景是通过2b的应用来使用

822
00:33:09,112 --> 00:33:12,032
而不是直接去用一个shared gpt这样的助手

823
00:33:12,032 --> 00:33:14,592
那么它也有可能形成一个公有云这样的格局

824
00:33:14,992 --> 00:33:17,192
就是第一梯队可能有2-3家

825
00:33:17,192 --> 00:33:18,952
3-4家都还不错

826
00:33:18,952 --> 00:33:19,752
各有特点

827
00:33:19,752 --> 00:33:21,232
比如说你的擅长图像

828
00:33:21,232 --> 00:33:22,352
我的擅长推理

829
00:33:22,352 --> 00:33:27,232
那么这样用户用的主要是用这些大模型作为底层勾造的应用

830
00:33:27,672 --> 00:33:29,232
那这样就有可能像公有云一样

831
00:33:29,232 --> 00:33:30,752
比如说有的跑在aws

832
00:33:30,752 --> 00:33:31,832
有的跑在azure

833
00:33:31,832 --> 00:33:33,832
有的跑在google cloud service上

834
00:33:33,904 --> 00:33:34,904
这些都有可能

835
00:33:35,184 --> 00:33:38,984
还有一种可能就是大模型这事现在很厉害

836
00:33:38,984 --> 00:33:41,904
但是逐渐变成一个commodity变成开源的

837
00:33:42,104 --> 00:33:44,704
很多人都是自己用一个开源的

838
00:33:44,704 --> 00:33:46,024
加以微调之后

839
00:33:46,024 --> 00:33:48,744
部署在自己的云或者服务器上

840
00:33:48,944 --> 00:33:51,664
这个时候可能就变成了一种百家争鸣

841
00:33:51,824 --> 00:33:54,264
或者说有各种各样的开源模型的阶段

842
00:33:54,424 --> 00:33:57,104
这个时候也许openai它是一个开创者

843
00:33:57,104 --> 00:33:58,664
但也许之后它的大量技术

844
00:33:58,664 --> 00:34:00,544
变成人类所共有的技术

845
00:34:00,544 --> 00:34:02,264
这也是很多时候经常发生的

846
00:34:02,448 --> 00:34:06,608
比如说当时人脸识别出来的时候 其实也是一个石破天惊的技术

847
00:34:06,608 --> 00:34:11,408
但后面人脸识别每个应用都有 你也不会特别介意他用了谁的人脸识别技术

848
00:34:11,408 --> 00:34:15,008
这种情况下它往往意味着技术它有个终点

849
00:34:15,008 --> 00:34:18,208
或者说大家都做到了GPT-4的能力都差不多了

850
00:34:18,208 --> 00:34:20,608
但是也没法出来一个跟上一个台阶的了

851
00:34:20,608 --> 00:34:23,808
所以我觉得这里面很看未来这个技术终点在哪里

852
00:34:23,808 --> 00:34:27,208
主要是to C还是to B 其他家追赶的速度怎么样

853
00:34:27,208 --> 00:34:30,008
所以其实都有可能 这里面其实不好讲

854
00:34:30,288 --> 00:34:32,688
其实在聊到中美大模型的时候

855
00:34:32,688 --> 00:34:34,488
大家都会谈到芯片嘛

856
00:34:34,488 --> 00:34:35,648
你刚刚也提到了

857
00:34:35,648 --> 00:34:37,728
比如说现在很多中国的大模型

858
00:34:37,728 --> 00:34:42,528
它们的得分从二三十分上升到了五十多分、六十多分

859
00:34:42,528 --> 00:34:43,848
其实在我理解

860
00:34:43,848 --> 00:34:45,688
之前有很多中国的大厂

861
00:34:45,688 --> 00:34:48,248
它们是有囤很多A100芯片的

862
00:34:48,248 --> 00:34:51,928
那如果说未来这个芯片不能持续地供应

863
00:34:51,928 --> 00:34:55,008
而美国的芯片还在持续地进化中

864
00:34:55,008 --> 00:34:56,768
比如说H100会出来

865
00:34:56,768 --> 00:35:01,568
那中国的芯片它的这个性能或者说它跟不上

866
00:35:01,568 --> 00:35:06,968
那你觉不觉得它可能会是一个越拉越远的战局

867
00:35:06,968 --> 00:35:09,968
我觉得就还是要从几个方面去想

868
00:35:09,968 --> 00:35:13,888
第一个就是是不是这是一个百公里长跑

869
00:35:13,888 --> 00:35:15,328
还是一个百米塞跑

870
00:35:15,328 --> 00:35:18,608
比如说如果它是一个很快会遇到瓶颈的事情

871
00:35:18,608 --> 00:35:20,128
那可能现有的算力就够了

872
00:35:20,128 --> 00:35:22,208
你也许不用训练那么大的模型

873
00:35:22,208 --> 00:35:24,528
或者说就训练现在这么大的就可以了

874
00:35:24,528 --> 00:35:26,128
另外一种情况是它

875
00:35:26,160 --> 00:35:27,520
以后要越来越大越来越大

876
00:35:27,520 --> 00:35:30,200
所以现在的芯片就不能用了

877
00:35:30,560 --> 00:35:32,960
虽然我们现在很多人觉得可能是后遗者可能

878
00:35:32,960 --> 00:35:35,040
但是首先它是有多种可能性存在的

879
00:35:35,480 --> 00:35:39,280
第二就是说训练的效率和方式方法

880
00:35:39,280 --> 00:35:40,880
本身也是在不断提高的

881
00:35:41,440 --> 00:35:44,800
在之前需要这么多顺利训练的模型

882
00:35:44,800 --> 00:35:47,360
在现在也许会有更好的方式去训练

883
00:35:47,640 --> 00:35:49,800
第三就是当然说的这些

884
00:35:49,800 --> 00:35:53,120
我们本质上肯定是希望我们的半导体工业能够发展

885
00:35:53,240 --> 00:35:54,680
我们有一天也能够

886
00:35:54,736 --> 00:35:59,216
有世界先进水平的GPU也好或者AI芯片去进行这种训练

887
00:35:59,576 --> 00:36:02,296
当然好的情况肯定是说要么是中美关系缓和了

888
00:36:02,336 --> 00:36:04,576
我们同样能够买到这些先进的芯片

889
00:36:04,696 --> 00:36:08,376
有可能同时也是说我们的芯片公司真的也做出来了

890
00:36:08,376 --> 00:36:10,216
可以跟英伟达媲美的这种芯片

891
00:36:10,696 --> 00:36:12,056
我觉得这肯定是好的情况

892
00:36:12,056 --> 00:36:16,576
如果不好的情况那就是只有智力更生用这种方法去尝试解决了

893
00:36:17,096 --> 00:36:18,416
但我想说的是

894
00:36:18,656 --> 00:36:21,096
我觉得当我们采取追赶的时候呢

895
00:36:21,096 --> 00:36:23,536
我们往往会把一些问题给简单化

896
00:36:23,856 --> 00:36:25,856
A芯片现在是个显然的问题

897
00:36:25,856 --> 00:36:28,896
就好像说买了1万块芯片A100就能解决这个问题一样

898
00:36:28,896 --> 00:36:30,016
其实我觉得不是这样的

899
00:36:30,016 --> 00:36:34,056
就是现在我们在数据芯片infra

900
00:36:34,056 --> 00:36:36,616
算法这方面其实有很多需要去解决的

901
00:36:36,616 --> 00:36:40,816
我觉得不宜把这个问题简单化成一个买1万块芯片

902
00:36:40,816 --> 00:36:42,816
好像说只要花钱就能解决

903
00:36:42,816 --> 00:36:46,376
实际上我遇到了这些真正在好好做这件事情的人

904
00:36:46,376 --> 00:36:47,576
其实他们都会意识到

905
00:36:47,576 --> 00:36:49,976
第一你哪怕是要1万块A100

906
00:36:49,976 --> 00:36:51,976
国内现在也是有这样的数量的

907
00:36:52,288 --> 00:36:55,928
第二呢就是现在我们离用好1万块A100那还差很远

908
00:36:56,248 --> 00:36:59,808
第三这里面其实每一个环节里都有很多要解决的问题

909
00:37:00,088 --> 00:37:03,448
那么你要去探索怎么去做一个

910
00:37:03,568 --> 00:37:06,088
比如3.5水平的模型其实不用1万块A100

911
00:37:06,088 --> 00:37:09,968
因为你想想看GBT-3其实是在1万块V100上训练的

912
00:37:10,088 --> 00:37:13,848
GBT-3.5就是所谓的instructor GBT是一个小很多的模型

913
00:37:13,848 --> 00:37:18,088
就它并不一定是一定要训练这么大的参数量才能训练出来的模型

914
00:37:18,568 --> 00:37:20,808
所以这里面其实有很多

915
00:37:20,896 --> 00:37:24,896
跟芯片一样重要 甚至在短期可能比芯片更重要的问题

916
00:37:25,256 --> 00:37:27,536
我觉得这里面问题还是比较复杂的

917
00:37:28,136 --> 00:37:33,256
中文互联网的数据你觉得它会是一个问题吗

918
00:37:33,656 --> 00:37:34,936
我觉得完全不是一个问题

919
00:37:34,936 --> 00:37:39,736
因为简单的来想就是chattgbt并没有用到什么独有的中文数据

920
00:37:39,736 --> 00:37:42,256
它就已经在中文上具有这么好的表现

921
00:37:42,536 --> 00:37:45,256
当然gbt4可能多了很多独有的东西

922
00:37:45,256 --> 00:37:47,016
或者说它有很多微调的内容

923
00:37:47,216 --> 00:37:50,136
但如果你从pre-training的那部分来看的话

924
00:37:50,864 --> 00:37:53,104
wikipedia common ground

925
00:37:53,104 --> 00:37:57,064
对呢paper codecs这些其实很大量是通过英文

926
00:37:57,064 --> 00:37:58,784
然后泛化到中文来的

927
00:37:58,784 --> 00:38:02,504
所以在这里面我觉得至少第一原理上不存在说

928
00:38:02,504 --> 00:38:04,504
openai有什么我们没有的中文数据

929
00:38:04,504 --> 00:38:08,824
但是怎么去用现有的中文数据去进行清洗

930
00:38:08,824 --> 00:38:12,704
包括后面的这种标注进行human feedback

931
00:38:12,704 --> 00:38:15,144
这些knowhow反而是非常非常重要的

932
00:38:15,144 --> 00:38:18,464
这个我觉得是一个我们需要解决的工程问题

933
00:38:18,464 --> 00:38:20,824
但不是说我们没有这些预料的问题

934
00:38:20,824 --> 00:38:20,992
我们需要解决的问题是

935
00:38:20,992 --> 00:38:26,112
之前每次你见我啊,你都会问我一个问题,我最近见过的最厉害的人是谁?

936
00:38:26,112 --> 00:38:31,752
你这次来美国,你觉得你见到了哪些厉害的人,他们有给你哪些启发?

937
00:38:31,752 --> 00:38:39,952
嗯,也不好说最厉害的人是谁吧,但是比如说一路下来我们在湾区,在波士顿,在纽约,匹
兹堡,

938
00:38:39,952 --> 00:38:43,792
其实跟很多做AI的这些研究员,包括

939
00:38:43,920 --> 00:38:50,520
工程数据沟通交流,我觉得还是从很多具体时间的角度去学习

940
00:38:50,520 --> 00:38:53,560
怎么样做大模型,包括说视觉模型

941
00:38:53,560 --> 00:38:56,280
以及现在大家关注的一些重点难点是什么

942
00:38:56,280 --> 00:38:57,360
我觉得是挺有帮助

943
00:38:57,840 --> 00:39:01,320
我刚才说到如果说我们从隔着一定距离去看

944
00:39:01,320 --> 00:39:03,600
就容易把这个问题给简单化

945
00:39:04,160 --> 00:39:06,520
简单化成比如说我怎么买到1万块芯片

946
00:39:06,520 --> 00:39:09,720
或者说我怎么样挖到比如OpenAI的人

947
00:39:09,720 --> 00:39:12,120
或者说我怎么样去

948
00:39:12,192 --> 00:39:13,272
收集雨料什么的

949
00:39:13,272 --> 00:39:14,952
但是我觉得跟他们交流下来

950
00:39:14,952 --> 00:39:18,552
就发现这里面有很多工程的细节都是很重要的

951
00:39:18,552 --> 00:39:21,832
以及说为什么它是一个这样的由来

952
00:39:21,832 --> 00:39:23,032
中间经历了什么故事

953
00:39:23,032 --> 00:39:24,712
我觉得这些是把它拆析了看

954
00:39:24,712 --> 00:39:26,592
会看到很多细节和脉络

955
00:39:26,832 --> 00:39:27,792
当然对我们的角度

956
00:39:27,792 --> 00:39:29,592
首先是想发现未来创业者

957
00:39:29,792 --> 00:39:32,112
我们其实不是说要去自己做一个大冒险

958
00:39:32,312 --> 00:39:33,352
不可能具备那个能力

959
00:39:33,352 --> 00:39:35,952
所以我们只是说想进一步的去探讨

960
00:39:35,952 --> 00:39:37,792
这里面有哪些难点

961
00:39:37,792 --> 00:39:39,272
或者哪些值得注意的地方

962
00:39:39,616 --> 00:39:41,856
整体来讲我觉得还是在学习阶段

963
00:39:41,856 --> 00:39:43,896
实际上你要问我见到最厉害的

964
00:39:43,896 --> 00:39:44,896
我觉得不是人

965
00:39:44,896 --> 00:39:47,736
而是在这个旅程中我们看到了Auto GPT

966
00:39:47,736 --> 00:39:51,576
我觉得Auto GPT是一个让我觉得非常震撼

967
00:39:51,576 --> 00:39:54,416
同时也进一步的加强了忧虑的事情

968
00:39:54,416 --> 00:39:59,216
是因为这种Recursive自己去执行的Demo出来

969
00:39:59,216 --> 00:40:03,296
那么它其实是具备很强的不可控的力量

970
00:40:03,296 --> 00:40:06,976
这里面我觉得AI Safety AI Alignment

971
00:40:06,976 --> 00:40:08,816
这些问题会变得很重要

972
00:40:08,944 --> 00:40:12,144
其实这个旅途中我是最被 old GPT 震惊啊

973
00:40:12,144 --> 00:40:15,064
当然如果我见到 Sam Altman 肯定他会讲一些让我很震惊的话

974
00:40:15,064 --> 00:40:17,344
但可惜我们也见不到 Sam Altman

975
00:40:17,344 --> 00:40:19,704
你要说有一个特别的人讲一句特别的话

976
00:40:19,704 --> 00:40:21,304
我倒觉得没有那样的时刻

977
00:40:21,304 --> 00:40:23,224
但是有很多人讲了很多有意思的东西

978
00:40:23,224 --> 00:40:24,944
我是觉得挺有意思的

979
00:40:24,944 --> 00:40:29,104
你刚提到你来慢慢理解了 GPT 它是怎么被做出来的

980
00:40:29,104 --> 00:40:31,344
它中间经历了哪些重要的时刻

981
00:40:31,344 --> 00:40:33,504
我想我们的听众可能也会很感兴趣

982
00:40:33,504 --> 00:40:35,904
能不能大概的介绍一下几个关键节点

983
00:40:36,208 --> 00:40:40,248
像现在微软它是可以每天训一个GPT-3

984
00:40:40,248 --> 00:40:41,648
就是训练一个GPT-3

985
00:40:41,648 --> 00:40:43,168
你变成一个顺手就可以做的事情

986
00:40:43,168 --> 00:40:44,208
一天训一个

987
00:40:44,208 --> 00:40:47,328
但是微软自己是没法训练GPT-4的

988
00:40:47,328 --> 00:40:53,568
是需要在Azure那台专门为训练GPT-4打招的超算上才可以训练的

989
00:40:53,568 --> 00:40:57,288
所以你会发现这里面这个训练的难度是高了很多

990
00:40:57,288 --> 00:41:00,168
尤其把这么多算力把它有效的组织起来

991
00:41:00,168 --> 00:41:03,928
这其实是一个很一线很前沿的问题

992
00:41:04,128 --> 00:41:07,768
我很好奇就是为什么微软可以随便训练一个GPT-3呢

993
00:41:08,128 --> 00:41:11,328
就是GPT-3所需要的算力以最近的架构已经很成熟了

994
00:41:11,328 --> 00:41:13,728
你可以直接通过云服务就拥有这样的算力

995
00:41:13,728 --> 00:41:16,368
但GPT-4需要的算力是一个新的级别

996
00:41:16,568 --> 00:41:20,448
比如说其实GPT-4初始的能力更强很多

997
00:41:20,568 --> 00:41:23,688
我看过一些没有经过微调的GPT-4

998
00:41:23,688 --> 00:41:25,088
比如画出来的图像

999
00:41:25,368 --> 00:41:29,328
它是要比现在的GPT-4画出图像更精细很多的

1000
00:41:29,568 --> 00:41:32,128
如果你看了那篇通用人工智能的火花那篇论文

1001
00:41:32,128 --> 00:41:33,848
你发现GPT-4是可以画图的

1002
00:41:33,856 --> 00:41:35,256
比如它里面画了个独角兽

1003
00:41:35,256 --> 00:41:38,656
但是那个已经是经过微调之后的GPT-4画的了

1004
00:41:38,656 --> 00:41:41,336
当没有经过微调的GPT-4画的图

1005
00:41:41,336 --> 00:41:42,696
其实要比那个精细很多

1006
00:41:42,696 --> 00:41:45,016
换句话说GPT-4为了和人类对齐

1007
00:41:45,016 --> 00:41:46,736
牺牲了很多它的能力

1008
00:41:46,736 --> 00:41:49,136
当三巴特们说他们没有在训GPT-5的时候

1009
00:41:49,136 --> 00:41:49,976
我觉得是有道理的

1010
00:41:49,976 --> 00:41:52,336
因为GPT-4现在还是冰山一角

1011
00:41:52,336 --> 00:41:55,056
它能做很多事情我们可能还想象不到

1012
00:41:55,056 --> 00:41:56,736
其实我跟一个朋友在讨论的时候

1013
00:41:56,736 --> 00:41:57,616
我们经常说到

1014
00:41:57,616 --> 00:41:59,536
如果我们现在斩钉截铁地说一件事

1015
00:41:59,536 --> 00:42:00,496
GPT-4做不到

1016
00:42:00,496 --> 00:42:02,256
往往是我们低估了它的能力

1017
00:42:02,336 --> 00:42:04,536
我们还在不断的像AutoGPT这样发现

1018
00:42:04,536 --> 00:42:06,736
它其实可以做很多我们没想到的事情

1019
00:42:06,736 --> 00:42:09,776
其实很多人会忽视的一点就是在

1020
00:42:09,776 --> 00:42:12,616
Instructor GPT训练的这个过程中

1021
00:42:12,616 --> 00:42:16,416
做的数据标注和RLHF这一块

1022
00:42:16,416 --> 00:42:17,696
其实我们可以想一想

1023
00:42:17,696 --> 00:42:20,976
你要在很多专业的领域生成很好的范文

1024
00:42:20,976 --> 00:42:23,976
同时比如说对于像ChatterGPT这样生成的

1025
00:42:23,976 --> 00:42:28,416
某个专业领域的很长很多的多个答案进行排序

1026
00:42:28,416 --> 00:42:29,736
这其实不是个简单的事情

1027
00:42:29,984 --> 00:42:32,424
比如说你问他一个生物的问题 他给你几种回答

1028
00:42:32,424 --> 00:42:35,864
然后你说哪个更好 这其实需要很多专业能力和技能

1029
00:42:35,864 --> 00:42:40,664
这之前本来大家觉得可能是一个需要成千上万人干好多年的事情

1030
00:42:40,664 --> 00:42:43,464
没想到居然是几十一百个人干了两个月的事情

1031
00:42:43,464 --> 00:42:47,864
在这个里面像Surge, Scale这样的公司扮演的作用是很大的

1032
00:42:47,864 --> 00:42:50,864
你能把这件事高效的大规模的去做

1033
00:42:50,864 --> 00:42:55,104
这个其实是一个不是所谓的火箭科学 不是rocket science

1034
00:42:55,104 --> 00:42:57,944
但是它是一个很难的工程问题

1035
00:42:58,208 --> 00:43:02,528
所以在这些领域,我就说有很多问题,当我们真的要去做的时候,可能会发现

1036
00:43:02,528 --> 00:43:07,648
不是说简单买了芯片插上就可以迅速出来,它会有很多的工程具体要解决的问题

1037
00:43:07,648 --> 00:43:11,848
所以我觉得这些都是很有意思的看到的更全面的东西吧

1038
00:43:11,848 --> 00:43:16,448
你刚提到GPT-4它没有经过微调以前的版本

1039
00:43:16,448 --> 00:43:21,888
比它真正放出来的要强大很多,因为在那篇论文里它也写到了,就是说它其实是

1040
00:43:22,048 --> 00:43:27,128
经历了八个月的安全测试,它是为了让它的安全标准不停地能达到

1041
00:43:27,128 --> 00:43:31,048
来适应人类不至于让它比如说有种族歧视

1042
00:43:31,048 --> 00:43:33,648
或者有一些它不应该出现的话

1043
00:43:33,648 --> 00:43:37,648
但是现在我看业界大家也没有讨论就是GBT5的

1044
00:43:37,648 --> 00:43:39,568
这种出现的可能性啊

1045
00:43:39,568 --> 00:43:44,808
未来比如说这个GBT它如果还要去进化,就是它的这种能力

1046
00:43:44,808 --> 00:43:49,688
它会是什么呢?它会是把那个魏焉歌的版本再放出来一些还是什么?

1047
00:43:49,688 --> 00:43:50,568
我不太理解啊

1048
00:43:50,816 --> 00:43:53,816
这很多问题只有Sam Altman能回答我感觉

1049
00:43:53,816 --> 00:43:56,816
但我觉得alignment会是一个很重要的话题

1050
00:43:56,816 --> 00:43:59,216
因为能力越大责任越大

1051
00:43:59,216 --> 00:44:03,136
尤其是当AutoGPT它可以选择工具执行外界任务

1052
00:44:03,136 --> 00:44:05,736
并且自发去执行的事情发生了

1053
00:44:05,736 --> 00:44:08,376
OpenAI让我觉得很厉害的一点就是

1054
00:44:08,376 --> 00:44:10,376
他们一开始是一个研究机构

1055
00:44:10,376 --> 00:44:13,136
一开始的时候其实是研究的很发散的

1056
00:44:13,136 --> 00:44:14,096
很多话题都有研究

1057
00:44:14,096 --> 00:44:15,256
他们也研究打游戏

1058
00:44:15,256 --> 00:44:17,576
他们也研究各种的领域的AI问题

1059
00:44:17,576 --> 00:44:19,808
但是他们逐渐地

1060
00:44:19,808 --> 00:44:23,208
中间发生了一次相变变成了一个做产品的公司

1061
00:44:23,608 --> 00:44:26,688
其实GPT-4发布的时候我听到两种声音

1062
00:44:26,888 --> 00:44:28,488
有的人说很失望

1063
00:44:28,488 --> 00:44:30,888
因为诶,居然就做了一个读图

1064
00:44:30,888 --> 00:44:32,128
都没有做纹身图

1065
00:44:32,128 --> 00:44:33,408
也没有做视频

1066
00:44:33,528 --> 00:44:35,328
也没有做其他的多模态什么的

1067
00:44:35,328 --> 00:44:37,088
并且这个图的API还没出来

1068
00:44:37,488 --> 00:44:39,328
好像主要的还是这个文字

1069
00:44:39,328 --> 00:44:40,168
觉得有点失望

1070
00:44:40,168 --> 00:44:41,208
因为没什么新东西

1071
00:44:41,608 --> 00:44:43,168
但另外一批人觉得很厉害

1072
00:44:43,168 --> 00:44:44,728
比如说像我们去测试了很多

1073
00:44:44,728 --> 00:44:45,928
原来战略物打不好的问题

1074
00:44:45,928 --> 00:44:46,888
发现它能打好了

1075
00:44:47,024 --> 00:44:50,024
当然后面插件啊 Otto GPT 直接出来就更厉害对吧

1076
00:44:50,024 --> 00:44:54,064
我觉得这恰恰反映了说OpenAI 在用一种做好产品

1077
00:44:54,064 --> 00:44:57,984
做一个上亿人使用的基础产品的态度去做这件事情

1078
00:44:57,984 --> 00:44:59,664
如果是个学术研究机构

1079
00:44:59,664 --> 00:45:03,064
它会很有动力去第一个发视频到文字啊

1080
00:45:03,064 --> 00:45:05,824
或者说文字到视频或者什么的这种研究结果

1081
00:45:05,824 --> 00:45:08,984
但是OpenAI选择了把已有的做扎实做好

1082
00:45:08,984 --> 00:45:10,464
这个是很不容易的

1083
00:45:10,464 --> 00:45:13,504
我觉得在这个里面alignment是一个

1084
00:45:13,600 --> 00:45:17,640
尽管被强调,可能还是比较被低估的一个话题

1085
00:45:17,640 --> 00:45:21,720
举个例子,应该跟什么样的价值观去alignment

1086
00:45:21,720 --> 00:45:27,320
现在可能本质上还是跟美国加州的一群白人男性去alignment

1087
00:45:27,320 --> 00:45:28,840
全世界有很多文明

1088
00:45:28,840 --> 00:45:30,880
在一个文明完全OK的事情

1089
00:45:30,880 --> 00:45:33,240
在另外一个文明可能是非常不OK的

1090
00:45:33,240 --> 00:45:36,160
同样我们的价值观变化也是很快的

1091
00:45:36,160 --> 00:45:38,320
十几年前我在美国读书的时候

1092
00:45:38,320 --> 00:45:40,920
同性婚姻还是非常禁忌的话题

1093
00:45:40,920 --> 00:45:43,520
当时奥巴马竞选其实都是不允许同性婚姻

1094
00:45:43,568 --> 00:45:46,568
但是现在同性婚姻当然是一个大家都很欢迎的价值观

1095
00:45:46,568 --> 00:45:49,768
那这个过程中你会发现AI跟什么对齐

1096
00:45:49,768 --> 00:45:51,768
如何去动态的去调整

1097
00:45:51,768 --> 00:45:53,768
其实都会有很多的问题

1098
00:45:53,768 --> 00:45:57,968
那么在这个过程中我觉得也可能需要一些跨国的合作

1099
00:45:57,968 --> 00:46:00,968
就像我们有核不扩散的国际公约一样

1100
00:46:00,968 --> 00:46:03,168
但核不扩散是好检验的

1101
00:46:03,168 --> 00:46:05,168
因为你做核实验天上有微星看着

1102
00:46:05,168 --> 00:46:07,768
但是你在你的计算机里跑着最先进的AI

1103
00:46:07,768 --> 00:46:09,760
实际上很难被看出来

1104
00:46:09,760 --> 00:46:12,720
但这个里面怎么样对于这种我们又未知

1105
00:46:12,720 --> 00:46:15,680
同时又有可能很大破坏的应用去进行监管

1106
00:46:15,680 --> 00:46:17,440
进行安全的保障

1107
00:46:17,440 --> 00:46:19,360
虽然那封公开信传得很广

1108
00:46:19,360 --> 00:46:21,520
我是不赞同公开信里面说的停止研究

1109
00:46:21,520 --> 00:46:23,640
因为我觉得好人停止研究坏人继续干嘛

1110
00:46:23,640 --> 00:46:26,760
而且并且我觉得你只有继续研究才知道它是怎么回事

1111
00:46:26,760 --> 00:46:29,720
但是我觉得确实我们面临的东西

1112
00:46:29,720 --> 00:46:32,000
其实是可能带来很大的破坏的

1113
00:46:32,000 --> 00:46:33,480
并且我悲观的觉得

1114
00:46:33,480 --> 00:46:36,200
可能得产生一两次大的破坏之后

1115
00:46:36,200 --> 00:46:39,200
人们才会真正的去把这个事情提到日程上来

1116
00:46:39,296 --> 00:46:43,256
就跟我们核泄漏之后大家可能才会制定核安全法

1117
00:46:43,256 --> 00:46:45,976
包括数据泄漏之后才会制定数据安全法一样

1118
00:46:45,976 --> 00:46:48,656
我觉得可能得经历一些大的事故

1119
00:46:48,656 --> 00:46:51,056
因为这里面它因为没有实体嘛

1120
00:46:51,056 --> 00:46:52,696
所以往往它会被人低估

1121
00:46:52,696 --> 00:46:54,616
就觉得我们把插头拔了就行了

1122
00:46:54,616 --> 00:46:59,456
但实际上它其实现在的能力已经可能造成一些破坏了

1123
00:46:59,456 --> 00:47:00,296
随便举个例子

1124
00:47:00,296 --> 00:47:02,496
比如说上一次美国大选的时候

1125
00:47:02,496 --> 00:47:08,896
其实就指控有敌对国家通过Facebook投放虚假广告来干扰选举结果

1126
00:47:08,896 --> 00:47:08,928
这种情况下

1127
00:47:08,928 --> 00:47:13,328
你想现在的大语言模型是个说服能力可以很强的一个工具

1128
00:47:13,648 --> 00:47:18,768
因为它可以把所有的心理学语言学技巧全部集中起来

1129
00:47:18,928 --> 00:47:21,648
调动全部的这种知识、语料、逻辑

1130
00:47:21,648 --> 00:47:22,848
想去说服一个人

1131
00:47:22,928 --> 00:47:25,368
简单来讲比如说电话诈骗杀猪盘对吧

1132
00:47:25,568 --> 00:47:27,448
现在是比较弱智的骗术

1133
00:47:27,448 --> 00:47:29,248
那以后可能是很强大的骗术

1134
00:47:29,648 --> 00:47:31,128
但是呢进一步的去想

1135
00:47:31,128 --> 00:47:34,448
假设说在一个选举中可以用AI打电话给

1136
00:47:34,448 --> 00:47:36,088
比如说100万个关键选民

1137
00:47:36,088 --> 00:47:37,424
因为其实美国大选

1138
00:47:37,424 --> 00:47:39,864
关键的选民可能就是几万人有研究通过

1139
00:47:39,864 --> 00:47:41,864
因为这几样是都很结果都很紧嘛

1140
00:47:41,864 --> 00:47:42,944
都非常的接近

1141
00:47:43,304 --> 00:47:45,264
那可能我打电话去劝说这100万人

1142
00:47:45,264 --> 00:47:46,704
有一万人改了他的投票

1143
00:47:46,704 --> 00:47:47,944
也许美国总统就变了

1144
00:47:48,344 --> 00:47:50,064
这可能就是非常大的一个变化

1145
00:47:50,464 --> 00:47:52,784
这其实都不用说什么天网啊终结者

1146
00:47:52,784 --> 00:47:53,904
其实就可以说

1147
00:47:54,184 --> 00:47:57,344
人和AI去配合去进行大的破坏

1148
00:47:57,704 --> 00:48:00,184
比如说你看OpenAI的插件系统

1149
00:48:00,344 --> 00:48:03,344
其实是只能够读互联网不能写互联网

1150
00:48:03,472 --> 00:48:05,272
这可能是很重要的安全防范处

1151
00:48:05,272 --> 00:48:07,872
是否则的话每个人都可以生成一堆fake news

1152
00:48:07,872 --> 00:48:09,672
然后直接发到网上去post

1153
00:48:09,912 --> 00:48:12,032
就会发现大量的信息就会充填互联网

1154
00:48:12,032 --> 00:48:15,792
这只是非常简单现有的技术就完全可以做到的事情

1155
00:48:15,792 --> 00:48:20,232
其实你想如果auto gpt这样的应用去调一个发消息的API

1156
00:48:20,232 --> 00:48:22,032
或者一个发内容的一个API

1157
00:48:22,032 --> 00:48:25,392
它完全可以不知疲倦的生成真假难辨的虚假内容

1158
00:48:25,392 --> 00:48:26,712
去填塞整个互联网

1159
00:48:26,912 --> 00:48:29,432
那假设你说用这个对一个人进行诽谤

1160
00:48:29,432 --> 00:48:31,392
或者制造一些虚假的信息

1161
00:48:31,392 --> 00:48:32,672
那岂不是很容易

1162
00:48:32,752 --> 00:48:36,672
这些我们都不谈到说什么AI对人类要什么消灭人的那些

1163
00:48:36,672 --> 00:48:38,712
我觉得那些还是属于偏科幻领域的

1164
00:48:38,712 --> 00:48:41,312
但是在目前它是个强大的语言工具

1165
00:48:41,312 --> 00:48:46,952
而我们又很缺乏对于一个看似形式很完善的谎言的识别能力

1166
00:48:46,952 --> 00:48:48,912
所以这其实是很危险的

1167
00:48:48,912 --> 00:48:53,272
你怎么看马斯克一边主张叫停对大模型的研究

1168
00:48:53,272 --> 00:48:56,432
然后另一边又自己去做一个这样的事儿

1169
00:48:56,432 --> 00:48:59,392
马斯克是一个非常think loud的人

1170
00:48:59,392 --> 00:49:02,384
他是把自己的想法会不加修饰地直接说出来

1171
00:49:02,384 --> 00:49:06,984
包括我听说也有一些openai的早期支持者对于openai现在变成了closea
i

1172
00:49:06,984 --> 00:49:09,544
还是有一些看法和意见的

1173
00:49:09,544 --> 00:49:10,584
closeai

1174
00:49:10,584 --> 00:49:11,864
就是说他没有开源嘛

1175
00:49:11,864 --> 00:49:13,584
对openai不open

1176
00:49:13,584 --> 00:49:14,464
对他不open

1177
00:49:14,464 --> 00:49:16,184
听说是会有些意见的

1178
00:49:16,184 --> 00:49:20,024
但伊隆马斯克肯定是一个最直接不仅要说出来我还要干的人

1179
00:49:20,024 --> 00:49:24,544
那有的人可能不支持说去用别的方式去把这老股卖了呀之类的

1180
00:49:24,544 --> 00:49:26,824
我觉得呢会有个道理啊

1181
00:49:26,824 --> 00:49:29,824
就是我觉得openai说这个技术太危险了

1182
00:49:29,824 --> 00:49:30,832
所以我要

1183
00:49:30,832 --> 00:49:32,592
不能让它开源我觉得也是对的

1184
00:49:32,592 --> 00:49:34,552
因为开源的时候

1185
00:49:34,552 --> 00:49:38,552
我觉得比较适合于这种对它的潜在风险

1186
00:49:38,552 --> 00:49:40,952
已经有个大概概念的一个领域

1187
00:49:40,952 --> 00:49:43,152
在现在对于GBT是这么强大的系统

1188
00:49:43,152 --> 00:49:45,712
如果你连它的能力我们都没有认识清楚的话

1189
00:49:45,712 --> 00:49:48,792
贸然开源可能确实是有很大的风险

1190
00:49:48,792 --> 00:49:49,872
但另外一方面呢

1191
00:49:49,872 --> 00:49:51,752
我觉得也有很多商业意义上

1192
00:49:51,752 --> 00:49:54,352
或者是舆论意义上的这种竞争

1193
00:49:54,352 --> 00:49:56,352
这种吵吵嚷嚷总是有很多的

1194
00:49:56,352 --> 00:49:57,744
这里面关键还是说

1195
00:49:57,744 --> 00:49:59,504
本质上我是比较相信开源的

1196
00:49:59,504 --> 00:50:01,464
但是我觉得肯定不是从一开始就开源

1197
00:50:01,904 --> 00:50:03,784
可能还是我们要对它有更多的了解

1198
00:50:04,264 --> 00:50:07,384
至少我们知道怎么防御之后开源我觉得会比较好

1199
00:50:07,664 --> 00:50:10,304
我觉得OpenAI的股权设置也很有意思

1200
00:50:10,304 --> 00:50:14,384
Sam本人他其实是没有任何OpenAI的股权的

1201
00:50:14,384 --> 00:50:16,304
如果我没有记错的话应该是零股权

1202
00:50:16,584 --> 00:50:20,264
他们的几个科学家像Elia还有那个叫Greg Brockman

1203
00:50:20,544 --> 00:50:22,464
其实主要的股权是给这些科学家的

1204
00:50:22,664 --> 00:50:25,544
他的公司设置最开始也是从非盈利息公司

1205
00:50:25,712 --> 00:50:28,992
後面是在非盈利下面又設了一個盈利性公司

1206
00:50:28,992 --> 00:50:30,312
如果我沒有記錯的話

1207
00:50:30,312 --> 00:50:32,712
他盈利性那一部分如果有股權

1208
00:50:32,712 --> 00:50:34,192
就是有財務回報的話

1209
00:50:34,192 --> 00:50:38,032
那麼他在董事會上他的投票權是沒有的

1210
00:50:38,032 --> 00:50:41,792
但是Sam選擇了不要錢,要投票權

1211
00:50:41,792 --> 00:50:45,392
我是在想為什麼他要去做這樣一種設置

1212
00:50:45,392 --> 00:50:48,592
是不是說未來就比如說要實現AGI

1213
00:50:48,592 --> 00:50:52,112
他前面還是要忍受很長時間很久的不盈利

1214
00:50:52,304 --> 00:50:54,624
然後去做到他最終的那個目標的

1215
00:50:54,624 --> 00:50:57,104
他很怕這個事情被商業所帶歪

1216
00:50:57,704 --> 00:50:59,264
我們這都是局外人

1217
00:50:59,264 --> 00:51:01,104
甚至都不是很接近的局外人

1218
00:51:01,104 --> 00:51:02,944
只有去從他表面去看

1219
00:51:03,544 --> 00:51:04,704
其實他提到了一點

1220
00:51:04,704 --> 00:51:07,504
就是說微軟現在有49%的收益權

1221
00:51:07,504 --> 00:51:08,504
我可以給你賺錢

1222
00:51:08,504 --> 00:51:09,704
但你擁有的是收益權

1223
00:51:09,704 --> 00:51:10,784
你不能擁有控制權

1224
00:51:10,784 --> 00:51:13,464
因為他們從一開始就本質上的去相信

1225
00:51:13,464 --> 00:51:14,704
這樣的技術很危險

1226
00:51:14,704 --> 00:51:16,704
需要得到有效的監管和控制

1227
00:51:16,704 --> 00:51:19,144
不能夠落入邪惡的大公司手裡

1228
00:51:19,328 --> 00:51:22,568
但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發

1229
00:51:22,568 --> 00:51:26,808
所以才定下來這種收益和控制分開的這樣一個協定

1230
00:51:26,808 --> 00:51:29,848
然後才有你賺錢你就不能投票的這種邏輯

1231
00:51:29,848 --> 00:51:32,248
就是投票權和賺錢你只能選一個

1232
00:51:32,248 --> 00:51:35,208
我還是挺相信這一點的 說實話

1233
00:51:35,208 --> 00:51:37,448
我是覺得這是一個很誠懇的一個表達

1234
00:51:37,448 --> 00:51:39,048
也是一個很美國式的

1235
00:51:39,048 --> 00:51:40,408
如果把這個話說清楚

1236
00:51:40,408 --> 00:51:42,848
你要麼賺錢 要麼有控制 你只能選一個

1237
00:51:42,848 --> 00:51:44,888
我覺得其實是一個很有意思的設定

1238
00:51:44,888 --> 00:51:48,368
open edge開始的時候它能夠吸引很多優秀人才

1239
00:51:48,368 --> 00:51:49,312
就是因為

1240
00:51:49,312 --> 00:51:52,952
它不是一個在corporate裏面你需要去

1241
00:51:52,952 --> 00:51:56,352
完成一些比如說讓更多人看廣告這樣的事情

1242
00:51:56,352 --> 00:51:58,512
但同時呢它有很多捐贈

1243
00:51:58,512 --> 00:52:00,912
所以說你還是可以過上不錯的生活

1244
00:52:00,912 --> 00:52:03,672
但到後面確實OpenAI自己需要很多錢

1245
00:52:03,672 --> 00:52:05,872
同時這些員工人也變多了

1246
00:52:05,872 --> 00:52:07,152
也需要更多的激勵

1247
00:52:07,152 --> 00:52:09,512
所以後面變成了一家公司

1248
00:52:09,512 --> 00:52:13,512
但是它還是要解決公司做大了被資本裹挾的這個問題

1249
00:52:13,512 --> 00:52:16,312
所以我是覺得這個解決方案還蠻有意思的

1250
00:52:16,448 --> 00:52:19,368
但是也是需要真的有非常有vision的人

1251
00:52:19,368 --> 00:52:22,528
而且有實力去說服別人的人才能達成這麼個方案

1252
00:52:22,528 --> 00:52:24,728
否則對微軟來講我花了這麼多錢

1253
00:52:24,728 --> 00:52:25,728
當然我也賺很多錢

1254
00:52:25,728 --> 00:52:27,288
但是最後我沒有得到的平安

1255
00:52:27,288 --> 00:52:29,248
這其實也是一個常理來講

1256
00:52:29,248 --> 00:52:31,168
不一定能被所有人接受的方案

1257
00:52:31,608 --> 00:52:34,888
因為你們現在其實投大模型也投應用層啊

1258
00:52:34,888 --> 00:52:36,808
就我很好奇從投資的角度

1259
00:52:37,048 --> 00:52:39,928
你會怎麼去判斷一個項目甚至是一個人

1260
00:52:39,928 --> 00:52:41,248
他是不是值得你投的

1261
00:52:41,248 --> 00:52:44,808
我記得廣密當時在朋友圈發了一條文字

1262
00:52:44,808 --> 00:52:45,608
他就說

1263
00:52:45,632 --> 00:52:48,232
中國什麽樣的人能做出openai

1264
00:52:48,232 --> 00:52:51,832
我不知道你們怎麽看這個人需要具備哪些素質

1265
00:52:51,832 --> 00:52:57,032
其實我覺得做openai和做其他的公司需要的一些底層能力

1266
00:52:57,032 --> 00:52:58,832
我們一直認為是類似的

1267
00:52:58,832 --> 00:53:01,432
比如說我們一直說創業者的一些基礎能力

1268
00:53:01,432 --> 00:53:04,512
比如說學習力、領導力、創新力、意志力

1269
00:53:04,512 --> 00:53:06,312
我覺得這些是比較普世的

1270
00:53:06,312 --> 00:53:08,712
openai有它的歷史背景

1271
00:53:08,712 --> 00:53:12,312
有它的成長的國家和市場環境

1272
00:53:12,312 --> 00:53:15,312
第一個去做和第二個做也不一樣

1273
00:53:15,312 --> 00:53:15,360
我們要做的是創新

1274
00:53:15,360 --> 00:53:17,800
第一個可能需要很強的探索能力

1275
00:53:17,800 --> 00:53:20,160
但第二個可能往往需要是執行力

1276
00:53:20,160 --> 00:53:22,760
所以我覺得不宜直接去類比

1277
00:53:22,760 --> 00:53:26,160
但是我覺得OpenAI幾個人的搭配確實是非常厲害

1278
00:53:26,160 --> 00:53:29,680
每個人在自己應該做的事情上都是世界頂級的

1279
00:53:29,680 --> 00:53:33,680
而且其實我當時翻譯過一篇Grog Brockman的文章

1280
00:53:33,680 --> 00:53:35,760
他其實90%的時間都在寫代碼

1281
00:53:35,760 --> 00:53:38,040
這個事情我覺得不只是說他喜歡寫代碼

1282
00:53:38,040 --> 00:53:38,960
或者代碼寫得好

1283
00:53:38,960 --> 00:53:42,960
是說在這種很多事情都不確定的時候

1284
00:53:43,088 --> 00:53:46,408
組織裏面有一個非常有話語權

1285
00:53:46,408 --> 00:53:48,008
並且又非常hands on

1286
00:53:48,008 --> 00:53:52,888
知道每一個環節具體在做什麽的人是很重要的

1287
00:53:52,888 --> 00:53:54,888
因為很多時候當一個這樣的公司

1288
00:53:54,888 --> 00:53:56,128
是幾百億美金了

1289
00:53:56,128 --> 00:53:57,328
然後組織大了

1290
00:53:57,328 --> 00:53:59,328
可能他就變成了一個cto

1291
00:53:59,328 --> 00:54:01,248
或者說什麽這樣一個角色

1292
00:54:01,248 --> 00:54:02,408
那就會遠離一線

1293
00:54:02,408 --> 00:54:04,488
但是那種情況下往往是

1294
00:54:04,488 --> 00:54:06,208
如果你的業務已經表清楚了

1295
00:54:06,320 --> 00:54:07,480
大家該幹嘛是表清楚

1296
00:54:07,480 --> 00:54:11,040
但現在很多時候還是這一個學習研究探索的階段

1297
00:54:11,040 --> 00:54:13,160
這個時候一個人會的東西

1298
00:54:13,160 --> 00:54:15,680
牽涉到了領域多牽涉到團隊多

1299
00:54:15,680 --> 00:54:16,960
其實是很有幫助的

1300
00:54:17,240 --> 00:54:20,520
所以這其實都是叫做說運氣也好

1301
00:54:20,520 --> 00:54:22,160
或者說是有益設定也好

1302
00:54:22,160 --> 00:54:24,240
這還是挺厲害的一些設定的

1303
00:54:24,600 --> 00:54:27,120
但是未必中國的也是要一模一樣的搭配

1304
00:54:27,120 --> 00:54:27,600
對吧

1305
00:54:27,680 --> 00:54:29,640
比如說有技術背景的人當CEO的

1306
00:54:29,640 --> 00:54:32,480
也有老王這種商業業務背景的人當CEO的

1307
00:54:32,480 --> 00:54:33,200
我覺得都有

1308
00:54:33,472 --> 00:54:37,112
我們只能說創業呢它永遠無法是一個完美的一副牌

1309
00:54:37,112 --> 00:54:39,312
或者說哪怕你有看上去完美的一副牌

1310
00:54:39,312 --> 00:54:40,632
你也未必能打得完美

1311
00:54:40,632 --> 00:54:43,552
所以我覺得還是一有什麼牌然後去把它打好

1312
00:54:43,552 --> 00:54:45,312
你還有什麼要補充的嗎

1313
00:54:45,312 --> 00:54:49,832
首先我覺得AI這一波跟之前的元宇宙也好

1314
00:54:49,832 --> 00:54:52,992
Web3也好這種大家覺得很有泡沫的浪潮

1315
00:54:52,992 --> 00:54:54,992
我覺得還有些不太一樣的地方

1316
00:54:54,992 --> 00:54:57,152
首先任何科技進步都有很多泡沫

1317
00:54:57,152 --> 00:54:58,272
這個是肯定的

1318
00:54:58,272 --> 00:55:00,272
沒有泡沫的地方也不會有啤酒

1319
00:55:00,272 --> 00:55:02,672
但是呢我覺得判斷一個事情是不是

1320
00:55:02,704 --> 00:55:05,424
只有泡沫或者說泡沫上大多數呢 需要看

1321
00:55:05,424 --> 00:55:10,624
它是不是真的為主流的普通的用戶提供了很直接的價值

1322
00:55:10,624 --> 00:55:14,824
是不是真的是我因為要用這個技術所以我去用

1323
00:55:14,824 --> 00:55:18,344
還是說我能夠賺錢 或者說我聽說別人說未來很有用

1324
00:55:18,344 --> 00:55:20,424
還是現在立刻就有用 從這點來講

1325
00:55:20,424 --> 00:55:22,784
我覺得現在我們看到大圓模型為代表的

1326
00:55:22,784 --> 00:55:24,664
包括說生成式的AI

1327
00:55:24,768 --> 00:55:25,968
不管是文字還是圖片

1328
00:55:25,968 --> 00:55:29,408
是真真正正對普通的主流用戶群體

1329
00:55:29,408 --> 00:55:32,128
實在產生價值門檻也比較低

1330
00:55:32,128 --> 00:55:34,408
不管是從成本還是使用的難度來講

1331
00:55:34,408 --> 00:55:36,168
都比較低的一種技術

1332
00:55:36,168 --> 00:55:38,728
比起之前的一些被炒得很熱的

1333
00:55:38,728 --> 00:55:40,568
但是實際應用場景比較缺乏

1334
00:55:40,568 --> 00:55:42,368
用起來又比較難用的技術來講

1335
00:55:42,368 --> 00:55:44,488
我覺得還是有很大的區別的

1336
00:55:44,488 --> 00:55:46,368
所以我首先認為它是一個

1337
00:55:46,368 --> 00:55:48,128
雖然也是有很多泡沫

1338
00:55:48,128 --> 00:55:49,288
很多喧囂在裏面

1339
00:55:49,288 --> 00:55:51,528
但是我覺得會有很多啤酒的一個領域

1340
00:55:51,648 --> 00:55:55,528
我覺得可能是我們人類面臨的最大的一次技術革命

1341
00:55:55,528 --> 00:55:57,528
因為最本質的一點是說

1342
00:55:57,528 --> 00:56:01,488
原來我們所有的技術其實都在改進我們使用的工具

1343
00:56:01,488 --> 00:56:04,648
而這次是第一次用工具的這一邊

1344
00:56:04,648 --> 00:56:06,248
其實發生了變化

1345
00:56:06,248 --> 00:56:10,288
並且這個變化可能是比我們要更強大的一個存在

1346
00:56:10,288 --> 00:56:15,088
這個其實我覺得會在社會學、心理學等各個方面產生很重大的影響

1347
00:56:15,088 --> 00:56:18,688
因為它是發生在數字世界的

1348
00:56:18,912 --> 00:56:21,592
我們過去幾十年甚至上百年

1349
00:56:21,592 --> 00:56:25,872
我們往往在不斷地低估數字世界的變化速度

1350
00:56:25,872 --> 00:56:28,032
而高估物理世界的變化速度

1351
00:56:28,032 --> 00:56:31,192
比如說我們原來覺得有終結者terminator

1352
00:56:31,192 --> 00:56:33,912
結果現在我們的AI可能已經快到那個程度了

1353
00:56:33,912 --> 00:56:35,232
但機器人還差很遠

1354
00:56:35,232 --> 00:56:37,992
數字世界的迭代是快的

1355
00:56:37,992 --> 00:56:39,872
成本下降是快的

1356
00:56:39,872 --> 00:56:44,752
那麼現在我們看到的很多像AutoGPT這樣的雛形

1357
00:56:44,752 --> 00:56:47,712
可能三五年之後就會變得完全不一樣

1358
00:56:47,760 --> 00:56:49,760
會完善成熟很多

1359
00:56:49,760 --> 00:56:53,040
所以在這過程中我覺得要保持開放心態

1360
00:56:53,040 --> 00:56:56,600
然後很重要一點是在一個技術革命的早期

1361
00:56:56,600 --> 00:56:58,840
去預測未來基本上都是錯的

1362
00:56:58,840 --> 00:57:02,080
所以現在不管是我也好還是誰也好

1363
00:57:02,080 --> 00:57:03,440
我覺得講了很多話呢

1364
00:57:03,440 --> 00:57:05,320
我覺得你可以認為第一都是錯的

1365
00:57:05,320 --> 00:57:08,720
第二它的實現的路徑和結果可能都完全不一樣

1366
00:57:08,720 --> 00:57:10,432
因為試想2010年的時候

1367
00:57:10,432 --> 00:57:12,672
移動互聯網那個時候其實已經開始了

1368
00:57:12,672 --> 00:57:15,712
然後移動互聯網跟互聯網比其實也差不太多

1369
00:57:15,712 --> 00:57:19,632
但如果你在2010年你預測2023年的移動互聯網贏家

1370
00:57:19,632 --> 00:57:25,232
你會不會想到字節想不到快手小紅書拼多多美團滴滴uber

1371
00:57:25,232 --> 00:57:27,032
我覺得是很難很難的

1372
00:57:27,032 --> 00:57:29,072
那麽如果移動互聯網都這麽難

1373
00:57:29,072 --> 00:57:30,432
那AI我覺得就更難

1374
00:57:30,432 --> 00:57:34,192
有人說大模型會吞噬要應用的空間

1375
00:57:34,192 --> 00:57:37,192
也許有人說開源的會戰勝閉源的或者什麽怎麽樣

1376
00:57:37,192 --> 00:57:37,712
我覺得

1377
00:57:37,808 --> 00:57:41,688
我們一定要記住這是一個大部分人就只接觸了幾個月的技術

1378
00:57:41,688 --> 00:57:44,848
所以這個時候的很多預計 我覺得看看它的道理是什麽

1379
00:57:44,848 --> 00:57:48,208
但不用特別在意它的精確度

1380
00:57:48,208 --> 00:57:51,808
因為這個時候開始去做 尤其是對年輕人來講

1381
00:57:51,808 --> 00:57:55,368
早點去投身其中去嘗試去探索

1382
00:57:55,368 --> 00:57:57,168
其實是代表命運最好的方式

1383
00:57:57,440 --> 00:58:01,640
因為我在過去幾年經常聽人說80後很幸運對吧

1384
00:58:01,640 --> 00:58:04,120
像我們80後趕上了互聯網所以怎麽怎麽樣

1385
00:58:04,120 --> 00:58:06,760
但我覺得以後20年之後大家會說00後很幸運

1386
00:58:06,760 --> 00:58:09,280
因為趕上了AGI的Spark誕生的時候

1387
00:58:09,280 --> 00:58:12,000
在這個時候我們因為是做天使投資嘛

1388
00:58:12,000 --> 00:58:14,720
而且我們相信當技術比較成熟的時候

1389
00:58:14,720 --> 00:58:16,960
有利於連續創業者這些老司機們

1390
00:58:16,960 --> 00:58:18,960
但是技術比較新的時候呢

1391
00:58:18,960 --> 00:58:21,200
是有益於年輕人這些小天才們

1392
00:58:21,200 --> 00:58:24,160
這些年輕人呢他們一般都是年輕有衝勁

1393
00:58:24,160 --> 00:58:27,040
對這個技術很早就喜歡很早就感興趣

1394
00:58:27,040 --> 00:58:27,152
所以我相信未來的技術是會有益的

1395
00:58:27,152 --> 00:58:30,232
自己用的很多並且具備很好的知性能力

1396
00:58:30,232 --> 00:58:31,952
和國際化視野的年輕人

1397
00:58:31,952 --> 00:58:34,552
所以我們也是非常希望能夠多多尋找

1398
00:58:34,552 --> 00:58:35,752
在 AI 這個領域

1399
00:58:35,752 --> 00:58:37,952
不管你是要做比較底層的模型

1400
00:58:37,952 --> 00:58:40,152
或者中間層或者是做應用

1401
00:58:40,152 --> 00:58:42,752
我們都希望跟大家多多交流多多合作

1402
00:58:42,752 --> 00:58:44,432
好的 謝謝宇森

1403
00:58:44,432 --> 00:58:45,632
好的 謝謝

1404
00:58:45,632 --> 00:58:46,952
這就是我們今天的節目

1405
00:58:46,952 --> 00:58:48,392
如果大家喜歡我們的節目

1406
00:58:48,392 --> 00:58:51,552
或者大家對大模型有什麽樣的想法

1407
00:58:51,552 --> 00:58:53,832
可以在我們的評論區留言給我們

1408
00:58:53,936 --> 00:58:57,256
中國的聽眾可以通過蘋果播客小宇宙

1409
00:58:57,256 --> 00:59:02,136
喜馬拉雅 星庭FM 勵志FM 網易語音音樂 QQ音樂來關注我們

1410
00:59:02,136 --> 00:59:05,736
海外的聽眾可以通過Apple Podcast Google Podcast

1411
00:59:05,736 --> 00:59:08,456
Spotify 還有Amazon Music來收聽我們

1412
00:59:08,456 --> 00:59:10,456
感謝大家的收聽 謝謝

Open AI 極早期歷史 ( from Podcast : 硅谷101 : E107 )


他當時在研究其實後來非常像GPT的一個東西

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

Alec Redford他當時就提出我們應該訓練語言模型

並且不僅是用LSTM來實現

而且需要在很大的數據上面進行訓練

所以他當時就想到通過預測一句話的後面一個單詞

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

它也是GPT的相當於一個技術的奠基

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

它其實和神經網絡具體的架構本身是可以相對獨立的

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現

但是這個背後的思想的範疇是一樣的

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

比如說像Reddit是一個美國比較流行的論壇

它有一個特點就是所有的人可以匿名的去發一些評論

而且會有對話的一個過程

所以其實那個時候就已經有這樣一個對話機器人

也就後來ChatGPT的前身其實在那個時候已經有一些影子了

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

那些文檔的話都內容比較嚴肅比較刻板

所以就不太會生成一些有意思的東西

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練

那這樣子的話這個AI它就能夠生成更有意思的東西

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

只要把這個東西不斷地加算力加數據把它scale up

就能夠實現一個類似或者接近於通用人工智能體的一個技術

我覺得當時沒有一個人真的意識到

但我覺得確實那個時候已經埋下了種子

你指的埋下種子是指什麼

就是在隨著大家的研究逐漸深入

大家發現這件事情堆算力就可以解決




1
00:00:00,000 --> 00:00:02,320
嗨大家好

2
00:00:02,320 --> 00:00:05,760
開始的時候我們矽谷101聯合B站

3
00:00:05,760 --> 00:00:07,840
給聽眾發一波福利

4
00:00:07,840 --> 00:00:09,920
代引號的福利是什麼呢

5
00:00:09,920 --> 00:00:15,280
B站精心整理的AIGC的視頻教程合集

6
00:00:15,280 --> 00:00:18,080
最近生成式AI的發展實在是太快了

7
00:00:18,080 --> 00:00:22,240
我們一檔節目也只能講清楚其中很小的一部分

8
00:00:22,240 --> 00:00:26,320
但是B站做了一個系統的講AIGC的教程合集

9
00:00:26,336 --> 00:00:30,656
也邀請我們來給大家推荐一些專業有用的視頻

10
00:00:30,656 --> 00:00:32,096
去加入這個合集

11
00:00:32,096 --> 00:00:35,696
想到我們的節目有很多很多關注技術的同學

12
00:00:35,696 --> 00:00:39,896
所以我是推薦了亞馬遜前首席科學家李沐的專輯

13
00:00:39,896 --> 00:00:41,296
《跟李沐學AI》

14
00:00:41,296 --> 00:00:42,696
大家好,我是李沐

15
00:00:42,696 --> 00:00:44,096
在過去五年裡面

16
00:00:44,096 --> 00:00:47,696
他在B站上有很多從論文層面的解讀

17
00:00:47,696 --> 00:00:49,376
因為我自己一直相信

18
00:00:49,376 --> 00:00:53,216
去讀一手材料是最好的認識一件事情的方法

19
00:00:53,248 --> 00:00:55,608
同樣我也推薦了自己的視頻

20
00:00:55,608 --> 00:00:57,968
就是我們講Chad GPT的特輯

21
00:00:57,968 --> 00:01:00,688
是聊OpenAI黑手黨的一期

22
00:01:00,688 --> 00:01:02,248
除了OpenAI

23
00:01:02,248 --> 00:01:06,448
還有這幫出逃的AI叛徒將重塑人類的未來

24
00:01:06,448 --> 00:01:10,208
Chad GPT背後的公司OpenAI從2015年成立以來

25
00:01:10,208 --> 00:01:13,288
已經有30多個早期員工集體叛逃

26
00:01:13,288 --> 00:01:14,848
自己辭職出來單幹

27
00:01:14,848 --> 00:01:18,648
大家也可以去核心裡面看一看我們的這期視頻

28
00:01:18,704 --> 00:01:22,864
除此之外這個合集還有AIGC的發展史趨勢

29
00:01:22,864 --> 00:01:24,464
以及商業競爭的部分

30
00:01:24,464 --> 00:01:28,824
可以幫助大家非常系統地去了解和認識AI

31
00:01:28,824 --> 00:01:31,944
另外也有很多很多的實用教程

32
00:01:31,944 --> 00:01:33,744
比如大家都很感興趣的

33
00:01:33,744 --> 00:01:36,184
怎麼樣用Mid Journey去畫畫

34
00:01:36,184 --> 00:01:38,784
怎麼樣用Notion AI去寫作

35
00:01:38,784 --> 00:01:42,024
也有AI繪畫語音合成編程辦公

36
00:01:42,024 --> 00:01:44,704
等各種實用教程的大合集

37
00:01:44,704 --> 00:01:47,584
可以說內容是非常的詳細完整

38
00:01:47,632 --> 00:01:51,112
為什麼我說它是一個帶引號的福利呢?

39
00:01:51,112 --> 00:01:55,232
因為我最近其實一直有在收到一些聽眾的來信

40
00:01:55,232 --> 00:02:00,632
很多人很關心說這一波AI到底會不會取代我們的工作

41
00:02:00,632 --> 00:02:03,312
如何在AI時代不被淘汰

42
00:02:03,312 --> 00:02:05,432
我的答案其實也很簡單

43
00:02:05,432 --> 00:02:07,152
了解它擁抱它

44
00:02:07,152 --> 00:02:10,432
成為最先會使用AI的那一波人

45
00:02:10,432 --> 00:02:14,952
所以我會把合集的鏈接放在我們播客的show notes中

46
00:02:14,952 --> 00:02:17,712
感興趣的同學可以點擊去看一看

47
00:02:17,712 --> 00:02:22,912
那大家也可以直接在B站上搜索AI工具大法

48
00:02:22,912 --> 00:02:26,192
來查看AIGC的視頻合集

49
00:02:26,192 --> 00:02:29,592
另外我也推薦一下我們矽谷101在B站上的視頻

50
00:02:29,592 --> 00:02:32,752
我們講了很多跟AIGC相關的內容

51
00:02:32,752 --> 00:02:35,392
比如說我剛剛推薦的OpenAI黑手檔

52
00:02:35,392 --> 00:02:39,632
還有谷歌與微軟關於Chad GPT的世紀之戰

53
00:02:39,632 --> 00:02:42,072
以及Chad GPT的風險爭議

54
00:02:42,072 --> 00:02:44,432
大家感興趣也可以去看一看

55
00:02:44,928 --> 00:02:49,528
那這期呢我們就來聊一下OpenAI的早期成長史

56
00:02:49,528 --> 00:02:53,128
跟我們在一起的嘉賓是AI研究者Jim Fan

57
00:02:53,128 --> 00:02:54,528
Hello Jim你好

58
00:02:54,528 --> 00:02:55,848
Hello Jim你好

59
00:02:55,848 --> 00:02:58,648
Jim今天也是在非常忙的時間裡面

60
00:02:58,648 --> 00:03:01,008
來抽時間參加我們的節目錄製

61
00:03:01,008 --> 00:03:02,368
Jim的大概背景

62
00:03:02,368 --> 00:03:05,048
我看你之前是斯坦福計算機的PHD

63
00:03:05,048 --> 00:03:06,568
也是李飛飛的學生

64
00:03:06,568 --> 00:03:09,768
早期呢在OpenAI和Google AI都工作過

65
00:03:09,768 --> 00:03:12,928
也算是OpenAI的應該是第一個實習生吧

66
00:03:12,928 --> 00:03:14,480
對第一屆實習生對

67
00:03:14,480 --> 00:03:19,280
你加入OpenAI的時候是在2016年對2016年的暑假的時候

68
00:03:19,280 --> 00:03:24,080
可不可以跟大家講一下為什麼在那麼早期的時候會選中OpenAI

69
00:03:24,080 --> 00:03:26,880
我覺得當時也是有些朋友推薦

70
00:03:26,880 --> 00:03:31,480
那時候看到OpenAI他們的科學家創始團隊特別的厲害

71
00:03:31,480 --> 00:03:33,680
所以當時就也被他們吸引過去的

72
00:03:33,680 --> 00:03:37,480
那個時候的OpenAI差不多有30個人左右吧

73
00:03:37,480 --> 00:03:41,880
基本上每一個人都是響噹噹就名聲特別響的大牛

74
00:03:42,048 --> 00:03:46,048
比如說當時有Ian Goodfellow是GAN的發明人

75
00:03:46,048 --> 00:03:48,048
就是生成對抗式網絡

76
00:03:48,048 --> 00:03:50,048
還有Dirk Kinmach是Adam的發明人

77
00:03:50,048 --> 00:03:54,048
也是現在所有的深度學習的優化器用的算法

78
00:03:54,048 --> 00:03:58,048
Andre Caparzee、Ilea、OpenAI的Chief
Scientist等等

79
00:03:58,048 --> 00:04:00,048
就是都特別特別強的一個陣容

80
00:04:00,048 --> 00:04:03,048
是那在你加入OpenAI的時候

81
00:04:03,048 --> 00:04:06,048
你會負責其中的哪些工作

82
00:04:06,048 --> 00:04:08,048
OpenAI當時他研究的東西

83
00:04:08,048 --> 00:04:11,008
你覺得跟今天有很大的不一樣嗎

84
00:04:11,008 --> 00:04:15,008
再說一個背景信息OpenAI大概是在2015年成立的

85
00:04:15,008 --> 00:04:19,808
你應該就是在OpenAI非常早期一年之內就加入了

86
00:04:19,808 --> 00:04:22,008
然後做了他們的第一個實習生

87
00:04:22,008 --> 00:04:25,008
對我覺得非常榮幸能夠在早期的時候看到

88
00:04:25,008 --> 00:04:29,008
OpenAI內部做的一些研究以及他們的一些想法

89
00:04:29,008 --> 00:04:33,008
那個時候我負責的項目叫做OpenAI Universe

90
00:04:33,008 --> 00:04:37,008
那個項目它其實是一個通用決策智能體的一個探索

91
00:04:37,312 --> 00:04:40,912
Open Air Universe的意思是所有的比如說網站啊

92
00:04:40,912 --> 00:04:42,992
一些web application 網站的應用

93
00:04:42,992 --> 00:04:46,152
遊戲等等都可以通過鼠標和鍵盤來控制

94
00:04:46,552 --> 00:04:49,392
Open Air他們搭建了一個infrastructure吧

95
00:04:49,392 --> 00:04:52,432
就是能夠用鼠標和鍵盤來控制這些遊戲

96
00:04:52,432 --> 00:04:56,032
然後能夠比如說去解一些網上的web application

97
00:04:56,152 --> 00:04:58,512
當時我們就想要訓練智能體

98
00:04:58,512 --> 00:04:59,672
然後能做這件事情

99
00:04:59,792 --> 00:05:02,952
當然在16年的時候技術還遠遠沒有很成熟

100
00:05:03,272 --> 00:05:06,712
所以對那個時候我覺得效果並沒有特別的好

101
00:05:06,880 --> 00:05:10,360
但是那時候其實OpenAI一直想要追求的就是通用智能體

102
00:05:10,360 --> 00:05:12,960
那也是我當時實習的項目的一部分

103
00:05:12,960 --> 00:05:16,760
什麼叫通用智能體可不可以跟聽眾們解釋一下

104
00:05:16,760 --> 00:05:20,080
通用智能體的意思就是這一個人工智能

105
00:05:20,080 --> 00:05:23,120
它不是為一個專門的領域所設計的

106
00:05:23,120 --> 00:05:24,960
比如說一個專門的任務所設計的

107
00:05:24,960 --> 00:05:30,160
它能夠用同一個模型做幾百種上千種甚至無數種任務

108
00:05:30,160 --> 00:05:32,560
至少當時是有這樣子一個想法

109
00:05:32,560 --> 00:05:34,912
具體的這個體現就是OpenAI Universe

110
00:05:34,912 --> 00:05:39,212
它的一個實現就是通過看屏幕上面的像素

111
00:05:39,212 --> 00:05:42,912
直接能夠輸出鍵盤和鼠標的一些Action

112
00:05:43,312 --> 00:05:44,992
你說的這個通用智能體

113
00:05:44,992 --> 00:05:48,792
因為我們知道現在OpenAI它的目標包括Sam Altman

114
00:05:48,792 --> 00:05:51,592
他經常在媒體面前講的就是AGI

115
00:05:51,852 --> 00:05:56,192
通用人工智能就是說人工智能在所有的方向做的東西

116
00:05:56,192 --> 00:05:57,592
不弱於人的水平

117
00:05:57,652 --> 00:05:58,892
當然這是我的一個定義

118
00:05:58,892 --> 00:06:00,992
就關於AGI到底是什麼定義的話

119
00:06:00,992 --> 00:06:03,392
我相信業界跟學界有很多很多的說法

120
00:06:03,536 --> 00:06:07,736
那你說的這個通用智能體它跟AGI的這樣的一個關係是什麼呢

121
00:06:07,736 --> 00:06:11,936
我覺得基本上通用智能體和AGI這兩個概念差不多

122
00:06:11,936 --> 00:06:16,336
但是只不過具體怎麼實現它們有很多種不同的方式

123
00:06:16,336 --> 00:06:20,536
比如說後來可能過了好多年OpenAI它們發現了GBT

124
00:06:20,536 --> 00:06:25,336
然後通過自然語言來實現類似通用智能體的一個AI

125
00:06:25,336 --> 00:06:28,936
但是當時其實OpenAI Universe就是我實習的時候參與的那個項目

126
00:06:28,936 --> 00:06:30,736
它走的路徑特別的不一樣

127
00:06:30,944 --> 00:06:35,144
它是通過決策通過這樣子一個鼠標和鍵盤的方式來實現

128
00:06:35,344 --> 00:06:38,384
當然後來發現其實用文本來實現通用智能體

129
00:06:38,384 --> 00:06:42,144
是一條比用鼠標和鍵盤要快很多的一個路徑

130
00:06:42,224 --> 00:06:43,344
但這個是後花了

131
00:06:43,744 --> 00:06:48,024
你可不可以跟大家介紹一下在OpenAI早期你加入的時候

132
00:06:48,344 --> 00:06:53,024
那些加入OpenAI的大牛們你剛剛也簡單的介紹了一些人

133
00:06:53,024 --> 00:06:55,424
然後我記得上次其實我們聊天的時候你有說

134
00:06:55,424 --> 00:06:58,824
在早期OpenAI工作也是一件壓力特別大的事情

135
00:06:58,824 --> 00:07:00,344
因為身邊都是大神嘛

136
00:07:00,432 --> 00:07:03,592
在這群人中你覺得大家的一個共同目標是什麼?

137
00:07:03,592 --> 00:07:07,592
誰在主導整個OpenAI的研究方向?

138
00:07:07,592 --> 00:07:11,232
對我覺得當時OpenAI真的是一個神一樣的地方

139
00:07:11,232 --> 00:07:15,832
因為所有的那些在那邊全職的科學家基本都是業界的大牛

140
00:07:15,832 --> 00:07:19,992
而且他們很多論文我在沒有加入OpenAI之前就全都讀過

141
00:07:19,992 --> 00:07:23,632
所以去那邊基本上就是見到我當時心中的眾神們

142
00:07:23,632 --> 00:07:28,552
所以我覺得那個時候的OpenAI還是研究的方向比較多樣化

143
00:07:28,560 --> 00:07:31,960
因為每一個大神他們其實有自己的一個研究的領域

144
00:07:31,960 --> 00:07:33,760
大家都在探索不同的東西

145
00:07:33,760 --> 00:07:39,160
比如說剛才提到的Ian Goodfellow在研究的是更多的生成對抗式的這種模型

146
00:07:39,160 --> 00:07:43,160
Dirk Kinmar他可能研究的更多是像辨分自編碼器

147
00:07:43,160 --> 00:07:46,160
就是Variational Autoencoder VAE這條路

148
00:07:46,160 --> 00:07:48,360
還有一位叫Alec Radford

149
00:07:48,360 --> 00:07:52,560
他當時在研究其實後來非常像GBT的一個東西

150
00:07:52,560 --> 00:07:57,360
當然那個時候還沒有Transformer這樣子一個神經網絡的架構

151
00:07:57,440 --> 00:08:02,940
那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

152
00:08:02,940 --> 00:08:06,440
Alec Redford他當時就提出我們應該訓練語言模型

153
00:08:06,440 --> 00:08:08,940
並且不僅是用LSTM來實現

154
00:08:08,940 --> 00:08:11,940
而且需要在很大的數據上面進行訓練

155
00:08:11,940 --> 00:08:16,940
所以他當時就想到通過預測一句話的後面一個單詞

156
00:08:16,940 --> 00:08:21,440
這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

157
00:08:21,440 --> 00:08:25,940
所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

158
00:08:26,368 --> 00:08:33,808
所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

159
00:08:33,808 --> 00:08:37,008
它也是GPT的相當於一個技術的電機

160
00:08:37,008 --> 00:08:43,088
對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

161
00:08:43,088 --> 00:08:47,088
它其實和神經網絡具體的架構本身是可以相對獨立的

162
00:08:47,088 --> 00:08:53,008
所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM
來實現

163
00:08:53,008 --> 00:08:56,288
但是這個背後的思想的範疇是一樣的

164
00:08:56,512 --> 00:09:02,272
還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

165
00:09:02,272 --> 00:09:05,352
比如說像Reddit是一個美國比較流行的論壇

166
00:09:05,352 --> 00:09:10,992
它有一個特點就是所有的人可以匿名的去發一些評論

167
00:09:10,992 --> 00:09:12,912
而且會有對話的一個過程

168
00:09:12,912 --> 00:09:15,512
所以其實那個時候就已經有這樣一個對話機器人

169
00:09:15,512 --> 00:09:18,992
也就後來ChagPT的前身其實在那個時候已經有一些影子了

170
00:09:18,992 --> 00:09:25,232
當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

171
00:09:25,392 --> 00:09:31,192
因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

172
00:09:31,192 --> 00:09:34,492
那些文檔的話都內容比較嚴肅比較刻板

173
00:09:34,492 --> 00:09:37,192
所以就不太會生成一些有意思的東西

174
00:09:37,192 --> 00:09:44,792
但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面
做這個訓練

175
00:09:44,792 --> 00:09:47,992
那這樣子的話這個AI它就能夠生成更有意思的東西

176
00:09:48,192 --> 00:09:52,352
但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

177
00:09:52,352 --> 00:09:56,672
只要把這個東西不斷地加算力加數據把它scale up

178
00:09:56,672 --> 00:10:00,792
就能夠實現一個類似或者接近於通用人工智能體的一個技術

179
00:10:00,792 --> 00:10:02,792
我覺得當時沒有一個人真的意識到

180
00:10:02,792 --> 00:10:05,392
但我覺得確實那個時候已經埋下了種子

181
00:10:05,392 --> 00:10:07,872
你指的埋下種子是指什麼

182
00:10:07,872 --> 00:10:10,912
就是在隨著大家的研究逐漸深入

183
00:10:10,912 --> 00:10:13,952
大家發現這件事情堆算力就可以解決

184
00:10:13,952 --> 00:10:17,552
對在剛提到的Elec他的探索下

185
00:10:17,664 --> 00:10:21,504
之後Transformer出來了OpenEye就提出了GPT

186
00:10:21,504 --> 00:10:25,504
GPT這個算法全稱叫generative pre-training

187
00:10:25,504 --> 00:10:27,064
我這邊大概解釋一下

188
00:10:27,064 --> 00:10:32,264
Transformer那篇論文是谷歌研究院的科學家提出來的

189
00:10:32,264 --> 00:10:34,504
當時提出的時候Transformer有兩個部分

190
00:10:34,504 --> 00:10:36,504
一個是編碼器encoder

191
00:10:36,504 --> 00:10:38,504
還有一個是解碼器decoder

192
00:10:38,504 --> 00:10:41,944
但是GPT他就提出我們不需要編碼器

193
00:10:41,944 --> 00:10:44,184
我們只要解碼器decoder就可以了

194
00:10:44,272 --> 00:10:48,552
decoder他的訓練的原理就是不斷地預測下一個單詞

195
00:10:48,552 --> 00:10:54,072
所以其實在這一點上面和剛提到的LSTM等回饋式神經網絡是特別的像的

196
00:10:54,072 --> 00:11:00,672
因為2016年的時候OpenAI做了那些回饋式神經網絡和下一個單詞預測這樣嘗試

197
00:11:00,672 --> 00:11:07,072
所以對他們來說GPT作為一個純解碼器的一個模型是一個很自然而然的一個眼神

198
00:11:07,072 --> 00:11:12,496
但其實當時學術圈裡面並沒有達成共識為什麼一定只用解碼器

199
00:11:12,496 --> 00:11:18,976
我舉個例子,比如說谷歌在Transformer之後有一篇特別火的資安源處理的工作
叫Bert

200
00:11:18,976 --> 00:11:22,576
Bert其實和GBT是反其道而行之

201
00:11:22,576 --> 00:11:26,736
它是純粹只有編碼器,也就是它是encoder的一個模型

202
00:11:26,736 --> 00:11:29,856
它其實並沒有像GBT那樣的一個解碼器

203
00:11:29,856 --> 00:11:34,896
它是完全通過編碼器來做一個表徵學習,也有所謂的representation
learning

204
00:11:34,896 --> 00:11:39,136
但是GBT的話它提出的是用解碼器來進行生成

205
00:11:39,136 --> 00:11:44,336
所以我覺得那個時候學術圈裡面還是處於一個百花齊放百家真名的狀態

206
00:11:44,336 --> 00:11:48,536
有不同的解碼器、解碼器或者一個混合有各種各樣的學派

207
00:11:48,536 --> 00:11:51,736
當時包括我在內我覺得很多人也沒有意識到

208
00:11:51,736 --> 00:11:53,736
就GPT其實是非常好的一條路

209
00:11:53,736 --> 00:11:55,216
可能比別的模型會更強

210
00:11:55,216 --> 00:11:57,616
當時我覺得絕大部分人都沒有意識到

211
00:11:58,216 --> 00:12:03,016
那大家是怎麼敢在GPT裡面去堆這麼多的算力進去

212
00:12:03,016 --> 00:12:04,616
這麼多的數據進去

213
00:12:04,616 --> 00:12:08,096
因為其實堆算力的過程就是不停地板

214
00:12:08,096 --> 00:12:10,096
資金砸入進去的一個過程

215
00:12:10,096 --> 00:12:13,656
我覺得我們除了說它需要很多的決心

216
00:12:13,656 --> 00:12:17,256
同時我相信大家需要在科研上是看到有反饋的

217
00:12:17,496 --> 00:12:19,816
那為什麼大家最後賭的是GPT

218
00:12:20,256 --> 00:12:24,616
對,我覺得首先我在16年數集之後就離開OpenAI

219
00:12:24,616 --> 00:12:28,256
所以之後他們做GPT的時候我並沒有親自在場

220
00:12:28,376 --> 00:12:30,696
所以我也只從外界來觀察這事

221
00:12:30,856 --> 00:12:35,016
我大致猜測就是後來在GPT之後出了GPT2

222
00:12:35,168 --> 00:12:40,968
GPT2其實跟本來的GPT1的模型算法是幾乎完全一樣的

223
00:12:40,968 --> 00:12:43,928
唯一的區別就是更多的數據、更大的模型

224
00:12:43,928 --> 00:12:46,288
但其實GPT2也沒有特別大

225
00:12:46,288 --> 00:12:48,848
就是大到不容個十個億美金訓練不了

226
00:12:48,848 --> 00:12:50,568
也遠遠沒有到這個規模

227
00:12:50,568 --> 00:12:54,688
但是其實GPT2已經有一些我們稱之為叫emergent property

228
00:12:54,688 --> 00:12:57,008
就一種湧現的一些智能在裡面

229
00:12:57,008 --> 00:13:00,168
比如說它做多任務什麼的會做得特別好

230
00:13:00,168 --> 00:13:02,008
比GPT1會好很多

231
00:13:02,008 --> 00:13:05,128
還包括一些微調、fine tuning什麼也都做得很好

232
00:13:05,424 --> 00:13:08,984
所以我覺得OpenAI可能在那個時候看到GPT-2

233
00:13:08,984 --> 00:13:13,624
它的能力還要生成文本的流暢程度比GPT-1高那麼多

234
00:13:13,624 --> 00:13:15,784
我覺得他們可能看到了這一點

235
00:13:15,784 --> 00:13:17,224
然後他們就下了一個賭注

236
00:13:17,224 --> 00:13:19,944
我們能大量的算力、大量的經費

237
00:13:19,944 --> 00:13:22,584
把GPT-2擴大10倍甚至100倍

238
00:13:22,584 --> 00:13:25,104
所以後來就成為了GPT-3

239
00:13:25,104 --> 00:13:27,504
所以我覺得這條應該是OpenAI內部

240
00:13:27,504 --> 00:13:29,784
他們看到了這樣一種湧現的智能

241
00:13:29,784 --> 00:13:30,904
下了一個賭注

242
00:13:30,904 --> 00:13:32,304
當然有可能賭輸

243
00:13:32,304 --> 00:13:34,944
但是事實上就是歷史證明他們賭贏了

244
00:13:35,056 --> 00:13:37,496
所以我覺得這也是一個很非凡的成就

245
00:13:37,496 --> 00:13:41,656
是的你剛說到其實還有一個點我覺得挺有意思的

246
00:13:41,656 --> 00:13:47,336
你提到Ellick他其實是最早提出用Reddit的數據去做訓練數據的

247
00:13:47,336 --> 00:13:52,016
因為以往大家在堆訓練數據的時候可能會去堆更準確的數據

248
00:13:52,016 --> 00:13:56,936
比如說維基百科他在說一個事實的時候他的數據是非常準的

249
00:13:56,976 --> 00:14:00,216
但我們知道在Reddit上它其實是一個用戶論壇嘛

250
00:14:00,216 --> 00:14:02,376
然後這個論壇上什麼樣的帖子也有

251
00:14:02,376 --> 00:14:05,576
也有很多的回帖也有很多的Meme符號

252
00:14:05,576 --> 00:14:08,936
但是可能在這個論壇上也有很多逆氣

253
00:14:08,936 --> 00:14:11,656
大家去懟一件事情這都是非常正常的

254
00:14:11,656 --> 00:14:14,376
他當時想把Reddit的數據加進去

255
00:14:14,376 --> 00:14:17,056
只是說他為了去擴大數據量

256
00:14:17,056 --> 00:14:20,176
還是說他其實是為了讓他的表述更加生動

257
00:14:20,176 --> 00:14:21,656
還是出於其他的什麼原因

258
00:14:21,824 --> 00:14:27,824
當時我想知道你們在去決定去用一些新的數據去做訓練的時候這個思考是什麼

259
00:14:27,824 --> 00:14:33,824
首先我當時不在那個項目上所以他們的初衷我並不知道這是我的猜想啊

260
00:14:33,824 --> 00:14:37,824
我覺得就像你剛才提到的Reddit它更加生動它沒有那麼死板

261
00:14:37,824 --> 00:14:43,824
它不只是一個平鋪直敘的解釋一個知識點比如說百度百科啊
維基百科都是解釋一個知識點

262
00:14:43,824 --> 00:14:49,776
沒有什麼情感但是其實在Reddit上面中各種各樣的情感很多喜怒哀樂都有

263
00:14:49,776 --> 00:14:53,496
所以我猜測是他們覺得這樣作為一個生成式的模型

264
00:14:53,496 --> 00:14:54,896
至少會特別有意思

265
00:14:54,896 --> 00:14:59,096
因為你可以讓它生成各種語境下面的不同的一些話

266
00:14:59,096 --> 00:15:02,296
但如果GPT模型只用微幾百克來訓練的話

267
00:15:02,296 --> 00:15:05,696
那它生成的永遠是這種平凸直續的比較枯燥的內容

268
00:15:05,696 --> 00:15:10,016
所以我覺得可能一定程度上是從因為他們想要生成內容

269
00:15:10,016 --> 00:15:12,376
什麼樣的內容最有意思生成呢

270
00:15:12,376 --> 00:15:15,576
那可能是要從論壇上面大家這樣一個聊天的記錄

271
00:15:15,576 --> 00:15:18,816
其實Reddit就是一個公開聊天記錄說白了

272
00:15:18,944 --> 00:15:23,344
所以他們拿聊天記錄過來肯定生成的東西會更加生動一些

273
00:15:23,344 --> 00:15:25,744
我估計初衷是這樣的

274
00:15:25,744 --> 00:15:28,544
你早期2016年在的時候

275
00:15:28,544 --> 00:15:33,744
那個時候Sam Altman跟馬斯克因為他們當時是都在OpenAI

276
00:15:33,744 --> 00:15:36,944
你覺得誰對OpenAI的影響更大一點

277
00:15:36,944 --> 00:15:40,944
當然我當時是個實習生沒有接觸過他們決策管理層

278
00:15:40,944 --> 00:15:42,544
所以我不太清楚

279
00:15:42,816 --> 00:15:46,616
不過我覺得當時從技術上面的話我不知道他們參與了多少

280
00:15:46,616 --> 00:15:51,256
但我覺得Illya還有Alec還有Andre Caparzi和Greg
Brockman

281
00:15:51,256 --> 00:15:54,616
我覺得對GBT這樣一個技術的影響是非常的大的

282
00:15:54,816 --> 00:15:57,976
他們是直接去做這樣一個項目的科學家

283
00:15:58,456 --> 00:16:02,256
上次其實我們聊天的時候你還提到一個非常有意思的現象

284
00:16:02,256 --> 00:16:05,496
我們在提到跟AI相關方向的研究的時候

285
00:16:05,496 --> 00:16:07,576
V-RAN早期是非常非常強的

286
00:16:07,696 --> 00:16:12,496
那之後是很多人才跟AI研究相關的去了Google Brain

287
00:16:12,688 --> 00:16:14,848
後來又是去了OpenAI

288
00:16:14,848 --> 00:16:17,688
那如果你作為一個AI研究者

289
00:16:17,688 --> 00:16:21,688
就你覺得什麼是最吸引你去到一家公司的

290
00:16:21,688 --> 00:16:24,408
我現在在英偉達做研究科學家

291
00:16:24,408 --> 00:16:27,048
我覺得加入英偉達有幾個原因吧

292
00:16:27,048 --> 00:16:31,408
一個是英偉達研究院做的研究多樣性比較廣

293
00:16:31,408 --> 00:16:33,568
比如說有做計算識的視覺的

294
00:16:33,568 --> 00:16:35,208
有做自然元處理的

295
00:16:35,208 --> 00:16:36,648
還有做機器人的等等

296
00:16:36,848 --> 00:16:39,488
對我來說我從博士剛畢業的時候

297
00:16:39,488 --> 00:16:42,128
其實我是想要繼續能做一些研究的工作

298
00:16:42,128 --> 00:16:44,048
不一定說就直接去做產品

299
00:16:44,048 --> 00:16:47,168
然後我就因為在研究院給我很多探索的自由

300
00:16:47,168 --> 00:16:50,448
這一點上我是覺得一個很吸引我的地方

301
00:16:50,448 --> 00:16:55,408
第二看一個公司看它資源或者說是長期的計劃是怎麼樣的

302
00:16:55,408 --> 00:16:58,528
我確實覺得英偉達第一資源肯定是很強的

303
00:16:58,528 --> 00:17:00,448
畢竟我們是做GPU的公司

304
00:17:00,448 --> 00:17:04,768
現在GPU就顯卡基本上是訓練AI的主要的硬件

305
00:17:04,944 --> 00:17:07,504
所以我覺得這塊公司資源非常的強

306
00:17:07,504 --> 00:17:12,384
而且公司長期來說因為現在AI的模型基本都是用GPU來訓練的

307
00:17:12,384 --> 00:17:14,384
所以我覺得這塊發展也會比較好

308
00:17:14,384 --> 00:17:17,904
綜上所述就是一個是研究的自由探索自由

309
00:17:17,904 --> 00:17:19,904
還有第二個是未來的發展及資源

310
00:17:19,904 --> 00:17:21,904
這個是我比較重視的幾個方面

311
00:17:21,904 --> 00:17:23,904
我覺得選擇還是非常好的

312
00:17:23,904 --> 00:17:26,464
因為大家現在看英偉達的股價也看到了

313
00:17:26,464 --> 00:17:29,664
我們前期就聊了很多跟OpenAI相關的

314
00:17:29,664 --> 00:17:33,504
包括它的早期的成長包括你早期在中間的一些經歷

315
00:17:33,600 --> 00:17:38,600
接下來我其實也有一些關於大模型的一些觀點性的東西想跟你討論一下

316
00:17:38,600 --> 00:17:42,040
可能也是現在市場上大家關注的比較多的

317
00:17:42,040 --> 00:17:47,440
第一個問題就是未來的大模型你認為它會不會是一個贏者通吃的市場

318
00:17:47,440 --> 00:17:50,480
還是說它會有多個大模型存在的市場

319
00:17:50,480 --> 00:17:55,800
因為我們現在看OpenAI它可能暫時的領先其他大模型一段時間

320
00:17:55,800 --> 00:17:58,880
但它的領先可能是它會吃進去很多的數據

321
00:17:58,880 --> 00:18:00,600
大家會不停地跟OpenAI互動

322
00:18:00,600 --> 00:18:02,720
然後它會有反饋它會變得更強

323
00:18:02,800 --> 00:18:09,240
但是同時我們說不管是谷歌的模型還是說像Stability 包括一些圖片的模型

324
00:18:09,240 --> 00:18:14,480
它們有自己很強的應用你覺得未來的大模型的市場格局會是怎麼樣的呢?

325
00:18:14,480 --> 00:18:22,960
我覺得首先應該不會是迎者通吃肯定會有多個大模型但是我覺得也不會太多

326
00:18:23,136 --> 00:18:27,736
可能曾經比如說像SARS或者是做手機APP

327
00:18:27,736 --> 00:18:31,336
這些可能市面上有幾十萬個幾百萬個APP

328
00:18:31,336 --> 00:18:34,736
只要大家會寫一些代碼的人都能寫一個iPhone的App

329
00:18:35,136 --> 00:18:37,936
但是我覺得這個大模型肯定不可能是這樣

330
00:18:38,136 --> 00:18:39,836
但是大模型也不會只有一家

331
00:18:40,036 --> 00:18:41,936
所以我覺得可能更多的像是一個

332
00:18:41,936 --> 00:18:44,736
比如說有十幾種不同的大模型

333
00:18:44,736 --> 00:18:46,936
然後每一個都是不同公司做的

334
00:18:46,936 --> 00:18:48,536
每一個都有自己的專長

335
00:18:48,636 --> 00:18:51,336
這個是未來相當長一段時間的導向

336
00:18:51,552 --> 00:18:55,552
現在OpenAI確實在語言模型這個事情上面是主導的

337
00:18:55,552 --> 00:18:59,152
但是舉個例子比如說在圖像生成模型上面

338
00:18:59,152 --> 00:19:02,952
現在達利的質量有些時候並比不過Mid Journey

339
00:19:02,952 --> 00:19:06,552
Mid Journey是一個我跟聽眾朋友們很快介紹一下

340
00:19:06,552 --> 00:19:10,552
就是Mid Journey是一家只有11個人的一個初創公司

341
00:19:10,552 --> 00:19:13,552
他們做的就是從文本生成圖片

342
00:19:13,552 --> 00:19:17,552
現在目前基本大家公認Mid Journey生成的圖片的質量

343
00:19:17,552 --> 00:19:20,240
清晰度都是業界算是數一數二的

344
00:19:20,240 --> 00:19:25,040
這一點上我覺得Mid Journey在生成圖片的大模型上是比較領先的

345
00:19:25,040 --> 00:19:27,440
還有一家我聽說叫Eleven Labs

346
00:19:27,440 --> 00:19:30,240
這家公司是生成語音的合成語音

347
00:19:30,240 --> 00:19:32,840
之前我看過他們的一個展示

348
00:19:32,840 --> 00:19:36,640
他們用喬布斯生前的那些聲音合成

349
00:19:36,640 --> 00:19:39,640
你可以讓喬布斯講任何你想讓他講的話

350
00:19:39,640 --> 00:19:42,640
聽上去的聲音就像喬布斯本人在跟你講話一樣

351
00:19:42,640 --> 00:19:45,240
語音的低音的程度已經做得非常的好

352
00:19:45,240 --> 00:19:48,040
所以比如說像這樣子一個語音的大模型

353
00:19:48,040 --> 00:19:49,840
可能又是由不同的公司來主導

354
00:19:50,128 --> 00:19:53,928
所以我覺得未來一個是不會一家獨當

355
00:19:53,928 --> 00:19:55,928
肯定會有多種不同的大模型

356
00:19:55,928 --> 00:19:59,528
而且每一個模型有它的專長有它自己的一個市場

357
00:19:59,528 --> 00:20:03,528
第二我覺得未來是肯定會發展的一個方向是多模態

358
00:20:03,528 --> 00:20:08,928
就是說文本現在肯定是大家目前看到的最火的一個模態

359
00:20:08,928 --> 00:20:13,328
但之後的話比如說像視覺二維視覺甚至三維視覺

360
00:20:13,328 --> 00:20:16,928
還有語音等等或者之後可能還會有機器人等等

361
00:20:16,928 --> 00:20:19,312
就各種各樣的模態都會加進來

362
00:20:19,312 --> 00:20:24,512
我不覺得OpenAI或者任何少數幾家公司能把所有的模態全都做完

363
00:20:24,832 --> 00:20:26,832
所以這也是一個未來的方向的方向

364
00:20:27,232 --> 00:20:29,712
你相信通用人工智能會實現嗎?

365
00:20:30,112 --> 00:20:32,512
我覺得這個詞比較難定義

366
00:20:32,752 --> 00:20:35,952
而且我覺得可能定義這個詞本身意義也不大

367
00:20:35,952 --> 00:20:37,832
因為我現在給一個定義

368
00:20:37,832 --> 00:20:42,032
務必會有聽眾朋友或者學術圈裡面的學者和我持有不同的意見

369
00:20:42,392 --> 00:20:47,432
更有意思的一個討論點是這些模型能帶來多少的經濟價值

370
00:20:47,432 --> 00:20:49,352
我覺得這個經濟價值是巨大的

371
00:20:49,440 --> 00:20:56,800
包括剛才說的多模態基本上模態越多它能夠涵代的商業的應用就越來越多

372
00:20:56,800 --> 00:21:00,000
剛才提到語音啊視覺啊什麼的機器人啊等等

373
00:21:00,000 --> 00:21:03,120
現在光是文本我們已經看到各種各樣不同應用

374
00:21:03,120 --> 00:21:08,720
比如說在辦公立的應用在法律這樣子一個需要專業技能的一個領域裡的應用

375
00:21:08,720 --> 00:21:10,800
在會計裡面等等等等

376
00:21:10,800 --> 00:21:16,000
我們已經看到大模型滲透到商業和我們社會經濟的每一個領域

377
00:21:16,160 --> 00:21:18,720
所以我覺得更重要的一個問題是

378
00:21:18,720 --> 00:21:22,200
這些大模型未來能創造多少的社會價值

379
00:21:22,200 --> 00:21:24,560
我覺得這個社會價值是顛覆性的

380
00:21:24,560 --> 00:21:28,560
我個人覺得人工智能就是一場新的工業革命

381
00:21:28,560 --> 00:21:31,280
而且比前幾次工業革命可能加起來

382
00:21:31,280 --> 00:21:32,960
它的影響力都要大很多

383
00:21:32,960 --> 00:21:37,120
這是一個像指數爆炸一樣的社會價值的創造

384
00:21:37,120 --> 00:21:39,680
所以我覺得通用不通用不是特別重要

385
00:21:39,680 --> 00:21:43,760
重要的是社會價值以及體係都會受到顛覆

386
00:21:44,000 --> 00:21:47,360
對我再說一下我剛剛為什麼問你那個問題

387
00:21:47,360 --> 00:21:49,560
就是你相信通用人工智能嗎

388
00:21:49,560 --> 00:21:52,360
因為在我們在聊到大模型的時候

389
00:21:52,360 --> 00:21:55,240
其實我們有提到基於語言生成的大模型

390
00:21:55,240 --> 00:21:56,600
圖像生成的大模型

391
00:21:56,600 --> 00:21:59,120
甚至你有提到語音合成的大模型

392
00:21:59,120 --> 00:22:01,760
後來我們還提到了基於法律的大模型

393
00:22:01,760 --> 00:22:04,080
生物的大模型辦公軟件的大模型

394
00:22:04,080 --> 00:22:06,000
但是其實有一個基本的是

395
00:22:06,000 --> 00:22:07,880
比如說有一些基於法律的模型

396
00:22:07,880 --> 00:22:11,240
它可能是搭建在GBT上的一個應用

397
00:22:11,264 --> 00:22:15,264
它可能是其中的一個插件或者在它上面有一層優化

398
00:22:15,264 --> 00:22:18,064
我更想問的是你認為這種大模型

399
00:22:18,064 --> 00:22:23,184
它們未來有可能會訓練成一個通材還是專材

400
00:22:23,184 --> 00:22:26,504
當然我假設一個模型搭在CHEDGBT上

401
00:22:26,504 --> 00:22:29,144
我在上面再加一些法律方面的優化

402
00:22:29,144 --> 00:22:32,024
它最後能變成一個法律專家

403
00:22:32,024 --> 00:22:35,024
或者說一個生物的模型搭在CHEDGBT上

404
00:22:35,024 --> 00:22:38,224
最後變成一個可以合成蛋白質結構的模型

405
00:22:38,432 --> 00:22:41,472
但是還是說它需要分別的大模型

406
00:22:41,472 --> 00:22:45,032
就是專門的生物的數據庫去做生物的這條線

407
00:22:45,032 --> 00:22:47,832
還是說它都可以運用一個底層架構

408
00:22:48,112 --> 00:22:52,232
我考慮的是這個模型它到底未來是一個通材還是專材

409
00:22:52,632 --> 00:22:54,032
哦懂了懂了

410
00:22:54,032 --> 00:22:58,232
我覺得更有可能的是就像你剛才提到的一個通材的模型

411
00:22:58,632 --> 00:23:00,912
當然這個通用是否達到人類的智能

412
00:23:00,912 --> 00:23:02,832
就是我剛說的大家有不同的定義

413
00:23:02,832 --> 00:23:05,512
大家學術圈也不一定是有一個統一的定義

414
00:23:05,680 --> 00:23:12,080
但是我覺得一個通材的語言模型然後在上面加插件的這樣一個模式將會是一個未來的導向

415
00:23:12,760 --> 00:23:17,480
當然這個插件怎麼做以及這個通材上面的那一層是什麼

416
00:23:17,760 --> 00:23:20,520
我覺得這個可能不同公司會有一些不同的答案

417
00:23:20,880 --> 00:23:25,280
比如說現在我們看到OpenAI他們就實現了這樣一個Chat GPT的應用商店

418
00:23:25,720 --> 00:23:27,520
然後我覺得這個是一種方式

419
00:23:27,728 --> 00:23:30,568
另外一種可能是比如說現在有一個大模型

420
00:23:30,568 --> 00:23:32,648
但是我想把它應用在法律

421
00:23:32,648 --> 00:23:36,568
我可能在法律的領域裡面做一定的比如說真流等等

422
00:23:36,568 --> 00:23:41,128
可以讓這個模型變得在法律的領域裡面能夠更加的專業

423
00:23:41,128 --> 00:23:45,688
並且可能它會比一個完全通材的一個模型效率會更高

424
00:23:45,688 --> 00:23:48,688
因為那個模型它不需要知道任何醫學的知識等等

425
00:23:48,688 --> 00:23:50,528
它只要知道法律知識就可以了

426
00:23:50,528 --> 00:23:54,768
所以它也可以是一個通用模型的專業化的一個版本

427
00:23:54,992 --> 00:23:59,392
但是我覺得一個通用的模型這樣一個基石是很重要的

428
00:23:59,392 --> 00:24:02,672
有了這個基石以後要么做插件要么做一些蒸餾

429
00:24:02,672 --> 00:24:05,472
或者一個更加專業的版本我覺得這個都是可行的

430
00:24:05,472 --> 00:24:10,272
對但它們都是可以在大的模型下面或者說找一些開源的模型

431
00:24:10,272 --> 00:24:14,512
它們只是需要做一些優化或者加入一些特定領域的數據

432
00:24:14,512 --> 00:24:16,592
進行一些特定領域的訓練對吧

433
00:24:16,592 --> 00:24:18,672
它們不需要再從頭搭一個了

434
00:24:18,672 --> 00:24:22,512
對不過我覺得不一定每一家公司都能這樣做

435
00:24:22,656 --> 00:24:26,936
因為通用模型訓練起來肯定是難度非常非常的大

436
00:24:26,936 --> 00:24:30,856
現在能訓練通用模型的公司全世界屈指可數

437
00:24:30,856 --> 00:24:35,176
所以我覺得有些比如說中型企業甚至是初創公司

438
00:24:35,176 --> 00:24:38,856
如果想要用到這些語言模型做一些專業的事情的話

439
00:24:38,856 --> 00:24:42,776
我覺得一條更快的路不是先訓練一個通用模型

440
00:24:42,776 --> 00:24:45,256
再把它進行專業化或者加個插件

441
00:24:45,256 --> 00:24:47,736
而是直接去訓練一個專業的模型

442
00:24:47,736 --> 00:24:50,296
但是我覺得主要的原因是可能經費不夠

443
00:24:50,296 --> 00:24:51,504
公司的規模不夠

444
00:24:51,504 --> 00:24:54,704
在這樣子一個情況下那是迫不得已只能走這條路

445
00:24:55,024 --> 00:24:58,944
但我覺得這條路也是能夠解決某一個公司想解決的問題的

446
00:24:59,304 --> 00:25:01,384
所以我覺得通用模型是一件好事情

447
00:25:01,384 --> 00:25:04,624
但是可能對於某些特定的商業模式它沒有必要

448
00:25:04,824 --> 00:25:07,024
嗯Mid Journey 算是哪一類

449
00:25:07,304 --> 00:25:09,904
我覺得Mid Journey 目前應該是一個通用模型

450
00:25:10,104 --> 00:25:13,944
因為基本上所有的畫風不同的畫風它都能生成

451
00:25:13,944 --> 00:25:17,264
比如說它能夠合成看上去非常逼真的照片

452
00:25:17,504 --> 00:25:20,544
它也能夠合成一些像科幻的電影裡面的一些場景

453
00:25:20,672 --> 00:25:23,792
還能合成動脈,還能合成素描,油畫等等

454
00:25:23,992 --> 00:25:26,632
所以我覺得它現在目前是一個通用的模型

455
00:25:27,032 --> 00:25:30,272
對,雖然Mid Journey現在有很多很多的用戶啊

456
00:25:30,272 --> 00:25:32,072
就我也是它的付費用戶之一

457
00:25:32,232 --> 00:25:34,152
但是我一直都很好奇

458
00:25:34,152 --> 00:25:37,952
它這樣一家創業公司僅憑它的付費用戶的收入

459
00:25:38,112 --> 00:25:42,952
它是不是能夠支撐它的成本去訓練這樣一個通用的模型

460
00:25:42,952 --> 00:25:45,672
因為我們知道現在整個大模型的訓練成本

461
00:25:45,672 --> 00:25:47,952
包括堆算力整個還挺貴的

462
00:25:47,968 --> 00:25:51,168
它其實也不是完全是一個創業公司能夠做的事情

463
00:25:51,608 --> 00:25:53,368
對確實非常的昂貴

464
00:25:53,968 --> 00:25:55,928
不過我覺得還有另外一條路

465
00:25:55,928 --> 00:25:58,928
一個比較好的商業模式是和企業合作

466
00:25:59,368 --> 00:26:03,608
舉個例子有很多做遊戲或者電影特效的一些企業

467
00:26:03,608 --> 00:26:06,008
他們可能需要一些企業級的這種模型

468
00:26:06,368 --> 00:26:08,248
然後我覺得類似Made Journey這樣的公司

469
00:26:08,248 --> 00:26:10,408
有可能是可以通過和企業合作

470
00:26:10,408 --> 00:26:12,048
然後能夠獲得更大的訂單

471
00:26:12,328 --> 00:26:14,568
而不只是通過每一個散戶過來

472
00:26:14,568 --> 00:26:16,248
付一個每個月的訂閱費

473
00:26:16,400 --> 00:26:18,800
那個可能加錢不是特別多

474
00:26:18,800 --> 00:26:23,160
所以我覺得對於像這樣一個生成式的AI的初創公司的話

475
00:26:23,160 --> 00:26:24,400
有這兩條路可以走

476
00:26:24,400 --> 00:26:28,400
就是類似於他們在做一個SaaS級的產品

477
00:26:28,400 --> 00:26:31,400
相當於為企業來提供一些增值服務

478
00:26:31,400 --> 00:26:34,000
其實有點類似於Jasper他們現在做的

479
00:26:34,000 --> 00:26:38,000
對其實英偉達在上一次GTC發布會的時候

480
00:26:38,000 --> 00:26:42,400
也提到英偉達更多的是一個為企業服務的大模型

481
00:26:42,560 --> 00:26:46,560
叫NVIDIA AI Foundations 其實也是剛才提到類似的想法

482
00:26:46,560 --> 00:26:51,560
比如說為企業做一些這種生成圖片和大的預言模型

483
00:26:51,560 --> 00:26:55,560
其實就在我們今天這個訪談開始的前一兩天

484
00:26:55,560 --> 00:27:01,560
我看業界大家又在歡呼一件事情就是Meta AI它做的Segment
Anything

485
00:27:01,560 --> 00:27:03,560
它是一個圖片的模型

486
00:27:03,560 --> 00:27:08,336
然後我看你在推特上是把它稱為是GPT-3 Moment

487
00:27:08,336 --> 00:27:11,336
在計算機世界領域它算是一個GPT-3 Moment

488
00:27:11,336 --> 00:27:13,536
因為我現在其實還沒有看那篇論文

489
00:27:13,536 --> 00:27:15,536
你可不可以跟大家解釋一下

490
00:27:15,536 --> 00:27:19,016
這個Segment Anything它主要的突破點在哪裡

491
00:27:19,016 --> 00:27:20,416
為什麼它意義重大

492
00:27:20,416 --> 00:27:22,816
對那篇論文我特別喜歡

493
00:27:22,816 --> 00:27:25,016
它解決的叫Image Segmentation

494
00:27:25,016 --> 00:27:27,016
也就是圖像分割的問題

495
00:27:27,016 --> 00:27:29,136
簡言之給一個圖片

496
00:27:29,136 --> 00:27:32,016
這圖片裡面比如說有三條狗兩隻貓

497
00:27:32,016 --> 00:27:35,616
AI它能不能把三條狗和兩隻貓的整個輪廓

498
00:27:35,616 --> 00:27:36,816
把它全部都勾下來

499
00:27:37,072 --> 00:27:41,112
這個就是一個很經典的計算機視覺問題叫圖像分割

500
00:27:41,112 --> 00:27:43,312
然後這個問題非常的難

501
00:27:43,312 --> 00:27:46,592
在計算機視覺領域也有幾十年的研究的歷史

502
00:27:46,592 --> 00:27:51,312
我覺得這一篇論文基本上完全用到了這樣大模型的一個範式

503
00:27:51,312 --> 00:27:52,472
大模型的思路

504
00:27:52,472 --> 00:27:56,952
首先我覺得它不是第一篇用Transformer來做分割的模型

505
00:27:56,952 --> 00:27:59,672
因為之前其實有很多論文用到了Transformer

506
00:27:59,672 --> 00:28:04,992
但是我覺得它確實是第一篇大規模用這樣一個大模型的思維去解的

507
00:28:05,232 --> 00:28:07,592
然後什麼意思呢?有以下幾條

508
00:28:07,592 --> 00:28:11,512
第一個是它的神經網絡的架構非常的簡單

509
00:28:11,512 --> 00:28:13,632
又簡單又比較Scalable

510
00:28:13,632 --> 00:28:15,672
當然也是用Constorm一個變體

511
00:28:15,672 --> 00:28:18,432
但是它裡面並沒有一些話裡胡哨的一些東西

512
00:28:18,432 --> 00:28:20,472
一個很簡潔的通用的一個架構

513
00:28:20,472 --> 00:28:25,752
第二條就是它有一個我們稱之為叫做Data Flywheel的一個東西

514
00:28:25,752 --> 00:28:30,232
一開始時候可能有少量的人工標註的一些圖像分割的數據

515
00:28:30,232 --> 00:28:31,232
一些訓練數據

516
00:28:31,232 --> 00:28:34,752
通過這個訓練數據已經能夠訓練一個版本的模型

517
00:28:34,768 --> 00:28:36,768
但這個模型可能效果不是特別好

518
00:28:36,768 --> 00:28:39,768
但是你可以用這個效果不太好的模型

519
00:28:39,768 --> 00:28:42,768
自動分割大量沒有人工標註的那些圖片

520
00:28:42,768 --> 00:28:47,768
可以顧一些人,比如說來在這些基礎上面再做一些標註

521
00:28:47,768 --> 00:28:49,768
這些標註就比較簡單了

522
00:28:49,768 --> 00:28:51,768
因為比叢林開始標肯定要簡單嘛

523
00:28:51,768 --> 00:28:54,768
如果這個機器已經標對了,那你就直接跳過就行了

524
00:28:54,768 --> 00:28:57,768
標錯的話你再幫它修改一下

525
00:28:57,768 --> 00:28:59,768
所以這個第二步已經是簡單很多

526
00:29:00,064 --> 00:29:05,264
這樣的話你可以讓這種高質量的標註的數據多很多而不需要顧太多的人

527
00:29:05,264 --> 00:29:06,264
這是第二步

528
00:29:06,264 --> 00:29:11,184
第三步就直接可以讓模型直接再去標剩下的各種各樣的所有的

529
00:29:11,184 --> 00:29:16,144
比如說我記得它應該有上千萬張圖片就直接用這個算法去標上千萬張

530
00:29:16,144 --> 00:29:21,384
然後用一些heuristic的一些方法你能夠從中獲得比較高質量的標註

531
00:29:21,384 --> 00:29:25,424
然後你把那些算法不是那麼的confident的一些內容給去掉

532
00:29:25,536 --> 00:29:30,136
通過這樣一個Data Flywheel,它就能夠做到一個越來越好的圖像風格的效果

533
00:29:30,136 --> 00:29:34,296
後來Facebook他們把他們的數據以及模型全部都開源了

534
00:29:34,296 --> 00:29:38,536
然後我覺得這個對AI的研究的社區也是相當有幫助的

535
00:29:38,536 --> 00:29:41,296
因為現在大部分的公司都不會開源大模型

536
00:29:41,296 --> 00:29:44,016
所以我覺得這一點上面他們也做得非常的好

537
00:29:44,592 --> 00:29:52,032
對那這篇論文出來了以後你覺得它會對哪些行業的發展產生非常重大的影響

538
00:29:52,032 --> 00:29:56,392
就比如說當你提到圖形標注的時候包括這些高質量的標注

539
00:29:56,392 --> 00:29:58,472
最後它可能會產生一個數據飛輪

540
00:29:58,952 --> 00:30:04,872
你覺得比如說它會對自動駕駛行業的Corner Case有更多精準的判斷嗎

541
00:30:05,472 --> 00:30:10,552
對我覺得它對無人駕駛啊機器人這些上面都會有比較大的幫助

542
00:30:10,688 --> 00:30:12,688
當然因為這個模型剛剛開源

543
00:30:12,688 --> 00:30:15,688
所以目前還沒有看到有大的一些項目真的用到

544
00:30:15,688 --> 00:30:19,188
但是我覺得之後未來一年應該會看到各種各樣的應用

545
00:30:19,688 --> 00:30:24,188
你為什麼覺得它的作用會像GVT-3那麼大

546
00:30:24,188 --> 00:30:27,688
是因為它對圖像領域的一個巨大的貢獻

547
00:30:27,688 --> 00:30:31,688
因為它的這個模型有一些Zero Shot的效果

548
00:30:31,688 --> 00:30:36,188
比如說之前從來沒有見過的物體它也能夠分割出來

549
00:30:36,208 --> 00:30:39,488
包括在有些可能非常特殊的一些情況

550
00:30:39,488 --> 00:30:43,008
比如說在海底啊或者說在醫學的一些影像上面

551
00:30:43,008 --> 00:30:44,528
它也能夠做一個分割

552
00:30:44,528 --> 00:30:48,688
這些都是有可能是之前在訓練的時候沒有遇到過的場景

553
00:30:48,688 --> 00:30:51,968
所以它能夠做到一個非常強的靈樣本的泛化

554
00:30:51,968 --> 00:30:54,688
所以我覺得這個有點類似GP3

555
00:30:54,688 --> 00:30:58,288
哦你這麼說我更加理解了

556
00:30:58,288 --> 00:31:02,608
類似於這個模型它已經不僅僅只是靠視覺來識別

557
00:31:02,624 --> 00:31:04,984
它同時還加入了它理解的部分

558
00:31:04,984 --> 00:31:05,344
對不對

559
00:31:05,344 --> 00:31:08,064
就是你說它可以識別它沒有見過的物體

560
00:31:08,384 --> 00:31:10,184
對我覺得它這個模型

561
00:31:10,184 --> 00:31:12,784
它學會了物體這樣一個抽象的概念

562
00:31:12,904 --> 00:31:14,464
因為對於我們人來說

563
00:31:14,464 --> 00:31:17,784
我們偶爾也會遇到一些奇形怪狀的東西

564
00:31:18,144 --> 00:31:20,424
但是我們照樣都知道這也是一個物體

565
00:31:20,424 --> 00:31:23,064
儘管我們之前可能這輩子從來沒有見過

566
00:31:23,064 --> 00:31:24,904
這樣一個特定的奇形怪狀的東西

567
00:31:24,904 --> 00:31:26,424
我們還是知道它是一個物體

568
00:31:26,624 --> 00:31:28,784
我覺得至少從他們的論文上看

569
00:31:28,784 --> 00:31:31,664
這一篇SAM這個模型也能夠做到這個

570
00:31:31,776 --> 00:31:35,776
之前從來沒有見過的某一種物體但是它能夠把它分割出來

571
00:31:35,776 --> 00:31:39,616
所以它學會了這樣一個很通用的物體的抽象的概念

572
00:31:39,616 --> 00:31:43,056
這個就有點類似GP3 所以我就打了這樣的比喻

573
00:31:43,056 --> 00:31:47,616
所以我覺得最近整個人工智能的發展太快了

574
00:31:47,616 --> 00:31:52,256
非常的激動人心我感覺每個月都有好多好多的新的進展出來

575
00:31:52,256 --> 00:31:54,048
對非常的激動

576
00:31:54,048 --> 00:31:57,528
你會覺得現在的人工智能的這些大模型

577
00:31:57,528 --> 00:32:02,848
它會像是之前我們說互聯網跟移動互聯網時代的一個操作系統

578
00:32:02,848 --> 00:32:08,248
比如說像一個Windows系統或者像一個Android的
或者蘋果的這樣的一個系統

579
00:32:08,248 --> 00:32:12,728
所有的這些應用是構建在上面的也還是一個一個的小應用

580
00:32:12,728 --> 00:32:17,488
我不知道你作為一個人工智能的研究者你會怎麼樣去定義這些大模型

581
00:32:17,568 --> 00:32:20,288
我知道現在大家可能對未來還有很多看不清楚的地方

582
00:32:20,288 --> 00:32:25,088
但還是很想知道你覺得他們未來會演變成一個大概什麼樣的形態

583
00:32:25,328 --> 00:32:27,568
對我覺得你剛才這個比喻特別的好

584
00:32:27,688 --> 00:32:31,968
就是這些大模型尤其是語言模型是一個操作系統

585
00:32:32,208 --> 00:32:35,008
然後剩下的東西就是上面這個應用層

586
00:32:35,328 --> 00:32:37,728
我覺得這個比喻特別恰當的一個原因是

587
00:32:37,728 --> 00:32:40,968
我就說當年喬布斯推出的第一款iPhone吧

588
00:32:41,448 --> 00:32:45,208
我覺得iPhone它的特點就是一整個手機都是一個觸摸屏

589
00:32:45,360 --> 00:32:49,860
沒有物理的鍵盤你完全用手指做所有在手機上面想做的事情

590
00:32:49,860 --> 00:32:52,560
包括撥號呀什麼的全都沒有一個物理鍵盤

591
00:32:52,560 --> 00:32:57,560
我覺得喬布斯當時提出iPhone一個最大的革新是這樣一個人機交互的界面

592
00:32:57,560 --> 00:33:00,060
他重定義了人機交互應該是什麼樣的

593
00:33:00,060 --> 00:33:03,460
iPhone之前對吧黑媒那些手機人機交互是通過鍵盤

594
00:33:03,460 --> 00:33:05,160
但是iPhone是通過觸摸屏

595
00:33:05,160 --> 00:33:08,360
之後所有的手機智能手機全是用觸摸屏

596
00:33:08,360 --> 00:33:12,560
所以我覺得這是一個人機交互的一個革命性的一個創舉

597
00:33:12,720 --> 00:33:15,920
我覺得現在大元模型也非常的像

598
00:33:15,920 --> 00:33:20,400
大元模型也將會重定義人機交互這樣一個方式

599
00:33:20,400 --> 00:33:23,960
可能我們現在是用觸摸屏或者用鼠標和鍵盤

600
00:33:23,960 --> 00:33:26,120
來和我們的電腦和手機交互

601
00:33:26,120 --> 00:33:28,480
但之後的話我們就完全通過語音

602
00:33:28,480 --> 00:33:31,800
或者不通過點鼠標不通過用手機上的應用

603
00:33:31,800 --> 00:33:34,400
而是直接上來我就開始寫一句話

604
00:33:34,400 --> 00:33:36,640
我今天想要去法國旅行

605
00:33:36,640 --> 00:33:38,360
幫我做一個旅行計劃

606
00:33:38,360 --> 00:33:40,560
然後這個大元模型

607
00:33:40,560 --> 00:33:47,760
以及這個元模型上面應用插件
比如說可能有些旅行內規劃的一些插件或者訂旅館呀或者訂機票的插件等等

608
00:33:47,760 --> 00:33:53,360
AI它來幫你做整個規劃你就只要負責確認一下最後付款就可以了

609
00:33:53,360 --> 00:33:59,360
所以我覺得你剛說這個操作系統比喻特別恰當因為這是新的一場人機交互的革命

610
00:33:59,360 --> 00:34:04,160
之後的話都是通過這種語言啊語音這樣的一個很自然而然的指令

611
00:34:04,160 --> 00:34:09,560
而不是通過我們去下載一個程序安裝然後鼠標和按鈕點來點去這樣子一個方式

612
00:34:09,872 --> 00:34:12,832
對而且我覺得你剛剛說的有一個點特別好

613
00:34:12,832 --> 00:34:18,072
就是你說其實iPhone它的意義它是定義了一個人機交互的方式

614
00:34:18,072 --> 00:34:21,832
我記得上次我們吃飯的時候其實有聊到我們說ChadGBT

615
00:34:21,832 --> 00:34:24,872
其實GBT模型在很早之前就有了嘛

616
00:34:24,872 --> 00:34:27,632
那ChadGBT很厲害的一個事情是

617
00:34:27,632 --> 00:34:30,992
它把它定義成了一個聊天的對話的形式

618
00:34:30,992 --> 00:34:34,112
而且那個產品的頁面是非常非常簡單的

619
00:34:34,128 --> 00:34:35,568
從這個意義上來說

620
00:34:35,568 --> 00:34:38,928
我們就覺得OpenAI它在怎麼把一個研究成果

621
00:34:38,928 --> 00:34:40,448
展示給公眾的時候

622
00:34:40,448 --> 00:34:42,768
這個步驟是做得非常厲害的

623
00:34:43,208 --> 00:34:46,288
對其實這也是一種人機交互上的突破

624
00:34:46,568 --> 00:34:50,728
因為其實GPD3以及3.5那時候已經出來了一段時間了

625
00:34:50,728 --> 00:34:52,448
至少根據Sam Altman的說法

626
00:34:52,608 --> 00:34:57,088
但是XGPT是第一個把它做成一個聊天機器人的交互介面

627
00:34:57,248 --> 00:34:59,568
而且那個介面確實非常乾淨好用

628
00:34:59,568 --> 00:35:00,608
大家都能用

629
00:35:00,608 --> 00:35:03,608
而不需要比如說自己去寫代碼才能用GPD3

630
00:35:03,824 --> 00:35:10,104
所以我覺得人機交互在未來很有可能跟人工智能大模型研究本身一樣的重要

631
00:35:10,104 --> 00:35:15,864
嗯是你覺得你現在的工作中最exciting的部分是什麼

632
00:35:15,864 --> 00:35:18,864
我現在在做一些多模態的研究

633
00:35:18,864 --> 00:35:23,344
還有對於人工智能決策上的就是做decision決策上的研究

634
00:35:23,344 --> 00:35:27,784
然後這兩塊我都覺得第一非常有意思第二未來的潛力也非常大

635
00:35:27,784 --> 00:35:32,984
首先多模態的話GPD4剛剛開始把視覺這塊加進來

636
00:35:33,024 --> 00:35:36,024
但是GPD4的視覺它還是一個靜態的視覺

637
00:35:36,024 --> 00:35:38,824
也就是說它一次輸入一張靜態的圖片

638
00:35:38,824 --> 00:35:41,424
可能還有些文本能夠再輸出一些文本

639
00:35:41,424 --> 00:35:43,624
但是我覺得未來多模態肯定會有

640
00:35:43,624 --> 00:35:46,324
比如說視頻或者三維或者語音

641
00:35:46,324 --> 00:35:48,024
這樣子模態也全都加進來

642
00:35:48,424 --> 00:35:53,424
並且不僅是輸入輸出也有可能是合成圖片合成語音等等

643
00:35:53,624 --> 00:35:56,324
所以我覺得這個是一個未來的必經的導向

644
00:35:56,624 --> 00:35:59,824
我自己在上個月也有一篇工作叫Prismar

645
00:35:59,968 --> 00:36:02,268
其實也是類似這樣一個想法

646
00:36:02,268 --> 00:36:06,168
就是如何把一些圖片的模態能夠接入大宇宙模型

647
00:36:06,168 --> 00:36:09,568
不需要太多的額外的訓練或額外的參數

648
00:36:09,568 --> 00:36:12,368
它就能把這幾個模態進行一個深度的融合

649
00:36:12,368 --> 00:36:14,368
所以這是一個很有意思的研究方向

650
00:36:14,368 --> 00:36:18,168
另外一方面我也在研究智能體做決策

651
00:36:18,168 --> 00:36:21,168
比如說在機器人或在遊戲裡面

652
00:36:21,168 --> 00:36:23,668
如何讓人工智能自主地探索

653
00:36:23,668 --> 00:36:24,968
完成各種各樣的任務

654
00:36:24,968 --> 00:36:27,360
這個是一個很難的研究問題

655
00:36:27,360 --> 00:36:32,040
目前為止也有很多種不同的方法能夠探索所以現在正在進行中

656
00:36:32,400 --> 00:36:35,600
我舉一個例子比如說我今天我現在在波士頓

657
00:36:35,600 --> 00:36:37,840
然後我想從波士頓飛舊金山

658
00:36:38,000 --> 00:36:42,600
我給AI一個任務讓它定一張從波士頓到舊金山的機票

659
00:36:42,600 --> 00:36:46,520
且還要便宜然後時間段會是在一個什麼樣的時間段內

660
00:36:46,560 --> 00:36:48,760
它完全定好發到我的郵箱

661
00:36:48,800 --> 00:36:51,680
你覺得現在整個AI可以做這件事情嗎

662
00:36:52,080 --> 00:36:53,600
現在肯定應該可以做了

663
00:36:53,744 --> 00:36:58,544
其實這個就可以通過GPT4或ChatGPT的插件就能做到

664
00:36:58,544 --> 00:37:02,184
你剛提到的比如說寫email或者上網瀏覽等等

665
00:37:02,184 --> 00:37:04,184
這些功能肯定是都能實現了

666
00:37:04,184 --> 00:37:05,944
我只想告訴他一個語言

667
00:37:05,944 --> 00:37:09,984
你來幫我訂一張從波士頓到舊金山的機票週一

668
00:37:09,984 --> 00:37:12,184
然後我要直飛比較便宜的

669
00:37:12,184 --> 00:37:13,184
對對

670
00:37:13,184 --> 00:37:15,904
這個的話可以通過一些對於Prompt

671
00:37:15,904 --> 00:37:18,504
也就是大語言模型提示的一些編寫

672
00:37:18,504 --> 00:37:20,384
就能夠做到你剛說的這個功能

673
00:37:20,496 --> 00:37:24,896
不過我這邊想加一句就是儘管這個東西可以做一個demo

674
00:37:24,896 --> 00:37:27,496
但是它沒有那麼的可靠

675
00:37:27,496 --> 00:37:32,376
比如說你讓它試十次我覺得有可能會有那麼四到五次

676
00:37:32,376 --> 00:37:33,776
它都會犯一些錯

677
00:37:33,776 --> 00:37:35,976
但這個犯的錯可能就會比較致命

678
00:37:35,976 --> 00:37:37,776
比如說你是要去波士頓

679
00:37:37,776 --> 00:37:40,376
它可能一不小心訂成了去舊金山的機票

680
00:37:40,376 --> 00:37:42,536
或者說是它沒有找到最便宜的

681
00:37:42,536 --> 00:37:45,136
它可能瀏覽了前三個搜索的結果

682
00:37:45,136 --> 00:37:46,736
但是可能最便宜的在第四個

683
00:37:46,736 --> 00:37:48,336
它就沒有看到那個等等

684
00:37:48,384 --> 00:37:50,584
所以我覺得還是沒有那麼的可靠

685
00:37:50,584 --> 00:37:52,784
但是至少目前我覺得是可以實現的

686
00:37:53,184 --> 00:37:55,384
我其實覺得現在整個大模型來說

687
00:37:55,384 --> 00:37:58,784
最重要的就是它如何去解決準確性的問題

688
00:37:58,784 --> 00:38:01,784
我該如何信任它給我的決策對不對

689
00:38:01,784 --> 00:38:04,784
這個我覺得是一個目前最大的難題之一

690
00:38:04,984 --> 00:38:07,584
如何讓它做到可靠並且是安全的

691
00:38:07,584 --> 00:38:09,384
比如說它會不會一不當心

692
00:38:09,384 --> 00:38:12,184
把你的信用卡的信息然後發在網上等等

693
00:38:12,184 --> 00:38:14,984
它不是說故意做但它可能就出錯了

694
00:38:15,184 --> 00:38:17,344
但是它也沒有跟你及時彙報

695
00:38:17,344 --> 00:38:21,504
你如果沒有仔細看的話可能就沒意識到結果你的個人信息就洩漏了

696
00:38:21,504 --> 00:38:25,784
或者說是它可能一不當心上了一個釣魚網站又把個人信息寫在上面

697
00:38:25,784 --> 00:38:28,784
它可能沒有辦法判斷那個網站是否是釣魚的

698
00:38:28,784 --> 00:38:32,104
所以我覺得這一塊上面還是有很多研究需要做的

699
00:38:32,104 --> 00:38:36,104
對對對就看起來它是一個挺簡單的人物

700
00:38:36,104 --> 00:38:40,304
但是交給機器的時候可能還是有很多我們意想不到的一些點會卡住

701
00:38:40,304 --> 00:38:42,704
而且我覺得它其實也是一個交互問題

702
00:38:42,720 --> 00:38:46,320
比如說我用語音輸入的話那它如何跟我互動

703
00:38:46,320 --> 00:38:49,920
然後它做決策的時候整個的流程怎麼走下來

704
00:38:49,920 --> 00:38:52,720
其實感覺還有很多很多的產品的問題需要解決

705
00:38:52,720 --> 00:38:56,120
對這個我覺得也不是一時半刻能解決的

706
00:38:56,120 --> 00:38:59,720
但是未來這些方向我覺得都非常激動人心

707
00:38:59,720 --> 00:39:02,720
你剛提到你現在工作中做的圖片模式

708
00:39:02,720 --> 00:39:05,320
可以介入到語言的大模型中

709
00:39:05,424 --> 00:39:09,544
包括我記得之前就是我們有嘉賓到我們《貴果101》的節目上聊

710
00:39:09,544 --> 00:39:12,424
他們就也是預測未來多模態的一些發展嘛

711
00:39:12,424 --> 00:39:15,584
就是說那未來我們想要去畫一個什麼樣的圖

712
00:39:15,584 --> 00:39:17,664
可能不需要輸入pumped詞了

713
00:39:17,664 --> 00:39:20,784
可以有更多的交互方式去告訴他怎麼畫

714
00:39:20,784 --> 00:39:23,864
好像這是大家都是在研究的一個方向

715
00:39:23,864 --> 00:39:27,944
對其實我覺得多模態一定程度上也是當提到的

716
00:39:27,944 --> 00:39:30,104
讓人際交互變得更加自然

717
00:39:30,104 --> 00:39:33,984
現在我覺得首先文本已經是一個很好的人際交互的界面了

718
00:39:34,128 --> 00:39:36,528
肯定是比我自己去安裝一個程序啊

719
00:39:36,528 --> 00:39:38,528
去點滑鼠什麼的更加自然的

720
00:39:38,528 --> 00:39:42,528
但是有很多問題並不是文本能夠很方便的表達

721
00:39:42,528 --> 00:39:45,328
有些時候可能給AI看一個圖片

722
00:39:45,328 --> 00:39:47,328
跟著這個圖片講會清晰很多

723
00:39:47,328 --> 00:39:49,528
就像有些時候我們人在交流的時候

724
00:39:49,528 --> 00:39:51,928
講一大段話不如就直接畫上圖

725
00:39:51,928 --> 00:39:53,328
來得清晰畫一個圖表

726
00:39:53,328 --> 00:39:55,328
所以我覺得其實多麼大的研究

727
00:39:55,328 --> 00:39:56,928
還有包括另外一個語音

728
00:39:56,928 --> 00:39:58,928
有些時候通過語音直接輸入

729
00:39:58,928 --> 00:40:00,928
也會是一個非常自然的一個界面

730
00:40:01,184 --> 00:40:07,864
所以我覺得現在多莫泰的研究也是一定程度上在推進剛才說的人機交互界面的可用程度

731
00:40:07,864 --> 00:40:09,864
對這是一個很重要的導向

732
00:40:09,864 --> 00:40:14,424
對對對然後你剛提到你研究的另一塊智能體的決策是什麼樣的

733
00:40:14,424 --> 00:40:18,664
我不知道它跟我剛剛訂機票的那個例子是不是有一些相同之處

734
00:40:18,664 --> 00:40:22,184
對其實剛才你說的這個就是一個決策的國產

735
00:40:22,184 --> 00:40:25,064
現在GPD-4有一定的決策能力

736
00:40:25,064 --> 00:40:29,184
但我覺得第一不是特別強有些複雜性還是做不了

737
00:40:29,184 --> 00:40:30,984
第二它不是特別可耗

738
00:40:31,152 --> 00:40:35,072
所以怎麼讓智能體做一些非常可靠的決策

739
00:40:35,072 --> 00:40:38,352
而且保證它按照規則來安全的執行

740
00:40:38,352 --> 00:40:41,152
然後我覺得這塊也是很多研究的一個方向

741
00:40:41,152 --> 00:40:44,792
因為我知道Jim之前是研究機器人的

742
00:40:44,792 --> 00:40:47,952
然後你為什麼從研究機器人轉向了多莫泰

743
00:40:47,952 --> 00:40:51,072
它這個中間是有比較傳承的一部分嗎

744
00:40:51,072 --> 00:40:56,072
對我覺得機器人其實是對於多莫泰的一個很好的研究的載體

745
00:40:56,072 --> 00:40:59,760
因為舉個例子有些任務我們想傳達給機器人

746
00:40:59,760 --> 00:41:01,960
可能完全通過文本會比較困難

747
00:41:02,320 --> 00:41:04,320
但有時候我們比如說告訴機器人

748
00:41:04,320 --> 00:41:05,560
這件事應該怎麼做

749
00:41:05,560 --> 00:41:08,320
可能機器人看著我們就是看了一段視頻

750
00:41:08,320 --> 00:41:09,360
我們就表演給他看

751
00:41:09,360 --> 00:41:11,920
比如說我現在想要做某一道菜

752
00:41:11,920 --> 00:41:13,000
做個番茄炒蛋

753
00:41:13,000 --> 00:41:14,600
這是我做的方式

754
00:41:14,600 --> 00:41:16,000
然後機器人看完以後

755
00:41:16,000 --> 00:41:17,720
他就也能夠去做番茄炒蛋

756
00:41:18,200 --> 00:41:20,720
這個要比我們詳細地把這整個過程

757
00:41:20,720 --> 00:41:22,240
要拿一個什麼材料等等

758
00:41:22,240 --> 00:41:24,440
全部都寫下來可能會更加的容易

759
00:41:24,752 --> 00:41:30,352
或者是我們可能又需要給機器人表演一遍這個菜該怎麼做同時也要有個講解

760
00:41:30,352 --> 00:41:36,152
用一些這種圖文並茂的給機器人一個輸入讓他才能夠聽得懂我們這樣一個想要他做的任務

761
00:41:36,152 --> 00:41:39,952
所以我覺得多麼太是一個對於機器人的一個很自然的界面

762
00:41:39,952 --> 00:41:42,952
理解聽起來還是一脈相承的

763
00:41:42,952 --> 00:41:45,352
那謝謝Jim 你有什麼要補充的嗎

764
00:41:45,352 --> 00:41:51,072
最後我就想說我覺得人工智能現在基本上是一個幾何爆炸的速度在發展

765
00:41:51,072 --> 00:41:54,832
可能我今天說的話說不定下週就有些模型已經能做到了

766
00:41:54,832 --> 00:41:58,272
可能我今天覺得是難題下周有篇論文出來已經解決了

767
00:41:58,272 --> 00:42:00,872
我覺得這個又是一個很激動人心的時候

768
00:42:00,872 --> 00:42:04,872
然後確實也是一個讓人非常感覺有點追無上時代的步伐

769
00:42:04,872 --> 00:42:06,472
因為實在步伐實在太快了

770
00:42:06,472 --> 00:42:08,072
我也在努力的追趕

771
00:42:08,072 --> 00:42:11,672
也希望大家聽了我們今天這個討論也有所幫助

772
00:42:11,672 --> 00:42:15,272
哇你是一個AI研究者你都覺得追不上步伐

773
00:42:15,272 --> 00:42:19,072
那我們來看到就覺得更快了對就眼花繚亂

774
00:42:19,104 --> 00:42:21,344
最後我稍微補充一個小問題

775
00:42:21,344 --> 00:42:24,784
為什麼人工智能會在今天這樣一個時間點

776
00:42:24,784 --> 00:42:26,544
形成一個爆炸式的發展

777
00:42:26,544 --> 00:42:29,744
它的幾個重要的貢獻點跟節點是什麼

778
00:42:29,744 --> 00:42:31,984
你可不可以幫大家簡單的梳理一下

779
00:42:31,984 --> 00:42:35,344
我覺得一個是算力和數據吧

780
00:42:35,344 --> 00:42:37,744
這個肯定是最最重要的

781
00:42:37,744 --> 00:42:41,744
然後算力的話用GPU能夠訓練這些大模型

782
00:42:41,744 --> 00:42:43,984
我覺得GPU可能也就在過去幾年裡面

783
00:42:43,984 --> 00:42:47,504
能夠達到一個大模型所需要的算力

784
00:42:47,600 --> 00:42:53,000
所以這個也是相對於人工智能的模型的能力也是跟著硬件發展而發展的

785
00:42:53,000 --> 00:42:56,600
然後硬件沒有到的話我覺得訓練這些大模型也非常的吃力

786
00:42:56,600 --> 00:42:58,000
所以這是一個時間點

787
00:42:58,000 --> 00:43:01,400
另外就是大家意識到通過大量的下載

788
00:43:01,400 --> 00:43:05,200
就從網上下載文本的數據能夠讓這模型變得越來越好

789
00:43:05,200 --> 00:43:09,600
可能比如說在GPD3之前大家在學術圈裡面做研究的時候

790
00:43:09,600 --> 00:43:11,600
都是用幾個固定的數據機

791
00:43:11,600 --> 00:43:15,400
剛提到的維基百科也好聯合國的一些文件也好等等

792
00:43:15,568 --> 00:43:19,968
但那些數據集體上面訓練的模型它不會有這種湧現的智能

793
00:43:19,968 --> 00:43:21,768
因為它的數據實在太少了

794
00:43:21,768 --> 00:43:24,168
但是後來的話GPD3就告訴我們

795
00:43:24,168 --> 00:43:27,968
通過大量的下載網上的文本的數據不斷地增加算力

796
00:43:27,968 --> 00:43:29,968
你可以有這樣一個湧現的智能

797
00:43:29,968 --> 00:43:34,168
所以我覺得從GPD3開始的時候大家才意識到大模型

798
00:43:34,168 --> 00:43:37,968
是一條通向一個更加通用的人工智能的路

799
00:43:37,968 --> 00:43:40,568
所以就是為什麼現在是這個時間的節點

800
00:43:40,568 --> 00:43:43,568
簡單來說就是對算力對數據

801
00:43:43,568 --> 00:43:44,720

802
00:43:44,720 --> 00:43:48,400
謝謝Jim今天的分享非常的精彩

803
00:43:48,400 --> 00:43:49,840
那另外我聲明一點

804
00:43:49,840 --> 00:43:51,640
今天Jim所有的發言呢

805
00:43:51,640 --> 00:43:54,320
都只代表個人觀點不代表公司

806
00:43:54,320 --> 00:43:55,520
好謝謝

807
00:43:55,520 --> 00:43:56,520
謝謝謝謝

808
00:43:58,240 --> 00:44:00,760
另外我們這期講OpenAI成章史的內容

809
00:44:00,760 --> 00:44:04,320
也有一個更加清晰完整的視頻盤點

810
00:44:04,320 --> 00:44:08,400
大家可以在B站上搜索矽谷101來關注我們

811
00:44:08,400 --> 00:44:10,200
這個視頻不是播客的副盤

812
00:44:10,200 --> 00:44:12,160
是專門為視頻去創作的

813
00:44:12,160 --> 00:44:14,560
也是我個人非常喜歡的一期

814
00:44:14,592 --> 00:44:20,832
當然也歡迎大家去關注我們開頭提到的B站整理的AIGC的優質內容合集

815
00:44:20,832 --> 00:44:23,672
建立自己關注的渠道和資源庫

816
00:44:23,672 --> 00:44:27,392
關注的方法是播客Show Notes中點鏈接

817
00:44:27,392 --> 00:44:31,112
或者在B站搜索AI工具大法

818
00:44:31,112 --> 00:44:37,392
也歡迎大家在我們的評論區推薦你們看過的高質量的AI視頻

819
00:44:37,392 --> 00:44:39,392
大家來相互的學習一下

820
00:44:39,728 --> 00:44:45,488
這就是我們今天的節目如果大家對我們的節目有什麼樣的觀點和看法

821
00:44:45,488 --> 00:44:50,088
也歡迎大家給我們寫評論寫留言感謝大家的收聽謝謝