pofeng: Z-Bench 1.0 ：一個麻瓜的大語言模型中文測試集 by 真格基金

硅谷101 E108｜从20分迅速追到50分，国产大模型难在哪儿

Z-Bench 1.0 ：一個麻瓜的大語言模型中文測試集
https://github.com/zhenbench/z-bench

真格基金於 3 月發表 Z-Bench v0.9 , 當時的初步測試結果 : https://www.sohu.com/a/655676937_355029

戴雨森:
00:16:03
所以我們一直在強調就是這是我們自己做VC
我們希望比一般的用戶專業一點點就可以了
但它 (Z-Bench) 並不是一個特別的科學
特別嚴肅的一個測試

一個類似的問題 : 爆炒籃球 ,
泓君: "最開始 GPT3.5 還會正常的去解釋這個爆炒籃球是怎麼樣做的, 但是隔了兩天, GPT3.5 開始是告訴大家做了這個菜以後, 然後說爆炒籃球是不能吃的, 或者這樣做是有風險的, 再隔一天GPT3.5就會告訴大家, 爆炒籃球不是一個菜"

真格基金戴雨森:

00:40:36
像現在微軟可以每天訓練一個GPT-3
變成一個順手就可以做的事情
但是微軟自己是沒法訓練GPT-4的
是需要在Azure那台專門為訓練GPT-4打造的超算上才可以訓練的
所以你會發現這裡面這個訓練的難度是高了很多

00:41:16
比如說其實GPT-4初始的能力更強很多
我看過一些沒有經過微調的GPT-4
比如畫出來的圖像
它是要比現在的GPT-4畫出圖像更精細很多的
如果你看了那篇通用人工智能的火花那篇論文
你發現GPT-4是可以畫圖的
比如它裡面畫了個獨角獸
但是那個已經是經過微調之後的GPT-4畫的了
當沒有經過微調的GPT-4畫的圖
其實要比那個精細很多
換句話說GPT-4為了和人類對齊
犧牲了很多它的能力

00:51:03
其實他提到了一點
就是說微軟現在有49%的 (OpenAI) 收益權
我可以給你賺錢
但你擁有的是收益權
你不能擁有控制權
因為他們從一開始就本質上的去相信
這樣的技術很危險
需要得到有效的監管和控制
不能夠落入邪惡的大公司手裡
但是呢又沒辦法因為大公司有錢能夠幫助他們去開發
所以才定下來這種收益和控制分開的這樣一個協定
然後才有你賺錢你就不能投票的這種邏輯
就是投票權和賺錢你只能選一個

00:56:53
然後很重要一點是在一個技術革命的早期
去預測未來基本上都是錯的
所以現在不管是我也好還是誰也好
我覺得講了很多話呢
我覺得你可以認為
第一: 都是錯的
第二: 它的實現的路徑和結果可能都完全不一樣

~~~
1
00:00:00,762 --> 00:00:02,762
欢迎收听硅谷101

2
00:00:02,762 --> 00:00:05,762
这是一档分享当下最新鲜的

3
00:00:05,762 --> 00:00:08,762
技术、知识与思想的科技播客

4
00:00:08,762 --> 00:00:09,762
我是红军

5
00:00:09,762 --> 00:00:12,762
相信很多朋友也看到了

6
00:00:12,762 --> 00:00:14,762
我们的业务在越做越多

7
00:00:14,762 --> 00:00:16,762
我们有硅谷101的播客

8
00:00:16,762 --> 00:00:18,762
也有硅谷101的视频

9
00:00:18,762 --> 00:00:20,762
在B站和YouTube上播放

10
00:00:20,762 --> 00:00:22,762
还有一档播客呢

11
00:00:22,762 --> 00:00:24,762
叫做Web3101

12
00:00:24,762 --> 00:00:26,762
那随着我们内容的变多

13
00:00:27,888 --> 00:00:30,888
也非常需要更多的小伙伴加入

14
00:00:30,888 --> 00:00:36,688
所以我们的节目正在开启创建以来第一轮的大型的全职招聘

15
00:00:36,688 --> 00:00:39,488
我们正在招聘播客的节目监制

16
00:00:39,488 --> 00:00:41,288
我们希望他懂内容

17
00:00:41,288 --> 00:00:43,888
懂科技行业和web3行业

18
00:00:43,888 --> 00:00:47,688
那还在招聘视频的后期商务和运营

19
00:00:47,688 --> 00:00:50,488
具体信息大家可以看节目的show notes

20
00:00:50,688 --> 00:00:54,888
感兴趣的小伙伴也可以把你们的简历还有代表作品

21
00:00:54,888 --> 00:00:59,688
发送到我们的邮箱 podcast at sv101.net

22
00:00:59,688 --> 00:01:09,408
我再说一遍邮箱的地址是 podcast at sv101.net

23
00:01:09,408 --> 00:01:13,288
非常期待对做内容有热情的小伙伴来加入我们

24
00:01:13,288 --> 00:01:15,488
跟我们一起创作

25
00:01:15,488 --> 00:01:18,688
这期节目继续我们的AIGC特辑

26
00:01:18,800 --> 00:01:20,800
今天我们邀请到的嘉宾是

27
00:01:20,800 --> 00:01:23,200
真格基金的管理合伙人戴宇森

28
00:01:23,200 --> 00:01:25,040
他会跟我们一起聊一下

29
00:01:25,040 --> 00:01:27,600
他自己的大模型的使用体验

30
00:01:27,600 --> 00:01:29,800
以及他们是如何设计了一套

31
00:01:29,800 --> 00:01:32,400
给大模型的打分器系统

32
00:01:32,400 --> 00:01:34,960
还有他眼中什么样的团队

33
00:01:34,960 --> 00:01:37,800
可以打造出中国的OpenAI

34
00:01:37,800 --> 00:01:39,600
哈喽宇森你好

35
00:01:39,600 --> 00:01:40,600
哈喽你好

36
00:01:42,400 --> 00:01:43,920
今天邀请你是因为

37
00:01:43,920 --> 00:01:46,640
我在补我过去缺失的一些功课

38
00:01:46,640 --> 00:01:47,880
就我们知道过去几个月

39
00:01:47,880 --> 00:01:49,880
其实大模型的发展特别特别的快

40
00:01:50,160 --> 00:01:51,320
3月份的时候

41
00:01:51,440 --> 00:01:53,560
OpenAI它在去密集的发布

42
00:01:53,560 --> 00:01:54,880
比如说像GPT-4

43
00:01:54,880 --> 00:01:56,920
然后微软也在发布它的NewBeam

44
00:01:57,160 --> 00:01:58,840
包括谷歌也有很多的动作

45
00:01:59,000 --> 00:02:00,280
4月份的时候我看

46
00:02:00,440 --> 00:02:03,120
现在大概是一个中国密集的

47
00:02:03,120 --> 00:02:04,720
大模型的发布时期

48
00:02:04,880 --> 00:02:06,920
我觉得这个发展速度其实已经

49
00:02:07,080 --> 00:02:10,000
远远的超过了我以前作为一个记者

50
00:02:10,160 --> 00:02:12,960
去跟踪任何一个行业它的发展速度了

51
00:02:13,056 --> 00:02:14,856
还是有很多我跟不上的地方

52
00:02:14,856 --> 00:02:17,456
我知道你对这个方向包括其中的论文

53
00:02:17,456 --> 00:02:19,056
创业公司你都聊过

54
00:02:19,056 --> 00:02:22,416
所以今天也算是给我还有给我们的听众们补补课

55
00:02:22,416 --> 00:02:23,416
没有互相交流

56
00:02:23,416 --> 00:02:26,376
我们也有很多现在还没有搞清楚的问题

57
00:02:26,376 --> 00:02:28,736
但我觉得确实每天的发展都非常的快

58
00:02:28,736 --> 00:02:32,536
所以我们讲了很多东西现在看可能也是不完整的

59
00:02:32,536 --> 00:02:34,936
很多我觉得很快就会被打脸

60
00:02:34,936 --> 00:02:37,136
其实我对你特别感兴趣是两个点

61
00:02:37,136 --> 00:02:38,136
第一个点是

62
00:02:38,136 --> 00:02:40,936
我看你是一个大模型的深度使用者

63
00:02:40,936 --> 00:02:42,496
不管是语言模型

64
00:02:42,496 --> 00:02:47,216
还是mid journey就是这种图片模型 就是你要发很多自己的使用体验

65
00:02:47,216 --> 00:02:52,616
第二点就是作为一个投资人你怎么看 所以我们今天也大概会分成这两个部分去聊

66
00:02:52,616 --> 00:02:57,056
最开始你是什么时候开始注意到大模型 然后去用它的

67
00:02:57,056 --> 00:03:03,056
我是一个使用者 这首先来自于我自己是一个对于新东西狂热爱好者

68
00:03:03,056 --> 00:03:05,056
我非常喜欢尝试新东西

69
00:03:05,168 --> 00:03:08,448
所以我比较相信在一个大的革命发生的时候

70
00:03:08,448 --> 00:03:11,048
最好的方式是要去使用是要去体验

71
00:03:11,048 --> 00:03:12,568
而不是只是去研究

72
00:03:12,568 --> 00:03:15,768
因为这里面百温不如一见百健不如一用

73
00:03:16,208 --> 00:03:19,008
我自己呢当然在GPT-3出来的时候

74
00:03:19,008 --> 00:03:20,888
其实也在一些demo上尝试过

75
00:03:20,888 --> 00:03:23,248
包括当时也有一些人做这样的应用

76
00:03:23,248 --> 00:03:24,008
但坦率来讲

77
00:03:24,008 --> 00:03:26,768
那个时候GPT-3表现出来的对话能力

78
00:03:26,768 --> 00:03:28,888
尤其是中文对话能力其实没有那么强

79
00:03:28,888 --> 00:03:31,088
在chat GPT出来当天晚上

80
00:03:31,088 --> 00:03:32,728
是我们的一位同事

81
00:03:32,728 --> 00:03:34,688
他第一时间用上了chat GPT

82
00:03:34,768 --> 00:03:37,568
然后他非常的兴奋 他一直用到凌晨五六点钟

83
00:03:37,568 --> 00:03:39,648
他跟我们说一定要赶紧去用

84
00:03:39,648 --> 00:03:41,328
我当时没有openai账号

85
00:03:41,328 --> 00:03:43,648
所以我还弄国外手机号什么的

86
00:03:43,648 --> 00:03:44,648
花了一点时间

87
00:03:44,648 --> 00:03:46,928
我在10加20个小时之后用上了

88
00:03:46,928 --> 00:03:48,888
我自己也是非常非常震撼

89
00:03:48,888 --> 00:03:51,728
因为之前的这些chatbot型的应用

90
00:03:51,728 --> 00:03:52,968
如果大家记得的话

91
00:03:52,968 --> 00:03:56,608
其实在15 16年那块是有一波创业的热潮

92
00:03:56,608 --> 00:03:57,888
有很多人做一些chatbot

93
00:03:57,888 --> 00:03:59,568
日常来说小兵啊

94
00:03:59,568 --> 00:04:00,728
各种女兵出手啊

95
00:04:00,728 --> 00:04:01,568
这些也都聊过

96
00:04:01,712 --> 00:04:05,192
其实在之前都很少有语音助手或者说对话机器人

97
00:04:05,192 --> 00:04:06,952
能够把多轮对话给聊下来的

98
00:04:07,312 --> 00:04:09,872
但是当你第一次用到ChatterGBT的时候

99
00:04:09,872 --> 00:04:11,552
你就知道它的能力远远超过了

100
00:04:11,552 --> 00:04:13,552
以前我们见到了所有的AI的应用

101
00:04:13,872 --> 00:04:15,392
我觉得这个是第一反应

102
00:04:15,392 --> 00:04:18,272
然后呢我就发现其实有很多很多的

103
00:04:18,272 --> 00:04:21,632
原来我们完全没有想到一个聊天机器人能够做的事情

104
00:04:21,832 --> 00:04:23,792
当时也在推特上看全世界的网友

105
00:04:23,792 --> 00:04:25,872
在分享各种各样的好的使用案例

106
00:04:26,272 --> 00:04:29,912
我自己觉得最震撼的一点是我当时用自然语言

107
00:04:29,912 --> 00:04:30,952
也就是用大白话

108
00:04:31,072 --> 00:04:33,552
描述了一下20问这个游戏的规则

109
00:04:33,552 --> 00:04:35,712
20问其实就是我心里想一个东西

110
00:04:35,712 --> 00:04:37,232
可以问20个问题

111
00:04:37,232 --> 00:04:40,072
每个问题比如说你想的是不是一个有生命的

112
00:04:40,072 --> 00:04:42,152
然后我可以回答是或者否或者不确定

113
00:04:42,152 --> 00:04:44,552
然后你尝试来猜到我心中想的是什么

114
00:04:44,552 --> 00:04:48,032
我大概就用100多个字把这个规则跟他描述了一遍

115
00:04:48,032 --> 00:04:50,112
他就可以跟我来玩20问这个游戏

116
00:04:50,112 --> 00:04:51,432
第一次我想的是猫

117
00:04:51,432 --> 00:04:54,192
他用了大概五六步就猜到是猫

118
00:04:54,192 --> 00:04:55,712
第二次我想了拜登

119
00:04:55,712 --> 00:04:57,832
他用了大概14步猜到是拜登

120
00:04:57,832 --> 00:04:58,912
然后我彻底被震惊了

121
00:04:58,912 --> 00:05:01,032
你觉得他跟真人的那个水平怎么样

122
00:05:01,152 --> 00:05:04,192
我觉得第一步就是说他能够理解我给他的这个规则

123
00:05:04,192 --> 00:05:07,312
第二步是他能够有效的使用二分法去进行查找

124
00:05:07,672 --> 00:05:09,552
因为在这个里面你怎么高效的去找

125
00:05:09,552 --> 00:05:10,992
你其实需要做些二分法

126
00:05:10,992 --> 00:05:12,312
比如他是不是有生命的

127
00:05:12,312 --> 00:05:13,672
有生命的他是不是人

128
00:05:13,912 --> 00:05:15,632
他是不是一个正在活着的人

129
00:05:15,792 --> 00:05:17,912
一个会玩的人和不太会玩的人

130
00:05:17,912 --> 00:05:19,672
他的查找方式是挺不一样的

131
00:05:19,832 --> 00:05:21,632
我觉得他其实做的非常非常好

132
00:05:22,072 --> 00:05:24,352
所以后面我在进行各种各样的新的尝试

133
00:05:24,352 --> 00:05:27,072
比如说我让他尝试跟我下棋尝试写代码

134
00:05:27,344 --> 00:05:28,984
我尝试让他当我的英语老师

135
00:05:28,984 --> 00:05:32,064
他可以从初中到研究生水平给我出不同的英语的题

136
00:05:32,064 --> 00:05:33,184
改我写的英语作文

137
00:05:33,184 --> 00:05:34,624
并且给出很多很好的建议

138
00:05:34,624 --> 00:05:38,064
我就发现他不断能发现他能够做到的不一样的事情

139
00:05:38,424 --> 00:05:41,024
另外一方面我自己因为曾经是一个设计师

140
00:05:41,024 --> 00:05:42,824
所以我也是Middle Journey的重度用户

141
00:05:43,104 --> 00:05:45,144
我是从当时22年8月份

142
00:05:45,144 --> 00:05:46,824
Middle Journey发布的时候就开始用

143
00:05:47,024 --> 00:05:48,504
到现在画了几千张图

144
00:05:48,504 --> 00:05:51,264
然后我就看到V3 V4 V5越来越好

145
00:05:51,504 --> 00:05:53,264
同时我也在自己机器上部署

146
00:05:53,264 --> 00:05:54,104
Stable Diffusion

147
00:05:54,104 --> 00:05:54,904
AutoGPT

148
00:05:54,904 --> 00:05:56,944
Baby HGI这些新出来的实验

149
00:05:57,152 --> 00:06:00,912
你自己用Meet Journey你能感受到它的进化在哪里吗

150
00:06:00,912 --> 00:06:02,512
可不可以跟大家讲一下这种

151
00:06:02,512 --> 00:06:04,272
我们刚刚在讲大语言模型

152
00:06:04,272 --> 00:06:07,352
那基于扩散模型你觉得它表现的怎么样

153
00:06:07,632 --> 00:06:09,552
Meet Journey我是从V3开始用的

154
00:06:09,552 --> 00:06:11,072
V3开始用的时候呢

155
00:06:11,072 --> 00:06:14,472
我觉得它能够产生一些有意思的概念

156
00:06:14,472 --> 00:06:17,592
但是到实际使用还有很大的差距

157
00:06:17,872 --> 00:06:21,712
第一步来讲就是说它能不能做出比较逼真的画面

158
00:06:21,912 --> 00:06:23,392
我觉得这个是比较难的

159
00:06:23,392 --> 00:06:25,712
但V4是直接上了个大的台阶

160
00:06:25,936 --> 00:06:30,776
V4对于人物照片这些的处理 包括一些很风格化的处理

161
00:06:30,776 --> 00:06:37,136
我觉得是很明显到了一个能够打败大多数的普通艺术从业人员

162
00:06:37,136 --> 00:06:39,776
和跟照片比较接近的水平

163
00:06:39,776 --> 00:06:44,736
V5在很多细节的真实度 场景的真实度上加强了很多

164
00:06:44,736 --> 00:06:46,976
有的时候也不是那么的风格化了

165
00:06:46,976 --> 00:06:49,256
因为现实世界不是那么风格迥异的

166
00:06:49,256 --> 00:06:51,776
它往往是看着有点平淡但真实的

167
00:06:51,776 --> 00:06:54,736
然后我觉得它一个非常重要的功能就是Describe

168
00:06:54,896 --> 00:06:57,336
Describe这功能它就是让你传一张图片

169
00:06:57,336 --> 00:06:58,936
它生成几个可能的prompt

170
00:06:59,376 --> 00:07:03,216
因为你直接对着一个输入框去想你要画什么

171
00:07:03,216 --> 00:07:04,496
其实是件挺难的事情

172
00:07:04,696 --> 00:07:08,896
但是人的创作往往都是说先看到有个东西被激发灵感

173
00:07:08,936 --> 00:07:11,416
然后去在这基础上去调整

174
00:07:11,656 --> 00:07:13,536
所以我现在可以把我看到的一个

175
00:07:13,576 --> 00:07:15,136
我觉得这个构图不错

176
00:07:15,176 --> 00:07:16,976
但是这个里面的对象我要改一下

177
00:07:16,976 --> 00:07:18,776
或者说这个里面景色不错

178
00:07:18,776 --> 00:07:20,736
但是我想从白天改到晚上这样

179
00:07:20,896 --> 00:07:24,336
就是它能够帮我去产生一个很好用的prompt

180
00:07:24,336 --> 00:07:25,656
然后我在技术上去修改

181
00:07:25,656 --> 00:07:29,256
我觉得这是完全打开了一个新的使用方式

182
00:07:29,256 --> 00:07:32,976
因为原来你说我要主动地想到一个场景

183
00:07:32,976 --> 00:07:34,896
并且用语言描述 这个难度不小

184
00:07:34,896 --> 00:07:37,256
但是现在我先describe再去修改

185
00:07:37,256 --> 00:07:39,536
再去进行生成图片

186
00:07:39,536 --> 00:07:43,256
这个时候其实它的难度和效果会好很多

187
00:07:43,256 --> 00:07:46,456
describe跟prompt词的区别是什么

188
00:07:46,456 --> 00:07:48,936
describe就是你传一张图生成prompt

189
00:07:49,008 --> 00:07:50,808
是图生文哦图生文

190
00:07:50,808 --> 00:07:51,968
那当然生的文是prompt

191
00:07:51,968 --> 00:07:53,768
然后你可以直接用这个prompt再生成图

192
00:07:54,128 --> 00:07:56,968
你之前说你一直想画一个大教堂

193
00:07:56,968 --> 00:07:59,528
但是还没有画出理想的卡在哪

194
00:07:59,968 --> 00:08:01,968
我确实还没有用describe去试一试

195
00:08:01,968 --> 00:08:05,168
也许我用科隆大教堂的去试一下就可以了

196
00:08:05,328 --> 00:08:08,168
miniaturely这种它的典型是你如果照之前吧

197
00:08:08,168 --> 00:08:11,008
你如果像很仔细的画一个你想要的东西

198
00:08:11,008 --> 00:08:12,008
它是不太行的

199
00:08:12,008 --> 00:08:15,368
这些方面stable efficient加control net会有很多的优势

200
00:08:15,928 --> 00:08:18,208
miniaturely它就是你适合去进行头脑风暴

201
00:08:19,152 --> 00:08:20,832
很有艺术感的图

202
00:08:20,832 --> 00:08:23,272
但是在加入了describe这些元素之后呢

203
00:08:23,272 --> 00:08:24,752
它的可控性会变强一些

204
00:08:24,752 --> 00:08:26,832
因为我相信需要的时候发散

205
00:08:26,832 --> 00:08:27,752
需要的时候可控

206
00:08:27,752 --> 00:08:30,832
这个是它的使用场景会更加多样化

207
00:08:30,832 --> 00:08:33,232
因为大量的商业场景还是需要可控的

208
00:08:33,232 --> 00:08:34,872
如果它完全不可控的话

209
00:08:34,872 --> 00:08:37,872
那肯定是有点抛运气去蒙去尝试

210
00:08:37,872 --> 00:08:39,792
这肯定不是一个最有效率的方式

211
00:08:39,792 --> 00:08:41,472
但是一个可能最有意思的方式

212
00:08:41,472 --> 00:08:43,792
我听说成都的一家游戏公司

213
00:08:43,792 --> 00:08:45,552
他们在用了meet journey以后

214
00:08:45,664 --> 00:08:49,544
就把他们大概是80分以下的美术都给砍掉了

215
00:08:49,544 --> 00:08:53,584
确实在游戏行业的很多做原化的领域是有这样的情况的

216
00:08:53,584 --> 00:08:56,064
我觉得这个也不用去把它想的太内

217
00:08:56,064 --> 00:08:59,584
就是每次工具肯定要会用新工具的人才会有更好的生产力嘛

218
00:08:59,584 --> 00:09:02,384
如果你真要做原化可能stability fusion会更好

219
00:09:02,384 --> 00:09:04,424
因为它可以扩展性更强嘛

220
00:09:04,424 --> 00:09:06,624
它有点像安卓与iPhone的这个区别

221
00:09:06,624 --> 00:09:09,024
我觉得业界大家对这个反应都不一样

222
00:09:09,024 --> 00:09:10,944
比如说如果是二次元游戏的话

223
00:09:10,944 --> 00:09:13,584
业界的反馈就是其实网友他会去识别

224
00:09:13,584 --> 00:09:15,104
当他觉得你这个是

225
00:09:15,104 --> 00:09:16,384
二次元游戏的时候

226
00:09:16,384 --> 00:09:18,544
他发现你是用那个AI创作的

227
00:09:18,544 --> 00:09:19,944
用户会抵制这件事情

228
00:09:19,944 --> 00:09:23,144
所以反而二次元游戏是不太容易去颠覆的

229
00:09:23,144 --> 00:09:25,064
因为你要在网上养老婆

230
00:09:25,064 --> 00:09:26,664
你的老婆最好是人化的对吧

231
00:09:26,664 --> 00:09:28,384
我觉得以后可能会这样

232
00:09:28,384 --> 00:09:31,344
就是说手工做的东西更贵

233
00:09:31,344 --> 00:09:33,624
但是机器做的东西也很好

234
00:09:33,624 --> 00:09:35,824
这个精神文明的东西那不好说

235
00:09:35,824 --> 00:09:37,184
我觉得对于深层式AI

236
00:09:37,184 --> 00:09:38,904
不管是文字还是图片的

237
00:09:38,904 --> 00:09:39,904
整体来讲

238
00:09:39,904 --> 00:09:42,104
如果你做的东西只是一个缝合罐

239
00:09:42,104 --> 00:09:44,104
那你的会变得很快没有价值

240
00:09:44,144 --> 00:09:46,504
因为现在我们有大量人的工作

241
00:09:46,504 --> 00:09:48,904
就是把一样东西缝合起来复制粘贴改一改

242
00:09:48,904 --> 00:09:51,184
这个机器会比你做的好得多

243
00:09:51,504 --> 00:09:53,704
所以我认为它的好的一面就是

244
00:09:53,704 --> 00:09:56,104
反而会让原创的东西变得很有价值

245
00:09:56,264 --> 00:09:58,264
因为在所有的东西都可以容易复制的时候

246
00:09:58,264 --> 00:09:59,944
只有真正的原创才是稀缺的

247
00:10:00,504 --> 00:10:02,704
其实你刚刚有提到你很惊艳的部分

248
00:10:02,704 --> 00:10:04,864
就是我想反常识来问一个问题

249
00:10:04,864 --> 00:10:07,384
你觉得它有哪些地方表现的还不够好

250
00:10:07,624 --> 00:10:11,464
因为当时我们有谈到整个GPT的准确性还不够高

251
00:10:11,632 --> 00:10:14,672
甚至有一个专门研究AI的研究员告诉我们说

252
00:10:14,672 --> 00:10:16,872
如果你不知道这个问题的答案

253
00:10:16,872 --> 00:10:19,752
那我建议大家如果真的是在做这种功课搜集的话

254
00:10:19,752 --> 00:10:21,232
就不要问起来GPT

255
00:10:21,232 --> 00:10:24,752
因为它给你的可能是对的也可能是胡走的

256
00:10:24,752 --> 00:10:27,152
从你的角度你觉得它在哪些方面的体验

257
00:10:27,152 --> 00:10:28,952
是可以直接到一个应用的程度

258
00:10:28,952 --> 00:10:32,872
哪些方面它给你的那个感觉是还不太行的

259
00:10:32,872 --> 00:10:35,312
比较好的就是可以直接当应用用的

260
00:10:35,312 --> 00:10:37,752
首先我觉得说与语言相关的都可以

261
00:10:37,752 --> 00:10:39,912
这个语言包括自然语言和编程语言

262
00:10:40,032 --> 00:10:44,472
实际上现在很多人的代码已经有超过一半是copilot写的了

263
00:10:44,472 --> 00:10:45,992
这是一个很直接的证据

264
00:10:45,992 --> 00:10:49,592
然后它能够很好的完成像翻译总结改写

265
00:10:49,592 --> 00:10:51,832
扩写等一系列的这种语言任务

266
00:10:51,832 --> 00:10:53,312
因为它本身就是大语言模型

267
00:10:53,312 --> 00:10:57,232
第二个就是说需要脑洞的头脑风暴的

268
00:10:57,232 --> 00:11:00,952
甚至是胡说八道这种特性是一个好处的场合

269
00:11:00,952 --> 00:11:03,512
比如说怎么样去列一些题纲

270
00:11:03,512 --> 00:11:04,992
比如说我去做一个分享

271
00:11:04,992 --> 00:11:06,992
这里面有一些对应的题纲可以启发我

272
00:11:06,992 --> 00:11:08,912
因为比如说很多内容我是知道的

273
00:11:08,912 --> 00:11:09,592
但是

274
00:11:09,728 --> 00:11:11,848
我自己第一反应未必能够穷尽它

275
00:11:11,848 --> 00:11:14,488
所以它列出来五六个可能发现我缺了三个

276
00:11:14,488 --> 00:11:15,568
可以有效的补充我

277
00:11:15,568 --> 00:11:18,128
对于准确度不是那么要求高的人物

278
00:11:18,128 --> 00:11:19,328
比如说我要写一封信

279
00:11:19,328 --> 00:11:21,168
或者说写一个job description

280
00:11:21,168 --> 00:11:23,728
那这个时候大概的内容它先把我列出来

281
00:11:23,728 --> 00:11:24,568
然后我再进行修改

282
00:11:24,568 --> 00:11:26,888
我觉得这些都是大家已经用过很多的案例了

283
00:11:27,168 --> 00:11:29,168
我相信如果你长期使用的话

284
00:11:29,168 --> 00:11:31,208
你会意识到它的缺点其实非常多

285
00:11:31,408 --> 00:11:34,608
但是同时也意识到它其实在非常快的进行迭代和修正

286
00:11:34,968 --> 00:11:37,208
比如说刚出来的时候应该是三位数的加法

287
00:11:37,208 --> 00:11:38,168
其实是不准确的

288
00:11:38,320 --> 00:11:40,440
现在他只能做更多位数的加法

289
00:11:40,440 --> 00:11:42,120
但是乘法上可能会差一些

290
00:11:42,400 --> 00:11:44,520
他对于事实性的问题肯定是不太行

291
00:11:44,520 --> 00:11:47,840
所以我们说你要从语言的角度和从

292
00:11:47,840 --> 00:11:49,640
逻辑的角度去用chattel gpt

293
00:11:49,640 --> 00:11:50,720
但知识的角度呢

294
00:11:50,720 --> 00:11:52,960
很多时候是要通过prompt把它灌进去

295
00:11:53,120 --> 00:11:55,520
或者通过embedding的方式把真实的

296
00:11:55,520 --> 00:11:57,400
及时的信息给快灌进去

297
00:11:57,400 --> 00:11:59,640
所以这里面牵涉到怎么去使用的问题

298
00:11:59,920 --> 00:12:02,280
整体来讲我觉得当你意识到他有这些

299
00:12:02,280 --> 00:12:04,880
缺点的时候就不太会被他骗

300
00:12:04,992 --> 00:12:08,912
但是可能会在比如说他的知识准确度到99%

301
00:12:08,912 --> 00:12:11,272
但有1%的时候还会胡说八道的时候

302
00:12:11,272 --> 00:12:12,472
那个时候可能是最危险的时候

303
00:12:12,472 --> 00:12:14,192
因为大家现在都知道他会胡说八道

304
00:12:14,192 --> 00:12:14,952
所以就还好

305
00:12:15,312 --> 00:12:20,072
所以我看后来就是你们在评价怎么样去看一个大模型的时候

306
00:12:20,072 --> 00:12:22,232
你们是自己做了一个benchmark

307
00:12:22,232 --> 00:12:24,552
就是做了一个这样的评估模型

308
00:12:24,552 --> 00:12:26,352
从你的评估模型看啊

309
00:12:26,352 --> 00:12:29,552
GPT-4比GPT-3.5它好在哪

310
00:12:29,552 --> 00:12:31,752
跟一些国产的大模型好在哪

311
00:12:32,232 --> 00:12:34,792
首先介绍一下我们做了ZenBank的背景

312
00:12:34,992 --> 00:12:35,088
我们做了一个ZenBank的背景

313
00:12:35,088 --> 00:12:37,968
就是我发现当ChatterGBT火了之后呢

314
00:12:37,968 --> 00:12:41,408
首先出来了很多也做莱坦机器人的

315
00:12:41,408 --> 00:12:42,888
可能有的是用了ChatterGBT

316
00:12:42,888 --> 00:12:44,408
有的是说自己训了模型

317
00:12:44,408 --> 00:12:46,568
包括我们也看到肯定会有更多的人去做

318
00:12:46,568 --> 00:12:48,008
国产的大模型的创业

319
00:12:48,008 --> 00:12:49,408
包括说海外的创业公司

320
00:12:49,768 --> 00:12:52,808
那么我们就发现哪怕很多很资深的人

321
00:12:52,808 --> 00:12:56,288
在面临一个新的类似于ChatterGBT应用的时候

322
00:12:56,288 --> 00:12:58,808
其实他能做的评价也就是随便问几个问题

323
00:12:59,208 --> 00:13:00,568
这种问题可能是随便想的

324
00:13:00,568 --> 00:13:02,008
或者说是难度比较低的

325
00:13:02,008 --> 00:13:03,808
这样你其实很难反映一个

326
00:13:04,000 --> 00:13:07,040
像chatterGPT这样的软件它的真实水平

327
00:13:07,040 --> 00:13:08,600
并且我们自己也是众多用户

328
00:13:08,600 --> 00:13:10,320
在用的时候我们自己也会记下来一些

329
00:13:10,320 --> 00:13:11,560
哎很有意思的prompt

330
00:13:12,320 --> 00:13:13,120
所以我们就觉得

331
00:13:13,120 --> 00:13:16,320
哎那如果未来会有很多的这种大模型类似的产品

332
00:13:16,520 --> 00:13:17,960
那我们作为非技术人员

333
00:13:17,960 --> 00:13:20,360
我们其实也不想做一个特别完整的

334
00:13:20,360 --> 00:13:22,080
自动化的严谨的测试机

335
00:13:22,080 --> 00:13:23,400
而是在一个我们能够

336
00:13:23,640 --> 00:13:27,800
就是作为一个可以自己用手工去检验大模型的

337
00:13:27,800 --> 00:13:28,600
边界能力的

338
00:13:28,600 --> 00:13:31,080
因为如果你总是问很简单的问题

339
00:13:31,080 --> 00:13:32,080
那其实没有区分度

340
00:13:32,336 --> 00:13:34,336
所以我们希望这个问题有些区分度

341
00:13:34,336 --> 00:13:36,616
但我们也希望这个问题它是有来历的

342
00:13:36,616 --> 00:13:39,816
虽然有一些是我们日常问的一些比较有意思的问题

343
00:13:39,816 --> 00:13:42,216
比如说我记得一个很经典的麻辣螺丝钉的做法

344
00:13:42,216 --> 00:13:43,816
看它会不会跟着湖边乱照

345
00:13:43,816 --> 00:13:47,256
但同时呢学界其实有很多NLP任务的研究

346
00:13:47,256 --> 00:13:50,296
比如说OpenAI它在ChattelGBT出来的时候呢

347
00:13:50,296 --> 00:13:53,616
它就公布了ChattelGBT已经具备了48种基础能力

348
00:13:53,616 --> 00:13:56,096
然后我们通过这个构建了第一版的这个问题

349
00:13:56,096 --> 00:13:57,984
之前像MMLU

350
00:13:57,984 --> 00:14:01,424
BigBench这些都是NLP领域比较成熟的测试机

351
00:14:01,424 --> 00:14:05,064
我们从中抽取了一些各个领域的反映不同能力的内容

352
00:14:05,424 --> 00:14:08,864
同时呢也根据比如说他的GPT现在具备的涌现能力

353
00:14:08,864 --> 00:14:09,824
比如他会写代码了

354
00:14:09,824 --> 00:14:11,984
他会用SVG语言给你画图了

355
00:14:12,304 --> 00:14:14,384
他会处理一些更加复杂的应用题了

356
00:14:14,384 --> 00:14:15,584
我们把这些也加进来

357
00:14:15,584 --> 00:14:17,704
所以总共弄了300个问题

358
00:14:17,984 --> 00:14:19,664
我们想对这个就是做到一个

359
00:14:19,864 --> 00:14:23,464
非技术非专业人员能够做到用手测

360
00:14:23,624 --> 00:14:24,984
自己手工输入测试

361
00:14:24,984 --> 00:14:27,864
达到一个对大模型整体能力的概念的评价

362
00:14:27,952 --> 00:14:29,752
当时我们在3月份测了一下

363
00:14:29,992 --> 00:14:32,592
当时GPT-4刚刚出来两三天的时间

364
00:14:32,592 --> 00:14:36,592
所以我们当时测到GPT-3.5的水平大概是60多分

365
00:14:36,592 --> 00:14:38,992
然后4的水平大概是70多分

366
00:14:38,992 --> 00:14:40,832
你这个60多分是怎么打的

367
00:14:40,832 --> 00:14:42,632
是300个问题的回答正确度

368
00:14:42,632 --> 00:14:44,232
回答正确度啊就除以300啊

369
00:14:44,232 --> 00:14:46,312
所以他答对了比如说200多道问题

370
00:14:46,592 --> 00:14:48,992
火产的当时文心一言我们公布出来

371
00:14:48,992 --> 00:14:51,232
大概是有一个20多分的水平

372
00:14:51,232 --> 00:14:53,512
我们还测了另外几家偏创业公司的

373
00:14:53,512 --> 00:14:55,032
因为我们觉得还是要鼓励创业公司嘛

374
00:14:55,032 --> 00:14:56,272
虽然得分确实比较低

375
00:14:56,552 --> 00:14:57,752
但我们没有把它放出来

376
00:14:57,872 --> 00:15:00,552
分别是有一家是30分 有一家是19分

377
00:15:00,912 --> 00:15:02,992
所以当时我们看到这个差距还是比较大的

378
00:15:03,312 --> 00:15:06,352
前两天因为我们也陆续的拿到一些国产的

379
00:15:06,352 --> 00:15:09,832
比如上任公司啊 包括一些大型的公司做的这个模型

380
00:15:09,832 --> 00:15:11,072
我们又进行了一些测试

381
00:15:11,312 --> 00:15:13,232
整体来讲我觉得进步还是蛮快的

382
00:15:13,512 --> 00:15:15,792
比如说我们测试的某一家上任公司的模型

383
00:15:15,792 --> 00:15:17,432
其实已经到了50分的水平

384
00:15:17,632 --> 00:15:19,752
可以透露是哪一家吗 做的比较好的

385
00:15:20,072 --> 00:15:23,432
这家是商汤啦 就是我们测的商汤的这个模型是50多分

386
00:15:23,432 --> 00:15:23,872
然后

387
00:15:24,016 --> 00:15:26,736
像昆仑万维啊 像李志飞出门问问这些模型

388
00:15:26,736 --> 00:15:27,976
我们也在陆续的去测

389
00:15:27,976 --> 00:15:29,816
当然同时我们还没来得及去更新

390
00:15:29,816 --> 00:15:30,736
比如说百度啊

391
00:15:30,736 --> 00:15:32,136
包括另外几家创业公司的模型

392
00:15:32,136 --> 00:15:34,296
因为我觉得大家现在跌的速度也很快哈

393
00:15:34,296 --> 00:15:35,496
所以我觉得现在我们

394
00:15:35,496 --> 00:15:37,496
可能之前的得分这些也是一个参考

395
00:15:37,496 --> 00:15:39,296
但是我觉得从这可以看出来就是

396
00:15:39,296 --> 00:15:42,216
其实在早期的进步还是挺快的

397
00:15:42,216 --> 00:15:45,176
虽然我觉得比如说GPT-4现在也许也可以打80多分了

398
00:15:45,176 --> 00:15:47,016
但也就是说一开始的差距挺大

399
00:15:47,016 --> 00:15:49,016
现在差距在短期来看是在缩小

400
00:15:49,016 --> 00:15:50,656
但是这里面同时也会有一个问题

401
00:15:50,656 --> 00:15:52,176
就是说是不是会有一个平台期

402
00:15:52,400 --> 00:15:54,440
可能你从20追到50是容易的

403
00:15:54,440 --> 00:15:56,120
但50到80可能是很不容易的

404
00:15:56,120 --> 00:15:57,720
就是这里面这个曲线会怎样呢

405
00:15:57,720 --> 00:15:58,520
我们现在不知道

406
00:15:58,520 --> 00:16:01,400
包括也有人说那你的问题很比较难

407
00:16:01,400 --> 00:16:03,920
很多用户可能不会用这么难的问题

408
00:16:03,920 --> 00:16:07,000
所以我们一直在强调就是这是我们自己做VC

409
00:16:07,000 --> 00:16:09,360
我们希望比一般的用户专业一点点就可以了

410
00:16:09,360 --> 00:16:12,240
但是它并不是一个特别科学特别严谨的一个测试

411
00:16:12,240 --> 00:16:14,520
但是确实呢现在看来区分度还是有的

412
00:16:14,520 --> 00:16:16,200
就很多问题还是不好答出来的

413
00:16:16,200 --> 00:16:20,000
但是我们发现Charlie GPT-4呢它确实是

414
00:16:20,096 --> 00:16:23,696
在一些逻辑问题语言问题上它的能力要更强

415
00:16:23,696 --> 00:16:25,736
这个还是挺让人惊艳的

416
00:16:25,736 --> 00:16:27,336
给大家举个例子

417
00:16:27,336 --> 00:16:28,736
比如说是什么样的问题

418
00:16:28,736 --> 00:16:32,776
然后3.5跟4还有文心一言它的回答是怎么样的

419
00:16:32,776 --> 00:16:34,576
我具体要背出来比较难

420
00:16:34,576 --> 00:16:36,376
但是我记得有一些比较有意思的

421
00:16:36,376 --> 00:16:38,656
你就像这个麻辣螺丝丁的做法

422
00:16:38,656 --> 00:16:40,416
这里面应该只有GPT-4

423
00:16:40,416 --> 00:16:42,376
它会告诉你螺丝丁不是一个菜

424
00:16:42,376 --> 00:16:43,856
其他的都会讲保讲安

425
00:16:43,856 --> 00:16:46,696
说麻辣螺丝丁要加上辣椒加上红油

426
00:16:46,696 --> 00:16:48,056
放入螺丝丁少许

427
00:16:48,208 --> 00:16:51,408
在我们测试的时候只有GBT-4告诉你螺丝丁不能吃

428
00:16:51,408 --> 00:16:52,948
当时我们还有一个很经典的问题

429
00:16:52,948 --> 00:16:55,248
就是为什么爸妈的婚礼没邀请我参加

430
00:16:55,248 --> 00:16:58,648
这个里面只有GBT-4回答出来了说

431
00:16:58,648 --> 00:17:00,048
因为那时候你还没出生

432
00:17:00,048 --> 00:17:02,248
当然也不一定 大部分情况下你没有出生

433
00:17:02,248 --> 00:17:04,008
其他的可能模型都回答的是说

434
00:17:04,008 --> 00:17:06,248
可能因为当时他们太忙没邀请你

435
00:17:06,248 --> 00:17:08,048
或者什么你当时没时间

436
00:17:08,048 --> 00:17:11,848
对 我看到你们当时测出来放的图片了 特别逗

437
00:17:11,848 --> 00:17:13,148
当然这是一个比较逗的

438
00:17:13,264 --> 00:17:17,504
还有一些就类似于什么剪指甲穿袜子穿鞋系鞋带的

439
00:17:17,504 --> 00:17:19,824
的顺序 很多他是说错的

440
00:17:19,824 --> 00:17:22,304
当然这也比较好理解的 就有很多应用题什么的

441
00:17:22,304 --> 00:17:25,064
其实GBT是明显假的能力会强很多

442
00:17:25,064 --> 00:17:27,024
但是我们其实看到有一些推理题

443
00:17:27,024 --> 00:17:28,744
国产的大毛星进步挺快的

444
00:17:29,224 --> 00:17:31,744
你刚提到麻辣螺丝钉这个例子特别有趣

445
00:17:31,744 --> 00:17:33,704
就是我们之前在播客录制的时候

446
00:17:33,704 --> 00:17:36,504
有一个嘉宾他就直接在播客里面问我说

447
00:17:36,504 --> 00:17:39,144
宏军你晚上吃的爆炒篮球什么什么的

448
00:17:39,248 --> 00:17:41,748
后来因为我们的这个播客播出去了以后

449
00:17:41,748 --> 00:17:45,648
就有非常多的听众在GPT3.5上去搜爆炒篮球

450
00:17:45,648 --> 00:17:47,288
我看按照他们评论的时间

451
00:17:47,288 --> 00:17:51,828
最开始GPT3.5还会一本正经的去解释这个爆炒篮球是怎么样的

452
00:17:51,828 --> 00:17:53,488
但是隔了一两天

453
00:17:53,488 --> 00:17:55,228
那个评论区的反应

454
00:17:55,228 --> 00:17:58,968
GPT3.5第一次是告诉大家做了这个菜以后

455
00:17:58,968 --> 00:18:00,828
然后说爆炒篮球是不能吃

456
00:18:00,828 --> 00:18:02,828
或者这样做是有风险的

457
00:18:02,828 --> 00:18:05,608
再隔一天GPT3.5就会告诉大家

458
00:18:05,608 --> 00:18:07,208
爆炒篮球不是一个菜

459
00:18:07,208 --> 00:18:08,400
就不应该这样做

460
00:18:08,400 --> 00:18:12,280
就证明看起来GPT3.5它也是自己在进化的

461
00:18:12,280 --> 00:18:13,840
而且进化的速度很快

462
00:18:13,840 --> 00:18:16,240
对 首先你去用下来GPT的时候

463
00:18:16,240 --> 00:18:17,920
你会发现下面是有一个小字

464
00:18:17,920 --> 00:18:19,960
告诉你是用的一个哪一天的version

465
00:18:19,960 --> 00:18:23,120
我理解这个地方可能是它对模型会有重新的training

466
00:18:23,120 --> 00:18:24,520
像这个过程 包括其实现在

467
00:18:24,520 --> 00:18:26,600
称一个3.5其实应该是挺快的了

468
00:18:26,600 --> 00:18:28,560
其实我们在不断的回答

469
00:18:28,560 --> 00:18:30,680
在这过程中你可以顶你可以踩

470
00:18:30,680 --> 00:18:31,920
然后你可以regenerate

471
00:18:31,920 --> 00:18:33,360
包括你regenerate之后

472
00:18:33,360 --> 00:18:35,800
它还会问你是比原来更好了还是更差了

473
00:18:36,000 --> 00:18:40,120
所以其实我们是在不断的来做这个reinforce learning human
feedback这个过程

474
00:18:40,120 --> 00:18:43,920
这个我觉得是一个现在形成的数据飞轮效应

475
00:18:43,920 --> 00:18:46,240
因为虽然很多地方都有这种用户对话的数据

476
00:18:46,240 --> 00:18:49,520
但是用户specifically跟一个聊天机器人对话

477
00:18:49,520 --> 00:18:52,760
那目前chatter gpc的数据量是远远大于其他人的

478
00:18:53,320 --> 00:18:56,560
你们这个benchmark的300多个问题是固定的

479
00:18:56,560 --> 00:18:59,360
还是说它只是归为某一种类型的问题

480
00:18:59,360 --> 00:19:00,960
大家是可以随意去测试的

481
00:19:00,960 --> 00:19:01,920
就是我是在想

482
00:19:02,048 --> 00:19:04,448
有没有作弊的可能性啊 肯定有肯定有

483
00:19:04,448 --> 00:19:08,408
因为我们都放出来了嘛 所以肯定会有人比如尝试把这个直接拿去训一遍

484
00:19:08,408 --> 00:19:12,808
所以我们的还是那句话 我们的目标是要做一个普通人简单去用的

485
00:19:12,808 --> 00:19:15,808
我们主要是做投资嘛 所以我们一开始也想了一些

486
00:19:15,808 --> 00:19:19,768
比如说做一个明题和暗题 比如说每一道明的题

487
00:19:19,768 --> 00:19:23,048
都有一道跟他逻辑类似 但是题干不一样的题

488
00:19:23,048 --> 00:19:26,328
然后去看是不是换一个表达方式 他又认不出来了什么的

489
00:19:26,328 --> 00:19:28,568
但是我们最后还是觉得我们应该先放出来

490
00:19:28,568 --> 00:19:31,208
因为我觉得能够帮助大家去了解这个行业的进展

491
00:19:31,328 --> 00:19:35,168
所以我们现在也准备比如说把这套底库本身扩充

492
00:19:35,168 --> 00:19:36,808
然后增加这种暗题的设置

493
00:19:37,048 --> 00:19:40,008
但是我觉得因为这本身不是VC的一个核心工作啊

494
00:19:40,008 --> 00:19:43,288
更重要的是说我们自己要看到大模型能力的变化

495
00:19:43,408 --> 00:19:44,888
其实也希望抛砖引玉吧

496
00:19:44,888 --> 00:19:46,008
它本质还是一块砖

497
00:19:46,648 --> 00:19:51,808
那说到大模型模型的变化就可能过去两个月真的是进展太快了

498
00:19:52,048 --> 00:19:56,888
你怎么看过去两个月在整个大模型上有哪些进展

499
00:19:56,888 --> 00:20:00,168
或者说你现在的认知跟两个月以前有什么不一样

500
00:20:00,528 --> 00:20:02,528
我觉得进展是非常大的

501
00:20:02,528 --> 00:20:04,008
蔡刚出来的时候

502
00:20:04,008 --> 00:20:05,528
其实我们把他当做一个chatbot

503
00:20:05,528 --> 00:20:06,648
一个聊天机器人

504
00:20:06,648 --> 00:20:09,208
我们惊讶的是他能够多轮对话

505
00:20:09,208 --> 00:20:10,968
能够记住之前说了什么

506
00:20:10,968 --> 00:20:14,688
能够根据他的上下文进行合适的回答

507
00:20:14,688 --> 00:20:17,088
这都是基本上属于语言类的任务

508
00:20:17,088 --> 00:20:18,168
或者NLP的任务

509
00:20:18,168 --> 00:20:21,248
然后其实很快的就发现他可以写代码

510
00:20:21,248 --> 00:20:22,928
他可以帮助我们去

511
00:20:22,928 --> 00:20:25,888
比如说像完成写影像文案这样的事情

512
00:20:25,888 --> 00:20:27,128
写邮件这样的事情

513
00:20:27,248 --> 00:20:30,248
当然还有图像类的生成模型去生成精美的图片

514
00:20:30,248 --> 00:20:31,568
照片漫画什么的

515
00:20:31,848 --> 00:20:34,768
所以这就从聊天机器人进入到下一个阶段

516
00:20:34,768 --> 00:20:35,848
我认为叫copilot

517
00:20:35,968 --> 00:20:38,248
它就能够帮助我们去做很多事情

518
00:20:38,248 --> 00:20:41,288
而我们要给的是目标进行选择

519
00:20:41,328 --> 00:20:42,408
进行调整

520
00:20:42,568 --> 00:20:43,888
这是第二个阶段copilot

521
00:20:44,488 --> 00:20:46,808
然后随着AutoGBT, Baby AGI

522
00:20:46,968 --> 00:20:49,088
当然这还也得益于像reflection

523
00:20:49,088 --> 00:20:51,168
Hugging GBT这样几篇paper

524
00:20:51,448 --> 00:20:54,648
其实它又展现出了能够识别一个任务

525
00:20:54,648 --> 00:20:55,888
把它进行拆解

526
00:20:56,000 --> 00:21:00,160
分解成子任务 调动合适的工具去完成子任务

527
00:21:00,160 --> 00:21:01,960
观察自己完成的结果

528
00:21:01,960 --> 00:21:03,800
对结果进行反思调整

529
00:21:03,800 --> 00:21:06,560
他要做的任务的这样一个循环过程

530
00:21:06,960 --> 00:21:09,560
同时当然GBT-4也出了插件系统

531
00:21:09,560 --> 00:21:12,400
让他看到可以调用web的插件去检索信息

532
00:21:12,640 --> 00:21:15,760
去写代码去完成很多更复杂的任务

533
00:21:15,960 --> 00:21:19,520
所以我们看到他从copilot又进一步进化成agent

534
00:21:19,880 --> 00:21:21,760
那么在agent这个设定下呢

535
00:21:21,760 --> 00:21:23,920
它其实需要人给出初始的目标

536
00:21:24,048 --> 00:21:26,768
它就能够自我去迭代的去完成这个目标

537
00:21:27,088 --> 00:21:29,248
所以我觉得这个过程虽然几个月的时间

538
00:21:29,248 --> 00:21:31,408
但是它其实这是几种不同的方式

539
00:21:31,768 --> 00:21:32,608
我后来就在想

540
00:21:32,608 --> 00:21:35,608
如果我们把它跟自动驾驶去做对比的话

541
00:21:35,608 --> 00:21:38,408
比如说L1可能就是完全没有AI这回事

542
00:21:38,408 --> 00:21:39,648
就我们现在用了大部分应用

543
00:21:39,648 --> 00:21:41,048
其实都AI没有做任何事情

544
00:21:41,048 --> 00:21:41,928
都是人做事情

545
00:21:42,088 --> 00:21:44,008
Level2的AI呢可能就是

546
00:21:44,248 --> 00:21:46,168
我们去问AI很多问题

547
00:21:46,168 --> 00:21:47,168
AI给我们信息

548
00:21:47,168 --> 00:21:48,448
但还是我来做事情

549
00:21:48,448 --> 00:21:49,768
这个就比较像JedGBT

550
00:21:49,768 --> 00:21:50,688
他给我的是信息

551
00:21:50,688 --> 00:21:51,648
那我还是我来做事

552
00:21:51,968 --> 00:21:55,728
level 3的呢就是copilot 就是人和AI都要做事情

553
00:21:55,728 --> 00:21:58,408
比如说像鞋带码的github copilot

554
00:21:58,408 --> 00:21:59,888
或者像mini journey这些

555
00:21:59,888 --> 00:22:02,608
就是人要给出prompt是要人写的

556
00:22:02,608 --> 00:22:05,688
人要去改prompt要去选择用哪一个

557
00:22:05,688 --> 00:22:07,448
或者选择进行调整

558
00:22:07,448 --> 00:22:08,568
AI完成初稿

559
00:22:08,568 --> 00:22:10,728
然后根据人的要求去改变初稿

560
00:22:10,728 --> 00:22:12,888
这个就是人和AI各50 50

561
00:22:12,888 --> 00:22:15,368
我觉得L4呢就像autogbt

562
00:22:15,368 --> 00:22:17,768
或者baby-age is是一个很早的雏形

563
00:22:17,768 --> 00:22:21,248
那么这边有点像人主要是第一给出这个目标

564
00:22:21,248 --> 00:22:21,296
然后呢就是人和AI的

565
00:22:21,296 --> 00:22:24,176
然后人去监督他完成的过程

566
00:22:24,176 --> 00:22:26,496
去检查他的结果是不是我想要的

567
00:22:26,496 --> 00:22:28,216
提供一些必须的接口啊

568
00:22:28,216 --> 00:22:29,496
计算能力等资源

569
00:22:29,856 --> 00:22:32,416
那AI自主的去完成分解任务

570
00:22:32,416 --> 00:22:34,816
选择工具进行完成的这个过程

571
00:22:34,976 --> 00:22:36,176
然后他知道自己完成的时候

572
00:22:36,176 --> 00:22:37,576
他会汇报我完成了

573
00:22:37,816 --> 00:22:39,496
这个就是AI做大部分的工作

574
00:22:39,576 --> 00:22:41,016
人做指定和监督

575
00:22:41,096 --> 00:22:42,496
这个我把它叫L4

576
00:22:42,696 --> 00:22:43,776
那L5是什么呢

577
00:22:43,776 --> 00:22:46,216
我觉得就可能像是人就给一个目标

578
00:22:46,376 --> 00:22:47,336
什么其他的都不给

579
00:22:47,336 --> 00:22:48,376
人都不用监督了

580
00:22:48,448 --> 00:22:50,448
AI自主地把所有的事情全都做完

581
00:22:50,448 --> 00:22:52,248
并且可以一直延续下去

582
00:22:52,248 --> 00:22:53,688
在科幻里面有一个概念

583
00:22:53,688 --> 00:22:55,288
其实也不只是科幻了

584
00:22:55,288 --> 00:22:57,168
冯诺依曼提出的冯诺依曼机器人

585
00:22:57,168 --> 00:22:59,008
就是可以自己复制的机器人

586
00:22:59,008 --> 00:23:01,088
它可以自己收集资料复制自己

587
00:23:01,088 --> 00:23:03,048
最后扩展到整个银河系

588
00:23:03,048 --> 00:23:03,848
从模特意义上讲

589
00:23:03,848 --> 00:23:06,568
人可能也是一种完全自主的这样一个生物

590
00:23:06,568 --> 00:23:07,488
如果有上帝的话

591
00:23:07,488 --> 00:23:09,008
看来人可能也是这样一个

592
00:23:09,008 --> 00:23:10,648
level 5的这个智能

593
00:23:10,648 --> 00:23:13,248
所以我觉得这里面其实不同的范式下

594
00:23:13,248 --> 00:23:14,928
人和AI的关系是不一样的

595
00:23:15,168 --> 00:23:18,808
那么在几个月内我们就能看到三种关系的一式出现

596
00:23:18,808 --> 00:23:21,168
我觉得是非常非常让人惊讶的一件事情

597
00:23:21,608 --> 00:23:24,608
因为像agent的概念我觉得容易想到

598
00:23:24,608 --> 00:23:28,208
但是你发现它真的能用其实是很让人惊讶的

599
00:23:28,208 --> 00:23:30,688
因为这里面牵涉到很多地方是容易出错的

600
00:23:30,688 --> 00:23:33,128
当然你用RGBT你会发现它很多时候会出错

601
00:23:33,128 --> 00:23:35,048
但是它居然有的时候不会出错

602
00:23:35,048 --> 00:23:36,328
它能把事情给做了

603
00:23:36,528 --> 00:23:38,248
这个事就已经足够让人惊讶了

604
00:23:38,248 --> 00:23:40,168
因为我们知道在数字世界

605
00:23:40,272 --> 00:23:44,272
很多东西一开始都很粗糙 他后面的升级过程成本降低过程

606
00:23:44,272 --> 00:23:48,392
速度提高过程是很快的 可能几年10年的时间就真的能够做到

607
00:23:48,392 --> 00:23:52,232
不怎么出错 这个让我非常的吃惊 并且非常的激动

608
00:23:52,832 --> 00:23:55,192
你会不会觉得现在市场上有一种观点

609
00:23:55,192 --> 00:23:59,912
就是说可能我来做AIGC的这个应用层我晚做几个月

610
00:24:00,112 --> 00:24:03,392
反而是比你早做的人可能更有优势的

611
00:24:03,392 --> 00:24:07,512
比如说早做他们的模型都加在GPT 3.5的开源模型上

612
00:24:07,512 --> 00:24:09,616
然后晚做我可以直接

613
00:24:09,616 --> 00:24:11,656
接在GPT 4的模型上

614
00:24:11,656 --> 00:24:15,136
在大模型改的时候其实他们底层也要去改很多

615
00:24:15,136 --> 00:24:18,736
但是因为他们的模型其实是越做越好

616
00:24:18,736 --> 00:24:20,336
逻辑能力越做越强

617
00:24:20,336 --> 00:24:22,456
就是真正技术在做的时候

618
00:24:22,456 --> 00:24:26,936
他可能晚做比他早做再一点点去改那个框架

619
00:24:26,936 --> 00:24:28,656
是有更多的优势的

620
00:24:28,656 --> 00:24:32,816
我觉得当一个技术革命发生的时候

621
00:24:32,816 --> 00:24:35,176
晚做的人肯定有一些后发的优势

622
00:24:35,176 --> 00:24:37,936
比如说他已经看到前面人踩的坑了

623
00:24:38,144 --> 00:24:42,304
他已经知道一些best practice,所以去用什么

624
00:24:42,304 --> 00:24:45,144
但整体来讲其实你会发现

625
00:24:45,144 --> 00:24:47,984
科技革命中做大成的人一般还是早做的人

626
00:24:47,984 --> 00:24:48,984
为什么呢?

627
00:24:48,984 --> 00:24:51,704
因为他们早做会先有经验

628
00:24:51,704 --> 00:24:54,264
并且先积累起资源

629
00:24:54,264 --> 00:24:57,264
如果大家都是差不多聪明差不多勤奋的情况下

630
00:24:57,264 --> 00:25:00,984
很难你说你晚开始反而能比别人做得更好

631
00:25:00,984 --> 00:25:03,464
我觉得你说的问题肯定是存在的

632
00:25:03,648 --> 00:25:08,328
但是那得基于一个假设就是先做的人他没法把3.5换成4

633
00:25:08,528 --> 00:25:11,448
但实际上也许这就是改个API key的事情

634
00:25:11,768 --> 00:25:15,128
但是在这过程中第一批做AIGC应用的人

635
00:25:15,128 --> 00:25:17,688
他们可能做的应用场景像个玩具一样

636
00:25:17,688 --> 00:25:18,768
这是很有可能的

637
00:25:18,928 --> 00:25:21,288
同时也很有可能他们第一个产品不成功

638
00:25:21,288 --> 00:25:22,088
第二个产品不成功

639
00:25:22,088 --> 00:25:23,008
我觉得这都有可能

640
00:25:23,288 --> 00:25:25,848
但是在这个时候他比起没做的人来讲

641
00:25:25,848 --> 00:25:29,288
他的经验就是1和0的区别是一个非常大的区别

642
00:25:29,488 --> 00:25:32,688
那我们其实去想在技术革命的后期

643
00:25:32,688 --> 00:25:34,688
可能大家经验是10和9的区别

644
00:25:34,688 --> 00:25:35,888
差不了太多

645
00:25:35,888 --> 00:25:37,808
但是1和0的区别还是很大的

646
00:25:37,808 --> 00:25:40,888
所以我觉得在这里面未必你是第一个做的

647
00:25:40,888 --> 00:25:43,248
但是一般来说都得是第一梯队做的

648
00:25:43,248 --> 00:25:44,848
跟着这个技术一起成长

649
00:25:44,848 --> 00:25:48,048
你才对里面很多事情距离怎么做是有概念的

650
00:25:48,048 --> 00:25:49,808
你去看它的研报

651
00:25:49,808 --> 00:25:50,768
看它的分析

652
00:25:50,768 --> 00:25:52,728
对于里面的很多具体问题怎么解决

653
00:25:52,728 --> 00:25:54,048
怎么处理的细节

654
00:25:54,048 --> 00:25:55,888
其实往往是不知道的

655
00:25:55,888 --> 00:25:58,128
在互联网领域有很多这样的例子

656
00:25:58,256 --> 00:26:04,056
比如说有一个故事是说当时雷军做米疗不是输给了微信吗

657
00:26:04,056 --> 00:26:06,856
后来有一次雷军见到赵小龙就问

658
00:26:06,856 --> 00:26:09,536
你们怎么解决发消息延迟的问题

659
00:26:09,536 --> 00:26:11,536
赵小龙说发消息还会延迟吗

660
00:26:11,536 --> 00:26:15,136
这个意思就是说微信有很长时间的做这个事情的积累

661
00:26:15,136 --> 00:26:17,936
因为QQ本身就是一个大量的用户发消息的系统

662
00:26:17,936 --> 00:26:20,256
QQ邮箱也是一个大用户量的产品

663
00:26:20,256 --> 00:26:24,496
所以他们很早就遇到了发消息会延迟或者说会

664
00:26:24,496 --> 00:26:26,576
讯息会乱的问题然后去解决了

665
00:26:26,848 --> 00:26:28,848
所以这就是你坐在前面你有了经验

666
00:26:28,848 --> 00:26:31,648
虽然这个事看上去都是一个事儿 就是发消息

667
00:26:31,648 --> 00:26:33,488
但是你后座的话

668
00:26:33,488 --> 00:26:34,528
不知道这里会有坑

669
00:26:34,528 --> 00:26:36,608
你就可能在这里面就会陷进去

670
00:26:36,608 --> 00:26:39,648
那么先坐的人会在已经解决了这个问题就会有经验

671
00:26:39,648 --> 00:26:41,728
很多这些东西它并不是简单的说

672
00:26:41,728 --> 00:26:43,168
换一个更好的模型就能解决

673
00:26:43,168 --> 00:26:44,048
它有大量的knowhow

674
00:26:44,048 --> 00:26:45,568
所以我觉得一般来讲

675
00:26:45,568 --> 00:26:46,448
历史上来看

676
00:26:46,448 --> 00:26:49,008
科技领域先发优势还是占多数的

677
00:26:49,008 --> 00:26:50,208
我非常同意

678
00:26:50,208 --> 00:26:53,168
而且我觉得我们看到的都是具体的差距

679
00:26:53,168 --> 00:26:54,768
其实我觉得认知上

680
00:26:54,944 --> 00:26:58,784
有差距或者有迭代也是非常重要的 就比如说

681
00:26:58,784 --> 00:27:02,424
很多后面做的人或者就是在一些具体的事情上

682
00:27:02,424 --> 00:27:04,584
有人会告诉你要规避哪些坎儿

683
00:27:04,584 --> 00:27:06,504
但是自己不走到那一步

684
00:27:06,504 --> 00:27:08,664
有时候人的思维是很难转过来的

685
00:27:08,664 --> 00:27:11,184
就是你可能听到了但是你没有理解它

686
00:27:11,184 --> 00:27:14,104
所以你就没有执行 在有动作的时候就变形了

687
00:27:14,104 --> 00:27:17,464
但另外一种有后发优势的呢 就是说

688
00:27:17,464 --> 00:27:19,984
之前你不知道这件事能做

689
00:27:19,984 --> 00:27:22,896
但有的时候你知道 第一它能做

690
00:27:22,896 --> 00:27:27,576
第二 用这么多人 这么多钱 用这个方法就可以做到

691
00:27:27,576 --> 00:27:30,576
这个是事实上有后发优势的

692
00:27:30,576 --> 00:27:33,376
其实我为什么认为国产做大模型

693
00:27:33,376 --> 00:27:35,656
可能没有大家想的那么悲观和难呢

694
00:27:35,656 --> 00:27:37,056
也是基于这个假设

695
00:27:37,056 --> 00:27:39,736
很多人都拿哥伦布去新大陆打比方

696
00:27:39,736 --> 00:27:41,016
我觉得这是贴切的

697
00:27:41,016 --> 00:27:42,456
当你不知道有新大陆

698
00:27:42,456 --> 00:27:44,056
也不知道新大陆有多远

699
00:27:44,056 --> 00:27:47,336
也不知道新大陆是不是必须得坐飞机才能去的时候

700
00:27:47,336 --> 00:27:49,496
其实你是冒很大的风险

701
00:27:49,496 --> 00:27:51,984
但是当你知道新大陆就在西边

702
00:27:51,984 --> 00:27:56,304
用这样大的一艘船带两个月的集养 坐船就可以去的时候

703
00:27:56,304 --> 00:27:57,584
这就变得非常重要了

704
00:27:57,584 --> 00:27:58,984
就当年原子弹其实是一样的

705
00:27:58,984 --> 00:28:01,784
原子弹能炸其实就是一个非常关键的信息

706
00:28:01,784 --> 00:28:04,784
我觉得现在大模型做到大概这个参数量

707
00:28:04,784 --> 00:28:06,784
这个与Data Set的大小

708
00:28:06,784 --> 00:28:08,664
它就能够出现这样的能力

709
00:28:08,664 --> 00:28:11,664
这其实也是一个很重要的确定性信息

710
00:28:11,664 --> 00:28:16,064
所以我觉得大家在追赶上面其实是有很多可以节省时间的

711
00:28:16,064 --> 00:28:18,984
现在大家肯定就用GPT这样的预训链文本的技术了

712
00:28:18,984 --> 00:28:21,304
就不会再用BERT这种双边升神的技术了

713
00:28:21,584 --> 00:28:23,064
这就是一个典型

714
00:28:23,064 --> 00:28:25,464
所以我觉得这里面是可以朝走一些弯路的

715
00:28:25,464 --> 00:28:27,024
当然在那个里面

716
00:28:27,024 --> 00:28:29,304
比如说在数据清洗啊

717
00:28:29,304 --> 00:28:31,264
Infra啊这些地方的很多

718
00:28:31,264 --> 00:28:34,584
Knowhow我觉得也是没法说略的

719
00:28:34,584 --> 00:28:36,904
肯定要去精力去探索这个Knowhow的

720
00:28:36,904 --> 00:28:41,144
所以为什么比如说像王辉文老王他选择立刻开始呢

721
00:28:41,144 --> 00:28:43,024
也是基于一个很朴素的心灵

722
00:28:43,024 --> 00:28:46,784
既然已经对这个革命它的尺度它的规模

723
00:28:46,784 --> 00:28:49,504
有了充分的信任信仰之后

724
00:28:49,504 --> 00:28:51,184
那早开始总比晚开始要好

725
00:28:51,184 --> 00:28:51,376
因为早开始就已经有了充分的信任

726
00:28:51,376 --> 00:28:53,776
因为你正好提到中国的大模型了

727
00:28:53,776 --> 00:28:55,616
然后我看中国最近也是

728
00:28:55,616 --> 00:28:58,116
一个是大厂的大模型在密集发布

729
00:28:58,116 --> 00:29:01,516
比如说百度、阿里、华为都在发布

730
00:29:01,516 --> 00:29:04,756
另外是中国有一些上一批科技创业的人

731
00:29:04,756 --> 00:29:07,896
互联网跟移动互联网创业的成功者

732
00:29:07,896 --> 00:29:09,696
他们也在做大模型

733
00:29:09,696 --> 00:29:11,796
比如说你刚刚提到王会文的公司

734
00:29:11,796 --> 00:29:13,496
还有王小川的公司

735
00:29:13,496 --> 00:29:16,236
那贾阳青跟李士飞之前说要做大模型

736
00:29:16,236 --> 00:29:18,836
我看他们现在做的好像也不算是大模型

737
00:29:18,836 --> 00:29:19,836
算是应用

738
00:29:19,952 --> 00:29:23,592
可不可以跟大家介绍一下现在大家做的大模型

739
00:29:23,592 --> 00:29:27,832
分别是什么 哪些是大模型 哪些可能是我们理解有误

740
00:29:27,832 --> 00:29:30,432
这个事情也是在不断地变化的

741
00:29:30,432 --> 00:29:32,472
目前来看 比如说这些大厂

742
00:29:32,472 --> 00:29:36,472
不管是百度 字节 阿力 腾讯

743
00:29:36,472 --> 00:29:40,792
包括商汤 360 出门问问 昆仑万维

744
00:29:40,792 --> 00:29:42,832
这些其实是说要做一个大模型

745
00:29:42,832 --> 00:29:44,432
或者说是大家理解的这种

746
00:29:44,624 --> 00:29:49,784
几十亿上百亿参数的能够解决很多NLP和通用

747
00:29:49,784 --> 00:29:51,544
领域的问题的这种大模型

748
00:29:51,544 --> 00:29:56,024
那这里面比如说像王辉文王小川像智普这些

749
00:29:56,024 --> 00:29:58,384
其实也都是在做大模型这样的事情

750
00:29:58,384 --> 00:30:00,984
智普是支援分拆出来的

751
00:30:00,984 --> 00:30:02,504
唐杰老师带队的团队

752
00:30:02,504 --> 00:30:05,824
这些我觉得是比较明确就是说做一个比较像

753
00:30:05,824 --> 00:30:08,584
GBT3.5或者GBT4这样的大模型

754
00:30:08,584 --> 00:30:13,464
但比如说像杨青是要做一个偏middleware的创业公司

755
00:30:13,464 --> 00:30:13,632
那这些都是在做一个比较像的一个模型

756
00:30:13,632 --> 00:30:16,312
当然他有一个宣传新闻内容哈

757
00:30:16,672 --> 00:30:19,112
就是我觉得在这过程中肯定大家有发现大模型

758
00:30:19,112 --> 00:30:20,152
是不是适合我做

759
00:30:20,152 --> 00:30:23,712
以及说是不是现在做还有最好的机会和时机去做

760
00:30:23,952 --> 00:30:26,352
我觉得这肯定很多人会兼人兼之

761
00:30:26,512 --> 00:30:28,432
有人会觉得可能不适合我做的机会

762
00:30:28,432 --> 00:30:30,192
我去做更加一个适合我做的机会

763
00:30:30,192 --> 00:30:31,032
这都很正常

764
00:30:31,312 --> 00:30:35,152
同样现在大家也是因为只看到了一个把大模型

765
00:30:35,152 --> 00:30:39,632
做出来先有chat gpt才能够去延展的这么一个逻辑

766
00:30:39,912 --> 00:30:42,392
但我完全可以想象假设大家后来发现

767
00:30:42,528 --> 00:30:45,568
比如说第一有了一个很好用的大模型

768
00:30:45,848 --> 00:30:48,368
但是可能会给很多人的做法会变得不太一样

769
00:30:48,368 --> 00:30:51,328
因为现在大家是都没有去抢到这样一个头筹嘛

770
00:30:51,328 --> 00:30:54,088
但如果有人已经做出来一个足够好的大模型

771
00:30:54,088 --> 00:30:57,648
那可能有了团队就会想那我是不是转去做应用会更好

772
00:30:57,968 --> 00:31:03,248
第二就是说是不是只有做大模型才是认知现在的AGI

773
00:31:03,608 --> 00:31:05,808
或者未来的AGI能力的唯一途径

774
00:31:06,408 --> 00:31:09,568
也许我们会有别的方式去理解这件事情

775
00:31:09,808 --> 00:31:12,808
所以也许有人发现其实我没必要做个大模型

776
00:31:12,808 --> 00:31:14,488
但是目前来看呢

777
00:31:14,488 --> 00:31:17,168
就好比说目前只有坐船能够去美洲

778
00:31:17,168 --> 00:31:18,808
所以大家先都得造船

779
00:31:18,808 --> 00:31:20,648
也许有一天大家有飞机了

780
00:31:20,648 --> 00:31:21,728
那就不用造船了

781
00:31:21,728 --> 00:31:23,568
但目前来看只有坐船才行

782
00:31:23,568 --> 00:31:24,768
所以大家都得造船

783
00:31:24,768 --> 00:31:26,248
但到了美洲之后干嘛

784
00:31:26,248 --> 00:31:27,208
那也不一定

785
00:31:27,208 --> 00:31:28,768
有的去种棉花

786
00:31:28,768 --> 00:31:30,088
有的去挖煤炭

787
00:31:30,088 --> 00:31:31,928
但是大家说你现在船都没有

788
00:31:31,928 --> 00:31:33,888
那你都没法去开始这件事儿

789
00:31:33,888 --> 00:31:35,688
也有可能开通了一条航线

790
00:31:35,688 --> 00:31:37,648
泰坦尼克号将来要坐渡船

791
00:31:37,648 --> 00:31:38,768
那你就不用自己造船

792
00:31:38,768 --> 00:31:39,504
都有可能

793
00:31:39,504 --> 00:31:42,784
现在就是说大家都没有船 所以大家都先第一反应自己造

794
00:31:42,784 --> 00:31:46,704
这个是很正常的情况 在美国现在大家其实不怎么去

795
00:31:46,704 --> 00:31:50,544
有独立做大模型的新公司了 是因为已经有几条固定航线了

796
00:31:50,544 --> 00:31:53,504
有OpenAI号 有这个cloud号 还有这个

797
00:31:53,504 --> 00:31:57,024
Cohere或者是Bard这些 就是大家发现啊这有几条航线了

798
00:31:57,024 --> 00:32:00,384
那我干脆就去想去美洲之后干嘛呢 就是做应用了

799
00:32:00,384 --> 00:32:04,304
那中国的大模型你觉得未来是一个怎么样的格局

800
00:32:04,304 --> 00:32:07,424
可能是一家独大还是说多家

801
00:32:07,728 --> 00:32:10,128
我觉得这个问题肯定不只是中国

802
00:32:10,128 --> 00:32:13,248
包括全世界的角度都是一个还不知道的问题

803
00:32:13,248 --> 00:32:15,848
这是一个billion dollar甚至是trillion dollar
question

804
00:32:15,848 --> 00:32:18,048
我觉得它是一个光谱

805
00:32:18,048 --> 00:32:20,848
比如说集中度最高的形式可能像google

806
00:32:20,848 --> 00:32:24,248
google一家占了93%的solo引擎份额

807
00:32:24,248 --> 00:32:28,248
如果大模型第一它是一个2C为主的场景

808
00:32:28,248 --> 00:32:32,848
就比如说可能以后有很多人都会用一个像shadow gdt这样的助理

809
00:32:32,848 --> 00:32:36,240
且它的技术始终是比较难的

810
00:32:36,240 --> 00:32:38,920
就是说第一名始终有比较大的领先优势

811
00:32:38,920 --> 00:32:43,600
那么我可以想象可能大部分人最后都只用某一个最领先的助手

812
00:32:43,600 --> 00:32:45,720
可能是chatterGBT可能是某一家

813
00:32:46,160 --> 00:32:48,880
因为我没有道理去用一个第二名的

814
00:32:48,880 --> 00:32:51,440
至于跟solar引擎如果你都超不过google

815
00:32:51,440 --> 00:32:52,320
我肯定没法用你

816
00:32:52,320 --> 00:32:53,760
哪怕你能超过google

817
00:32:53,760 --> 00:32:54,840
只要你超过的不是太多

818
00:32:54,840 --> 00:32:55,720
我也没有动力用

819
00:32:56,080 --> 00:32:58,960
所以这就是最收敛的叫赢家通吃的格局

820
00:32:58,960 --> 00:33:04,480
那如果说第一是openm没办法长期保持一个特别遥遥领先的状态

821
00:33:04,592 --> 00:33:09,112
我们使用大猿模型主要的场景是通过2b的应用来使用

822
00:33:09,112 --> 00:33:12,032
而不是直接去用一个shared gpt这样的助手

823
00:33:12,032 --> 00:33:14,592
那么它也有可能形成一个公有云这样的格局

824
00:33:14,992 --> 00:33:17,192
就是第一梯队可能有2-3家

825
00:33:17,192 --> 00:33:18,952
3-4家都还不错

826
00:33:18,952 --> 00:33:19,752
各有特点

827
00:33:19,752 --> 00:33:21,232
比如说你的擅长图像

828
00:33:21,232 --> 00:33:22,352
我的擅长推理

829
00:33:22,352 --> 00:33:27,232
那么这样用户用的主要是用这些大模型作为底层勾造的应用

830
00:33:27,672 --> 00:33:29,232
那这样就有可能像公有云一样

831
00:33:29,232 --> 00:33:30,752
比如说有的跑在aws

832
00:33:30,752 --> 00:33:31,832
有的跑在azure

833
00:33:31,832 --> 00:33:33,832
有的跑在google cloud service上

834
00:33:33,904 --> 00:33:34,904
这些都有可能

835
00:33:35,184 --> 00:33:38,984
还有一种可能就是大模型这事现在很厉害

836
00:33:38,984 --> 00:33:41,904
但是逐渐变成一个commodity变成开源的

837
00:33:42,104 --> 00:33:44,704
很多人都是自己用一个开源的

838
00:33:44,704 --> 00:33:46,024
加以微调之后

839
00:33:46,024 --> 00:33:48,744
部署在自己的云或者服务器上

840
00:33:48,944 --> 00:33:51,664
这个时候可能就变成了一种百家争鸣

841
00:33:51,824 --> 00:33:54,264
或者说有各种各样的开源模型的阶段

842
00:33:54,424 --> 00:33:57,104
这个时候也许openai它是一个开创者

843
00:33:57,104 --> 00:33:58,664
但也许之后它的大量技术

844
00:33:58,664 --> 00:34:00,544
变成人类所共有的技术

845
00:34:00,544 --> 00:34:02,264
这也是很多时候经常发生的

846
00:34:02,448 --> 00:34:06,608
比如说当时人脸识别出来的时候 其实也是一个石破天惊的技术

847
00:34:06,608 --> 00:34:11,408
但后面人脸识别每个应用都有 你也不会特别介意他用了谁的人脸识别技术

848
00:34:11,408 --> 00:34:15,008
这种情况下它往往意味着技术它有个终点

849
00:34:15,008 --> 00:34:18,208
或者说大家都做到了GPT-4的能力都差不多了

850
00:34:18,208 --> 00:34:20,608
但是也没法出来一个跟上一个台阶的了

851
00:34:20,608 --> 00:34:23,808
所以我觉得这里面很看未来这个技术终点在哪里

852
00:34:23,808 --> 00:34:27,208
主要是to C还是to B 其他家追赶的速度怎么样

853
00:34:27,208 --> 00:34:30,008
所以其实都有可能 这里面其实不好讲

854
00:34:30,288 --> 00:34:32,688
其实在聊到中美大模型的时候

855
00:34:32,688 --> 00:34:34,488
大家都会谈到芯片嘛

856
00:34:34,488 --> 00:34:35,648
你刚刚也提到了

857
00:34:35,648 --> 00:34:37,728
比如说现在很多中国的大模型

858
00:34:37,728 --> 00:34:42,528
它们的得分从二三十分上升到了五十多分、六十多分

859
00:34:42,528 --> 00:34:43,848
其实在我理解

860
00:34:43,848 --> 00:34:45,688
之前有很多中国的大厂

861
00:34:45,688 --> 00:34:48,248
它们是有囤很多A100芯片的

862
00:34:48,248 --> 00:34:51,928
那如果说未来这个芯片不能持续地供应

863
00:34:51,928 --> 00:34:55,008
而美国的芯片还在持续地进化中

864
00:34:55,008 --> 00:34:56,768
比如说H100会出来

865
00:34:56,768 --> 00:35:01,568
那中国的芯片它的这个性能或者说它跟不上

866
00:35:01,568 --> 00:35:06,968
那你觉不觉得它可能会是一个越拉越远的战局

867
00:35:06,968 --> 00:35:09,968
我觉得就还是要从几个方面去想

868
00:35:09,968 --> 00:35:13,888
第一个就是是不是这是一个百公里长跑

869
00:35:13,888 --> 00:35:15,328
还是一个百米塞跑

870
00:35:15,328 --> 00:35:18,608
比如说如果它是一个很快会遇到瓶颈的事情

871
00:35:18,608 --> 00:35:20,128
那可能现有的算力就够了

872
00:35:20,128 --> 00:35:22,208
你也许不用训练那么大的模型

873
00:35:22,208 --> 00:35:24,528
或者说就训练现在这么大的就可以了

874
00:35:24,528 --> 00:35:26,128
另外一种情况是它

875
00:35:26,160 --> 00:35:27,520
以后要越来越大越来越大

876
00:35:27,520 --> 00:35:30,200
所以现在的芯片就不能用了

877
00:35:30,560 --> 00:35:32,960
虽然我们现在很多人觉得可能是后遗者可能

878
00:35:32,960 --> 00:35:35,040
但是首先它是有多种可能性存在的

879
00:35:35,480 --> 00:35:39,280
第二就是说训练的效率和方式方法

880
00:35:39,280 --> 00:35:40,880
本身也是在不断提高的

881
00:35:41,440 --> 00:35:44,800
在之前需要这么多顺利训练的模型

882
00:35:44,800 --> 00:35:47,360
在现在也许会有更好的方式去训练

883
00:35:47,640 --> 00:35:49,800
第三就是当然说的这些

884
00:35:49,800 --> 00:35:53,120
我们本质上肯定是希望我们的半导体工业能够发展

885
00:35:53,240 --> 00:35:54,680
我们有一天也能够

886
00:35:54,736 --> 00:35:59,216
有世界先进水平的GPU也好或者AI芯片去进行这种训练

887
00:35:59,576 --> 00:36:02,296
当然好的情况肯定是说要么是中美关系缓和了

888
00:36:02,336 --> 00:36:04,576
我们同样能够买到这些先进的芯片

889
00:36:04,696 --> 00:36:08,376
有可能同时也是说我们的芯片公司真的也做出来了

890
00:36:08,376 --> 00:36:10,216
可以跟英伟达媲美的这种芯片

891
00:36:10,696 --> 00:36:12,056
我觉得这肯定是好的情况

892
00:36:12,056 --> 00:36:16,576
如果不好的情况那就是只有智力更生用这种方法去尝试解决了

893
00:36:17,096 --> 00:36:18,416
但我想说的是

894
00:36:18,656 --> 00:36:21,096
我觉得当我们采取追赶的时候呢

895
00:36:21,096 --> 00:36:23,536
我们往往会把一些问题给简单化

896
00:36:23,856 --> 00:36:25,856
A芯片现在是个显然的问题

897
00:36:25,856 --> 00:36:28,896
就好像说买了1万块芯片A100就能解决这个问题一样

898
00:36:28,896 --> 00:36:30,016
其实我觉得不是这样的

899
00:36:30,016 --> 00:36:34,056
就是现在我们在数据芯片infra

900
00:36:34,056 --> 00:36:36,616
算法这方面其实有很多需要去解决的

901
00:36:36,616 --> 00:36:40,816
我觉得不宜把这个问题简单化成一个买1万块芯片

902
00:36:40,816 --> 00:36:42,816
好像说只要花钱就能解决

903
00:36:42,816 --> 00:36:46,376
实际上我遇到了这些真正在好好做这件事情的人

904
00:36:46,376 --> 00:36:47,576
其实他们都会意识到

905
00:36:47,576 --> 00:36:49,976
第一你哪怕是要1万块A100

906
00:36:49,976 --> 00:36:51,976
国内现在也是有这样的数量的

907
00:36:52,288 --> 00:36:55,928
第二呢就是现在我们离用好1万块A100那还差很远

908
00:36:56,248 --> 00:36:59,808
第三这里面其实每一个环节里都有很多要解决的问题

909
00:37:00,088 --> 00:37:03,448
那么你要去探索怎么去做一个

910
00:37:03,568 --> 00:37:06,088
比如3.5水平的模型其实不用1万块A100

911
00:37:06,088 --> 00:37:09,968
因为你想想看GBT-3其实是在1万块V100上训练的

912
00:37:10,088 --> 00:37:13,848
GBT-3.5就是所谓的instructor GBT是一个小很多的模型

913
00:37:13,848 --> 00:37:18,088
就它并不一定是一定要训练这么大的参数量才能训练出来的模型

914
00:37:18,568 --> 00:37:20,808
所以这里面其实有很多

915
00:37:20,896 --> 00:37:24,896
跟芯片一样重要 甚至在短期可能比芯片更重要的问题

916
00:37:25,256 --> 00:37:27,536
我觉得这里面问题还是比较复杂的

917
00:37:28,136 --> 00:37:33,256
中文互联网的数据你觉得它会是一个问题吗

918
00:37:33,656 --> 00:37:34,936
我觉得完全不是一个问题

919
00:37:34,936 --> 00:37:39,736
因为简单的来想就是chattgbt并没有用到什么独有的中文数据

920
00:37:39,736 --> 00:37:42,256
它就已经在中文上具有这么好的表现

921
00:37:42,536 --> 00:37:45,256
当然gbt4可能多了很多独有的东西

922
00:37:45,256 --> 00:37:47,016
或者说它有很多微调的内容

923
00:37:47,216 --> 00:37:50,136
但如果你从pre-training的那部分来看的话

924
00:37:50,864 --> 00:37:53,104
wikipedia common ground

925
00:37:53,104 --> 00:37:57,064
对呢paper codecs这些其实很大量是通过英文

926
00:37:57,064 --> 00:37:58,784
然后泛化到中文来的

927
00:37:58,784 --> 00:38:02,504
所以在这里面我觉得至少第一原理上不存在说

928
00:38:02,504 --> 00:38:04,504
openai有什么我们没有的中文数据

929
00:38:04,504 --> 00:38:08,824
但是怎么去用现有的中文数据去进行清洗

930
00:38:08,824 --> 00:38:12,704
包括后面的这种标注进行human feedback

931
00:38:12,704 --> 00:38:15,144
这些knowhow反而是非常非常重要的

932
00:38:15,144 --> 00:38:18,464
这个我觉得是一个我们需要解决的工程问题

933
00:38:18,464 --> 00:38:20,824
但不是说我们没有这些预料的问题

934
00:38:20,824 --> 00:38:20,992
我们需要解决的问题是

935
00:38:20,992 --> 00:38:26,112
之前每次你见我啊,你都会问我一个问题,我最近见过的最厉害的人是谁?

936
00:38:26,112 --> 00:38:31,752
你这次来美国,你觉得你见到了哪些厉害的人,他们有给你哪些启发?

937
00:38:31,752 --> 00:38:39,952
嗯,也不好说最厉害的人是谁吧,但是比如说一路下来我们在湾区,在波士顿,在纽约,匹
兹堡,

938
00:38:39,952 --> 00:38:43,792
其实跟很多做AI的这些研究员,包括

939
00:38:43,920 --> 00:38:50,520
工程数据沟通交流,我觉得还是从很多具体时间的角度去学习

940
00:38:50,520 --> 00:38:53,560
怎么样做大模型,包括说视觉模型

941
00:38:53,560 --> 00:38:56,280
以及现在大家关注的一些重点难点是什么

942
00:38:56,280 --> 00:38:57,360
我觉得是挺有帮助

943
00:38:57,840 --> 00:39:01,320
我刚才说到如果说我们从隔着一定距离去看

944
00:39:01,320 --> 00:39:03,600
就容易把这个问题给简单化

945
00:39:04,160 --> 00:39:06,520
简单化成比如说我怎么买到1万块芯片

946
00:39:06,520 --> 00:39:09,720
或者说我怎么样挖到比如OpenAI的人

947
00:39:09,720 --> 00:39:12,120
或者说我怎么样去

948
00:39:12,192 --> 00:39:13,272
收集雨料什么的

949
00:39:13,272 --> 00:39:14,952
但是我觉得跟他们交流下来

950
00:39:14,952 --> 00:39:18,552
就发现这里面有很多工程的细节都是很重要的

951
00:39:18,552 --> 00:39:21,832
以及说为什么它是一个这样的由来

952
00:39:21,832 --> 00:39:23,032
中间经历了什么故事

953
00:39:23,032 --> 00:39:24,712
我觉得这些是把它拆析了看

954
00:39:24,712 --> 00:39:26,592
会看到很多细节和脉络

955
00:39:26,832 --> 00:39:27,792
当然对我们的角度

956
00:39:27,792 --> 00:39:29,592
首先是想发现未来创业者

957
00:39:29,792 --> 00:39:32,112
我们其实不是说要去自己做一个大冒险

958
00:39:32,312 --> 00:39:33,352
不可能具备那个能力

959
00:39:33,352 --> 00:39:35,952
所以我们只是说想进一步的去探讨

960
00:39:35,952 --> 00:39:37,792
这里面有哪些难点

961
00:39:37,792 --> 00:39:39,272
或者哪些值得注意的地方

962
00:39:39,616 --> 00:39:41,856
整体来讲我觉得还是在学习阶段

963
00:39:41,856 --> 00:39:43,896
实际上你要问我见到最厉害的

964
00:39:43,896 --> 00:39:44,896
我觉得不是人

965
00:39:44,896 --> 00:39:47,736
而是在这个旅程中我们看到了Auto GPT

966
00:39:47,736 --> 00:39:51,576
我觉得Auto GPT是一个让我觉得非常震撼

967
00:39:51,576 --> 00:39:54,416
同时也进一步的加强了忧虑的事情

968
00:39:54,416 --> 00:39:59,216
是因为这种Recursive自己去执行的Demo出来

969
00:39:59,216 --> 00:40:03,296
那么它其实是具备很强的不可控的力量

970
00:40:03,296 --> 00:40:06,976
这里面我觉得AI Safety AI Alignment

971
00:40:06,976 --> 00:40:08,816
这些问题会变得很重要

972
00:40:08,944 --> 00:40:12,144
其实这个旅途中我是最被 old GPT 震惊啊

973
00:40:12,144 --> 00:40:15,064
当然如果我见到 Sam Altman 肯定他会讲一些让我很震惊的话

974
00:40:15,064 --> 00:40:17,344
但可惜我们也见不到 Sam Altman

975
00:40:17,344 --> 00:40:19,704
你要说有一个特别的人讲一句特别的话

976
00:40:19,704 --> 00:40:21,304
我倒觉得没有那样的时刻

977
00:40:21,304 --> 00:40:23,224
但是有很多人讲了很多有意思的东西

978
00:40:23,224 --> 00:40:24,944
我是觉得挺有意思的

979
00:40:24,944 --> 00:40:29,104
你刚提到你来慢慢理解了 GPT 它是怎么被做出来的

980
00:40:29,104 --> 00:40:31,344
它中间经历了哪些重要的时刻

981
00:40:31,344 --> 00:40:33,504
我想我们的听众可能也会很感兴趣

982
00:40:33,504 --> 00:40:35,904
能不能大概的介绍一下几个关键节点

983
00:40:36,208 --> 00:40:40,248
像现在微软它是可以每天训一个GPT-3

984
00:40:40,248 --> 00:40:41,648
就是训练一个GPT-3

985
00:40:41,648 --> 00:40:43,168
你变成一个顺手就可以做的事情

986
00:40:43,168 --> 00:40:44,208
一天训一个

987
00:40:44,208 --> 00:40:47,328
但是微软自己是没法训练GPT-4的

988
00:40:47,328 --> 00:40:53,568
是需要在Azure那台专门为训练GPT-4打招的超算上才可以训练的

989
00:40:53,568 --> 00:40:57,288
所以你会发现这里面这个训练的难度是高了很多

990
00:40:57,288 --> 00:41:00,168
尤其把这么多算力把它有效的组织起来

991
00:41:00,168 --> 00:41:03,928
这其实是一个很一线很前沿的问题

992
00:41:04,128 --> 00:41:07,768
我很好奇就是为什么微软可以随便训练一个GPT-3呢

993
00:41:08,128 --> 00:41:11,328
就是GPT-3所需要的算力以最近的架构已经很成熟了

994
00:41:11,328 --> 00:41:13,728
你可以直接通过云服务就拥有这样的算力

995
00:41:13,728 --> 00:41:16,368
但GPT-4需要的算力是一个新的级别

996
00:41:16,568 --> 00:41:20,448
比如说其实GPT-4初始的能力更强很多

997
00:41:20,568 --> 00:41:23,688
我看过一些没有经过微调的GPT-4

998
00:41:23,688 --> 00:41:25,088
比如画出来的图像

999
00:41:25,368 --> 00:41:29,328
它是要比现在的GPT-4画出图像更精细很多的

1000
00:41:29,568 --> 00:41:32,128
如果你看了那篇通用人工智能的火花那篇论文

1001
00:41:32,128 --> 00:41:33,848
你发现GPT-4是可以画图的

1002
00:41:33,856 --> 00:41:35,256
比如它里面画了个独角兽

1003
00:41:35,256 --> 00:41:38,656
但是那个已经是经过微调之后的GPT-4画的了

1004
00:41:38,656 --> 00:41:41,336
当没有经过微调的GPT-4画的图

1005
00:41:41,336 --> 00:41:42,696
其实要比那个精细很多

1006
00:41:42,696 --> 00:41:45,016
换句话说GPT-4为了和人类对齐

1007
00:41:45,016 --> 00:41:46,736
牺牲了很多它的能力

1008
00:41:46,736 --> 00:41:49,136
当三巴特们说他们没有在训GPT-5的时候

1009
00:41:49,136 --> 00:41:49,976
我觉得是有道理的

1010
00:41:49,976 --> 00:41:52,336
因为GPT-4现在还是冰山一角

1011
00:41:52,336 --> 00:41:55,056
它能做很多事情我们可能还想象不到

1012
00:41:55,056 --> 00:41:56,736
其实我跟一个朋友在讨论的时候

1013
00:41:56,736 --> 00:41:57,616
我们经常说到

1014
00:41:57,616 --> 00:41:59,536
如果我们现在斩钉截铁地说一件事

1015
00:41:59,536 --> 00:42:00,496
GPT-4做不到

1016
00:42:00,496 --> 00:42:02,256
往往是我们低估了它的能力

1017
00:42:02,336 --> 00:42:04,536
我们还在不断的像AutoGPT这样发现

1018
00:42:04,536 --> 00:42:06,736
它其实可以做很多我们没想到的事情

1019
00:42:06,736 --> 00:42:09,776
其实很多人会忽视的一点就是在

1020
00:42:09,776 --> 00:42:12,616
Instructor GPT训练的这个过程中

1021
00:42:12,616 --> 00:42:16,416
做的数据标注和RLHF这一块

1022
00:42:16,416 --> 00:42:17,696
其实我们可以想一想

1023
00:42:17,696 --> 00:42:20,976
你要在很多专业的领域生成很好的范文

1024
00:42:20,976 --> 00:42:23,976
同时比如说对于像ChatterGPT这样生成的

1025
00:42:23,976 --> 00:42:28,416
某个专业领域的很长很多的多个答案进行排序

1026
00:42:28,416 --> 00:42:29,736
这其实不是个简单的事情

1027
00:42:29,984 --> 00:42:32,424
比如说你问他一个生物的问题 他给你几种回答

1028
00:42:32,424 --> 00:42:35,864
然后你说哪个更好 这其实需要很多专业能力和技能

1029
00:42:35,864 --> 00:42:40,664
这之前本来大家觉得可能是一个需要成千上万人干好多年的事情

1030
00:42:40,664 --> 00:42:43,464
没想到居然是几十一百个人干了两个月的事情

1031
00:42:43,464 --> 00:42:47,864
在这个里面像Surge, Scale这样的公司扮演的作用是很大的

1032
00:42:47,864 --> 00:42:50,864
你能把这件事高效的大规模的去做

1033
00:42:50,864 --> 00:42:55,104
这个其实是一个不是所谓的火箭科学 不是rocket science

1034
00:42:55,104 --> 00:42:57,944
但是它是一个很难的工程问题

1035
00:42:58,208 --> 00:43:02,528
所以在这些领域,我就说有很多问题,当我们真的要去做的时候,可能会发现

1036
00:43:02,528 --> 00:43:07,648
不是说简单买了芯片插上就可以迅速出来,它会有很多的工程具体要解决的问题

1037
00:43:07,648 --> 00:43:11,848
所以我觉得这些都是很有意思的看到的更全面的东西吧

1038
00:43:11,848 --> 00:43:16,448
你刚提到GPT-4它没有经过微调以前的版本

1039
00:43:16,448 --> 00:43:21,888
比它真正放出来的要强大很多,因为在那篇论文里它也写到了,就是说它其实是

1040
00:43:22,048 --> 00:43:27,128
经历了八个月的安全测试,它是为了让它的安全标准不停地能达到

1041
00:43:27,128 --> 00:43:31,048
来适应人类不至于让它比如说有种族歧视

1042
00:43:31,048 --> 00:43:33,648
或者有一些它不应该出现的话

1043
00:43:33,648 --> 00:43:37,648
但是现在我看业界大家也没有讨论就是GBT5的

1044
00:43:37,648 --> 00:43:39,568
这种出现的可能性啊

1045
00:43:39,568 --> 00:43:44,808
未来比如说这个GBT它如果还要去进化,就是它的这种能力

1046
00:43:44,808 --> 00:43:49,688
它会是什么呢?它会是把那个魏焉歌的版本再放出来一些还是什么?

1047
00:43:49,688 --> 00:43:50,568
我不太理解啊

1048
00:43:50,816 --> 00:43:53,816
这很多问题只有Sam Altman能回答我感觉

1049
00:43:53,816 --> 00:43:56,816
但我觉得alignment会是一个很重要的话题

1050
00:43:56,816 --> 00:43:59,216
因为能力越大责任越大

1051
00:43:59,216 --> 00:44:03,136
尤其是当AutoGPT它可以选择工具执行外界任务

1052
00:44:03,136 --> 00:44:05,736
并且自发去执行的事情发生了

1053
00:44:05,736 --> 00:44:08,376
OpenAI让我觉得很厉害的一点就是

1054
00:44:08,376 --> 00:44:10,376
他们一开始是一个研究机构

1055
00:44:10,376 --> 00:44:13,136
一开始的时候其实是研究的很发散的

1056
00:44:13,136 --> 00:44:14,096
很多话题都有研究

1057
00:44:14,096 --> 00:44:15,256
他们也研究打游戏

1058
00:44:15,256 --> 00:44:17,576
他们也研究各种的领域的AI问题

1059
00:44:17,576 --> 00:44:19,808
但是他们逐渐地

1060
00:44:19,808 --> 00:44:23,208
中间发生了一次相变变成了一个做产品的公司

1061
00:44:23,608 --> 00:44:26,688
其实GPT-4发布的时候我听到两种声音

1062
00:44:26,888 --> 00:44:28,488
有的人说很失望

1063
00:44:28,488 --> 00:44:30,888
因为诶,居然就做了一个读图

1064
00:44:30,888 --> 00:44:32,128
都没有做纹身图

1065
00:44:32,128 --> 00:44:33,408
也没有做视频

1066
00:44:33,528 --> 00:44:35,328
也没有做其他的多模态什么的

1067
00:44:35,328 --> 00:44:37,088
并且这个图的API还没出来

1068
00:44:37,488 --> 00:44:39,328
好像主要的还是这个文字

1069
00:44:39,328 --> 00:44:40,168
觉得有点失望

1070
00:44:40,168 --> 00:44:41,208
因为没什么新东西

1071
00:44:41,608 --> 00:44:43,168
但另外一批人觉得很厉害

1072
00:44:43,168 --> 00:44:44,728
比如说像我们去测试了很多

1073
00:44:44,728 --> 00:44:45,928
原来战略物打不好的问题

1074
00:44:45,928 --> 00:44:46,888
发现它能打好了

1075
00:44:47,024 --> 00:44:50,024
当然后面插件啊 Otto GPT 直接出来就更厉害对吧

1076
00:44:50,024 --> 00:44:54,064
我觉得这恰恰反映了说OpenAI 在用一种做好产品

1077
00:44:54,064 --> 00:44:57,984
做一个上亿人使用的基础产品的态度去做这件事情

1078
00:44:57,984 --> 00:44:59,664
如果是个学术研究机构

1079
00:44:59,664 --> 00:45:03,064
它会很有动力去第一个发视频到文字啊

1080
00:45:03,064 --> 00:45:05,824
或者说文字到视频或者什么的这种研究结果

1081
00:45:05,824 --> 00:45:08,984
但是OpenAI选择了把已有的做扎实做好

1082
00:45:08,984 --> 00:45:10,464
这个是很不容易的

1083
00:45:10,464 --> 00:45:13,504
我觉得在这个里面alignment是一个

1084
00:45:13,600 --> 00:45:17,640
尽管被强调,可能还是比较被低估的一个话题

1085
00:45:17,640 --> 00:45:21,720
举个例子,应该跟什么样的价值观去alignment

1086
00:45:21,720 --> 00:45:27,320
现在可能本质上还是跟美国加州的一群白人男性去alignment

1087
00:45:27,320 --> 00:45:28,840
全世界有很多文明

1088
00:45:28,840 --> 00:45:30,880
在一个文明完全OK的事情

1089
00:45:30,880 --> 00:45:33,240
在另外一个文明可能是非常不OK的

1090
00:45:33,240 --> 00:45:36,160
同样我们的价值观变化也是很快的

1091
00:45:36,160 --> 00:45:38,320
十几年前我在美国读书的时候

1092
00:45:38,320 --> 00:45:40,920
同性婚姻还是非常禁忌的话题

1093
00:45:40,920 --> 00:45:43,520
当时奥巴马竞选其实都是不允许同性婚姻

1094
00:45:43,568 --> 00:45:46,568
但是现在同性婚姻当然是一个大家都很欢迎的价值观

1095
00:45:46,568 --> 00:45:49,768
那这个过程中你会发现AI跟什么对齐

1096
00:45:49,768 --> 00:45:51,768
如何去动态的去调整

1097
00:45:51,768 --> 00:45:53,768
其实都会有很多的问题

1098
00:45:53,768 --> 00:45:57,968
那么在这个过程中我觉得也可能需要一些跨国的合作

1099
00:45:57,968 --> 00:46:00,968
就像我们有核不扩散的国际公约一样

1100
00:46:00,968 --> 00:46:03,168
但核不扩散是好检验的

1101
00:46:03,168 --> 00:46:05,168
因为你做核实验天上有微星看着

1102
00:46:05,168 --> 00:46:07,768
但是你在你的计算机里跑着最先进的AI

1103
00:46:07,768 --> 00:46:09,760
实际上很难被看出来

1104
00:46:09,760 --> 00:46:12,720
但这个里面怎么样对于这种我们又未知

1105
00:46:12,720 --> 00:46:15,680
同时又有可能很大破坏的应用去进行监管

1106
00:46:15,680 --> 00:46:17,440
进行安全的保障

1107
00:46:17,440 --> 00:46:19,360
虽然那封公开信传得很广

1108
00:46:19,360 --> 00:46:21,520
我是不赞同公开信里面说的停止研究

1109
00:46:21,520 --> 00:46:23,640
因为我觉得好人停止研究坏人继续干嘛

1110
00:46:23,640 --> 00:46:26,760
而且并且我觉得你只有继续研究才知道它是怎么回事

1111
00:46:26,760 --> 00:46:29,720
但是我觉得确实我们面临的东西

1112
00:46:29,720 --> 00:46:32,000
其实是可能带来很大的破坏的

1113
00:46:32,000 --> 00:46:33,480
并且我悲观的觉得

1114
00:46:33,480 --> 00:46:36,200
可能得产生一两次大的破坏之后

1115
00:46:36,200 --> 00:46:39,200
人们才会真正的去把这个事情提到日程上来

1116
00:46:39,296 --> 00:46:43,256
就跟我们核泄漏之后大家可能才会制定核安全法

1117
00:46:43,256 --> 00:46:45,976
包括数据泄漏之后才会制定数据安全法一样

1118
00:46:45,976 --> 00:46:48,656
我觉得可能得经历一些大的事故

1119
00:46:48,656 --> 00:46:51,056
因为这里面它因为没有实体嘛

1120
00:46:51,056 --> 00:46:52,696
所以往往它会被人低估

1121
00:46:52,696 --> 00:46:54,616
就觉得我们把插头拔了就行了

1122
00:46:54,616 --> 00:46:59,456
但实际上它其实现在的能力已经可能造成一些破坏了

1123
00:46:59,456 --> 00:47:00,296
随便举个例子

1124
00:47:00,296 --> 00:47:02,496
比如说上一次美国大选的时候

1125
00:47:02,496 --> 00:47:08,896
其实就指控有敌对国家通过Facebook投放虚假广告来干扰选举结果

1126
00:47:08,896 --> 00:47:08,928
这种情况下

1127
00:47:08,928 --> 00:47:13,328
你想现在的大语言模型是个说服能力可以很强的一个工具

1128
00:47:13,648 --> 00:47:18,768
因为它可以把所有的心理学语言学技巧全部集中起来

1129
00:47:18,928 --> 00:47:21,648
调动全部的这种知识、语料、逻辑

1130
00:47:21,648 --> 00:47:22,848
想去说服一个人

1131
00:47:22,928 --> 00:47:25,368
简单来讲比如说电话诈骗杀猪盘对吧

1132
00:47:25,568 --> 00:47:27,448
现在是比较弱智的骗术

1133
00:47:27,448 --> 00:47:29,248
那以后可能是很强大的骗术

1134
00:47:29,648 --> 00:47:31,128
但是呢进一步的去想

1135
00:47:31,128 --> 00:47:34,448
假设说在一个选举中可以用AI打电话给

1136
00:47:34,448 --> 00:47:36,088
比如说100万个关键选民

1137
00:47:36,088 --> 00:47:37,424
因为其实美国大选

1138
00:47:37,424 --> 00:47:39,864
关键的选民可能就是几万人有研究通过

1139
00:47:39,864 --> 00:47:41,864
因为这几样是都很结果都很紧嘛

1140
00:47:41,864 --> 00:47:42,944
都非常的接近

1141
00:47:43,304 --> 00:47:45,264
那可能我打电话去劝说这100万人

1142
00:47:45,264 --> 00:47:46,704
有一万人改了他的投票

1143
00:47:46,704 --> 00:47:47,944
也许美国总统就变了

1144
00:47:48,344 --> 00:47:50,064
这可能就是非常大的一个变化

1145
00:47:50,464 --> 00:47:52,784
这其实都不用说什么天网啊终结者

1146
00:47:52,784 --> 00:47:53,904
其实就可以说

1147
00:47:54,184 --> 00:47:57,344
人和AI去配合去进行大的破坏

1148
00:47:57,704 --> 00:48:00,184
比如说你看OpenAI的插件系统

1149
00:48:00,344 --> 00:48:03,344
其实是只能够读互联网不能写互联网

1150
00:48:03,472 --> 00:48:05,272
这可能是很重要的安全防范处

1151
00:48:05,272 --> 00:48:07,872
是否则的话每个人都可以生成一堆fake news

1152
00:48:07,872 --> 00:48:09,672
然后直接发到网上去post

1153
00:48:09,912 --> 00:48:12,032
就会发现大量的信息就会充填互联网

1154
00:48:12,032 --> 00:48:15,792
这只是非常简单现有的技术就完全可以做到的事情

1155
00:48:15,792 --> 00:48:20,232
其实你想如果auto gpt这样的应用去调一个发消息的API

1156
00:48:20,232 --> 00:48:22,032
或者一个发内容的一个API

1157
00:48:22,032 --> 00:48:25,392
它完全可以不知疲倦的生成真假难辨的虚假内容

1158
00:48:25,392 --> 00:48:26,712
去填塞整个互联网

1159
00:48:26,912 --> 00:48:29,432
那假设你说用这个对一个人进行诽谤

1160
00:48:29,432 --> 00:48:31,392
或者制造一些虚假的信息

1161
00:48:31,392 --> 00:48:32,672
那岂不是很容易

1162
00:48:32,752 --> 00:48:36,672
这些我们都不谈到说什么AI对人类要什么消灭人的那些

1163
00:48:36,672 --> 00:48:38,712
我觉得那些还是属于偏科幻领域的

1164
00:48:38,712 --> 00:48:41,312
但是在目前它是个强大的语言工具

1165
00:48:41,312 --> 00:48:46,952
而我们又很缺乏对于一个看似形式很完善的谎言的识别能力

1166
00:48:46,952 --> 00:48:48,912
所以这其实是很危险的

1167
00:48:48,912 --> 00:48:53,272
你怎么看马斯克一边主张叫停对大模型的研究

1168
00:48:53,272 --> 00:48:56,432
然后另一边又自己去做一个这样的事儿

1169
00:48:56,432 --> 00:48:59,392
马斯克是一个非常think loud的人

1170
00:48:59,392 --> 00:49:02,384
他是把自己的想法会不加修饰地直接说出来

1171
00:49:02,384 --> 00:49:06,984
包括我听说也有一些openai的早期支持者对于openai现在变成了closea
i

1172
00:49:06,984 --> 00:49:09,544
还是有一些看法和意见的

1173
00:49:09,544 --> 00:49:10,584
closeai

1174
00:49:10,584 --> 00:49:11,864
就是说他没有开源嘛

1175
00:49:11,864 --> 00:49:13,584
对openai不open

1176
00:49:13,584 --> 00:49:14,464
对他不open

1177
00:49:14,464 --> 00:49:16,184
听说是会有些意见的

1178
00:49:16,184 --> 00:49:20,024
但伊隆马斯克肯定是一个最直接不仅要说出来我还要干的人

1179
00:49:20,024 --> 00:49:24,544
那有的人可能不支持说去用别的方式去把这老股卖了呀之类的

1180
00:49:24,544 --> 00:49:26,824
我觉得呢会有个道理啊

1181
00:49:26,824 --> 00:49:29,824
就是我觉得openai说这个技术太危险了

1182
00:49:29,824 --> 00:49:30,832
所以我要

1183
00:49:30,832 --> 00:49:32,592
不能让它开源我觉得也是对的

1184
00:49:32,592 --> 00:49:34,552
因为开源的时候

1185
00:49:34,552 --> 00:49:38,552
我觉得比较适合于这种对它的潜在风险

1186
00:49:38,552 --> 00:49:40,952
已经有个大概概念的一个领域

1187
00:49:40,952 --> 00:49:43,152
在现在对于GBT是这么强大的系统

1188
00:49:43,152 --> 00:49:45,712
如果你连它的能力我们都没有认识清楚的话

1189
00:49:45,712 --> 00:49:48,792
贸然开源可能确实是有很大的风险

1190
00:49:48,792 --> 00:49:49,872
但另外一方面呢

1191
00:49:49,872 --> 00:49:51,752
我觉得也有很多商业意义上

1192
00:49:51,752 --> 00:49:54,352
或者是舆论意义上的这种竞争

1193
00:49:54,352 --> 00:49:56,352
这种吵吵嚷嚷总是有很多的

1194
00:49:56,352 --> 00:49:57,744
这里面关键还是说

1195
00:49:57,744 --> 00:49:59,504
本质上我是比较相信开源的

1196
00:49:59,504 --> 00:50:01,464
但是我觉得肯定不是从一开始就开源

1197
00:50:01,904 --> 00:50:03,784
可能还是我们要对它有更多的了解

1198
00:50:04,264 --> 00:50:07,384
至少我们知道怎么防御之后开源我觉得会比较好

1199
00:50:07,664 --> 00:50:10,304
我觉得OpenAI的股权设置也很有意思

1200
00:50:10,304 --> 00:50:14,384
Sam本人他其实是没有任何OpenAI的股权的

1201
00:50:14,384 --> 00:50:16,304
如果我没有记错的话应该是零股权

1202
00:50:16,584 --> 00:50:20,264
他们的几个科学家像Elia还有那个叫Greg Brockman

1203
00:50:20,544 --> 00:50:22,464
其实主要的股权是给这些科学家的

1204
00:50:22,664 --> 00:50:25,544
他的公司设置最开始也是从非盈利息公司

1205
00:50:25,712 --> 00:50:28,992
後面是在非盈利下面又設了一個盈利性公司

1206
00:50:28,992 --> 00:50:30,312
如果我沒有記錯的話

1207
00:50:30,312 --> 00:50:32,712
他盈利性那一部分如果有股權

1208
00:50:32,712 --> 00:50:34,192
就是有財務回報的話

1209
00:50:34,192 --> 00:50:38,032
那麼他在董事會上他的投票權是沒有的

1210
00:50:38,032 --> 00:50:41,792
但是Sam選擇了不要錢,要投票權

1211
00:50:41,792 --> 00:50:45,392
我是在想為什麼他要去做這樣一種設置

1212
00:50:45,392 --> 00:50:48,592
是不是說未來就比如說要實現AGI

1213
00:50:48,592 --> 00:50:52,112
他前面還是要忍受很長時間很久的不盈利

1214
00:50:52,304 --> 00:50:54,624
然後去做到他最終的那個目標的

1215
00:50:54,624 --> 00:50:57,104
他很怕這個事情被商業所帶歪

1216
00:50:57,704 --> 00:50:59,264
我們這都是局外人

1217
00:50:59,264 --> 00:51:01,104
甚至都不是很接近的局外人

1218
00:51:01,104 --> 00:51:02,944
只有去從他表面去看

1219
00:51:03,544 --> 00:51:04,704
其實他提到了一點

1220
00:51:04,704 --> 00:51:07,504
就是說微軟現在有49%的收益權

1221
00:51:07,504 --> 00:51:08,504
我可以給你賺錢

1222
00:51:08,504 --> 00:51:09,704
但你擁有的是收益權

1223
00:51:09,704 --> 00:51:10,784
你不能擁有控制權

1224
00:51:10,784 --> 00:51:13,464
因為他們從一開始就本質上的去相信

1225
00:51:13,464 --> 00:51:14,704
這樣的技術很危險

1226
00:51:14,704 --> 00:51:16,704
需要得到有效的監管和控制

1227
00:51:16,704 --> 00:51:19,144
不能夠落入邪惡的大公司手裡

1228
00:51:19,328 --> 00:51:22,568
但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發

1229
00:51:22,568 --> 00:51:26,808
所以才定下來這種收益和控制分開的這樣一個協定

1230
00:51:26,808 --> 00:51:29,848
然後才有你賺錢你就不能投票的這種邏輯

1231
00:51:29,848 --> 00:51:32,248
就是投票權和賺錢你只能選一個

1232
00:51:32,248 --> 00:51:35,208
我還是挺相信這一點的 說實話

1233
00:51:35,208 --> 00:51:37,448
我是覺得這是一個很誠懇的一個表達

1234
00:51:37,448 --> 00:51:39,048
也是一個很美國式的

1235
00:51:39,048 --> 00:51:40,408
如果把這個話說清楚

1236
00:51:40,408 --> 00:51:42,848
你要麼賺錢 要麼有控制 你只能選一個

1237
00:51:42,848 --> 00:51:44,888
我覺得其實是一個很有意思的設定

1238
00:51:44,888 --> 00:51:48,368
open edge開始的時候它能夠吸引很多優秀人才

1239
00:51:48,368 --> 00:51:49,312
就是因為

1240
00:51:49,312 --> 00:51:52,952
它不是一個在corporate裏面你需要去

1241
00:51:52,952 --> 00:51:56,352
完成一些比如說讓更多人看廣告這樣的事情

1242
00:51:56,352 --> 00:51:58,512
但同時呢它有很多捐贈

1243
00:51:58,512 --> 00:52:00,912
所以說你還是可以過上不錯的生活

1244
00:52:00,912 --> 00:52:03,672
但到後面確實OpenAI自己需要很多錢

1245
00:52:03,672 --> 00:52:05,872
同時這些員工人也變多了

1246
00:52:05,872 --> 00:52:07,152
也需要更多的激勵

1247
00:52:07,152 --> 00:52:09,512
所以後面變成了一家公司

1248
00:52:09,512 --> 00:52:13,512
但是它還是要解決公司做大了被資本裹挾的這個問題

1249
00:52:13,512 --> 00:52:16,312
所以我是覺得這個解決方案還蠻有意思的

1250
00:52:16,448 --> 00:52:19,368
但是也是需要真的有非常有vision的人

1251
00:52:19,368 --> 00:52:22,528
而且有實力去說服別人的人才能達成這麼個方案

1252
00:52:22,528 --> 00:52:24,728
否則對微軟來講我花了這麼多錢

1253
00:52:24,728 --> 00:52:25,728
當然我也賺很多錢

1254
00:52:25,728 --> 00:52:27,288
但是最後我沒有得到的平安

1255
00:52:27,288 --> 00:52:29,248
這其實也是一個常理來講

1256
00:52:29,248 --> 00:52:31,168
不一定能被所有人接受的方案

1257
00:52:31,608 --> 00:52:34,888
因為你們現在其實投大模型也投應用層啊

1258
00:52:34,888 --> 00:52:36,808
就我很好奇從投資的角度

1259
00:52:37,048 --> 00:52:39,928
你會怎麼去判斷一個項目甚至是一個人

1260
00:52:39,928 --> 00:52:41,248
他是不是值得你投的

1261
00:52:41,248 --> 00:52:44,808
我記得廣密當時在朋友圈發了一條文字

1262
00:52:44,808 --> 00:52:45,608
他就說

1263
00:52:45,632 --> 00:52:48,232
中國什麽樣的人能做出openai

1264
00:52:48,232 --> 00:52:51,832
我不知道你們怎麽看這個人需要具備哪些素質

1265
00:52:51,832 --> 00:52:57,032
其實我覺得做openai和做其他的公司需要的一些底層能力

1266
00:52:57,032 --> 00:52:58,832
我們一直認為是類似的

1267
00:52:58,832 --> 00:53:01,432
比如說我們一直說創業者的一些基礎能力

1268
00:53:01,432 --> 00:53:04,512
比如說學習力、領導力、創新力、意志力

1269
00:53:04,512 --> 00:53:06,312
我覺得這些是比較普世的

1270
00:53:06,312 --> 00:53:08,712
openai有它的歷史背景

1271
00:53:08,712 --> 00:53:12,312
有它的成長的國家和市場環境

1272
00:53:12,312 --> 00:53:15,312
第一個去做和第二個做也不一樣

1273
00:53:15,312 --> 00:53:15,360
我們要做的是創新

1274
00:53:15,360 --> 00:53:17,800
第一個可能需要很強的探索能力

1275
00:53:17,800 --> 00:53:20,160
但第二個可能往往需要是執行力

1276
00:53:20,160 --> 00:53:22,760
所以我覺得不宜直接去類比

1277
00:53:22,760 --> 00:53:26,160
但是我覺得OpenAI幾個人的搭配確實是非常厲害

1278
00:53:26,160 --> 00:53:29,680
每個人在自己應該做的事情上都是世界頂級的

1279
00:53:29,680 --> 00:53:33,680
而且其實我當時翻譯過一篇Grog Brockman的文章

1280
00:53:33,680 --> 00:53:35,760
他其實90%的時間都在寫代碼

1281
00:53:35,760 --> 00:53:38,040
這個事情我覺得不只是說他喜歡寫代碼

1282
00:53:38,040 --> 00:53:38,960
或者代碼寫得好

1283
00:53:38,960 --> 00:53:42,960
是說在這種很多事情都不確定的時候

1284
00:53:43,088 --> 00:53:46,408
組織裏面有一個非常有話語權

1285
00:53:46,408 --> 00:53:48,008
並且又非常hands on

1286
00:53:48,008 --> 00:53:52,888
知道每一個環節具體在做什麽的人是很重要的

1287
00:53:52,888 --> 00:53:54,888
因為很多時候當一個這樣的公司

1288
00:53:54,888 --> 00:53:56,128
是幾百億美金了

1289
00:53:56,128 --> 00:53:57,328
然後組織大了

1290
00:53:57,328 --> 00:53:59,328
可能他就變成了一個cto

1291
00:53:59,328 --> 00:54:01,248
或者說什麽這樣一個角色

1292
00:54:01,248 --> 00:54:02,408
那就會遠離一線

1293
00:54:02,408 --> 00:54:04,488
但是那種情況下往往是

1294
00:54:04,488 --> 00:54:06,208
如果你的業務已經表清楚了

1295
00:54:06,320 --> 00:54:07,480
大家該幹嘛是表清楚

1296
00:54:07,480 --> 00:54:11,040
但現在很多時候還是這一個學習研究探索的階段

1297
00:54:11,040 --> 00:54:13,160
這個時候一個人會的東西

1298
00:54:13,160 --> 00:54:15,680
牽涉到了領域多牽涉到團隊多

1299
00:54:15,680 --> 00:54:16,960
其實是很有幫助的

1300
00:54:17,240 --> 00:54:20,520
所以這其實都是叫做說運氣也好

1301
00:54:20,520 --> 00:54:22,160
或者說是有益設定也好

1302
00:54:22,160 --> 00:54:24,240
這還是挺厲害的一些設定的

1303
00:54:24,600 --> 00:54:27,120
但是未必中國的也是要一模一樣的搭配

1304
00:54:27,120 --> 00:54:27,600
對吧

1305
00:54:27,680 --> 00:54:29,640
比如說有技術背景的人當CEO的

1306
00:54:29,640 --> 00:54:32,480
也有老王這種商業業務背景的人當CEO的

1307
00:54:32,480 --> 00:54:33,200
我覺得都有

1308
00:54:33,472 --> 00:54:37,112
我們只能說創業呢它永遠無法是一個完美的一副牌

1309
00:54:37,112 --> 00:54:39,312
或者說哪怕你有看上去完美的一副牌

1310
00:54:39,312 --> 00:54:40,632
你也未必能打得完美

1311
00:54:40,632 --> 00:54:43,552
所以我覺得還是一有什麼牌然後去把它打好

1312
00:54:43,552 --> 00:54:45,312
你還有什麼要補充的嗎

1313
00:54:45,312 --> 00:54:49,832
首先我覺得AI這一波跟之前的元宇宙也好

1314
00:54:49,832 --> 00:54:52,992
Web3也好這種大家覺得很有泡沫的浪潮

1315
00:54:52,992 --> 00:54:54,992
我覺得還有些不太一樣的地方

1316
00:54:54,992 --> 00:54:57,152
首先任何科技進步都有很多泡沫

1317
00:54:57,152 --> 00:54:58,272
這個是肯定的

1318
00:54:58,272 --> 00:55:00,272
沒有泡沫的地方也不會有啤酒

1319
00:55:00,272 --> 00:55:02,672
但是呢我覺得判斷一個事情是不是

1320
00:55:02,704 --> 00:55:05,424
只有泡沫或者說泡沫上大多數呢 需要看

1321
00:55:05,424 --> 00:55:10,624
它是不是真的為主流的普通的用戶提供了很直接的價值

1322
00:55:10,624 --> 00:55:14,824
是不是真的是我因為要用這個技術所以我去用

1323
00:55:14,824 --> 00:55:18,344
還是說我能夠賺錢 或者說我聽說別人說未來很有用

1324
00:55:18,344 --> 00:55:20,424
還是現在立刻就有用 從這點來講

1325
00:55:20,424 --> 00:55:22,784
我覺得現在我們看到大圓模型為代表的

1326
00:55:22,784 --> 00:55:24,664
包括說生成式的AI

1327
00:55:24,768 --> 00:55:25,968
不管是文字還是圖片

1328
00:55:25,968 --> 00:55:29,408
是真真正正對普通的主流用戶群體

1329
00:55:29,408 --> 00:55:32,128
實在產生價值門檻也比較低

1330
00:55:32,128 --> 00:55:34,408
不管是從成本還是使用的難度來講

1331
00:55:34,408 --> 00:55:36,168
都比較低的一種技術

1332
00:55:36,168 --> 00:55:38,728
比起之前的一些被炒得很熱的

1333
00:55:38,728 --> 00:55:40,568
但是實際應用場景比較缺乏

1334
00:55:40,568 --> 00:55:42,368
用起來又比較難用的技術來講

1335
00:55:42,368 --> 00:55:44,488
我覺得還是有很大的區別的

1336
00:55:44,488 --> 00:55:46,368
所以我首先認為它是一個

1337
00:55:46,368 --> 00:55:48,128
雖然也是有很多泡沫

1338
00:55:48,128 --> 00:55:49,288
很多喧囂在裏面

1339
00:55:49,288 --> 00:55:51,528
但是我覺得會有很多啤酒的一個領域

1340
00:55:51,648 --> 00:55:55,528
我覺得可能是我們人類面臨的最大的一次技術革命

1341
00:55:55,528 --> 00:55:57,528
因為最本質的一點是說

1342
00:55:57,528 --> 00:56:01,488
原來我們所有的技術其實都在改進我們使用的工具

1343
00:56:01,488 --> 00:56:04,648
而這次是第一次用工具的這一邊

1344
00:56:04,648 --> 00:56:06,248
其實發生了變化

1345
00:56:06,248 --> 00:56:10,288
並且這個變化可能是比我們要更強大的一個存在

1346
00:56:10,288 --> 00:56:15,088
這個其實我覺得會在社會學、心理學等各個方面產生很重大的影響

1347
00:56:15,088 --> 00:56:18,688
因為它是發生在數字世界的

1348
00:56:18,912 --> 00:56:21,592
我們過去幾十年甚至上百年

1349
00:56:21,592 --> 00:56:25,872
我們往往在不斷地低估數字世界的變化速度

1350
00:56:25,872 --> 00:56:28,032
而高估物理世界的變化速度

1351
00:56:28,032 --> 00:56:31,192
比如說我們原來覺得有終結者terminator

1352
00:56:31,192 --> 00:56:33,912
結果現在我們的AI可能已經快到那個程度了

1353
00:56:33,912 --> 00:56:35,232
但機器人還差很遠

1354
00:56:35,232 --> 00:56:37,992
數字世界的迭代是快的

1355
00:56:37,992 --> 00:56:39,872
成本下降是快的

1356
00:56:39,872 --> 00:56:44,752
那麼現在我們看到的很多像AutoGPT這樣的雛形

1357
00:56:44,752 --> 00:56:47,712
可能三五年之後就會變得完全不一樣

1358
00:56:47,760 --> 00:56:49,760
會完善成熟很多

1359
00:56:49,760 --> 00:56:53,040
所以在這過程中我覺得要保持開放心態

1360
00:56:53,040 --> 00:56:56,600
然後很重要一點是在一個技術革命的早期

1361
00:56:56,600 --> 00:56:58,840
去預測未來基本上都是錯的

1362
00:56:58,840 --> 00:57:02,080
所以現在不管是我也好還是誰也好

1363
00:57:02,080 --> 00:57:03,440
我覺得講了很多話呢

1364
00:57:03,440 --> 00:57:05,320
我覺得你可以認為第一都是錯的

1365
00:57:05,320 --> 00:57:08,720
第二它的實現的路徑和結果可能都完全不一樣

1366
00:57:08,720 --> 00:57:10,432
因為試想2010年的時候

1367
00:57:10,432 --> 00:57:12,672
移動互聯網那個時候其實已經開始了

1368
00:57:12,672 --> 00:57:15,712
然後移動互聯網跟互聯網比其實也差不太多

1369
00:57:15,712 --> 00:57:19,632
但如果你在2010年你預測2023年的移動互聯網贏家

1370
00:57:19,632 --> 00:57:25,232
你會不會想到字節想不到快手小紅書拼多多美團滴滴uber

1371
00:57:25,232 --> 00:57:27,032
我覺得是很難很難的

1372
00:57:27,032 --> 00:57:29,072
那麽如果移動互聯網都這麽難

1373
00:57:29,072 --> 00:57:30,432
那AI我覺得就更難

1374
00:57:30,432 --> 00:57:34,192
有人說大模型會吞噬要應用的空間

1375
00:57:34,192 --> 00:57:37,192
也許有人說開源的會戰勝閉源的或者什麽怎麽樣

1376
00:57:37,192 --> 00:57:37,712
我覺得

1377
00:57:37,808 --> 00:57:41,688
我們一定要記住這是一個大部分人就只接觸了幾個月的技術

1378
00:57:41,688 --> 00:57:44,848
所以這個時候的很多預計 我覺得看看它的道理是什麽

1379
00:57:44,848 --> 00:57:48,208
但不用特別在意它的精確度

1380
00:57:48,208 --> 00:57:51,808
因為這個時候開始去做 尤其是對年輕人來講

1381
00:57:51,808 --> 00:57:55,368
早點去投身其中去嘗試去探索

1382
00:57:55,368 --> 00:57:57,168
其實是代表命運最好的方式

1383
00:57:57,440 --> 00:58:01,640
因為我在過去幾年經常聽人說80後很幸運對吧

1384
00:58:01,640 --> 00:58:04,120
像我們80後趕上了互聯網所以怎麽怎麽樣

1385
00:58:04,120 --> 00:58:06,760
但我覺得以後20年之後大家會說00後很幸運

1386
00:58:06,760 --> 00:58:09,280
因為趕上了AGI的Spark誕生的時候

1387
00:58:09,280 --> 00:58:12,000
在這個時候我們因為是做天使投資嘛

1388
00:58:12,000 --> 00:58:14,720
而且我們相信當技術比較成熟的時候

1389
00:58:14,720 --> 00:58:16,960
有利於連續創業者這些老司機們

1390
00:58:16,960 --> 00:58:18,960
但是技術比較新的時候呢

1391
00:58:18,960 --> 00:58:21,200
是有益於年輕人這些小天才們

1392
00:58:21,200 --> 00:58:24,160
這些年輕人呢他們一般都是年輕有衝勁

1393
00:58:24,160 --> 00:58:27,040
對這個技術很早就喜歡很早就感興趣

1394
00:58:27,040 --> 00:58:27,152
所以我相信未來的技術是會有益的

1395
00:58:27,152 --> 00:58:30,232
自己用的很多並且具備很好的知性能力

1396
00:58:30,232 --> 00:58:31,952
和國際化視野的年輕人

1397
00:58:31,952 --> 00:58:34,552
所以我們也是非常希望能夠多多尋找

1398
00:58:34,552 --> 00:58:35,752
在 AI 這個領域

1399
00:58:35,752 --> 00:58:37,952
不管你是要做比較底層的模型

1400
00:58:37,952 --> 00:58:40,152
或者中間層或者是做應用

1401
00:58:40,152 --> 00:58:42,752
我們都希望跟大家多多交流多多合作

1402
00:58:42,752 --> 00:58:44,432
好的 謝謝宇森

1403
00:58:44,432 --> 00:58:45,632
好的 謝謝

1404
00:58:45,632 --> 00:58:46,952
這就是我們今天的節目

1405
00:58:46,952 --> 00:58:48,392
如果大家喜歡我們的節目

1406
00:58:48,392 --> 00:58:51,552
或者大家對大模型有什麽樣的想法

1407
00:58:51,552 --> 00:58:53,832
可以在我們的評論區留言給我們

1408
00:58:53,936 --> 00:58:57,256
中國的聽眾可以通過蘋果播客小宇宙

1409
00:58:57,256 --> 00:59:02,136
喜馬拉雅 星庭FM 勵志FM 網易語音音樂 QQ音樂來關注我們

1410
00:59:02,136 --> 00:59:05,736
海外的聽眾可以通過Apple Podcast Google Podcast

1411
00:59:05,736 --> 00:59:08,456
Spotify 還有Amazon Music來收聽我們

1412
00:59:08,456 --> 00:59:10,456
感謝大家的收聽 謝謝
pofeng

Z-Bench 1.0 ：一個麻瓜的大語言模型中文測試集 by 真格基金

沒有留言:

張貼留言