pofeng

Z-Bench 1.0 ：一個麻瓜的大語言模型中文測試集 by 真格基金

2023-05-09T23:49:00.011+08:00

硅谷101 E108｜从20分迅速追到50分，国产大模型难在哪儿

Z-Bench 1.0 ：一個麻瓜的大語言模型中文測試集
https://github.com/zhenbench/z-bench

真格基金於 3 月發表 Z-Bench v0.9 , 當時的初步測試結果 : https://www.sohu.com/a/655676937_355029

戴雨森:
00:16:03
所以我們一直在強調就是這是我們自己做VC
我們希望比一般的用戶專業一點點就可以了
但它 (Z-Bench) 並不是一個特別的科學
特別嚴肅的一個測試

一個類似的問題 : 爆炒籃球 ,
泓君: "最開始 GPT3.5 還會正常的去解釋這個爆炒籃球是怎麼樣做的, 但是隔了兩天, GPT3.5 開始是告訴大家做了這個菜以後, 然後說爆炒籃球是不能吃的, 或者這樣做是有風險的, 再隔一天GPT3.5就會告訴大家, 爆炒籃球不是一個菜"

真格基金戴雨森:

00:40:36
像現在微軟可以每天訓練一個GPT-3
變成一個順手就可以做的事情
但是微軟自己是沒法訓練GPT-4的
是需要在Azure那台專門為訓練GPT-4打造的超算上才可以訓練的
所以你會發現這裡面這個訓練的難度是高了很多

00:41:16
比如說其實GPT-4初始的能力更強很多
我看過一些沒有經過微調的GPT-4
比如畫出來的圖像
它是要比現在的GPT-4畫出圖像更精細很多的
如果你看了那篇通用人工智能的火花那篇論文
你發現GPT-4是可以畫圖的
比如它裡面畫了個獨角獸
但是那個已經是經過微調之後的GPT-4畫的了
當沒有經過微調的GPT-4畫的圖
其實要比那個精細很多
換句話說GPT-4為了和人類對齊
犧牲了很多它的能力

00:51:03
其實他提到了一點
就是說微軟現在有49%的 (OpenAI) 收益權
我可以給你賺錢
但你擁有的是收益權
你不能擁有控制權
因為他們從一開始就本質上的去相信
這樣的技術很危險
需要得到有效的監管和控制
不能夠落入邪惡的大公司手裡
但是呢又沒辦法因為大公司有錢能夠幫助他們去開發
所以才定下來這種收益和控制分開的這樣一個協定
然後才有你賺錢你就不能投票的這種邏輯
就是投票權和賺錢你只能選一個

00:56:53
然後很重要一點是在一個技術革命的早期
去預測未來基本上都是錯的
所以現在不管是我也好還是誰也好
我覺得講了很多話呢
我覺得你可以認為
第一: 都是錯的
第二: 它的實現的路徑和結果可能都完全不一樣

~~~

1
00:00:00,762 --> 00:00:02,762
欢迎收听硅谷101

2
00:00:02,762 --> 00:00:05,762
这是一档分享当下最新鲜的

3
00:00:05,762 --> 00:00:08,762
技术、知识与思想的科技播客

4
00:00:08,762 --> 00:00:09,762
我是红军

5
00:00:09,762 --> 00:00:12,762
相信很多朋友也看到了

6
00:00:12,762 --> 00:00:14,762
我们的业务在越做越多

7
00:00:14,762 --> 00:00:16,762
我们有硅谷101的播客

8
00:00:16,762 --> 00:00:18,762
也有硅谷101的视频

9
00:00:18,762 --> 00:00:20,762
在B站和YouTube上播放

10
00:00:20,762 --> 00:00:22,762
还有一档播客呢

11
00:00:22,762 --> 00:00:24,762
叫做Web3101

12
00:00:24,762 --> 00:00:26,762
那随着我们内容的变多

13
00:00:27,888 --> 00:00:30,888
也非常需要更多的小伙伴加入

14
00:00:30,888 --> 00:00:36,688
所以我们的节目正在开启创建以来第一轮的大型的全职招聘

15
00:00:36,688 --> 00:00:39,488
我们正在招聘播客的节目监制

16
00:00:39,488 --> 00:00:41,288
我们希望他懂内容

17
00:00:41,288 --> 00:00:43,888
懂科技行业和web3行业

18
00:00:43,888 --> 00:00:47,688
那还在招聘视频的后期商务和运营

19
00:00:47,688 --> 00:00:50,488
具体信息大家可以看节目的show notes

20
00:00:50,688 --> 00:00:54,888
感兴趣的小伙伴也可以把你们的简历还有代表作品

21
00:00:54,888 --> 00:00:59,688
发送到我们的邮箱 podcast at sv101.net

22
00:00:59,688 --> 00:01:09,408
我再说一遍邮箱的地址是 podcast at sv101.net

23
00:01:09,408 --> 00:01:13,288
非常期待对做内容有热情的小伙伴来加入我们

24
00:01:13,288 --> 00:01:15,488
跟我们一起创作

25
00:01:15,488 --> 00:01:18,688
这期节目继续我们的AIGC特辑

26
00:01:18,800 --> 00:01:20,800
今天我们邀请到的嘉宾是

27
00:01:20,800 --> 00:01:23,200
真格基金的管理合伙人戴宇森

28
00:01:23,200 --> 00:01:25,040
他会跟我们一起聊一下

29
00:01:25,040 --> 00:01:27,600
他自己的大模型的使用体验

30
00:01:27,600 --> 00:01:29,800
以及他们是如何设计了一套

31
00:01:29,800 --> 00:01:32,400
给大模型的打分器系统

32
00:01:32,400 --> 00:01:34,960
还有他眼中什么样的团队

33
00:01:34,960 --> 00:01:37,800
可以打造出中国的OpenAI

34
00:01:37,800 --> 00:01:39,600
哈喽宇森你好

35
00:01:39,600 --> 00:01:40,600
哈喽你好

36
00:01:42,400 --> 00:01:43,920
今天邀请你是因为

37
00:01:43,920 --> 00:01:46,640
我在补我过去缺失的一些功课

38
00:01:46,640 --> 00:01:47,880
就我们知道过去几个月

39
00:01:47,880 --> 00:01:49,880
其实大模型的发展特别特别的快

40
00:01:50,160 --> 00:01:51,320
3月份的时候

41
00:01:51,440 --> 00:01:53,560
OpenAI它在去密集的发布

42
00:01:53,560 --> 00:01:54,880
比如说像GPT-4

43
00:01:54,880 --> 00:01:56,920
然后微软也在发布它的NewBeam

44
00:01:57,160 --> 00:01:58,840
包括谷歌也有很多的动作

45
00:01:59,000 --> 00:02:00,280
4月份的时候我看

46
00:02:00,440 --> 00:02:03,120
现在大概是一个中国密集的

47
00:02:03,120 --> 00:02:04,720
大模型的发布时期

48
00:02:04,880 --> 00:02:06,920
我觉得这个发展速度其实已经

49
00:02:07,080 --> 00:02:10,000
远远的超过了我以前作为一个记者

50
00:02:10,160 --> 00:02:12,960
去跟踪任何一个行业它的发展速度了

51
00:02:13,056 --> 00:02:14,856
还是有很多我跟不上的地方

52
00:02:14,856 --> 00:02:17,456
我知道你对这个方向包括其中的论文

53
00:02:17,456 --> 00:02:19,056
创业公司你都聊过

54
00:02:19,056 --> 00:02:22,416
所以今天也算是给我还有给我们的听众们补补课

55
00:02:22,416 --> 00:02:23,416
没有互相交流

56
00:02:23,416 --> 00:02:26,376
我们也有很多现在还没有搞清楚的问题

57
00:02:26,376 --> 00:02:28,736
但我觉得确实每天的发展都非常的快

58
00:02:28,736 --> 00:02:32,536
所以我们讲了很多东西现在看可能也是不完整的

59
00:02:32,536 --> 00:02:34,936
很多我觉得很快就会被打脸

60
00:02:34,936 --> 00:02:37,136
其实我对你特别感兴趣是两个点

61
00:02:37,136 --> 00:02:38,136
第一个点是

62
00:02:38,136 --> 00:02:40,936
我看你是一个大模型的深度使用者

63
00:02:40,936 --> 00:02:42,496
不管是语言模型

64
00:02:42,496 --> 00:02:47,216
还是mid journey就是这种图片模型 就是你要发很多自己的使用体验

65
00:02:47,216 --> 00:02:52,616
第二点就是作为一个投资人你怎么看 所以我们今天也大概会分成这两个部分去聊

66
00:02:52,616 --> 00:02:57,056
最开始你是什么时候开始注意到大模型 然后去用它的

67
00:02:57,056 --> 00:03:03,056
我是一个使用者 这首先来自于我自己是一个对于新东西狂热爱好者

68
00:03:03,056 --> 00:03:05,056
我非常喜欢尝试新东西

69
00:03:05,168 --> 00:03:08,448
所以我比较相信在一个大的革命发生的时候

70
00:03:08,448 --> 00:03:11,048
最好的方式是要去使用是要去体验

71
00:03:11,048 --> 00:03:12,568
而不是只是去研究

72
00:03:12,568 --> 00:03:15,768
因为这里面百温不如一见百健不如一用

73
00:03:16,208 --> 00:03:19,008
我自己呢当然在GPT-3出来的时候

74
00:03:19,008 --> 00:03:20,888
其实也在一些demo上尝试过

75
00:03:20,888 --> 00:03:23,248
包括当时也有一些人做这样的应用

76
00:03:23,248 --> 00:03:24,008
但坦率来讲

77
00:03:24,008 --> 00:03:26,768
那个时候GPT-3表现出来的对话能力

78
00:03:26,768 --> 00:03:28,888
尤其是中文对话能力其实没有那么强

79
00:03:28,888 --> 00:03:31,088
在chat GPT出来当天晚上

80
00:03:31,088 --> 00:03:32,728
是我们的一位同事

81
00:03:32,728 --> 00:03:34,688
他第一时间用上了chat GPT

82
00:03:34,768 --> 00:03:37,568
然后他非常的兴奋 他一直用到凌晨五六点钟

83
00:03:37,568 --> 00:03:39,648
他跟我们说一定要赶紧去用

84
00:03:39,648 --> 00:03:41,328
我当时没有openai账号

85
00:03:41,328 --> 00:03:43,648
所以我还弄国外手机号什么的

86
00:03:43,648 --> 00:03:44,648
花了一点时间

87
00:03:44,648 --> 00:03:46,928
我在10加20个小时之后用上了

88
00:03:46,928 --> 00:03:48,888
我自己也是非常非常震撼

89
00:03:48,888 --> 00:03:51,728
因为之前的这些chatbot型的应用

90
00:03:51,728 --> 00:03:52,968
如果大家记得的话

91
00:03:52,968 --> 00:03:56,608
其实在15 16年那块是有一波创业的热潮

92
00:03:56,608 --> 00:03:57,888
有很多人做一些chatbot

93
00:03:57,888 --> 00:03:59,568
日常来说小兵啊

94
00:03:59,568 --> 00:04:00,728
各种女兵出手啊

95
00:04:00,728 --> 00:04:01,568
这些也都聊过

96
00:04:01,712 --> 00:04:05,192
其实在之前都很少有语音助手或者说对话机器人

97
00:04:05,192 --> 00:04:06,952
能够把多轮对话给聊下来的

98
00:04:07,312 --> 00:04:09,872
但是当你第一次用到ChatterGBT的时候

99
00:04:09,872 --> 00:04:11,552
你就知道它的能力远远超过了

100
00:04:11,552 --> 00:04:13,552
以前我们见到了所有的AI的应用

101
00:04:13,872 --> 00:04:15,392
我觉得这个是第一反应

102
00:04:15,392 --> 00:04:18,272
然后呢我就发现其实有很多很多的

103
00:04:18,272 --> 00:04:21,632
原来我们完全没有想到一个聊天机器人能够做的事情

104
00:04:21,832 --> 00:04:23,792
当时也在推特上看全世界的网友

105
00:04:23,792 --> 00:04:25,872
在分享各种各样的好的使用案例

106
00:04:26,272 --> 00:04:29,912
我自己觉得最震撼的一点是我当时用自然语言

107
00:04:29,912 --> 00:04:30,952
也就是用大白话

108
00:04:31,072 --> 00:04:33,552
描述了一下20问这个游戏的规则

109
00:04:33,552 --> 00:04:35,712
20问其实就是我心里想一个东西

110
00:04:35,712 --> 00:04:37,232
可以问20个问题

111
00:04:37,232 --> 00:04:40,072
每个问题比如说你想的是不是一个有生命的

112
00:04:40,072 --> 00:04:42,152
然后我可以回答是或者否或者不确定

113
00:04:42,152 --> 00:04:44,552
然后你尝试来猜到我心中想的是什么

114
00:04:44,552 --> 00:04:48,032
我大概就用100多个字把这个规则跟他描述了一遍

115
00:04:48,032 --> 00:04:50,112
他就可以跟我来玩20问这个游戏

116
00:04:50,112 --> 00:04:51,432
第一次我想的是猫

117
00:04:51,432 --> 00:04:54,192
他用了大概五六步就猜到是猫

118
00:04:54,192 --> 00:04:55,712
第二次我想了拜登

119
00:04:55,712 --> 00:04:57,832
他用了大概14步猜到是拜登

120
00:04:57,832 --> 00:04:58,912
然后我彻底被震惊了

121
00:04:58,912 --> 00:05:01,032
你觉得他跟真人的那个水平怎么样

122
00:05:01,152 --> 00:05:04,192
我觉得第一步就是说他能够理解我给他的这个规则

123
00:05:04,192 --> 00:05:07,312
第二步是他能够有效的使用二分法去进行查找

124
00:05:07,672 --> 00:05:09,552
因为在这个里面你怎么高效的去找

125
00:05:09,552 --> 00:05:10,992
你其实需要做些二分法

126
00:05:10,992 --> 00:05:12,312
比如他是不是有生命的

127
00:05:12,312 --> 00:05:13,672
有生命的他是不是人

128
00:05:13,912 --> 00:05:15,632
他是不是一个正在活着的人

129
00:05:15,792 --> 00:05:17,912
一个会玩的人和不太会玩的人

130
00:05:17,912 --> 00:05:19,672
他的查找方式是挺不一样的

131
00:05:19,832 --> 00:05:21,632
我觉得他其实做的非常非常好

132
00:05:22,072 --> 00:05:24,352
所以后面我在进行各种各样的新的尝试

133
00:05:24,352 --> 00:05:27,072
比如说我让他尝试跟我下棋尝试写代码

134
00:05:27,344 --> 00:05:28,984
我尝试让他当我的英语老师

135
00:05:28,984 --> 00:05:32,064
他可以从初中到研究生水平给我出不同的英语的题

136
00:05:32,064 --> 00:05:33,184
改我写的英语作文

137
00:05:33,184 --> 00:05:34,624
并且给出很多很好的建议

138
00:05:34,624 --> 00:05:38,064
我就发现他不断能发现他能够做到的不一样的事情

139
00:05:38,424 --> 00:05:41,024
另外一方面我自己因为曾经是一个设计师

140
00:05:41,024 --> 00:05:42,824
所以我也是Middle Journey的重度用户

141
00:05:43,104 --> 00:05:45,144
我是从当时22年8月份

142
00:05:45,144 --> 00:05:46,824
Middle Journey发布的时候就开始用

143
00:05:47,024 --> 00:05:48,504
到现在画了几千张图

144
00:05:48,504 --> 00:05:51,264
然后我就看到V3 V4 V5越来越好

145
00:05:51,504 --> 00:05:53,264
同时我也在自己机器上部署

146
00:05:53,264 --> 00:05:54,104
Stable Diffusion

147
00:05:54,104 --> 00:05:54,904
AutoGPT

148
00:05:54,904 --> 00:05:56,944
Baby HGI这些新出来的实验

149
00:05:57,152 --> 00:06:00,912
你自己用Meet Journey你能感受到它的进化在哪里吗

150
00:06:00,912 --> 00:06:02,512
可不可以跟大家讲一下这种

151
00:06:02,512 --> 00:06:04,272
我们刚刚在讲大语言模型

152
00:06:04,272 --> 00:06:07,352
那基于扩散模型你觉得它表现的怎么样

153
00:06:07,632 --> 00:06:09,552
Meet Journey我是从V3开始用的

154
00:06:09,552 --> 00:06:11,072
V3开始用的时候呢

155
00:06:11,072 --> 00:06:14,472
我觉得它能够产生一些有意思的概念

156
00:06:14,472 --> 00:06:17,592
但是到实际使用还有很大的差距

157
00:06:17,872 --> 00:06:21,712
第一步来讲就是说它能不能做出比较逼真的画面

158
00:06:21,912 --> 00:06:23,392
我觉得这个是比较难的

159
00:06:23,392 --> 00:06:25,712
但V4是直接上了个大的台阶

160
00:06:25,936 --> 00:06:30,776
V4对于人物照片这些的处理 包括一些很风格化的处理

161
00:06:30,776 --> 00:06:37,136
我觉得是很明显到了一个能够打败大多数的普通艺术从业人员

162
00:06:37,136 --> 00:06:39,776
和跟照片比较接近的水平

163
00:06:39,776 --> 00:06:44,736
V5在很多细节的真实度 场景的真实度上加强了很多

164
00:06:44,736 --> 00:06:46,976
有的时候也不是那么的风格化了

165
00:06:46,976 --> 00:06:49,256
因为现实世界不是那么风格迥异的

166
00:06:49,256 --> 00:06:51,776
它往往是看着有点平淡但真实的

167
00:06:51,776 --> 00:06:54,736
然后我觉得它一个非常重要的功能就是Describe

168
00:06:54,896 --> 00:06:57,336
Describe这功能它就是让你传一张图片

169
00:06:57,336 --> 00:06:58,936
它生成几个可能的prompt

170
00:06:59,376 --> 00:07:03,216
因为你直接对着一个输入框去想你要画什么

171
00:07:03,216 --> 00:07:04,496
其实是件挺难的事情

172
00:07:04,696 --> 00:07:08,896
但是人的创作往往都是说先看到有个东西被激发灵感

173
00:07:08,936 --> 00:07:11,416
然后去在这基础上去调整

174
00:07:11,656 --> 00:07:13,536
所以我现在可以把我看到的一个

175
00:07:13,576 --> 00:07:15,136
我觉得这个构图不错

176
00:07:15,176 --> 00:07:16,976
但是这个里面的对象我要改一下

177
00:07:16,976 --> 00:07:18,776
或者说这个里面景色不错

178
00:07:18,776 --> 00:07:20,736
但是我想从白天改到晚上这样

179
00:07:20,896 --> 00:07:24,336
就是它能够帮我去产生一个很好用的prompt

180
00:07:24,336 --> 00:07:25,656
然后我在技术上去修改

181
00:07:25,656 --> 00:07:29,256
我觉得这是完全打开了一个新的使用方式

182
00:07:29,256 --> 00:07:32,976
因为原来你说我要主动地想到一个场景

183
00:07:32,976 --> 00:07:34,896
并且用语言描述 这个难度不小

184
00:07:34,896 --> 00:07:37,256
但是现在我先describe再去修改

185
00:07:37,256 --> 00:07:39,536
再去进行生成图片

186
00:07:39,536 --> 00:07:43,256
这个时候其实它的难度和效果会好很多

187
00:07:43,256 --> 00:07:46,456
describe跟prompt词的区别是什么

188
00:07:46,456 --> 00:07:48,936
describe就是你传一张图生成prompt

189
00:07:49,008 --> 00:07:50,808
是图生文哦图生文

190
00:07:50,808 --> 00:07:51,968
那当然生的文是prompt

191
00:07:51,968 --> 00:07:53,768
然后你可以直接用这个prompt再生成图

192
00:07:54,128 --> 00:07:56,968
你之前说你一直想画一个大教堂

193
00:07:56,968 --> 00:07:59,528
但是还没有画出理想的卡在哪

194
00:07:59,968 --> 00:08:01,968
我确实还没有用describe去试一试

195
00:08:01,968 --> 00:08:05,168
也许我用科隆大教堂的去试一下就可以了

196
00:08:05,328 --> 00:08:08,168
miniaturely这种它的典型是你如果照之前吧

197
00:08:08,168 --> 00:08:11,008
你如果像很仔细的画一个你想要的东西

198
00:08:11,008 --> 00:08:12,008
它是不太行的

199
00:08:12,008 --> 00:08:15,368
这些方面stable efficient加control net会有很多的优势

200
00:08:15,928 --> 00:08:18,208
miniaturely它就是你适合去进行头脑风暴

201
00:08:19,152 --> 00:08:20,832
很有艺术感的图

202
00:08:20,832 --> 00:08:23,272
但是在加入了describe这些元素之后呢

203
00:08:23,272 --> 00:08:24,752
它的可控性会变强一些

204
00:08:24,752 --> 00:08:26,832
因为我相信需要的时候发散

205
00:08:26,832 --> 00:08:27,752
需要的时候可控

206
00:08:27,752 --> 00:08:30,832
这个是它的使用场景会更加多样化

207
00:08:30,832 --> 00:08:33,232
因为大量的商业场景还是需要可控的

208
00:08:33,232 --> 00:08:34,872
如果它完全不可控的话

209
00:08:34,872 --> 00:08:37,872
那肯定是有点抛运气去蒙去尝试

210
00:08:37,872 --> 00:08:39,792
这肯定不是一个最有效率的方式

211
00:08:39,792 --> 00:08:41,472
但是一个可能最有意思的方式

212
00:08:41,472 --> 00:08:43,792
我听说成都的一家游戏公司

213
00:08:43,792 --> 00:08:45,552
他们在用了meet journey以后

214
00:08:45,664 --> 00:08:49,544
就把他们大概是80分以下的美术都给砍掉了

215
00:08:49,544 --> 00:08:53,584
确实在游戏行业的很多做原化的领域是有这样的情况的

216
00:08:53,584 --> 00:08:56,064
我觉得这个也不用去把它想的太内

217
00:08:56,064 --> 00:08:59,584
就是每次工具肯定要会用新工具的人才会有更好的生产力嘛

218
00:08:59,584 --> 00:09:02,384
如果你真要做原化可能stability fusion会更好

219
00:09:02,384 --> 00:09:04,424
因为它可以扩展性更强嘛

220
00:09:04,424 --> 00:09:06,624
它有点像安卓与iPhone的这个区别

221
00:09:06,624 --> 00:09:09,024
我觉得业界大家对这个反应都不一样

222
00:09:09,024 --> 00:09:10,944
比如说如果是二次元游戏的话

223
00:09:10,944 --> 00:09:13,584
业界的反馈就是其实网友他会去识别

224
00:09:13,584 --> 00:09:15,104
当他觉得你这个是

225
00:09:15,104 --> 00:09:16,384
二次元游戏的时候

226
00:09:16,384 --> 00:09:18,544
他发现你是用那个AI创作的

227
00:09:18,544 --> 00:09:19,944
用户会抵制这件事情

228
00:09:19,944 --> 00:09:23,144
所以反而二次元游戏是不太容易去颠覆的

229
00:09:23,144 --> 00:09:25,064
因为你要在网上养老婆

230
00:09:25,064 --> 00:09:26,664
你的老婆最好是人化的对吧

231
00:09:26,664 --> 00:09:28,384
我觉得以后可能会这样

232
00:09:28,384 --> 00:09:31,344
就是说手工做的东西更贵

233
00:09:31,344 --> 00:09:33,624
但是机器做的东西也很好

234
00:09:33,624 --> 00:09:35,824
这个精神文明的东西那不好说

235
00:09:35,824 --> 00:09:37,184
我觉得对于深层式AI

236
00:09:37,184 --> 00:09:38,904
不管是文字还是图片的

237
00:09:38,904 --> 00:09:39,904
整体来讲

238
00:09:39,904 --> 00:09:42,104
如果你做的东西只是一个缝合罐

239
00:09:42,104 --> 00:09:44,104
那你的会变得很快没有价值

240
00:09:44,144 --> 00:09:46,504
因为现在我们有大量人的工作

241
00:09:46,504 --> 00:09:48,904
就是把一样东西缝合起来复制粘贴改一改

242
00:09:48,904 --> 00:09:51,184
这个机器会比你做的好得多

243
00:09:51,504 --> 00:09:53,704
所以我认为它的好的一面就是

244
00:09:53,704 --> 00:09:56,104
反而会让原创的东西变得很有价值

245
00:09:56,264 --> 00:09:58,264
因为在所有的东西都可以容易复制的时候

246
00:09:58,264 --> 00:09:59,944
只有真正的原创才是稀缺的

247
00:10:00,504 --> 00:10:02,704
其实你刚刚有提到你很惊艳的部分

248
00:10:02,704 --> 00:10:04,864
就是我想反常识来问一个问题

249
00:10:04,864 --> 00:10:07,384
你觉得它有哪些地方表现的还不够好

250
00:10:07,624 --> 00:10:11,464
因为当时我们有谈到整个GPT的准确性还不够高

251
00:10:11,632 --> 00:10:14,672
甚至有一个专门研究AI的研究员告诉我们说

252
00:10:14,672 --> 00:10:16,872
如果你不知道这个问题的答案

253
00:10:16,872 --> 00:10:19,752
那我建议大家如果真的是在做这种功课搜集的话

254
00:10:19,752 --> 00:10:21,232
就不要问起来GPT

255
00:10:21,232 --> 00:10:24,752
因为它给你的可能是对的也可能是胡走的

256
00:10:24,752 --> 00:10:27,152
从你的角度你觉得它在哪些方面的体验

257
00:10:27,152 --> 00:10:28,952
是可以直接到一个应用的程度

258
00:10:28,952 --> 00:10:32,872
哪些方面它给你的那个感觉是还不太行的

259
00:10:32,872 --> 00:10:35,312
比较好的就是可以直接当应用用的

260
00:10:35,312 --> 00:10:37,752
首先我觉得说与语言相关的都可以

261
00:10:37,752 --> 00:10:39,912
这个语言包括自然语言和编程语言

262
00:10:40,032 --> 00:10:44,472
实际上现在很多人的代码已经有超过一半是copilot写的了

263
00:10:44,472 --> 00:10:45,992
这是一个很直接的证据

264
00:10:45,992 --> 00:10:49,592
然后它能够很好的完成像翻译总结改写

265
00:10:49,592 --> 00:10:51,832
扩写等一系列的这种语言任务

266
00:10:51,832 --> 00:10:53,312
因为它本身就是大语言模型

267
00:10:53,312 --> 00:10:57,232
第二个就是说需要脑洞的头脑风暴的

268
00:10:57,232 --> 00:11:00,952
甚至是胡说八道这种特性是一个好处的场合

269
00:11:00,952 --> 00:11:03,512
比如说怎么样去列一些题纲

270
00:11:03,512 --> 00:11:04,992
比如说我去做一个分享

271
00:11:04,992 --> 00:11:06,992
这里面有一些对应的题纲可以启发我

272
00:11:06,992 --> 00:11:08,912
因为比如说很多内容我是知道的

273
00:11:08,912 --> 00:11:09,592
但是

274
00:11:09,728 --> 00:11:11,848
我自己第一反应未必能够穷尽它

275
00:11:11,848 --> 00:11:14,488
所以它列出来五六个可能发现我缺了三个

276
00:11:14,488 --> 00:11:15,568
可以有效的补充我

277
00:11:15,568 --> 00:11:18,128
对于准确度不是那么要求高的人物

278
00:11:18,128 --> 00:11:19,328
比如说我要写一封信

279
00:11:19,328 --> 00:11:21,168
或者说写一个job description

280
00:11:21,168 --> 00:11:23,728
那这个时候大概的内容它先把我列出来

281
00:11:23,728 --> 00:11:24,568
然后我再进行修改

282
00:11:24,568 --> 00:11:26,888
我觉得这些都是大家已经用过很多的案例了

283
00:11:27,168 --> 00:11:29,168
我相信如果你长期使用的话

284
00:11:29,168 --> 00:11:31,208
你会意识到它的缺点其实非常多

285
00:11:31,408 --> 00:11:34,608
但是同时也意识到它其实在非常快的进行迭代和修正

286
00:11:34,968 --> 00:11:37,208
比如说刚出来的时候应该是三位数的加法

287
00:11:37,208 --> 00:11:38,168
其实是不准确的

288
00:11:38,320 --> 00:11:40,440
现在他只能做更多位数的加法

289
00:11:40,440 --> 00:11:42,120
但是乘法上可能会差一些

290
00:11:42,400 --> 00:11:44,520
他对于事实性的问题肯定是不太行

291
00:11:44,520 --> 00:11:47,840
所以我们说你要从语言的角度和从

292
00:11:47,840 --> 00:11:49,640
逻辑的角度去用chattel gpt

293
00:11:49,640 --> 00:11:50,720
但知识的角度呢

294
00:11:50,720 --> 00:11:52,960
很多时候是要通过prompt把它灌进去

295
00:11:53,120 --> 00:11:55,520
或者通过embedding的方式把真实的

296
00:11:55,520 --> 00:11:57,400
及时的信息给快灌进去

297
00:11:57,400 --> 00:11:59,640
所以这里面牵涉到怎么去使用的问题

298
00:11:59,920 --> 00:12:02,280
整体来讲我觉得当你意识到他有这些

299
00:12:02,280 --> 00:12:04,880
缺点的时候就不太会被他骗

300
00:12:04,992 --> 00:12:08,912
但是可能会在比如说他的知识准确度到99%

301
00:12:08,912 --> 00:12:11,272
但有1%的时候还会胡说八道的时候

302
00:12:11,272 --> 00:12:12,472
那个时候可能是最危险的时候

303
00:12:12,472 --> 00:12:14,192
因为大家现在都知道他会胡说八道

304
00:12:14,192 --> 00:12:14,952
所以就还好

305
00:12:15,312 --> 00:12:20,072
所以我看后来就是你们在评价怎么样去看一个大模型的时候

306
00:12:20,072 --> 00:12:22,232
你们是自己做了一个benchmark

307
00:12:22,232 --> 00:12:24,552
就是做了一个这样的评估模型

308
00:12:24,552 --> 00:12:26,352
从你的评估模型看啊

309
00:12:26,352 --> 00:12:29,552
GPT-4比GPT-3.5它好在哪

310
00:12:29,552 --> 00:12:31,752
跟一些国产的大模型好在哪

311
00:12:32,232 --> 00:12:34,792
首先介绍一下我们做了ZenBank的背景

312
00:12:34,992 --> 00:12:35,088
我们做了一个ZenBank的背景

313
00:12:35,088 --> 00:12:37,968
就是我发现当ChatterGBT火了之后呢

314
00:12:37,968 --> 00:12:41,408
首先出来了很多也做莱坦机器人的

315
00:12:41,408 --> 00:12:42,888
可能有的是用了ChatterGBT

316
00:12:42,888 --> 00:12:44,408
有的是说自己训了模型

317
00:12:44,408 --> 00:12:46,568
包括我们也看到肯定会有更多的人去做

318
00:12:46,568 --> 00:12:48,008
国产的大模型的创业

319
00:12:48,008 --> 00:12:49,408
包括说海外的创业公司

320
00:12:49,768 --> 00:12:52,808
那么我们就发现哪怕很多很资深的人

321
00:12:52,808 --> 00:12:56,288
在面临一个新的类似于ChatterGBT应用的时候

322
00:12:56,288 --> 00:12:58,808
其实他能做的评价也就是随便问几个问题

323
00:12:59,208 --> 00:13:00,568
这种问题可能是随便想的

324
00:13:00,568 --> 00:13:02,008
或者说是难度比较低的

325
00:13:02,008 --> 00:13:03,808
这样你其实很难反映一个

326
00:13:04,000 --> 00:13:07,040
像chatterGPT这样的软件它的真实水平

327
00:13:07,040 --> 00:13:08,600
并且我们自己也是众多用户

328
00:13:08,600 --> 00:13:10,320
在用的时候我们自己也会记下来一些

329
00:13:10,320 --> 00:13:11,560
哎很有意思的prompt

330
00:13:12,320 --> 00:13:13,120
所以我们就觉得

331
00:13:13,120 --> 00:13:16,320
哎那如果未来会有很多的这种大模型类似的产品

332
00:13:16,520 --> 00:13:17,960
那我们作为非技术人员

333
00:13:17,960 --> 00:13:20,360
我们其实也不想做一个特别完整的

334
00:13:20,360 --> 00:13:22,080
自动化的严谨的测试机

335
00:13:22,080 --> 00:13:23,400
而是在一个我们能够

336
00:13:23,640 --> 00:13:27,800
就是作为一个可以自己用手工去检验大模型的

337
00:13:27,800 --> 00:13:28,600
边界能力的

338
00:13:28,600 --> 00:13:31,080
因为如果你总是问很简单的问题

339
00:13:31,080 --> 00:13:32,080
那其实没有区分度

340
00:13:32,336 --> 00:13:34,336
所以我们希望这个问题有些区分度

341
00:13:34,336 --> 00:13:36,616
但我们也希望这个问题它是有来历的

342
00:13:36,616 --> 00:13:39,816
虽然有一些是我们日常问的一些比较有意思的问题

343
00:13:39,816 --> 00:13:42,216
比如说我记得一个很经典的麻辣螺丝钉的做法

344
00:13:42,216 --> 00:13:43,816
看它会不会跟着湖边乱照

345
00:13:43,816 --> 00:13:47,256
但同时呢学界其实有很多NLP任务的研究

346
00:13:47,256 --> 00:13:50,296
比如说OpenAI它在ChattelGBT出来的时候呢

347
00:13:50,296 --> 00:13:53,616
它就公布了ChattelGBT已经具备了48种基础能力

348
00:13:53,616 --> 00:13:56,096
然后我们通过这个构建了第一版的这个问题

349
00:13:56,096 --> 00:13:57,984
之前像MMLU

350
00:13:57,984 --> 00:14:01,424
BigBench这些都是NLP领域比较成熟的测试机

351
00:14:01,424 --> 00:14:05,064
我们从中抽取了一些各个领域的反映不同能力的内容

352
00:14:05,424 --> 00:14:08,864
同时呢也根据比如说他的GPT现在具备的涌现能力

353
00:14:08,864 --> 00:14:09,824
比如他会写代码了

354
00:14:09,824 --> 00:14:11,984
他会用SVG语言给你画图了

355
00:14:12,304 --> 00:14:14,384
他会处理一些更加复杂的应用题了

356
00:14:14,384 --> 00:14:15,584
我们把这些也加进来

357
00:14:15,584 --> 00:14:17,704
所以总共弄了300个问题

358
00:14:17,984 --> 00:14:19,664
我们想对这个就是做到一个

359
00:14:19,864 --> 00:14:23,464
非技术非专业人员能够做到用手测

360
00:14:23,624 --> 00:14:24,984
自己手工输入测试

361
00:14:24,984 --> 00:14:27,864
达到一个对大模型整体能力的概念的评价

362
00:14:27,952 --> 00:14:29,752
当时我们在3月份测了一下

363
00:14:29,992 --> 00:14:32,592
当时GPT-4刚刚出来两三天的时间

364
00:14:32,592 --> 00:14:36,592
所以我们当时测到GPT-3.5的水平大概是60多分

365
00:14:36,592 --> 00:14:38,992
然后4的水平大概是70多分

366
00:14:38,992 --> 00:14:40,832
你这个60多分是怎么打的

367
00:14:40,832 --> 00:14:42,632
是300个问题的回答正确度

368
00:14:42,632 --> 00:14:44,232
回答正确度啊就除以300啊

369
00:14:44,232 --> 00:14:46,312
所以他答对了比如说200多道问题

370
00:14:46,592 --> 00:14:48,992
火产的当时文心一言我们公布出来

371
00:14:48,992 --> 00:14:51,232
大概是有一个20多分的水平

372
00:14:51,232 --> 00:14:53,512
我们还测了另外几家偏创业公司的

373
00:14:53,512 --> 00:14:55,032
因为我们觉得还是要鼓励创业公司嘛

374
00:14:55,032 --> 00:14:56,272
虽然得分确实比较低

375
00:14:56,552 --> 00:14:57,752
但我们没有把它放出来

376
00:14:57,872 --> 00:15:00,552
分别是有一家是30分 有一家是19分

377
00:15:00,912 --> 00:15:02,992
所以当时我们看到这个差距还是比较大的

378
00:15:03,312 --> 00:15:06,352
前两天因为我们也陆续的拿到一些国产的

379
00:15:06,352 --> 00:15:09,832
比如上任公司啊 包括一些大型的公司做的这个模型

380
00:15:09,832 --> 00:15:11,072
我们又进行了一些测试

381
00:15:11,312 --> 00:15:13,232
整体来讲我觉得进步还是蛮快的

382
00:15:13,512 --> 00:15:15,792
比如说我们测试的某一家上任公司的模型

383
00:15:15,792 --> 00:15:17,432
其实已经到了50分的水平

384
00:15:17,632 --> 00:15:19,752
可以透露是哪一家吗 做的比较好的

385
00:15:20,072 --> 00:15:23,432
这家是商汤啦 就是我们测的商汤的这个模型是50多分

386
00:15:23,432 --> 00:15:23,872
然后

387
00:15:24,016 --> 00:15:26,736
像昆仑万维啊 像李志飞出门问问这些模型

388
00:15:26,736 --> 00:15:27,976
我们也在陆续的去测

389
00:15:27,976 --> 00:15:29,816
当然同时我们还没来得及去更新

390
00:15:29,816 --> 00:15:30,736
比如说百度啊

391
00:15:30,736 --> 00:15:32,136
包括另外几家创业公司的模型

392
00:15:32,136 --> 00:15:34,296
因为我觉得大家现在跌的速度也很快哈

393
00:15:34,296 --> 00:15:35,496
所以我觉得现在我们

394
00:15:35,496 --> 00:15:37,496
可能之前的得分这些也是一个参考

395
00:15:37,496 --> 00:15:39,296
但是我觉得从这可以看出来就是

396
00:15:39,296 --> 00:15:42,216
其实在早期的进步还是挺快的

397
00:15:42,216 --> 00:15:45,176
虽然我觉得比如说GPT-4现在也许也可以打80多分了

398
00:15:45,176 --> 00:15:47,016
但也就是说一开始的差距挺大

399
00:15:47,016 --> 00:15:49,016
现在差距在短期来看是在缩小

400
00:15:49,016 --> 00:15:50,656
但是这里面同时也会有一个问题

401
00:15:50,656 --> 00:15:52,176
就是说是不是会有一个平台期

402
00:15:52,400 --> 00:15:54,440
可能你从20追到50是容易的

403
00:15:54,440 --> 00:15:56,120
但50到80可能是很不容易的

404
00:15:56,120 --> 00:15:57,720
就是这里面这个曲线会怎样呢

405
00:15:57,720 --> 00:15:58,520
我们现在不知道

406
00:15:58,520 --> 00:16:01,400
包括也有人说那你的问题很比较难

407
00:16:01,400 --> 00:16:03,920
很多用户可能不会用这么难的问题

408
00:16:03,920 --> 00:16:07,000
所以我们一直在强调就是这是我们自己做VC

409
00:16:07,000 --> 00:16:09,360
我们希望比一般的用户专业一点点就可以了

410
00:16:09,360 --> 00:16:12,240
但是它并不是一个特别科学特别严谨的一个测试

411
00:16:12,240 --> 00:16:14,520
但是确实呢现在看来区分度还是有的

412
00:16:14,520 --> 00:16:16,200
就很多问题还是不好答出来的

413
00:16:16,200 --> 00:16:20,000
但是我们发现Charlie GPT-4呢它确实是

414
00:16:20,096 --> 00:16:23,696
在一些逻辑问题语言问题上它的能力要更强

415
00:16:23,696 --> 00:16:25,736
这个还是挺让人惊艳的

416
00:16:25,736 --> 00:16:27,336
给大家举个例子

417
00:16:27,336 --> 00:16:28,736
比如说是什么样的问题

418
00:16:28,736 --> 00:16:32,776
然后3.5跟4还有文心一言它的回答是怎么样的

419
00:16:32,776 --> 00:16:34,576
我具体要背出来比较难

420
00:16:34,576 --> 00:16:36,376
但是我记得有一些比较有意思的

421
00:16:36,376 --> 00:16:38,656
你就像这个麻辣螺丝丁的做法

422
00:16:38,656 --> 00:16:40,416
这里面应该只有GPT-4

423
00:16:40,416 --> 00:16:42,376
它会告诉你螺丝丁不是一个菜

424
00:16:42,376 --> 00:16:43,856
其他的都会讲保讲安

425
00:16:43,856 --> 00:16:46,696
说麻辣螺丝丁要加上辣椒加上红油

426
00:16:46,696 --> 00:16:48,056
放入螺丝丁少许

427
00:16:48,208 --> 00:16:51,408
在我们测试的时候只有GBT-4告诉你螺丝丁不能吃

428
00:16:51,408 --> 00:16:52,948
当时我们还有一个很经典的问题

429
00:16:52,948 --> 00:16:55,248
就是为什么爸妈的婚礼没邀请我参加

430
00:16:55,248 --> 00:16:58,648
这个里面只有GBT-4回答出来了说

431
00:16:58,648 --> 00:17:00,048
因为那时候你还没出生

432
00:17:00,048 --> 00:17:02,248
当然也不一定 大部分情况下你没有出生

433
00:17:02,248 --> 00:17:04,008
其他的可能模型都回答的是说

434
00:17:04,008 --> 00:17:06,248
可能因为当时他们太忙没邀请你

435
00:17:06,248 --> 00:17:08,048
或者什么你当时没时间

436
00:17:08,048 --> 00:17:11,848
对 我看到你们当时测出来放的图片了 特别逗

437
00:17:11,848 --> 00:17:13,148
当然这是一个比较逗的

438
00:17:13,264 --> 00:17:17,504
还有一些就类似于什么剪指甲穿袜子穿鞋系鞋带的

439
00:17:17,504 --> 00:17:19,824
的顺序 很多他是说错的

440
00:17:19,824 --> 00:17:22,304
当然这也比较好理解的 就有很多应用题什么的

441
00:17:22,304 --> 00:17:25,064
其实GBT是明显假的能力会强很多

442
00:17:25,064 --> 00:17:27,024
但是我们其实看到有一些推理题

443
00:17:27,024 --> 00:17:28,744
国产的大毛星进步挺快的

444
00:17:29,224 --> 00:17:31,744
你刚提到麻辣螺丝钉这个例子特别有趣

445
00:17:31,744 --> 00:17:33,704
就是我们之前在播客录制的时候

446
00:17:33,704 --> 00:17:36,504
有一个嘉宾他就直接在播客里面问我说

447
00:17:36,504 --> 00:17:39,144
宏军你晚上吃的爆炒篮球什么什么的

448
00:17:39,248 --> 00:17:41,748
后来因为我们的这个播客播出去了以后

449
00:17:41,748 --> 00:17:45,648
就有非常多的听众在GPT3.5上去搜爆炒篮球

450
00:17:45,648 --> 00:17:47,288
我看按照他们评论的时间

451
00:17:47,288 --> 00:17:51,828
最开始GPT3.5还会一本正经的去解释这个爆炒篮球是怎么样的

452
00:17:51,828 --> 00:17:53,488
但是隔了一两天

453
00:17:53,488 --> 00:17:55,228
那个评论区的反应

454
00:17:55,228 --> 00:17:58,968
GPT3.5第一次是告诉大家做了这个菜以后

455
00:17:58,968 --> 00:18:00,828
然后说爆炒篮球是不能吃

456
00:18:00,828 --> 00:18:02,828
或者这样做是有风险的

457
00:18:02,828 --> 00:18:05,608
再隔一天GPT3.5就会告诉大家

458
00:18:05,608 --> 00:18:07,208
爆炒篮球不是一个菜

459
00:18:07,208 --> 00:18:08,400
就不应该这样做

460
00:18:08,400 --> 00:18:12,280
就证明看起来GPT3.5它也是自己在进化的

461
00:18:12,280 --> 00:18:13,840
而且进化的速度很快

462
00:18:13,840 --> 00:18:16,240
对 首先你去用下来GPT的时候

463
00:18:16,240 --> 00:18:17,920
你会发现下面是有一个小字

464
00:18:17,920 --> 00:18:19,960
告诉你是用的一个哪一天的version

465
00:18:19,960 --> 00:18:23,120
我理解这个地方可能是它对模型会有重新的training

466
00:18:23,120 --> 00:18:24,520
像这个过程 包括其实现在

467
00:18:24,520 --> 00:18:26,600
称一个3.5其实应该是挺快的了

468
00:18:26,600 --> 00:18:28,560
其实我们在不断的回答

469
00:18:28,560 --> 00:18:30,680
在这过程中你可以顶你可以踩

470
00:18:30,680 --> 00:18:31,920
然后你可以regenerate

471
00:18:31,920 --> 00:18:33,360
包括你regenerate之后

472
00:18:33,360 --> 00:18:35,800
它还会问你是比原来更好了还是更差了

473
00:18:36,000 --> 00:18:40,120
所以其实我们是在不断的来做这个reinforce learning human
feedback这个过程

474
00:18:40,120 --> 00:18:43,920
这个我觉得是一个现在形成的数据飞轮效应

475
00:18:43,920 --> 00:18:46,240
因为虽然很多地方都有这种用户对话的数据

476
00:18:46,240 --> 00:18:49,520
但是用户specifically跟一个聊天机器人对话

477
00:18:49,520 --> 00:18:52,760
那目前chatter gpc的数据量是远远大于其他人的

478
00:18:53,320 --> 00:18:56,560
你们这个benchmark的300多个问题是固定的

479
00:18:56,560 --> 00:18:59,360
还是说它只是归为某一种类型的问题

480
00:18:59,360 --> 00:19:00,960
大家是可以随意去测试的

481
00:19:00,960 --> 00:19:01,920
就是我是在想

482
00:19:02,048 --> 00:19:04,448
有没有作弊的可能性啊 肯定有肯定有

483
00:19:04,448 --> 00:19:08,408
因为我们都放出来了嘛 所以肯定会有人比如尝试把这个直接拿去训一遍

484
00:19:08,408 --> 00:19:12,808
所以我们的还是那句话 我们的目标是要做一个普通人简单去用的

485
00:19:12,808 --> 00:19:15,808
我们主要是做投资嘛 所以我们一开始也想了一些

486
00:19:15,808 --> 00:19:19,768
比如说做一个明题和暗题 比如说每一道明的题

487
00:19:19,768 --> 00:19:23,048
都有一道跟他逻辑类似 但是题干不一样的题

488
00:19:23,048 --> 00:19:26,328
然后去看是不是换一个表达方式 他又认不出来了什么的

489
00:19:26,328 --> 00:19:28,568
但是我们最后还是觉得我们应该先放出来

490
00:19:28,568 --> 00:19:31,208
因为我觉得能够帮助大家去了解这个行业的进展

491
00:19:31,328 --> 00:19:35,168
所以我们现在也准备比如说把这套底库本身扩充

492
00:19:35,168 --> 00:19:36,808
然后增加这种暗题的设置

493
00:19:37,048 --> 00:19:40,008
但是我觉得因为这本身不是VC的一个核心工作啊

494
00:19:40,008 --> 00:19:43,288
更重要的是说我们自己要看到大模型能力的变化

495
00:19:43,408 --> 00:19:44,888
其实也希望抛砖引玉吧

496
00:19:44,888 --> 00:19:46,008
它本质还是一块砖

497
00:19:46,648 --> 00:19:51,808
那说到大模型模型的变化就可能过去两个月真的是进展太快了

498
00:19:52,048 --> 00:19:56,888
你怎么看过去两个月在整个大模型上有哪些进展

499
00:19:56,888 --> 00:20:00,168
或者说你现在的认知跟两个月以前有什么不一样

500
00:20:00,528 --> 00:20:02,528
我觉得进展是非常大的

501
00:20:02,528 --> 00:20:04,008
蔡刚出来的时候

502
00:20:04,008 --> 00:20:05,528
其实我们把他当做一个chatbot

503
00:20:05,528 --> 00:20:06,648
一个聊天机器人

504
00:20:06,648 --> 00:20:09,208
我们惊讶的是他能够多轮对话

505
00:20:09,208 --> 00:20:10,968
能够记住之前说了什么

506
00:20:10,968 --> 00:20:14,688
能够根据他的上下文进行合适的回答

507
00:20:14,688 --> 00:20:17,088
这都是基本上属于语言类的任务

508
00:20:17,088 --> 00:20:18,168
或者NLP的任务

509
00:20:18,168 --> 00:20:21,248
然后其实很快的就发现他可以写代码

510
00:20:21,248 --> 00:20:22,928
他可以帮助我们去

511
00:20:22,928 --> 00:20:25,888
比如说像完成写影像文案这样的事情

512
00:20:25,888 --> 00:20:27,128
写邮件这样的事情

513
00:20:27,248 --> 00:20:30,248
当然还有图像类的生成模型去生成精美的图片

514
00:20:30,248 --> 00:20:31,568
照片漫画什么的

515
00:20:31,848 --> 00:20:34,768
所以这就从聊天机器人进入到下一个阶段

516
00:20:34,768 --> 00:20:35,848
我认为叫copilot

517
00:20:35,968 --> 00:20:38,248
它就能够帮助我们去做很多事情

518
00:20:38,248 --> 00:20:41,288
而我们要给的是目标进行选择

519
00:20:41,328 --> 00:20:42,408
进行调整

520
00:20:42,568 --> 00:20:43,888
这是第二个阶段copilot

521
00:20:44,488 --> 00:20:46,808
然后随着AutoGBT, Baby AGI

522
00:20:46,968 --> 00:20:49,088
当然这还也得益于像reflection

523
00:20:49,088 --> 00:20:51,168
Hugging GBT这样几篇paper

524
00:20:51,448 --> 00:20:54,648
其实它又展现出了能够识别一个任务

525
00:20:54,648 --> 00:20:55,888
把它进行拆解

526
00:20:56,000 --> 00:21:00,160
分解成子任务 调动合适的工具去完成子任务

527
00:21:00,160 --> 00:21:01,960
观察自己完成的结果

528
00:21:01,960 --> 00:21:03,800
对结果进行反思调整

529
00:21:03,800 --> 00:21:06,560
他要做的任务的这样一个循环过程

530
00:21:06,960 --> 00:21:09,560
同时当然GBT-4也出了插件系统

531
00:21:09,560 --> 00:21:12,400
让他看到可以调用web的插件去检索信息

532
00:21:12,640 --> 00:21:15,760
去写代码去完成很多更复杂的任务

533
00:21:15,960 --> 00:21:19,520
所以我们看到他从copilot又进一步进化成agent

534
00:21:19,880 --> 00:21:21,760
那么在agent这个设定下呢

535
00:21:21,760 --> 00:21:23,920
它其实需要人给出初始的目标

536
00:21:24,048 --> 00:21:26,768
它就能够自我去迭代的去完成这个目标

537
00:21:27,088 --> 00:21:29,248
所以我觉得这个过程虽然几个月的时间

538
00:21:29,248 --> 00:21:31,408
但是它其实这是几种不同的方式

539
00:21:31,768 --> 00:21:32,608
我后来就在想

540
00:21:32,608 --> 00:21:35,608
如果我们把它跟自动驾驶去做对比的话

541
00:21:35,608 --> 00:21:38,408
比如说L1可能就是完全没有AI这回事

542
00:21:38,408 --> 00:21:39,648
就我们现在用了大部分应用

543
00:21:39,648 --> 00:21:41,048
其实都AI没有做任何事情

544
00:21:41,048 --> 00:21:41,928
都是人做事情

545
00:21:42,088 --> 00:21:44,008
Level2的AI呢可能就是

546
00:21:44,248 --> 00:21:46,168
我们去问AI很多问题

547
00:21:46,168 --> 00:21:47,168
AI给我们信息

548
00:21:47,168 --> 00:21:48,448
但还是我来做事情

549
00:21:48,448 --> 00:21:49,768
这个就比较像JedGBT

550
00:21:49,768 --> 00:21:50,688
他给我的是信息

551
00:21:50,688 --> 00:21:51,648
那我还是我来做事

552
00:21:51,968 --> 00:21:55,728
level 3的呢就是copilot 就是人和AI都要做事情

553
00:21:55,728 --> 00:21:58,408
比如说像鞋带码的github copilot

554
00:21:58,408 --> 00:21:59,888
或者像mini journey这些

555
00:21:59,888 --> 00:22:02,608
就是人要给出prompt是要人写的

556
00:22:02,608 --> 00:22:05,688
人要去改prompt要去选择用哪一个

557
00:22:05,688 --> 00:22:07,448
或者选择进行调整

558
00:22:07,448 --> 00:22:08,568
AI完成初稿

559
00:22:08,568 --> 00:22:10,728
然后根据人的要求去改变初稿

560
00:22:10,728 --> 00:22:12,888
这个就是人和AI各50 50

561
00:22:12,888 --> 00:22:15,368
我觉得L4呢就像autogbt

562
00:22:15,368 --> 00:22:17,768
或者baby-age is是一个很早的雏形

563
00:22:17,768 --> 00:22:21,248
那么这边有点像人主要是第一给出这个目标

564
00:22:21,248 --> 00:22:21,296
然后呢就是人和AI的

565
00:22:21,296 --> 00:22:24,176
然后人去监督他完成的过程

566
00:22:24,176 --> 00:22:26,496
去检查他的结果是不是我想要的

567
00:22:26,496 --> 00:22:28,216
提供一些必须的接口啊

568
00:22:28,216 --> 00:22:29,496
计算能力等资源

569
00:22:29,856 --> 00:22:32,416
那AI自主的去完成分解任务

570
00:22:32,416 --> 00:22:34,816
选择工具进行完成的这个过程

571
00:22:34,976 --> 00:22:36,176
然后他知道自己完成的时候

572
00:22:36,176 --> 00:22:37,576
他会汇报我完成了

573
00:22:37,816 --> 00:22:39,496
这个就是AI做大部分的工作

574
00:22:39,576 --> 00:22:41,016
人做指定和监督

575
00:22:41,096 --> 00:22:42,496
这个我把它叫L4

576
00:22:42,696 --> 00:22:43,776
那L5是什么呢

577
00:22:43,776 --> 00:22:46,216
我觉得就可能像是人就给一个目标

578
00:22:46,376 --> 00:22:47,336
什么其他的都不给

579
00:22:47,336 --> 00:22:48,376
人都不用监督了

580
00:22:48,448 --> 00:22:50,448
AI自主地把所有的事情全都做完

581
00:22:50,448 --> 00:22:52,248
并且可以一直延续下去

582
00:22:52,248 --> 00:22:53,688
在科幻里面有一个概念

583
00:22:53,688 --> 00:22:55,288
其实也不只是科幻了

584
00:22:55,288 --> 00:22:57,168
冯诺依曼提出的冯诺依曼机器人

585
00:22:57,168 --> 00:22:59,008
就是可以自己复制的机器人

586
00:22:59,008 --> 00:23:01,088
它可以自己收集资料复制自己

587
00:23:01,088 --> 00:23:03,048
最后扩展到整个银河系

588
00:23:03,048 --> 00:23:03,848
从模特意义上讲

589
00:23:03,848 --> 00:23:06,568
人可能也是一种完全自主的这样一个生物

590
00:23:06,568 --> 00:23:07,488
如果有上帝的话

591
00:23:07,488 --> 00:23:09,008
看来人可能也是这样一个

592
00:23:09,008 --> 00:23:10,648
level 5的这个智能

593
00:23:10,648 --> 00:23:13,248
所以我觉得这里面其实不同的范式下

594
00:23:13,248 --> 00:23:14,928
人和AI的关系是不一样的

595
00:23:15,168 --> 00:23:18,808
那么在几个月内我们就能看到三种关系的一式出现

596
00:23:18,808 --> 00:23:21,168
我觉得是非常非常让人惊讶的一件事情

597
00:23:21,608 --> 00:23:24,608
因为像agent的概念我觉得容易想到

598
00:23:24,608 --> 00:23:28,208
但是你发现它真的能用其实是很让人惊讶的

599
00:23:28,208 --> 00:23:30,688
因为这里面牵涉到很多地方是容易出错的

600
00:23:30,688 --> 00:23:33,128
当然你用RGBT你会发现它很多时候会出错

601
00:23:33,128 --> 00:23:35,048
但是它居然有的时候不会出错

602
00:23:35,048 --> 00:23:36,328
它能把事情给做了

603
00:23:36,528 --> 00:23:38,248
这个事就已经足够让人惊讶了

604
00:23:38,248 --> 00:23:40,168
因为我们知道在数字世界

605
00:23:40,272 --> 00:23:44,272
很多东西一开始都很粗糙 他后面的升级过程成本降低过程

606
00:23:44,272 --> 00:23:48,392
速度提高过程是很快的 可能几年10年的时间就真的能够做到

607
00:23:48,392 --> 00:23:52,232
不怎么出错 这个让我非常的吃惊 并且非常的激动

608
00:23:52,832 --> 00:23:55,192
你会不会觉得现在市场上有一种观点

609
00:23:55,192 --> 00:23:59,912
就是说可能我来做AIGC的这个应用层我晚做几个月

610
00:24:00,112 --> 00:24:03,392
反而是比你早做的人可能更有优势的

611
00:24:03,392 --> 00:24:07,512
比如说早做他们的模型都加在GPT 3.5的开源模型上

612
00:24:07,512 --> 00:24:09,616
然后晚做我可以直接

613
00:24:09,616 --> 00:24:11,656
接在GPT 4的模型上

614
00:24:11,656 --> 00:24:15,136
在大模型改的时候其实他们底层也要去改很多

615
00:24:15,136 --> 00:24:18,736
但是因为他们的模型其实是越做越好

616
00:24:18,736 --> 00:24:20,336
逻辑能力越做越强

617
00:24:20,336 --> 00:24:22,456
就是真正技术在做的时候

618
00:24:22,456 --> 00:24:26,936
他可能晚做比他早做再一点点去改那个框架

619
00:24:26,936 --> 00:24:28,656
是有更多的优势的

620
00:24:28,656 --> 00:24:32,816
我觉得当一个技术革命发生的时候

621
00:24:32,816 --> 00:24:35,176
晚做的人肯定有一些后发的优势

622
00:24:35,176 --> 00:24:37,936
比如说他已经看到前面人踩的坑了

623
00:24:38,144 --> 00:24:42,304
他已经知道一些best practice,所以去用什么

624
00:24:42,304 --> 00:24:45,144
但整体来讲其实你会发现

625
00:24:45,144 --> 00:24:47,984
科技革命中做大成的人一般还是早做的人

626
00:24:47,984 --> 00:24:48,984
为什么呢?

627
00:24:48,984 --> 00:24:51,704
因为他们早做会先有经验

628
00:24:51,704 --> 00:24:54,264
并且先积累起资源

629
00:24:54,264 --> 00:24:57,264
如果大家都是差不多聪明差不多勤奋的情况下

630
00:24:57,264 --> 00:25:00,984
很难你说你晚开始反而能比别人做得更好

631
00:25:00,984 --> 00:25:03,464
我觉得你说的问题肯定是存在的

632
00:25:03,648 --> 00:25:08,328
但是那得基于一个假设就是先做的人他没法把3.5换成4

633
00:25:08,528 --> 00:25:11,448
但实际上也许这就是改个API key的事情

634
00:25:11,768 --> 00:25:15,128
但是在这过程中第一批做AIGC应用的人

635
00:25:15,128 --> 00:25:17,688
他们可能做的应用场景像个玩具一样

636
00:25:17,688 --> 00:25:18,768
这是很有可能的

637
00:25:18,928 --> 00:25:21,288
同时也很有可能他们第一个产品不成功

638
00:25:21,288 --> 00:25:22,088
第二个产品不成功

639
00:25:22,088 --> 00:25:23,008
我觉得这都有可能

640
00:25:23,288 --> 00:25:25,848
但是在这个时候他比起没做的人来讲

641
00:25:25,848 --> 00:25:29,288
他的经验就是1和0的区别是一个非常大的区别

642
00:25:29,488 --> 00:25:32,688
那我们其实去想在技术革命的后期

643
00:25:32,688 --> 00:25:34,688
可能大家经验是10和9的区别

644
00:25:34,688 --> 00:25:35,888
差不了太多

645
00:25:35,888 --> 00:25:37,808
但是1和0的区别还是很大的

646
00:25:37,808 --> 00:25:40,888
所以我觉得在这里面未必你是第一个做的

647
00:25:40,888 --> 00:25:43,248
但是一般来说都得是第一梯队做的

648
00:25:43,248 --> 00:25:44,848
跟着这个技术一起成长

649
00:25:44,848 --> 00:25:48,048
你才对里面很多事情距离怎么做是有概念的

650
00:25:48,048 --> 00:25:49,808
你去看它的研报

651
00:25:49,808 --> 00:25:50,768
看它的分析

652
00:25:50,768 --> 00:25:52,728
对于里面的很多具体问题怎么解决

653
00:25:52,728 --> 00:25:54,048
怎么处理的细节

654
00:25:54,048 --> 00:25:55,888
其实往往是不知道的

655
00:25:55,888 --> 00:25:58,128
在互联网领域有很多这样的例子

656
00:25:58,256 --> 00:26:04,056
比如说有一个故事是说当时雷军做米疗不是输给了微信吗

657
00:26:04,056 --> 00:26:06,856
后来有一次雷军见到赵小龙就问

658
00:26:06,856 --> 00:26:09,536
你们怎么解决发消息延迟的问题

659
00:26:09,536 --> 00:26:11,536
赵小龙说发消息还会延迟吗

660
00:26:11,536 --> 00:26:15,136
这个意思就是说微信有很长时间的做这个事情的积累

661
00:26:15,136 --> 00:26:17,936
因为QQ本身就是一个大量的用户发消息的系统

662
00:26:17,936 --> 00:26:20,256
QQ邮箱也是一个大用户量的产品

663
00:26:20,256 --> 00:26:24,496
所以他们很早就遇到了发消息会延迟或者说会

664
00:26:24,496 --> 00:26:26,576
讯息会乱的问题然后去解决了

665
00:26:26,848 --> 00:26:28,848
所以这就是你坐在前面你有了经验

666
00:26:28,848 --> 00:26:31,648
虽然这个事看上去都是一个事儿 就是发消息

667
00:26:31,648 --> 00:26:33,488
但是你后座的话

668
00:26:33,488 --> 00:26:34,528
不知道这里会有坑

669
00:26:34,528 --> 00:26:36,608
你就可能在这里面就会陷进去

670
00:26:36,608 --> 00:26:39,648
那么先坐的人会在已经解决了这个问题就会有经验

671
00:26:39,648 --> 00:26:41,728
很多这些东西它并不是简单的说

672
00:26:41,728 --> 00:26:43,168
换一个更好的模型就能解决

673
00:26:43,168 --> 00:26:44,048
它有大量的knowhow

674
00:26:44,048 --> 00:26:45,568
所以我觉得一般来讲

675
00:26:45,568 --> 00:26:46,448
历史上来看

676
00:26:46,448 --> 00:26:49,008
科技领域先发优势还是占多数的

677
00:26:49,008 --> 00:26:50,208
我非常同意

678
00:26:50,208 --> 00:26:53,168
而且我觉得我们看到的都是具体的差距

679
00:26:53,168 --> 00:26:54,768
其实我觉得认知上

680
00:26:54,944 --> 00:26:58,784
有差距或者有迭代也是非常重要的 就比如说

681
00:26:58,784 --> 00:27:02,424
很多后面做的人或者就是在一些具体的事情上

682
00:27:02,424 --> 00:27:04,584
有人会告诉你要规避哪些坎儿

683
00:27:04,584 --> 00:27:06,504
但是自己不走到那一步

684
00:27:06,504 --> 00:27:08,664
有时候人的思维是很难转过来的

685
00:27:08,664 --> 00:27:11,184
就是你可能听到了但是你没有理解它

686
00:27:11,184 --> 00:27:14,104
所以你就没有执行 在有动作的时候就变形了

687
00:27:14,104 --> 00:27:17,464
但另外一种有后发优势的呢 就是说

688
00:27:17,464 --> 00:27:19,984
之前你不知道这件事能做

689
00:27:19,984 --> 00:27:22,896
但有的时候你知道 第一它能做

690
00:27:22,896 --> 00:27:27,576
第二 用这么多人 这么多钱 用这个方法就可以做到

691
00:27:27,576 --> 00:27:30,576
这个是事实上有后发优势的

692
00:27:30,576 --> 00:27:33,376
其实我为什么认为国产做大模型

693
00:27:33,376 --> 00:27:35,656
可能没有大家想的那么悲观和难呢

694
00:27:35,656 --> 00:27:37,056
也是基于这个假设

695
00:27:37,056 --> 00:27:39,736
很多人都拿哥伦布去新大陆打比方

696
00:27:39,736 --> 00:27:41,016
我觉得这是贴切的

697
00:27:41,016 --> 00:27:42,456
当你不知道有新大陆

698
00:27:42,456 --> 00:27:44,056
也不知道新大陆有多远

699
00:27:44,056 --> 00:27:47,336
也不知道新大陆是不是必须得坐飞机才能去的时候

700
00:27:47,336 --> 00:27:49,496
其实你是冒很大的风险

701
00:27:49,496 --> 00:27:51,984
但是当你知道新大陆就在西边

702
00:27:51,984 --> 00:27:56,304
用这样大的一艘船带两个月的集养 坐船就可以去的时候

703
00:27:56,304 --> 00:27:57,584
这就变得非常重要了

704
00:27:57,584 --> 00:27:58,984
就当年原子弹其实是一样的

705
00:27:58,984 --> 00:28:01,784
原子弹能炸其实就是一个非常关键的信息

706
00:28:01,784 --> 00:28:04,784
我觉得现在大模型做到大概这个参数量

707
00:28:04,784 --> 00:28:06,784
这个与Data Set的大小

708
00:28:06,784 --> 00:28:08,664
它就能够出现这样的能力

709
00:28:08,664 --> 00:28:11,664
这其实也是一个很重要的确定性信息

710
00:28:11,664 --> 00:28:16,064
所以我觉得大家在追赶上面其实是有很多可以节省时间的

711
00:28:16,064 --> 00:28:18,984
现在大家肯定就用GPT这样的预训链文本的技术了

712
00:28:18,984 --> 00:28:21,304
就不会再用BERT这种双边升神的技术了

713
00:28:21,584 --> 00:28:23,064
这就是一个典型

714
00:28:23,064 --> 00:28:25,464
所以我觉得这里面是可以朝走一些弯路的

715
00:28:25,464 --> 00:28:27,024
当然在那个里面

716
00:28:27,024 --> 00:28:29,304
比如说在数据清洗啊

717
00:28:29,304 --> 00:28:31,264
Infra啊这些地方的很多

718
00:28:31,264 --> 00:28:34,584
Knowhow我觉得也是没法说略的

719
00:28:34,584 --> 00:28:36,904
肯定要去精力去探索这个Knowhow的

720
00:28:36,904 --> 00:28:41,144
所以为什么比如说像王辉文老王他选择立刻开始呢

721
00:28:41,144 --> 00:28:43,024
也是基于一个很朴素的心灵

722
00:28:43,024 --> 00:28:46,784
既然已经对这个革命它的尺度它的规模

723
00:28:46,784 --> 00:28:49,504
有了充分的信任信仰之后

724
00:28:49,504 --> 00:28:51,184
那早开始总比晚开始要好

725
00:28:51,184 --> 00:28:51,376
因为早开始就已经有了充分的信任

726
00:28:51,376 --> 00:28:53,776
因为你正好提到中国的大模型了

727
00:28:53,776 --> 00:28:55,616
然后我看中国最近也是

728
00:28:55,616 --> 00:28:58,116
一个是大厂的大模型在密集发布

729
00:28:58,116 --> 00:29:01,516
比如说百度、阿里、华为都在发布

730
00:29:01,516 --> 00:29:04,756
另外是中国有一些上一批科技创业的人

731
00:29:04,756 --> 00:29:07,896
互联网跟移动互联网创业的成功者

732
00:29:07,896 --> 00:29:09,696
他们也在做大模型

733
00:29:09,696 --> 00:29:11,796
比如说你刚刚提到王会文的公司

734
00:29:11,796 --> 00:29:13,496
还有王小川的公司

735
00:29:13,496 --> 00:29:16,236
那贾阳青跟李士飞之前说要做大模型

736
00:29:16,236 --> 00:29:18,836
我看他们现在做的好像也不算是大模型

737
00:29:18,836 --> 00:29:19,836
算是应用

738
00:29:19,952 --> 00:29:23,592
可不可以跟大家介绍一下现在大家做的大模型

739
00:29:23,592 --> 00:29:27,832
分别是什么 哪些是大模型 哪些可能是我们理解有误

740
00:29:27,832 --> 00:29:30,432
这个事情也是在不断地变化的

741
00:29:30,432 --> 00:29:32,472
目前来看 比如说这些大厂

742
00:29:32,472 --> 00:29:36,472
不管是百度 字节 阿力 腾讯

743
00:29:36,472 --> 00:29:40,792
包括商汤 360 出门问问 昆仑万维

744
00:29:40,792 --> 00:29:42,832
这些其实是说要做一个大模型

745
00:29:42,832 --> 00:29:44,432
或者说是大家理解的这种

746
00:29:44,624 --> 00:29:49,784
几十亿上百亿参数的能够解决很多NLP和通用

747
00:29:49,784 --> 00:29:51,544
领域的问题的这种大模型

748
00:29:51,544 --> 00:29:56,024
那这里面比如说像王辉文王小川像智普这些

749
00:29:56,024 --> 00:29:58,384
其实也都是在做大模型这样的事情

750
00:29:58,384 --> 00:30:00,984
智普是支援分拆出来的

751
00:30:00,984 --> 00:30:02,504
唐杰老师带队的团队

752
00:30:02,504 --> 00:30:05,824
这些我觉得是比较明确就是说做一个比较像

753
00:30:05,824 --> 00:30:08,584
GBT3.5或者GBT4这样的大模型

754
00:30:08,584 --> 00:30:13,464
但比如说像杨青是要做一个偏middleware的创业公司

755
00:30:13,464 --> 00:30:13,632
那这些都是在做一个比较像的一个模型

756
00:30:13,632 --> 00:30:16,312
当然他有一个宣传新闻内容哈

757
00:30:16,672 --> 00:30:19,112
就是我觉得在这过程中肯定大家有发现大模型

758
00:30:19,112 --> 00:30:20,152
是不是适合我做

759
00:30:20,152 --> 00:30:23,712
以及说是不是现在做还有最好的机会和时机去做

760
00:30:23,952 --> 00:30:26,352
我觉得这肯定很多人会兼人兼之

761
00:30:26,512 --> 00:30:28,432
有人会觉得可能不适合我做的机会

762
00:30:28,432 --> 00:30:30,192
我去做更加一个适合我做的机会

763
00:30:30,192 --> 00:30:31,032
这都很正常

764
00:30:31,312 --> 00:30:35,152
同样现在大家也是因为只看到了一个把大模型

765
00:30:35,152 --> 00:30:39,632
做出来先有chat gpt才能够去延展的这么一个逻辑

766
00:30:39,912 --> 00:30:42,392
但我完全可以想象假设大家后来发现

767
00:30:42,528 --> 00:30:45,568
比如说第一有了一个很好用的大模型

768
00:30:45,848 --> 00:30:48,368
但是可能会给很多人的做法会变得不太一样

769
00:30:48,368 --> 00:30:51,328
因为现在大家是都没有去抢到这样一个头筹嘛

770
00:30:51,328 --> 00:30:54,088
但如果有人已经做出来一个足够好的大模型

771
00:30:54,088 --> 00:30:57,648
那可能有了团队就会想那我是不是转去做应用会更好

772
00:30:57,968 --> 00:31:03,248
第二就是说是不是只有做大模型才是认知现在的AGI

773
00:31:03,608 --> 00:31:05,808
或者未来的AGI能力的唯一途径

774
00:31:06,408 --> 00:31:09,568
也许我们会有别的方式去理解这件事情

775
00:31:09,808 --> 00:31:12,808
所以也许有人发现其实我没必要做个大模型

776
00:31:12,808 --> 00:31:14,488
但是目前来看呢

777
00:31:14,488 --> 00:31:17,168
就好比说目前只有坐船能够去美洲

778
00:31:17,168 --> 00:31:18,808
所以大家先都得造船

779
00:31:18,808 --> 00:31:20,648
也许有一天大家有飞机了

780
00:31:20,648 --> 00:31:21,728
那就不用造船了

781
00:31:21,728 --> 00:31:23,568
但目前来看只有坐船才行

782
00:31:23,568 --> 00:31:24,768
所以大家都得造船

783
00:31:24,768 --> 00:31:26,248
但到了美洲之后干嘛

784
00:31:26,248 --> 00:31:27,208
那也不一定

785
00:31:27,208 --> 00:31:28,768
有的去种棉花

786
00:31:28,768 --> 00:31:30,088
有的去挖煤炭

787
00:31:30,088 --> 00:31:31,928
但是大家说你现在船都没有

788
00:31:31,928 --> 00:31:33,888
那你都没法去开始这件事儿

789
00:31:33,888 --> 00:31:35,688
也有可能开通了一条航线

790
00:31:35,688 --> 00:31:37,648
泰坦尼克号将来要坐渡船

791
00:31:37,648 --> 00:31:38,768
那你就不用自己造船

792
00:31:38,768 --> 00:31:39,504
都有可能

793
00:31:39,504 --> 00:31:42,784
现在就是说大家都没有船 所以大家都先第一反应自己造

794
00:31:42,784 --> 00:31:46,704
这个是很正常的情况 在美国现在大家其实不怎么去

795
00:31:46,704 --> 00:31:50,544
有独立做大模型的新公司了 是因为已经有几条固定航线了

796
00:31:50,544 --> 00:31:53,504
有OpenAI号 有这个cloud号 还有这个

797
00:31:53,504 --> 00:31:57,024
Cohere或者是Bard这些 就是大家发现啊这有几条航线了

798
00:31:57,024 --> 00:32:00,384
那我干脆就去想去美洲之后干嘛呢 就是做应用了

799
00:32:00,384 --> 00:32:04,304
那中国的大模型你觉得未来是一个怎么样的格局

800
00:32:04,304 --> 00:32:07,424
可能是一家独大还是说多家

801
00:32:07,728 --> 00:32:10,128
我觉得这个问题肯定不只是中国

802
00:32:10,128 --> 00:32:13,248
包括全世界的角度都是一个还不知道的问题

803
00:32:13,248 --> 00:32:15,848
这是一个billion dollar甚至是trillion dollar
question

804
00:32:15,848 --> 00:32:18,048
我觉得它是一个光谱

805
00:32:18,048 --> 00:32:20,848
比如说集中度最高的形式可能像google

806
00:32:20,848 --> 00:32:24,248
google一家占了93%的solo引擎份额

807
00:32:24,248 --> 00:32:28,248
如果大模型第一它是一个2C为主的场景

808
00:32:28,248 --> 00:32:32,848
就比如说可能以后有很多人都会用一个像shadow gdt这样的助理

809
00:32:32,848 --> 00:32:36,240
且它的技术始终是比较难的

810
00:32:36,240 --> 00:32:38,920
就是说第一名始终有比较大的领先优势

811
00:32:38,920 --> 00:32:43,600
那么我可以想象可能大部分人最后都只用某一个最领先的助手

812
00:32:43,600 --> 00:32:45,720
可能是chatterGBT可能是某一家

813
00:32:46,160 --> 00:32:48,880
因为我没有道理去用一个第二名的

814
00:32:48,880 --> 00:32:51,440
至于跟solar引擎如果你都超不过google

815
00:32:51,440 --> 00:32:52,320
我肯定没法用你

816
00:32:52,320 --> 00:32:53,760
哪怕你能超过google

817
00:32:53,760 --> 00:32:54,840
只要你超过的不是太多

818
00:32:54,840 --> 00:32:55,720
我也没有动力用

819
00:32:56,080 --> 00:32:58,960
所以这就是最收敛的叫赢家通吃的格局

820
00:32:58,960 --> 00:33:04,480
那如果说第一是openm没办法长期保持一个特别遥遥领先的状态

821
00:33:04,592 --> 00:33:09,112
我们使用大猿模型主要的场景是通过2b的应用来使用

822
00:33:09,112 --> 00:33:12,032
而不是直接去用一个shared gpt这样的助手

823
00:33:12,032 --> 00:33:14,592
那么它也有可能形成一个公有云这样的格局

824
00:33:14,992 --> 00:33:17,192
就是第一梯队可能有2-3家

825
00:33:17,192 --> 00:33:18,952
3-4家都还不错

826
00:33:18,952 --> 00:33:19,752
各有特点

827
00:33:19,752 --> 00:33:21,232
比如说你的擅长图像

828
00:33:21,232 --> 00:33:22,352
我的擅长推理

829
00:33:22,352 --> 00:33:27,232
那么这样用户用的主要是用这些大模型作为底层勾造的应用

830
00:33:27,672 --> 00:33:29,232
那这样就有可能像公有云一样

831
00:33:29,232 --> 00:33:30,752
比如说有的跑在aws

832
00:33:30,752 --> 00:33:31,832
有的跑在azure

833
00:33:31,832 --> 00:33:33,832
有的跑在google cloud service上

834
00:33:33,904 --> 00:33:34,904
这些都有可能

835
00:33:35,184 --> 00:33:38,984
还有一种可能就是大模型这事现在很厉害

836
00:33:38,984 --> 00:33:41,904
但是逐渐变成一个commodity变成开源的

837
00:33:42,104 --> 00:33:44,704
很多人都是自己用一个开源的

838
00:33:44,704 --> 00:33:46,024
加以微调之后

839
00:33:46,024 --> 00:33:48,744
部署在自己的云或者服务器上

840
00:33:48,944 --> 00:33:51,664
这个时候可能就变成了一种百家争鸣

841
00:33:51,824 --> 00:33:54,264
或者说有各种各样的开源模型的阶段

842
00:33:54,424 --> 00:33:57,104
这个时候也许openai它是一个开创者

843
00:33:57,104 --> 00:33:58,664
但也许之后它的大量技术

844
00:33:58,664 --> 00:34:00,544
变成人类所共有的技术

845
00:34:00,544 --> 00:34:02,264
这也是很多时候经常发生的

846
00:34:02,448 --> 00:34:06,608
比如说当时人脸识别出来的时候 其实也是一个石破天惊的技术

847
00:34:06,608 --> 00:34:11,408
但后面人脸识别每个应用都有 你也不会特别介意他用了谁的人脸识别技术

848
00:34:11,408 --> 00:34:15,008
这种情况下它往往意味着技术它有个终点

849
00:34:15,008 --> 00:34:18,208
或者说大家都做到了GPT-4的能力都差不多了

850
00:34:18,208 --> 00:34:20,608
但是也没法出来一个跟上一个台阶的了

851
00:34:20,608 --> 00:34:23,808
所以我觉得这里面很看未来这个技术终点在哪里

852
00:34:23,808 --> 00:34:27,208
主要是to C还是to B 其他家追赶的速度怎么样

853
00:34:27,208 --> 00:34:30,008
所以其实都有可能 这里面其实不好讲

854
00:34:30,288 --> 00:34:32,688
其实在聊到中美大模型的时候

855
00:34:32,688 --> 00:34:34,488
大家都会谈到芯片嘛

856
00:34:34,488 --> 00:34:35,648
你刚刚也提到了

857
00:34:35,648 --> 00:34:37,728
比如说现在很多中国的大模型

858
00:34:37,728 --> 00:34:42,528
它们的得分从二三十分上升到了五十多分、六十多分

859
00:34:42,528 --> 00:34:43,848
其实在我理解

860
00:34:43,848 --> 00:34:45,688
之前有很多中国的大厂

861
00:34:45,688 --> 00:34:48,248
它们是有囤很多A100芯片的

862
00:34:48,248 --> 00:34:51,928
那如果说未来这个芯片不能持续地供应

863
00:34:51,928 --> 00:34:55,008
而美国的芯片还在持续地进化中

864
00:34:55,008 --> 00:34:56,768
比如说H100会出来

865
00:34:56,768 --> 00:35:01,568
那中国的芯片它的这个性能或者说它跟不上

866
00:35:01,568 --> 00:35:06,968
那你觉不觉得它可能会是一个越拉越远的战局

867
00:35:06,968 --> 00:35:09,968
我觉得就还是要从几个方面去想

868
00:35:09,968 --> 00:35:13,888
第一个就是是不是这是一个百公里长跑

869
00:35:13,888 --> 00:35:15,328
还是一个百米塞跑

870
00:35:15,328 --> 00:35:18,608
比如说如果它是一个很快会遇到瓶颈的事情

871
00:35:18,608 --> 00:35:20,128
那可能现有的算力就够了

872
00:35:20,128 --> 00:35:22,208
你也许不用训练那么大的模型

873
00:35:22,208 --> 00:35:24,528
或者说就训练现在这么大的就可以了

874
00:35:24,528 --> 00:35:26,128
另外一种情况是它

875
00:35:26,160 --> 00:35:27,520
以后要越来越大越来越大

876
00:35:27,520 --> 00:35:30,200
所以现在的芯片就不能用了

877
00:35:30,560 --> 00:35:32,960
虽然我们现在很多人觉得可能是后遗者可能

878
00:35:32,960 --> 00:35:35,040
但是首先它是有多种可能性存在的

879
00:35:35,480 --> 00:35:39,280
第二就是说训练的效率和方式方法

880
00:35:39,280 --> 00:35:40,880
本身也是在不断提高的

881
00:35:41,440 --> 00:35:44,800
在之前需要这么多顺利训练的模型

882
00:35:44,800 --> 00:35:47,360
在现在也许会有更好的方式去训练

883
00:35:47,640 --> 00:35:49,800
第三就是当然说的这些

884
00:35:49,800 --> 00:35:53,120
我们本质上肯定是希望我们的半导体工业能够发展

885
00:35:53,240 --> 00:35:54,680
我们有一天也能够

886
00:35:54,736 --> 00:35:59,216
有世界先进水平的GPU也好或者AI芯片去进行这种训练

887
00:35:59,576 --> 00:36:02,296
当然好的情况肯定是说要么是中美关系缓和了

888
00:36:02,336 --> 00:36:04,576
我们同样能够买到这些先进的芯片

889
00:36:04,696 --> 00:36:08,376
有可能同时也是说我们的芯片公司真的也做出来了

890
00:36:08,376 --> 00:36:10,216
可以跟英伟达媲美的这种芯片

891
00:36:10,696 --> 00:36:12,056
我觉得这肯定是好的情况

892
00:36:12,056 --> 00:36:16,576
如果不好的情况那就是只有智力更生用这种方法去尝试解决了

893
00:36:17,096 --> 00:36:18,416
但我想说的是

894
00:36:18,656 --> 00:36:21,096
我觉得当我们采取追赶的时候呢

895
00:36:21,096 --> 00:36:23,536
我们往往会把一些问题给简单化

896
00:36:23,856 --> 00:36:25,856
A芯片现在是个显然的问题

897
00:36:25,856 --> 00:36:28,896
就好像说买了1万块芯片A100就能解决这个问题一样

898
00:36:28,896 --> 00:36:30,016
其实我觉得不是这样的

899
00:36:30,016 --> 00:36:34,056
就是现在我们在数据芯片infra

900
00:36:34,056 --> 00:36:36,616
算法这方面其实有很多需要去解决的

901
00:36:36,616 --> 00:36:40,816
我觉得不宜把这个问题简单化成一个买1万块芯片

902
00:36:40,816 --> 00:36:42,816
好像说只要花钱就能解决

903
00:36:42,816 --> 00:36:46,376
实际上我遇到了这些真正在好好做这件事情的人

904
00:36:46,376 --> 00:36:47,576
其实他们都会意识到

905
00:36:47,576 --> 00:36:49,976
第一你哪怕是要1万块A100

906
00:36:49,976 --> 00:36:51,976
国内现在也是有这样的数量的

907
00:36:52,288 --> 00:36:55,928
第二呢就是现在我们离用好1万块A100那还差很远

908
00:36:56,248 --> 00:36:59,808
第三这里面其实每一个环节里都有很多要解决的问题

909
00:37:00,088 --> 00:37:03,448
那么你要去探索怎么去做一个

910
00:37:03,568 --> 00:37:06,088
比如3.5水平的模型其实不用1万块A100

911
00:37:06,088 --> 00:37:09,968
因为你想想看GBT-3其实是在1万块V100上训练的

912
00:37:10,088 --> 00:37:13,848
GBT-3.5就是所谓的instructor GBT是一个小很多的模型

913
00:37:13,848 --> 00:37:18,088
就它并不一定是一定要训练这么大的参数量才能训练出来的模型

914
00:37:18,568 --> 00:37:20,808
所以这里面其实有很多

915
00:37:20,896 --> 00:37:24,896
跟芯片一样重要 甚至在短期可能比芯片更重要的问题

916
00:37:25,256 --> 00:37:27,536
我觉得这里面问题还是比较复杂的

917
00:37:28,136 --> 00:37:33,256
中文互联网的数据你觉得它会是一个问题吗

918
00:37:33,656 --> 00:37:34,936
我觉得完全不是一个问题

919
00:37:34,936 --> 00:37:39,736
因为简单的来想就是chattgbt并没有用到什么独有的中文数据

920
00:37:39,736 --> 00:37:42,256
它就已经在中文上具有这么好的表现

921
00:37:42,536 --> 00:37:45,256
当然gbt4可能多了很多独有的东西

922
00:37:45,256 --> 00:37:47,016
或者说它有很多微调的内容

923
00:37:47,216 --> 00:37:50,136
但如果你从pre-training的那部分来看的话

924
00:37:50,864 --> 00:37:53,104
wikipedia common ground

925
00:37:53,104 --> 00:37:57,064
对呢paper codecs这些其实很大量是通过英文

926
00:37:57,064 --> 00:37:58,784
然后泛化到中文来的

927
00:37:58,784 --> 00:38:02,504
所以在这里面我觉得至少第一原理上不存在说

928
00:38:02,504 --> 00:38:04,504
openai有什么我们没有的中文数据

929
00:38:04,504 --> 00:38:08,824
但是怎么去用现有的中文数据去进行清洗

930
00:38:08,824 --> 00:38:12,704
包括后面的这种标注进行human feedback

931
00:38:12,704 --> 00:38:15,144
这些knowhow反而是非常非常重要的

932
00:38:15,144 --> 00:38:18,464
这个我觉得是一个我们需要解决的工程问题

933
00:38:18,464 --> 00:38:20,824
但不是说我们没有这些预料的问题

934
00:38:20,824 --> 00:38:20,992
我们需要解决的问题是

935
00:38:20,992 --> 00:38:26,112
之前每次你见我啊,你都会问我一个问题,我最近见过的最厉害的人是谁?

936
00:38:26,112 --> 00:38:31,752
你这次来美国,你觉得你见到了哪些厉害的人,他们有给你哪些启发?

937
00:38:31,752 --> 00:38:39,952
嗯,也不好说最厉害的人是谁吧,但是比如说一路下来我们在湾区,在波士顿,在纽约,匹
兹堡,

938
00:38:39,952 --> 00:38:43,792
其实跟很多做AI的这些研究员,包括

939
00:38:43,920 --> 00:38:50,520
工程数据沟通交流,我觉得还是从很多具体时间的角度去学习

940
00:38:50,520 --> 00:38:53,560
怎么样做大模型,包括说视觉模型

941
00:38:53,560 --> 00:38:56,280
以及现在大家关注的一些重点难点是什么

942
00:38:56,280 --> 00:38:57,360
我觉得是挺有帮助

943
00:38:57,840 --> 00:39:01,320
我刚才说到如果说我们从隔着一定距离去看

944
00:39:01,320 --> 00:39:03,600
就容易把这个问题给简单化

945
00:39:04,160 --> 00:39:06,520
简单化成比如说我怎么买到1万块芯片

946
00:39:06,520 --> 00:39:09,720
或者说我怎么样挖到比如OpenAI的人

947
00:39:09,720 --> 00:39:12,120
或者说我怎么样去

948
00:39:12,192 --> 00:39:13,272
收集雨料什么的

949
00:39:13,272 --> 00:39:14,952
但是我觉得跟他们交流下来

950
00:39:14,952 --> 00:39:18,552
就发现这里面有很多工程的细节都是很重要的

951
00:39:18,552 --> 00:39:21,832
以及说为什么它是一个这样的由来

952
00:39:21,832 --> 00:39:23,032
中间经历了什么故事

953
00:39:23,032 --> 00:39:24,712
我觉得这些是把它拆析了看

954
00:39:24,712 --> 00:39:26,592
会看到很多细节和脉络

955
00:39:26,832 --> 00:39:27,792
当然对我们的角度

956
00:39:27,792 --> 00:39:29,592
首先是想发现未来创业者

957
00:39:29,792 --> 00:39:32,112
我们其实不是说要去自己做一个大冒险

958
00:39:32,312 --> 00:39:33,352
不可能具备那个能力

959
00:39:33,352 --> 00:39:35,952
所以我们只是说想进一步的去探讨

960
00:39:35,952 --> 00:39:37,792
这里面有哪些难点

961
00:39:37,792 --> 00:39:39,272
或者哪些值得注意的地方

962
00:39:39,616 --> 00:39:41,856
整体来讲我觉得还是在学习阶段

963
00:39:41,856 --> 00:39:43,896
实际上你要问我见到最厉害的

964
00:39:43,896 --> 00:39:44,896
我觉得不是人

965
00:39:44,896 --> 00:39:47,736
而是在这个旅程中我们看到了Auto GPT

966
00:39:47,736 --> 00:39:51,576
我觉得Auto GPT是一个让我觉得非常震撼

967
00:39:51,576 --> 00:39:54,416
同时也进一步的加强了忧虑的事情

968
00:39:54,416 --> 00:39:59,216
是因为这种Recursive自己去执行的Demo出来

969
00:39:59,216 --> 00:40:03,296
那么它其实是具备很强的不可控的力量

970
00:40:03,296 --> 00:40:06,976
这里面我觉得AI Safety AI Alignment

971
00:40:06,976 --> 00:40:08,816
这些问题会变得很重要

972
00:40:08,944 --> 00:40:12,144
其实这个旅途中我是最被 old GPT 震惊啊

973
00:40:12,144 --> 00:40:15,064
当然如果我见到 Sam Altman 肯定他会讲一些让我很震惊的话

974
00:40:15,064 --> 00:40:17,344
但可惜我们也见不到 Sam Altman

975
00:40:17,344 --> 00:40:19,704
你要说有一个特别的人讲一句特别的话

976
00:40:19,704 --> 00:40:21,304
我倒觉得没有那样的时刻

977
00:40:21,304 --> 00:40:23,224
但是有很多人讲了很多有意思的东西

978
00:40:23,224 --> 00:40:24,944
我是觉得挺有意思的

979
00:40:24,944 --> 00:40:29,104
你刚提到你来慢慢理解了 GPT 它是怎么被做出来的

980
00:40:29,104 --> 00:40:31,344
它中间经历了哪些重要的时刻

981
00:40:31,344 --> 00:40:33,504
我想我们的听众可能也会很感兴趣

982
00:40:33,504 --> 00:40:35,904
能不能大概的介绍一下几个关键节点

983
00:40:36,208 --> 00:40:40,248
像现在微软它是可以每天训一个GPT-3

984
00:40:40,248 --> 00:40:41,648
就是训练一个GPT-3

985
00:40:41,648 --> 00:40:43,168
你变成一个顺手就可以做的事情

986
00:40:43,168 --> 00:40:44,208
一天训一个

987
00:40:44,208 --> 00:40:47,328
但是微软自己是没法训练GPT-4的

988
00:40:47,328 --> 00:40:53,568
是需要在Azure那台专门为训练GPT-4打招的超算上才可以训练的

989
00:40:53,568 --> 00:40:57,288
所以你会发现这里面这个训练的难度是高了很多

990
00:40:57,288 --> 00:41:00,168
尤其把这么多算力把它有效的组织起来

991
00:41:00,168 --> 00:41:03,928
这其实是一个很一线很前沿的问题

992
00:41:04,128 --> 00:41:07,768
我很好奇就是为什么微软可以随便训练一个GPT-3呢

993
00:41:08,128 --> 00:41:11,328
就是GPT-3所需要的算力以最近的架构已经很成熟了

994
00:41:11,328 --> 00:41:13,728
你可以直接通过云服务就拥有这样的算力

995
00:41:13,728 --> 00:41:16,368
但GPT-4需要的算力是一个新的级别

996
00:41:16,568 --> 00:41:20,448
比如说其实GPT-4初始的能力更强很多

997
00:41:20,568 --> 00:41:23,688
我看过一些没有经过微调的GPT-4

998
00:41:23,688 --> 00:41:25,088
比如画出来的图像

999
00:41:25,368 --> 00:41:29,328
它是要比现在的GPT-4画出图像更精细很多的

1000
00:41:29,568 --> 00:41:32,128
如果你看了那篇通用人工智能的火花那篇论文

1001
00:41:32,128 --> 00:41:33,848
你发现GPT-4是可以画图的

1002
00:41:33,856 --> 00:41:35,256
比如它里面画了个独角兽

1003
00:41:35,256 --> 00:41:38,656
但是那个已经是经过微调之后的GPT-4画的了

1004
00:41:38,656 --> 00:41:41,336
当没有经过微调的GPT-4画的图

1005
00:41:41,336 --> 00:41:42,696
其实要比那个精细很多

1006
00:41:42,696 --> 00:41:45,016
换句话说GPT-4为了和人类对齐

1007
00:41:45,016 --> 00:41:46,736
牺牲了很多它的能力

1008
00:41:46,736 --> 00:41:49,136
当三巴特们说他们没有在训GPT-5的时候

1009
00:41:49,136 --> 00:41:49,976
我觉得是有道理的

1010
00:41:49,976 --> 00:41:52,336
因为GPT-4现在还是冰山一角

1011
00:41:52,336 --> 00:41:55,056
它能做很多事情我们可能还想象不到

1012
00:41:55,056 --> 00:41:56,736
其实我跟一个朋友在讨论的时候

1013
00:41:56,736 --> 00:41:57,616
我们经常说到

1014
00:41:57,616 --> 00:41:59,536
如果我们现在斩钉截铁地说一件事

1015
00:41:59,536 --> 00:42:00,496
GPT-4做不到

1016
00:42:00,496 --> 00:42:02,256
往往是我们低估了它的能力

1017
00:42:02,336 --> 00:42:04,536
我们还在不断的像AutoGPT这样发现

1018
00:42:04,536 --> 00:42:06,736
它其实可以做很多我们没想到的事情

1019
00:42:06,736 --> 00:42:09,776
其实很多人会忽视的一点就是在

1020
00:42:09,776 --> 00:42:12,616
Instructor GPT训练的这个过程中

1021
00:42:12,616 --> 00:42:16,416
做的数据标注和RLHF这一块

1022
00:42:16,416 --> 00:42:17,696
其实我们可以想一想

1023
00:42:17,696 --> 00:42:20,976
你要在很多专业的领域生成很好的范文

1024
00:42:20,976 --> 00:42:23,976
同时比如说对于像ChatterGPT这样生成的

1025
00:42:23,976 --> 00:42:28,416
某个专业领域的很长很多的多个答案进行排序

1026
00:42:28,416 --> 00:42:29,736
这其实不是个简单的事情

1027
00:42:29,984 --> 00:42:32,424
比如说你问他一个生物的问题 他给你几种回答

1028
00:42:32,424 --> 00:42:35,864
然后你说哪个更好 这其实需要很多专业能力和技能

1029
00:42:35,864 --> 00:42:40,664
这之前本来大家觉得可能是一个需要成千上万人干好多年的事情

1030
00:42:40,664 --> 00:42:43,464
没想到居然是几十一百个人干了两个月的事情

1031
00:42:43,464 --> 00:42:47,864
在这个里面像Surge, Scale这样的公司扮演的作用是很大的

1032
00:42:47,864 --> 00:42:50,864
你能把这件事高效的大规模的去做

1033
00:42:50,864 --> 00:42:55,104
这个其实是一个不是所谓的火箭科学 不是rocket science

1034
00:42:55,104 --> 00:42:57,944
但是它是一个很难的工程问题

1035
00:42:58,208 --> 00:43:02,528
所以在这些领域,我就说有很多问题,当我们真的要去做的时候,可能会发现

1036
00:43:02,528 --> 00:43:07,648
不是说简单买了芯片插上就可以迅速出来,它会有很多的工程具体要解决的问题

1037
00:43:07,648 --> 00:43:11,848
所以我觉得这些都是很有意思的看到的更全面的东西吧

1038
00:43:11,848 --> 00:43:16,448
你刚提到GPT-4它没有经过微调以前的版本

1039
00:43:16,448 --> 00:43:21,888
比它真正放出来的要强大很多,因为在那篇论文里它也写到了,就是说它其实是

1040
00:43:22,048 --> 00:43:27,128
经历了八个月的安全测试,它是为了让它的安全标准不停地能达到

1041
00:43:27,128 --> 00:43:31,048
来适应人类不至于让它比如说有种族歧视

1042
00:43:31,048 --> 00:43:33,648
或者有一些它不应该出现的话

1043
00:43:33,648 --> 00:43:37,648
但是现在我看业界大家也没有讨论就是GBT5的

1044
00:43:37,648 --> 00:43:39,568
这种出现的可能性啊

1045
00:43:39,568 --> 00:43:44,808
未来比如说这个GBT它如果还要去进化,就是它的这种能力

1046
00:43:44,808 --> 00:43:49,688
它会是什么呢?它会是把那个魏焉歌的版本再放出来一些还是什么?

1047
00:43:49,688 --> 00:43:50,568
我不太理解啊

1048
00:43:50,816 --> 00:43:53,816
这很多问题只有Sam Altman能回答我感觉

1049
00:43:53,816 --> 00:43:56,816
但我觉得alignment会是一个很重要的话题

1050
00:43:56,816 --> 00:43:59,216
因为能力越大责任越大

1051
00:43:59,216 --> 00:44:03,136
尤其是当AutoGPT它可以选择工具执行外界任务

1052
00:44:03,136 --> 00:44:05,736
并且自发去执行的事情发生了

1053
00:44:05,736 --> 00:44:08,376
OpenAI让我觉得很厉害的一点就是

1054
00:44:08,376 --> 00:44:10,376
他们一开始是一个研究机构

1055
00:44:10,376 --> 00:44:13,136
一开始的时候其实是研究的很发散的

1056
00:44:13,136 --> 00:44:14,096
很多话题都有研究

1057
00:44:14,096 --> 00:44:15,256
他们也研究打游戏

1058
00:44:15,256 --> 00:44:17,576
他们也研究各种的领域的AI问题

1059
00:44:17,576 --> 00:44:19,808
但是他们逐渐地

1060
00:44:19,808 --> 00:44:23,208
中间发生了一次相变变成了一个做产品的公司

1061
00:44:23,608 --> 00:44:26,688
其实GPT-4发布的时候我听到两种声音

1062
00:44:26,888 --> 00:44:28,488
有的人说很失望

1063
00:44:28,488 --> 00:44:30,888
因为诶,居然就做了一个读图

1064
00:44:30,888 --> 00:44:32,128
都没有做纹身图

1065
00:44:32,128 --> 00:44:33,408
也没有做视频

1066
00:44:33,528 --> 00:44:35,328
也没有做其他的多模态什么的

1067
00:44:35,328 --> 00:44:37,088
并且这个图的API还没出来

1068
00:44:37,488 --> 00:44:39,328
好像主要的还是这个文字

1069
00:44:39,328 --> 00:44:40,168
觉得有点失望

1070
00:44:40,168 --> 00:44:41,208
因为没什么新东西

1071
00:44:41,608 --> 00:44:43,168
但另外一批人觉得很厉害

1072
00:44:43,168 --> 00:44:44,728
比如说像我们去测试了很多

1073
00:44:44,728 --> 00:44:45,928
原来战略物打不好的问题

1074
00:44:45,928 --> 00:44:46,888
发现它能打好了

1075
00:44:47,024 --> 00:44:50,024
当然后面插件啊 Otto GPT 直接出来就更厉害对吧

1076
00:44:50,024 --> 00:44:54,064
我觉得这恰恰反映了说OpenAI 在用一种做好产品

1077
00:44:54,064 --> 00:44:57,984
做一个上亿人使用的基础产品的态度去做这件事情

1078
00:44:57,984 --> 00:44:59,664
如果是个学术研究机构

1079
00:44:59,664 --> 00:45:03,064
它会很有动力去第一个发视频到文字啊

1080
00:45:03,064 --> 00:45:05,824
或者说文字到视频或者什么的这种研究结果

1081
00:45:05,824 --> 00:45:08,984
但是OpenAI选择了把已有的做扎实做好

1082
00:45:08,984 --> 00:45:10,464
这个是很不容易的

1083
00:45:10,464 --> 00:45:13,504
我觉得在这个里面alignment是一个

1084
00:45:13,600 --> 00:45:17,640
尽管被强调,可能还是比较被低估的一个话题

1085
00:45:17,640 --> 00:45:21,720
举个例子,应该跟什么样的价值观去alignment

1086
00:45:21,720 --> 00:45:27,320
现在可能本质上还是跟美国加州的一群白人男性去alignment

1087
00:45:27,320 --> 00:45:28,840
全世界有很多文明

1088
00:45:28,840 --> 00:45:30,880
在一个文明完全OK的事情

1089
00:45:30,880 --> 00:45:33,240
在另外一个文明可能是非常不OK的

1090
00:45:33,240 --> 00:45:36,160
同样我们的价值观变化也是很快的

1091
00:45:36,160 --> 00:45:38,320
十几年前我在美国读书的时候

1092
00:45:38,320 --> 00:45:40,920
同性婚姻还是非常禁忌的话题

1093
00:45:40,920 --> 00:45:43,520
当时奥巴马竞选其实都是不允许同性婚姻

1094
00:45:43,568 --> 00:45:46,568
但是现在同性婚姻当然是一个大家都很欢迎的价值观

1095
00:45:46,568 --> 00:45:49,768
那这个过程中你会发现AI跟什么对齐

1096
00:45:49,768 --> 00:45:51,768
如何去动态的去调整

1097
00:45:51,768 --> 00:45:53,768
其实都会有很多的问题

1098
00:45:53,768 --> 00:45:57,968
那么在这个过程中我觉得也可能需要一些跨国的合作

1099
00:45:57,968 --> 00:46:00,968
就像我们有核不扩散的国际公约一样

1100
00:46:00,968 --> 00:46:03,168
但核不扩散是好检验的

1101
00:46:03,168 --> 00:46:05,168
因为你做核实验天上有微星看着

1102
00:46:05,168 --> 00:46:07,768
但是你在你的计算机里跑着最先进的AI

1103
00:46:07,768 --> 00:46:09,760
实际上很难被看出来

1104
00:46:09,760 --> 00:46:12,720
但这个里面怎么样对于这种我们又未知

1105
00:46:12,720 --> 00:46:15,680
同时又有可能很大破坏的应用去进行监管

1106
00:46:15,680 --> 00:46:17,440
进行安全的保障

1107
00:46:17,440 --> 00:46:19,360
虽然那封公开信传得很广

1108
00:46:19,360 --> 00:46:21,520
我是不赞同公开信里面说的停止研究

1109
00:46:21,520 --> 00:46:23,640
因为我觉得好人停止研究坏人继续干嘛

1110
00:46:23,640 --> 00:46:26,760
而且并且我觉得你只有继续研究才知道它是怎么回事

1111
00:46:26,760 --> 00:46:29,720
但是我觉得确实我们面临的东西

1112
00:46:29,720 --> 00:46:32,000
其实是可能带来很大的破坏的

1113
00:46:32,000 --> 00:46:33,480
并且我悲观的觉得

1114
00:46:33,480 --> 00:46:36,200
可能得产生一两次大的破坏之后

1115
00:46:36,200 --> 00:46:39,200
人们才会真正的去把这个事情提到日程上来

1116
00:46:39,296 --> 00:46:43,256
就跟我们核泄漏之后大家可能才会制定核安全法

1117
00:46:43,256 --> 00:46:45,976
包括数据泄漏之后才会制定数据安全法一样

1118
00:46:45,976 --> 00:46:48,656
我觉得可能得经历一些大的事故

1119
00:46:48,656 --> 00:46:51,056
因为这里面它因为没有实体嘛

1120
00:46:51,056 --> 00:46:52,696
所以往往它会被人低估

1121
00:46:52,696 --> 00:46:54,616
就觉得我们把插头拔了就行了

1122
00:46:54,616 --> 00:46:59,456
但实际上它其实现在的能力已经可能造成一些破坏了

1123
00:46:59,456 --> 00:47:00,296
随便举个例子

1124
00:47:00,296 --> 00:47:02,496
比如说上一次美国大选的时候

1125
00:47:02,496 --> 00:47:08,896
其实就指控有敌对国家通过Facebook投放虚假广告来干扰选举结果

1126
00:47:08,896 --> 00:47:08,928
这种情况下

1127
00:47:08,928 --> 00:47:13,328
你想现在的大语言模型是个说服能力可以很强的一个工具

1128
00:47:13,648 --> 00:47:18,768
因为它可以把所有的心理学语言学技巧全部集中起来

1129
00:47:18,928 --> 00:47:21,648
调动全部的这种知识、语料、逻辑

1130
00:47:21,648 --> 00:47:22,848
想去说服一个人

1131
00:47:22,928 --> 00:47:25,368
简单来讲比如说电话诈骗杀猪盘对吧

1132
00:47:25,568 --> 00:47:27,448
现在是比较弱智的骗术

1133
00:47:27,448 --> 00:47:29,248
那以后可能是很强大的骗术

1134
00:47:29,648 --> 00:47:31,128
但是呢进一步的去想

1135
00:47:31,128 --> 00:47:34,448
假设说在一个选举中可以用AI打电话给

1136
00:47:34,448 --> 00:47:36,088
比如说100万个关键选民

1137
00:47:36,088 --> 00:47:37,424
因为其实美国大选

1138
00:47:37,424 --> 00:47:39,864
关键的选民可能就是几万人有研究通过

1139
00:47:39,864 --> 00:47:41,864
因为这几样是都很结果都很紧嘛

1140
00:47:41,864 --> 00:47:42,944
都非常的接近

1141
00:47:43,304 --> 00:47:45,264
那可能我打电话去劝说这100万人

1142
00:47:45,264 --> 00:47:46,704
有一万人改了他的投票

1143
00:47:46,704 --> 00:47:47,944
也许美国总统就变了

1144
00:47:48,344 --> 00:47:50,064
这可能就是非常大的一个变化

1145
00:47:50,464 --> 00:47:52,784
这其实都不用说什么天网啊终结者

1146
00:47:52,784 --> 00:47:53,904
其实就可以说

1147
00:47:54,184 --> 00:47:57,344
人和AI去配合去进行大的破坏

1148
00:47:57,704 --> 00:48:00,184
比如说你看OpenAI的插件系统

1149
00:48:00,344 --> 00:48:03,344
其实是只能够读互联网不能写互联网

1150
00:48:03,472 --> 00:48:05,272
这可能是很重要的安全防范处

1151
00:48:05,272 --> 00:48:07,872
是否则的话每个人都可以生成一堆fake news

1152
00:48:07,872 --> 00:48:09,672
然后直接发到网上去post

1153
00:48:09,912 --> 00:48:12,032
就会发现大量的信息就会充填互联网

1154
00:48:12,032 --> 00:48:15,792
这只是非常简单现有的技术就完全可以做到的事情

1155
00:48:15,792 --> 00:48:20,232
其实你想如果auto gpt这样的应用去调一个发消息的API

1156
00:48:20,232 --> 00:48:22,032
或者一个发内容的一个API

1157
00:48:22,032 --> 00:48:25,392
它完全可以不知疲倦的生成真假难辨的虚假内容

1158
00:48:25,392 --> 00:48:26,712
去填塞整个互联网

1159
00:48:26,912 --> 00:48:29,432
那假设你说用这个对一个人进行诽谤

1160
00:48:29,432 --> 00:48:31,392
或者制造一些虚假的信息

1161
00:48:31,392 --> 00:48:32,672
那岂不是很容易

1162
00:48:32,752 --> 00:48:36,672
这些我们都不谈到说什么AI对人类要什么消灭人的那些

1163
00:48:36,672 --> 00:48:38,712
我觉得那些还是属于偏科幻领域的

1164
00:48:38,712 --> 00:48:41,312
但是在目前它是个强大的语言工具

1165
00:48:41,312 --> 00:48:46,952
而我们又很缺乏对于一个看似形式很完善的谎言的识别能力

1166
00:48:46,952 --> 00:48:48,912
所以这其实是很危险的

1167
00:48:48,912 --> 00:48:53,272
你怎么看马斯克一边主张叫停对大模型的研究

1168
00:48:53,272 --> 00:48:56,432
然后另一边又自己去做一个这样的事儿

1169
00:48:56,432 --> 00:48:59,392
马斯克是一个非常think loud的人

1170
00:48:59,392 --> 00:49:02,384
他是把自己的想法会不加修饰地直接说出来

1171
00:49:02,384 --> 00:49:06,984
包括我听说也有一些openai的早期支持者对于openai现在变成了closea
i

1172
00:49:06,984 --> 00:49:09,544
还是有一些看法和意见的

1173
00:49:09,544 --> 00:49:10,584
closeai

1174
00:49:10,584 --> 00:49:11,864
就是说他没有开源嘛

1175
00:49:11,864 --> 00:49:13,584
对openai不open

1176
00:49:13,584 --> 00:49:14,464
对他不open

1177
00:49:14,464 --> 00:49:16,184
听说是会有些意见的

1178
00:49:16,184 --> 00:49:20,024
但伊隆马斯克肯定是一个最直接不仅要说出来我还要干的人

1179
00:49:20,024 --> 00:49:24,544
那有的人可能不支持说去用别的方式去把这老股卖了呀之类的

1180
00:49:24,544 --> 00:49:26,824
我觉得呢会有个道理啊

1181
00:49:26,824 --> 00:49:29,824
就是我觉得openai说这个技术太危险了

1182
00:49:29,824 --> 00:49:30,832
所以我要

1183
00:49:30,832 --> 00:49:32,592
不能让它开源我觉得也是对的

1184
00:49:32,592 --> 00:49:34,552
因为开源的时候

1185
00:49:34,552 --> 00:49:38,552
我觉得比较适合于这种对它的潜在风险

1186
00:49:38,552 --> 00:49:40,952
已经有个大概概念的一个领域

1187
00:49:40,952 --> 00:49:43,152
在现在对于GBT是这么强大的系统

1188
00:49:43,152 --> 00:49:45,712
如果你连它的能力我们都没有认识清楚的话

1189
00:49:45,712 --> 00:49:48,792
贸然开源可能确实是有很大的风险

1190
00:49:48,792 --> 00:49:49,872
但另外一方面呢

1191
00:49:49,872 --> 00:49:51,752
我觉得也有很多商业意义上

1192
00:49:51,752 --> 00:49:54,352
或者是舆论意义上的这种竞争

1193
00:49:54,352 --> 00:49:56,352
这种吵吵嚷嚷总是有很多的

1194
00:49:56,352 --> 00:49:57,744
这里面关键还是说

1195
00:49:57,744 --> 00:49:59,504
本质上我是比较相信开源的

1196
00:49:59,504 --> 00:50:01,464
但是我觉得肯定不是从一开始就开源

1197
00:50:01,904 --> 00:50:03,784
可能还是我们要对它有更多的了解

1198
00:50:04,264 --> 00:50:07,384
至少我们知道怎么防御之后开源我觉得会比较好

1199
00:50:07,664 --> 00:50:10,304
我觉得OpenAI的股权设置也很有意思

1200
00:50:10,304 --> 00:50:14,384
Sam本人他其实是没有任何OpenAI的股权的

1201
00:50:14,384 --> 00:50:16,304
如果我没有记错的话应该是零股权

1202
00:50:16,584 --> 00:50:20,264
他们的几个科学家像Elia还有那个叫Greg Brockman

1203
00:50:20,544 --> 00:50:22,464
其实主要的股权是给这些科学家的

1204
00:50:22,664 --> 00:50:25,544
他的公司设置最开始也是从非盈利息公司

1205
00:50:25,712 --> 00:50:28,992
後面是在非盈利下面又設了一個盈利性公司

1206
00:50:28,992 --> 00:50:30,312
如果我沒有記錯的話

1207
00:50:30,312 --> 00:50:32,712
他盈利性那一部分如果有股權

1208
00:50:32,712 --> 00:50:34,192
就是有財務回報的話

1209
00:50:34,192 --> 00:50:38,032
那麼他在董事會上他的投票權是沒有的

1210
00:50:38,032 --> 00:50:41,792
但是Sam選擇了不要錢,要投票權

1211
00:50:41,792 --> 00:50:45,392
我是在想為什麼他要去做這樣一種設置

1212
00:50:45,392 --> 00:50:48,592
是不是說未來就比如說要實現AGI

1213
00:50:48,592 --> 00:50:52,112
他前面還是要忍受很長時間很久的不盈利

1214
00:50:52,304 --> 00:50:54,624
然後去做到他最終的那個目標的

1215
00:50:54,624 --> 00:50:57,104
他很怕這個事情被商業所帶歪

1216
00:50:57,704 --> 00:50:59,264
我們這都是局外人

1217
00:50:59,264 --> 00:51:01,104
甚至都不是很接近的局外人

1218
00:51:01,104 --> 00:51:02,944
只有去從他表面去看

1219
00:51:03,544 --> 00:51:04,704
其實他提到了一點

1220
00:51:04,704 --> 00:51:07,504
就是說微軟現在有49%的收益權

1221
00:51:07,504 --> 00:51:08,504
我可以給你賺錢

1222
00:51:08,504 --> 00:51:09,704
但你擁有的是收益權

1223
00:51:09,704 --> 00:51:10,784
你不能擁有控制權

1224
00:51:10,784 --> 00:51:13,464
因為他們從一開始就本質上的去相信

1225
00:51:13,464 --> 00:51:14,704
這樣的技術很危險

1226
00:51:14,704 --> 00:51:16,704
需要得到有效的監管和控制

1227
00:51:16,704 --> 00:51:19,144
不能夠落入邪惡的大公司手裡

1228
00:51:19,328 --> 00:51:22,568
但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發

1229
00:51:22,568 --> 00:51:26,808
所以才定下來這種收益和控制分開的這樣一個協定

1230
00:51:26,808 --> 00:51:29,848
然後才有你賺錢你就不能投票的這種邏輯

1231
00:51:29,848 --> 00:51:32,248
就是投票權和賺錢你只能選一個

1232
00:51:32,248 --> 00:51:35,208
我還是挺相信這一點的 說實話

1233
00:51:35,208 --> 00:51:37,448
我是覺得這是一個很誠懇的一個表達

1234
00:51:37,448 --> 00:51:39,048
也是一個很美國式的

1235
00:51:39,048 --> 00:51:40,408
如果把這個話說清楚

1236
00:51:40,408 --> 00:51:42,848
你要麼賺錢 要麼有控制 你只能選一個

1237
00:51:42,848 --> 00:51:44,888
我覺得其實是一個很有意思的設定

1238
00:51:44,888 --> 00:51:48,368
open edge開始的時候它能夠吸引很多優秀人才

1239
00:51:48,368 --> 00:51:49,312
就是因為

1240
00:51:49,312 --> 00:51:52,952
它不是一個在corporate裏面你需要去

1241
00:51:52,952 --> 00:51:56,352
完成一些比如說讓更多人看廣告這樣的事情

1242
00:51:56,352 --> 00:51:58,512
但同時呢它有很多捐贈

1243
00:51:58,512 --> 00:52:00,912
所以說你還是可以過上不錯的生活

1244
00:52:00,912 --> 00:52:03,672
但到後面確實OpenAI自己需要很多錢

1245
00:52:03,672 --> 00:52:05,872
同時這些員工人也變多了

1246
00:52:05,872 --> 00:52:07,152
也需要更多的激勵

1247
00:52:07,152 --> 00:52:09,512
所以後面變成了一家公司

1248
00:52:09,512 --> 00:52:13,512
但是它還是要解決公司做大了被資本裹挾的這個問題

1249
00:52:13,512 --> 00:52:16,312
所以我是覺得這個解決方案還蠻有意思的

1250
00:52:16,448 --> 00:52:19,368
但是也是需要真的有非常有vision的人

1251
00:52:19,368 --> 00:52:22,528
而且有實力去說服別人的人才能達成這麼個方案

1252
00:52:22,528 --> 00:52:24,728
否則對微軟來講我花了這麼多錢

1253
00:52:24,728 --> 00:52:25,728
當然我也賺很多錢

1254
00:52:25,728 --> 00:52:27,288
但是最後我沒有得到的平安

1255
00:52:27,288 --> 00:52:29,248
這其實也是一個常理來講

1256
00:52:29,248 --> 00:52:31,168
不一定能被所有人接受的方案

1257
00:52:31,608 --> 00:52:34,888
因為你們現在其實投大模型也投應用層啊

1258
00:52:34,888 --> 00:52:36,808
就我很好奇從投資的角度

1259
00:52:37,048 --> 00:52:39,928
你會怎麼去判斷一個項目甚至是一個人

1260
00:52:39,928 --> 00:52:41,248
他是不是值得你投的

1261
00:52:41,248 --> 00:52:44,808
我記得廣密當時在朋友圈發了一條文字

1262
00:52:44,808 --> 00:52:45,608
他就說

1263
00:52:45,632 --> 00:52:48,232
中國什麽樣的人能做出openai

1264
00:52:48,232 --> 00:52:51,832
我不知道你們怎麽看這個人需要具備哪些素質

1265
00:52:51,832 --> 00:52:57,032
其實我覺得做openai和做其他的公司需要的一些底層能力

1266
00:52:57,032 --> 00:52:58,832
我們一直認為是類似的

1267
00:52:58,832 --> 00:53:01,432
比如說我們一直說創業者的一些基礎能力

1268
00:53:01,432 --> 00:53:04,512
比如說學習力、領導力、創新力、意志力

1269
00:53:04,512 --> 00:53:06,312
我覺得這些是比較普世的

1270
00:53:06,312 --> 00:53:08,712
openai有它的歷史背景

1271
00:53:08,712 --> 00:53:12,312
有它的成長的國家和市場環境

1272
00:53:12,312 --> 00:53:15,312
第一個去做和第二個做也不一樣

1273
00:53:15,312 --> 00:53:15,360
我們要做的是創新

1274
00:53:15,360 --> 00:53:17,800
第一個可能需要很強的探索能力

1275
00:53:17,800 --> 00:53:20,160
但第二個可能往往需要是執行力

1276
00:53:20,160 --> 00:53:22,760
所以我覺得不宜直接去類比

1277
00:53:22,760 --> 00:53:26,160
但是我覺得OpenAI幾個人的搭配確實是非常厲害

1278
00:53:26,160 --> 00:53:29,680
每個人在自己應該做的事情上都是世界頂級的

1279
00:53:29,680 --> 00:53:33,680
而且其實我當時翻譯過一篇Grog Brockman的文章

1280
00:53:33,680 --> 00:53:35,760
他其實90%的時間都在寫代碼

1281
00:53:35,760 --> 00:53:38,040
這個事情我覺得不只是說他喜歡寫代碼

1282
00:53:38,040 --> 00:53:38,960
或者代碼寫得好

1283
00:53:38,960 --> 00:53:42,960
是說在這種很多事情都不確定的時候

1284
00:53:43,088 --> 00:53:46,408
組織裏面有一個非常有話語權

1285
00:53:46,408 --> 00:53:48,008
並且又非常hands on

1286
00:53:48,008 --> 00:53:52,888
知道每一個環節具體在做什麽的人是很重要的

1287
00:53:52,888 --> 00:53:54,888
因為很多時候當一個這樣的公司

1288
00:53:54,888 --> 00:53:56,128
是幾百億美金了

1289
00:53:56,128 --> 00:53:57,328
然後組織大了

1290
00:53:57,328 --> 00:53:59,328
可能他就變成了一個cto

1291
00:53:59,328 --> 00:54:01,248
或者說什麽這樣一個角色

1292
00:54:01,248 --> 00:54:02,408
那就會遠離一線

1293
00:54:02,408 --> 00:54:04,488
但是那種情況下往往是

1294
00:54:04,488 --> 00:54:06,208
如果你的業務已經表清楚了

1295
00:54:06,320 --> 00:54:07,480
大家該幹嘛是表清楚

1296
00:54:07,480 --> 00:54:11,040
但現在很多時候還是這一個學習研究探索的階段

1297
00:54:11,040 --> 00:54:13,160
這個時候一個人會的東西

1298
00:54:13,160 --> 00:54:15,680
牽涉到了領域多牽涉到團隊多

1299
00:54:15,680 --> 00:54:16,960
其實是很有幫助的

1300
00:54:17,240 --> 00:54:20,520
所以這其實都是叫做說運氣也好

1301
00:54:20,520 --> 00:54:22,160
或者說是有益設定也好

1302
00:54:22,160 --> 00:54:24,240
這還是挺厲害的一些設定的

1303
00:54:24,600 --> 00:54:27,120
但是未必中國的也是要一模一樣的搭配

1304
00:54:27,120 --> 00:54:27,600
對吧

1305
00:54:27,680 --> 00:54:29,640
比如說有技術背景的人當CEO的

1306
00:54:29,640 --> 00:54:32,480
也有老王這種商業業務背景的人當CEO的

1307
00:54:32,480 --> 00:54:33,200
我覺得都有

1308
00:54:33,472 --> 00:54:37,112
我們只能說創業呢它永遠無法是一個完美的一副牌

1309
00:54:37,112 --> 00:54:39,312
或者說哪怕你有看上去完美的一副牌

1310
00:54:39,312 --> 00:54:40,632
你也未必能打得完美

1311
00:54:40,632 --> 00:54:43,552
所以我覺得還是一有什麼牌然後去把它打好

1312
00:54:43,552 --> 00:54:45,312
你還有什麼要補充的嗎

1313
00:54:45,312 --> 00:54:49,832
首先我覺得AI這一波跟之前的元宇宙也好

1314
00:54:49,832 --> 00:54:52,992
Web3也好這種大家覺得很有泡沫的浪潮

1315
00:54:52,992 --> 00:54:54,992
我覺得還有些不太一樣的地方

1316
00:54:54,992 --> 00:54:57,152
首先任何科技進步都有很多泡沫

1317
00:54:57,152 --> 00:54:58,272
這個是肯定的

1318
00:54:58,272 --> 00:55:00,272
沒有泡沫的地方也不會有啤酒

1319
00:55:00,272 --> 00:55:02,672
但是呢我覺得判斷一個事情是不是

1320
00:55:02,704 --> 00:55:05,424
只有泡沫或者說泡沫上大多數呢 需要看

1321
00:55:05,424 --> 00:55:10,624
它是不是真的為主流的普通的用戶提供了很直接的價值

1322
00:55:10,624 --> 00:55:14,824
是不是真的是我因為要用這個技術所以我去用

1323
00:55:14,824 --> 00:55:18,344
還是說我能夠賺錢 或者說我聽說別人說未來很有用

1324
00:55:18,344 --> 00:55:20,424
還是現在立刻就有用 從這點來講

1325
00:55:20,424 --> 00:55:22,784
我覺得現在我們看到大圓模型為代表的

1326
00:55:22,784 --> 00:55:24,664
包括說生成式的AI

1327
00:55:24,768 --> 00:55:25,968
不管是文字還是圖片

1328
00:55:25,968 --> 00:55:29,408
是真真正正對普通的主流用戶群體

1329
00:55:29,408 --> 00:55:32,128
實在產生價值門檻也比較低

1330
00:55:32,128 --> 00:55:34,408
不管是從成本還是使用的難度來講

1331
00:55:34,408 --> 00:55:36,168
都比較低的一種技術

1332
00:55:36,168 --> 00:55:38,728
比起之前的一些被炒得很熱的

1333
00:55:38,728 --> 00:55:40,568
但是實際應用場景比較缺乏

1334
00:55:40,568 --> 00:55:42,368
用起來又比較難用的技術來講

1335
00:55:42,368 --> 00:55:44,488
我覺得還是有很大的區別的

1336
00:55:44,488 --> 00:55:46,368
所以我首先認為它是一個

1337
00:55:46,368 --> 00:55:48,128
雖然也是有很多泡沫

1338
00:55:48,128 --> 00:55:49,288
很多喧囂在裏面

1339
00:55:49,288 --> 00:55:51,528
但是我覺得會有很多啤酒的一個領域

1340
00:55:51,648 --> 00:55:55,528
我覺得可能是我們人類面臨的最大的一次技術革命

1341
00:55:55,528 --> 00:55:57,528
因為最本質的一點是說

1342
00:55:57,528 --> 00:56:01,488
原來我們所有的技術其實都在改進我們使用的工具

1343
00:56:01,488 --> 00:56:04,648
而這次是第一次用工具的這一邊

1344
00:56:04,648 --> 00:56:06,248
其實發生了變化

1345
00:56:06,248 --> 00:56:10,288
並且這個變化可能是比我們要更強大的一個存在

1346
00:56:10,288 --> 00:56:15,088
這個其實我覺得會在社會學、心理學等各個方面產生很重大的影響

1347
00:56:15,088 --> 00:56:18,688
因為它是發生在數字世界的

1348
00:56:18,912 --> 00:56:21,592
我們過去幾十年甚至上百年

1349
00:56:21,592 --> 00:56:25,872
我們往往在不斷地低估數字世界的變化速度

1350
00:56:25,872 --> 00:56:28,032
而高估物理世界的變化速度

1351
00:56:28,032 --> 00:56:31,192
比如說我們原來覺得有終結者terminator

1352
00:56:31,192 --> 00:56:33,912
結果現在我們的AI可能已經快到那個程度了

1353
00:56:33,912 --> 00:56:35,232
但機器人還差很遠

1354
00:56:35,232 --> 00:56:37,992
數字世界的迭代是快的

1355
00:56:37,992 --> 00:56:39,872
成本下降是快的

1356
00:56:39,872 --> 00:56:44,752
那麼現在我們看到的很多像AutoGPT這樣的雛形

1357
00:56:44,752 --> 00:56:47,712
可能三五年之後就會變得完全不一樣

1358
00:56:47,760 --> 00:56:49,760
會完善成熟很多

1359
00:56:49,760 --> 00:56:53,040
所以在這過程中我覺得要保持開放心態

1360
00:56:53,040 --> 00:56:56,600
然後很重要一點是在一個技術革命的早期

1361
00:56:56,600 --> 00:56:58,840
去預測未來基本上都是錯的

1362
00:56:58,840 --> 00:57:02,080
所以現在不管是我也好還是誰也好

1363
00:57:02,080 --> 00:57:03,440
我覺得講了很多話呢

1364
00:57:03,440 --> 00:57:05,320
我覺得你可以認為第一都是錯的

1365
00:57:05,320 --> 00:57:08,720
第二它的實現的路徑和結果可能都完全不一樣

1366
00:57:08,720 --> 00:57:10,432
因為試想2010年的時候

1367
00:57:10,432 --> 00:57:12,672
移動互聯網那個時候其實已經開始了

1368
00:57:12,672 --> 00:57:15,712
然後移動互聯網跟互聯網比其實也差不太多

1369
00:57:15,712 --> 00:57:19,632
但如果你在2010年你預測2023年的移動互聯網贏家

1370
00:57:19,632 --> 00:57:25,232
你會不會想到字節想不到快手小紅書拼多多美團滴滴uber

1371
00:57:25,232 --> 00:57:27,032
我覺得是很難很難的

1372
00:57:27,032 --> 00:57:29,072
那麽如果移動互聯網都這麽難

1373
00:57:29,072 --> 00:57:30,432
那AI我覺得就更難

1374
00:57:30,432 --> 00:57:34,192
有人說大模型會吞噬要應用的空間

1375
00:57:34,192 --> 00:57:37,192
也許有人說開源的會戰勝閉源的或者什麽怎麽樣

1376
00:57:37,192 --> 00:57:37,712
我覺得

1377
00:57:37,808 --> 00:57:41,688
我們一定要記住這是一個大部分人就只接觸了幾個月的技術

1378
00:57:41,688 --> 00:57:44,848
所以這個時候的很多預計 我覺得看看它的道理是什麽

1379
00:57:44,848 --> 00:57:48,208
但不用特別在意它的精確度

1380
00:57:48,208 --> 00:57:51,808
因為這個時候開始去做 尤其是對年輕人來講

1381
00:57:51,808 --> 00:57:55,368
早點去投身其中去嘗試去探索

1382
00:57:55,368 --> 00:57:57,168
其實是代表命運最好的方式

1383
00:57:57,440 --> 00:58:01,640
因為我在過去幾年經常聽人說80後很幸運對吧

1384
00:58:01,640 --> 00:58:04,120
像我們80後趕上了互聯網所以怎麽怎麽樣

1385
00:58:04,120 --> 00:58:06,760
但我覺得以後20年之後大家會說00後很幸運

1386
00:58:06,760 --> 00:58:09,280
因為趕上了AGI的Spark誕生的時候

1387
00:58:09,280 --> 00:58:12,000
在這個時候我們因為是做天使投資嘛

1388
00:58:12,000 --> 00:58:14,720
而且我們相信當技術比較成熟的時候

1389
00:58:14,720 --> 00:58:16,960
有利於連續創業者這些老司機們

1390
00:58:16,960 --> 00:58:18,960
但是技術比較新的時候呢

1391
00:58:18,960 --> 00:58:21,200
是有益於年輕人這些小天才們

1392
00:58:21,200 --> 00:58:24,160
這些年輕人呢他們一般都是年輕有衝勁

1393
00:58:24,160 --> 00:58:27,040
對這個技術很早就喜歡很早就感興趣

1394
00:58:27,040 --> 00:58:27,152
所以我相信未來的技術是會有益的

1395
00:58:27,152 --> 00:58:30,232
自己用的很多並且具備很好的知性能力

1396
00:58:30,232 --> 00:58:31,952
和國際化視野的年輕人

1397
00:58:31,952 --> 00:58:34,552
所以我們也是非常希望能夠多多尋找

1398
00:58:34,552 --> 00:58:35,752
在 AI 這個領域

1399
00:58:35,752 --> 00:58:37,952
不管你是要做比較底層的模型

1400
00:58:37,952 --> 00:58:40,152
或者中間層或者是做應用

1401
00:58:40,152 --> 00:58:42,752
我們都希望跟大家多多交流多多合作

1402
00:58:42,752 --> 00:58:44,432
好的 謝謝宇森

1403
00:58:44,432 --> 00:58:45,632
好的 謝謝

1404
00:58:45,632 --> 00:58:46,952
這就是我們今天的節目

1405
00:58:46,952 --> 00:58:48,392
如果大家喜歡我們的節目

1406
00:58:48,392 --> 00:58:51,552
或者大家對大模型有什麽樣的想法

1407
00:58:51,552 --> 00:58:53,832
可以在我們的評論區留言給我們

1408
00:58:53,936 --> 00:58:57,256
中國的聽眾可以通過蘋果播客小宇宙

1409
00:58:57,256 --> 00:59:02,136
喜馬拉雅 星庭FM 勵志FM 網易語音音樂 QQ音樂來關注我們

1410
00:59:02,136 --> 00:59:05,736
海外的聽眾可以通過Apple Podcast Google Podcast

1411
00:59:05,736 --> 00:59:08,456
Spotify 還有Amazon Music來收聽我們

1412
00:59:08,456 --> 00:59:10,456
感謝大家的收聽 謝謝

免費轉 youtube 字幕 ( 用 Google colab 執行 Whisper 語音轉文字)

2023-05-03T22:30:00.002+08:00

Youtube:
https://www.youtube.com/watch?v=1UJOyLXGdKI

原始碼:
https://gitlab.com/aadnk/whisper-webui

Colab:
https://colab.research.google.com/drive/1qeTSvi7Bt_5RMm88ipW4fkcsMOKlDDss

Open AI 極早期歷史 ( from Podcast : 硅谷101 : E107 )

2023-04-26T23:50:00.002+08:00

音檔來源 :
硅谷101 : E107｜AI大爆發：OpenAI極早期歷史，以及圖像領域的GPT moment｜AIGC特輯

轉換工具: Whisper Webui on Google colab

還有一位叫Alec Radford

他當時在研究其實後來非常像GPT的一個東西

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

Alec Redford他當時就提出我們應該訓練語言模型

並且不僅是用LSTM來實現

而且需要在很大的數據上面進行訓練

所以他當時就想到通過預測一句話的後面一個單詞

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

它也是GPT的相當於一個技術的奠基

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

它其實和神經網絡具體的架構本身是可以相對獨立的

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM

來實現

但是這個背後的思想的範疇是一樣的

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

比如說像Reddit是一個美國比較流行的論壇

它有一個特點就是所有的人可以匿名的去發一些評論

而且會有對話的一個過程

所以其實那個時候就已經有這樣一個對話機器人

也就後來ChatGPT的前身其實在那個時候已經有一些影子了

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

那些文檔的話都內容比較嚴肅比較刻板

所以就不太會生成一些有意思的東西

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面

做這個訓練

那這樣子的話這個AI它就能夠生成更有意思的東西

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

只要把這個東西不斷地加算力加數據把它scale up

就能夠實現一個類似或者接近於通用人工智能體的一個技術

我覺得當時沒有一個人真的意識到

但我覺得確實那個時候已經埋下了種子

你指的埋下種子是指什麼

就是在隨著大家的研究逐漸深入

大家發現這件事情堆算力就可以解決

00:00:00,000 --> 00:00:02,320

嗨大家好

00:00:02,320 --> 00:00:05,760

開始的時候我們矽谷101聯合B站

00:00:05,760 --> 00:00:07,840

給聽眾發一波福利

00:00:07,840 --> 00:00:09,920

代引號的福利是什麼呢

00:00:09,920 --> 00:00:15,280

B站精心整理的AIGC的視頻教程合集

00:00:15,280 --> 00:00:18,080

最近生成式AI的發展實在是太快了

00:00:18,080 --> 00:00:22,240

我們一檔節目也只能講清楚其中很小的一部分

00:00:22,240 --> 00:00:26,320

但是B站做了一個系統的講AIGC的教程合集

00:00:26,336 --> 00:00:30,656

也邀請我們來給大家推荐一些專業有用的視頻

00:00:30,656 --> 00:00:32,096

去加入這個合集

00:00:32,096 --> 00:00:35,696

想到我們的節目有很多很多關注技術的同學

00:00:35,696 --> 00:00:39,896

所以我是推薦了亞馬遜前首席科學家李沐的專輯

00:00:39,896 --> 00:00:41,296

《跟李沐學AI》

00:00:41,296 --> 00:00:42,696

大家好,我是李沐

00:00:42,696 --> 00:00:44,096

在過去五年裡面

00:00:44,096 --> 00:00:47,696

他在B站上有很多從論文層面的解讀

00:00:47,696 --> 00:00:49,376

因為我自己一直相信

00:00:49,376 --> 00:00:53,216

去讀一手材料是最好的認識一件事情的方法

00:00:53,248 --> 00:00:55,608

同樣我也推薦了自己的視頻

00:00:55,608 --> 00:00:57,968

就是我們講Chad GPT的特輯

00:00:57,968 --> 00:01:00,688

是聊OpenAI黑手黨的一期

00:01:00,688 --> 00:01:02,248

除了OpenAI

00:01:02,248 --> 00:01:06,448

還有這幫出逃的AI叛徒將重塑人類的未來

00:01:06,448 --> 00:01:10,208

Chad GPT背後的公司OpenAI從2015年成立以來

00:01:10,208 --> 00:01:13,288

已經有30多個早期員工集體叛逃

00:01:13,288 --> 00:01:14,848

自己辭職出來單幹

00:01:14,848 --> 00:01:18,648

大家也可以去核心裡面看一看我們的這期視頻

00:01:18,704 --> 00:01:22,864

除此之外這個合集還有AIGC的發展史趨勢

00:01:22,864 --> 00:01:24,464

以及商業競爭的部分

00:01:24,464 --> 00:01:28,824

可以幫助大家非常系統地去了解和認識AI

00:01:28,824 --> 00:01:31,944

另外也有很多很多的實用教程

00:01:31,944 --> 00:01:33,744

比如大家都很感興趣的

00:01:33,744 --> 00:01:36,184

怎麼樣用Mid Journey去畫畫

00:01:36,184 --> 00:01:38,784

怎麼樣用Notion AI去寫作

00:01:38,784 --> 00:01:42,024

也有AI繪畫語音合成編程辦公

00:01:42,024 --> 00:01:44,704

等各種實用教程的大合集

00:01:44,704 --> 00:01:47,584

可以說內容是非常的詳細完整

00:01:47,632 --> 00:01:51,112

為什麼我說它是一個帶引號的福利呢?

00:01:51,112 --> 00:01:55,232

因為我最近其實一直有在收到一些聽眾的來信

00:01:55,232 --> 00:02:00,632

很多人很關心說這一波AI到底會不會取代我們的工作

00:02:00,632 --> 00:02:03,312

如何在AI時代不被淘汰

00:02:03,312 --> 00:02:05,432

我的答案其實也很簡單

00:02:05,432 --> 00:02:07,152

了解它擁抱它

00:02:07,152 --> 00:02:10,432

成為最先會使用AI的那一波人

00:02:10,432 --> 00:02:14,952

所以我會把合集的鏈接放在我們播客的show notes中

00:02:14,952 --> 00:02:17,712

感興趣的同學可以點擊去看一看

00:02:17,712 --> 00:02:22,912

那大家也可以直接在B站上搜索AI工具大法

00:02:22,912 --> 00:02:26,192

來查看AIGC的視頻合集

00:02:26,192 --> 00:02:29,592

另外我也推薦一下我們矽谷101在B站上的視頻

00:02:29,592 --> 00:02:32,752

我們講了很多跟AIGC相關的內容

00:02:32,752 --> 00:02:35,392

比如說我剛剛推薦的OpenAI黑手檔

00:02:35,392 --> 00:02:39,632

還有谷歌與微軟關於Chad GPT的世紀之戰

00:02:39,632 --> 00:02:42,072

以及Chad GPT的風險爭議

00:02:42,072 --> 00:02:44,432

大家感興趣也可以去看一看

00:02:44,928 --> 00:02:49,528

那這期呢我們就來聊一下OpenAI的早期成長史

00:02:49,528 --> 00:02:53,128

跟我們在一起的嘉賓是AI研究者Jim Fan

00:02:53,128 --> 00:02:54,528

Hello Jim你好

00:02:54,528 --> 00:02:55,848

Hello Jim你好

00:02:55,848 --> 00:02:58,648

Jim今天也是在非常忙的時間裡面

00:02:58,648 --> 00:03:01,008

來抽時間參加我們的節目錄製

00:03:01,008 --> 00:03:02,368

Jim的大概背景

00:03:02,368 --> 00:03:05,048

我看你之前是斯坦福計算機的PHD

00:03:05,048 --> 00:03:06,568

也是李飛飛的學生

00:03:06,568 --> 00:03:09,768

早期呢在OpenAI和Google AI都工作過

00:03:09,768 --> 00:03:12,928

也算是OpenAI的應該是第一個實習生吧

00:03:12,928 --> 00:03:14,480

對第一屆實習生對

00:03:14,480 --> 00:03:19,280

你加入OpenAI的時候是在2016年對2016年的暑假的時候

00:03:19,280 --> 00:03:24,080

可不可以跟大家講一下為什麼在那麼早期的時候會選中OpenAI

00:03:24,080 --> 00:03:26,880

我覺得當時也是有些朋友推薦

00:03:26,880 --> 00:03:31,480

那時候看到OpenAI他們的科學家創始團隊特別的厲害

00:03:31,480 --> 00:03:33,680

所以當時就也被他們吸引過去的

00:03:33,680 --> 00:03:37,480

那個時候的OpenAI差不多有30個人左右吧

00:03:37,480 --> 00:03:41,880

基本上每一個人都是響噹噹就名聲特別響的大牛

00:03:42,048 --> 00:03:46,048

比如說當時有Ian Goodfellow是GAN的發明人

00:03:46,048 --> 00:03:48,048

就是生成對抗式網絡

00:03:48,048 --> 00:03:50,048

還有Dirk Kinmach是Adam的發明人

00:03:50,048 --> 00:03:54,048

也是現在所有的深度學習的優化器用的算法

00:03:54,048 --> 00:03:58,048

Andre Caparzee、Ilea、OpenAI的Chief

Scientist等等

00:03:58,048 --> 00:04:00,048

就是都特別特別強的一個陣容

00:04:00,048 --> 00:04:03,048

是那在你加入OpenAI的時候

00:04:03,048 --> 00:04:06,048

你會負責其中的哪些工作

00:04:06,048 --> 00:04:08,048

OpenAI當時他研究的東西

00:04:08,048 --> 00:04:11,008

你覺得跟今天有很大的不一樣嗎

00:04:11,008 --> 00:04:15,008

再說一個背景信息OpenAI大概是在2015年成立的

00:04:15,008 --> 00:04:19,808

你應該就是在OpenAI非常早期一年之內就加入了

00:04:19,808 --> 00:04:22,008

然後做了他們的第一個實習生

00:04:22,008 --> 00:04:25,008

對我覺得非常榮幸能夠在早期的時候看到

00:04:25,008 --> 00:04:29,008

OpenAI內部做的一些研究以及他們的一些想法

00:04:29,008 --> 00:04:33,008

那個時候我負責的項目叫做OpenAI Universe

00:04:33,008 --> 00:04:37,008

那個項目它其實是一個通用決策智能體的一個探索

00:04:37,312 --> 00:04:40,912

Open Air Universe的意思是所有的比如說網站啊

00:04:40,912 --> 00:04:42,992

一些web application 網站的應用

00:04:42,992 --> 00:04:46,152

遊戲等等都可以通過鼠標和鍵盤來控制

00:04:46,552 --> 00:04:49,392

Open Air他們搭建了一個infrastructure吧

00:04:49,392 --> 00:04:52,432

就是能夠用鼠標和鍵盤來控制這些遊戲

00:04:52,432 --> 00:04:56,032

然後能夠比如說去解一些網上的web application

00:04:56,152 --> 00:04:58,512

當時我們就想要訓練智能體

00:04:58,512 --> 00:04:59,672

然後能做這件事情

00:04:59,792 --> 00:05:02,952

當然在16年的時候技術還遠遠沒有很成熟

100

00:05:03,272 --> 00:05:06,712

所以對那個時候我覺得效果並沒有特別的好

101

00:05:06,880 --> 00:05:10,360

但是那時候其實OpenAI一直想要追求的就是通用智能體

102

00:05:10,360 --> 00:05:12,960

那也是我當時實習的項目的一部分

103

00:05:12,960 --> 00:05:16,760

什麼叫通用智能體可不可以跟聽眾們解釋一下

104

00:05:16,760 --> 00:05:20,080

通用智能體的意思就是這一個人工智能

105

00:05:20,080 --> 00:05:23,120

它不是為一個專門的領域所設計的

106

00:05:23,120 --> 00:05:24,960

比如說一個專門的任務所設計的

107

00:05:24,960 --> 00:05:30,160

它能夠用同一個模型做幾百種上千種甚至無數種任務

108

00:05:30,160 --> 00:05:32,560

至少當時是有這樣子一個想法

109

00:05:32,560 --> 00:05:34,912

具體的這個體現就是OpenAI Universe

110

00:05:34,912 --> 00:05:39,212

它的一個實現就是通過看屏幕上面的像素

111

00:05:39,212 --> 00:05:42,912

直接能夠輸出鍵盤和鼠標的一些Action

112

00:05:43,312 --> 00:05:44,992

你說的這個通用智能體

113

00:05:44,992 --> 00:05:48,792

因為我們知道現在OpenAI它的目標包括Sam Altman

114

00:05:48,792 --> 00:05:51,592

他經常在媒體面前講的就是AGI

115

00:05:51,852 --> 00:05:56,192

通用人工智能就是說人工智能在所有的方向做的東西

116

00:05:56,192 --> 00:05:57,592

不弱於人的水平

117

00:05:57,652 --> 00:05:58,892

當然這是我的一個定義

118

00:05:58,892 --> 00:06:00,992

就關於AGI到底是什麼定義的話

119

00:06:00,992 --> 00:06:03,392

我相信業界跟學界有很多很多的說法

120

00:06:03,536 --> 00:06:07,736

那你說的這個通用智能體它跟AGI的這樣的一個關係是什麼呢

121

00:06:07,736 --> 00:06:11,936

我覺得基本上通用智能體和AGI這兩個概念差不多

122

00:06:11,936 --> 00:06:16,336

但是只不過具體怎麼實現它們有很多種不同的方式

123

00:06:16,336 --> 00:06:20,536

比如說後來可能過了好多年OpenAI它們發現了GBT

124

00:06:20,536 --> 00:06:25,336

然後通過自然語言來實現類似通用智能體的一個AI

125

00:06:25,336 --> 00:06:28,936

但是當時其實OpenAI Universe就是我實習的時候參與的那個項目

126

00:06:28,936 --> 00:06:30,736

它走的路徑特別的不一樣

127

00:06:30,944 --> 00:06:35,144

它是通過決策通過這樣子一個鼠標和鍵盤的方式來實現

128

00:06:35,344 --> 00:06:38,384

當然後來發現其實用文本來實現通用智能體

129

00:06:38,384 --> 00:06:42,144

是一條比用鼠標和鍵盤要快很多的一個路徑

130

00:06:42,224 --> 00:06:43,344

但這個是後花了

131

00:06:43,744 --> 00:06:48,024

你可不可以跟大家介紹一下在OpenAI早期你加入的時候

132

00:06:48,344 --> 00:06:53,024

那些加入OpenAI的大牛們你剛剛也簡單的介紹了一些人

133

00:06:53,024 --> 00:06:55,424

然後我記得上次其實我們聊天的時候你有說

134

00:06:55,424 --> 00:06:58,824

在早期OpenAI工作也是一件壓力特別大的事情

135

00:06:58,824 --> 00:07:00,344

因為身邊都是大神嘛

136

00:07:00,432 --> 00:07:03,592

在這群人中你覺得大家的一個共同目標是什麼?

137

00:07:03,592 --> 00:07:07,592

誰在主導整個OpenAI的研究方向?

138

00:07:07,592 --> 00:07:11,232

對我覺得當時OpenAI真的是一個神一樣的地方

139

00:07:11,232 --> 00:07:15,832

因為所有的那些在那邊全職的科學家基本都是業界的大牛

140

00:07:15,832 --> 00:07:19,992

而且他們很多論文我在沒有加入OpenAI之前就全都讀過

141

00:07:19,992 --> 00:07:23,632

所以去那邊基本上就是見到我當時心中的眾神們

142

00:07:23,632 --> 00:07:28,552

所以我覺得那個時候的OpenAI還是研究的方向比較多樣化

143

00:07:28,560 --> 00:07:31,960

因為每一個大神他們其實有自己的一個研究的領域

144

00:07:31,960 --> 00:07:33,760

大家都在探索不同的東西

145

00:07:33,760 --> 00:07:39,160

比如說剛才提到的Ian Goodfellow在研究的是更多的生成對抗式的這種模型

146

00:07:39,160 --> 00:07:43,160

Dirk Kinmar他可能研究的更多是像辨分自編碼器

147

00:07:43,160 --> 00:07:46,160

就是Variational Autoencoder VAE這條路

148

00:07:46,160 --> 00:07:48,360

還有一位叫Alec Radford

149

00:07:48,360 --> 00:07:52,560

他當時在研究其實後來非常像GBT的一個東西

150

00:07:52,560 --> 00:07:57,360

當然那個時候還沒有Transformer這樣子一個神經網絡的架構

151

00:07:57,440 --> 00:08:02,940

那個時候還是LSTM也就是一種回饋式神經網絡,就RNN的一種

152

00:08:02,940 --> 00:08:06,440

Alec Redford他當時就提出我們應該訓練語言模型

153

00:08:06,440 --> 00:08:08,940

並且不僅是用LSTM來實現

154

00:08:08,940 --> 00:08:11,940

而且需要在很大的數據上面進行訓練

155

00:08:11,940 --> 00:08:16,940

所以他當時就想到通過預測一句話的後面一個單詞

156

00:08:16,940 --> 00:08:21,440

這樣子一個非常簡單的一個目標函數來訓練整個神經網絡

157

00:08:21,440 --> 00:08:25,940

所以很有意思,就其實在Transformer發明之前就已經有GPT的影子了

158

00:08:26,368 --> 00:08:33,808

所以相當於Alec Redford他的研究是我們可以理解成有一點點像GPT的前身

159

00:08:33,808 --> 00:08:37,008

它也是GPT的相當於一個技術的電機

160

00:08:37,008 --> 00:08:43,088

對,而且非常有意思的是,這個對於下一個單詞的預測,這樣一個目標函數

161

00:08:43,088 --> 00:08:47,088

它其實和神經網絡具體的架構本身是可以相對獨立的

162

00:08:47,088 --> 00:08:53,008

所以也可以用Transformer來實現,也可以用回饋式神經網絡,比如說LSTM

來實現

163

00:08:53,008 --> 00:08:56,288

但是這個背後的思想的範疇是一樣的

164

00:08:56,512 --> 00:09:02,272

還有包括Elec當時提出我們把回饋實驗網絡訓練在大量的文本數據

165

00:09:02,272 --> 00:09:05,352

比如說像Reddit是一個美國比較流行的論壇

166

00:09:05,352 --> 00:09:10,992

它有一個特點就是所有的人可以匿名的去發一些評論

167

00:09:10,992 --> 00:09:12,912

而且會有對話的一個過程

168

00:09:12,912 --> 00:09:15,512

所以其實那個時候就已經有這樣一個對話機器人

169

00:09:15,512 --> 00:09:18,992

也就後來ChagPT的前身其實在那個時候已經有一些影子了

170

00:09:18,992 --> 00:09:25,232

當時這個數據集和當年16年的時候大部分的比較流行的學術的數據集不太一樣

171

00:09:25,392 --> 00:09:31,192

因為學術數據集那個時候用的比較多的是比如維基百科或者什麼聯合國的一些文檔

172

00:09:31,192 --> 00:09:34,492

那些文檔的話都內容比較嚴肅比較刻板

173

00:09:34,492 --> 00:09:37,192

所以就不太會生成一些有意思的東西

174

00:09:37,192 --> 00:09:44,792

但是當時OpenAI就說我們要在網上比如說像Reddit論壇和別的一些數據集上面

做這個訓練

175

00:09:44,792 --> 00:09:47,992

那這樣子的話這個AI它就能夠生成更有意思的東西

176

00:09:48,192 --> 00:09:52,352

但我不覺得16年的時候OpenAI或者任何學術圈的人意識到

177

00:09:52,352 --> 00:09:56,672

只要把這個東西不斷地加算力加數據把它scale up

178

00:09:56,672 --> 00:10:00,792

就能夠實現一個類似或者接近於通用人工智能體的一個技術

179

00:10:00,792 --> 00:10:02,792

我覺得當時沒有一個人真的意識到

180

00:10:02,792 --> 00:10:05,392

但我覺得確實那個時候已經埋下了種子

181

00:10:05,392 --> 00:10:07,872

你指的埋下種子是指什麼

182

00:10:07,872 --> 00:10:10,912

就是在隨著大家的研究逐漸深入

183

00:10:10,912 --> 00:10:13,952

大家發現這件事情堆算力就可以解決

184

00:10:13,952 --> 00:10:17,552

對在剛提到的Elec他的探索下

185

00:10:17,664 --> 00:10:21,504

之後Transformer出來了OpenEye就提出了GPT

186

00:10:21,504 --> 00:10:25,504

GPT這個算法全稱叫generative pre-training

187

00:10:25,504 --> 00:10:27,064

我這邊大概解釋一下

188

00:10:27,064 --> 00:10:32,264

Transformer那篇論文是谷歌研究院的科學家提出來的

189

00:10:32,264 --> 00:10:34,504

當時提出的時候Transformer有兩個部分

190

00:10:34,504 --> 00:10:36,504

一個是編碼器encoder

191

00:10:36,504 --> 00:10:38,504

還有一個是解碼器decoder

192

00:10:38,504 --> 00:10:41,944

但是GPT他就提出我們不需要編碼器

193

00:10:41,944 --> 00:10:44,184

我們只要解碼器decoder就可以了

194

00:10:44,272 --> 00:10:48,552

decoder他的訓練的原理就是不斷地預測下一個單詞

195

00:10:48,552 --> 00:10:54,072

所以其實在這一點上面和剛提到的LSTM等回饋式神經網絡是特別的像的

196

00:10:54,072 --> 00:11:00,672

因為2016年的時候OpenAI做了那些回饋式神經網絡和下一個單詞預測這樣嘗試

197

00:11:00,672 --> 00:11:07,072

所以對他們來說GPT作為一個純解碼器的一個模型是一個很自然而然的一個眼神

198

00:11:07,072 --> 00:11:12,496

但其實當時學術圈裡面並沒有達成共識為什麼一定只用解碼器

199

00:11:12,496 --> 00:11:18,976

我舉個例子,比如說谷歌在Transformer之後有一篇特別火的資安源處理的工作

叫Bert

200

00:11:18,976 --> 00:11:22,576

Bert其實和GBT是反其道而行之

201

00:11:22,576 --> 00:11:26,736

它是純粹只有編碼器,也就是它是encoder的一個模型

202

00:11:26,736 --> 00:11:29,856

它其實並沒有像GBT那樣的一個解碼器

203

00:11:29,856 --> 00:11:34,896

它是完全通過編碼器來做一個表徵學習,也有所謂的representation

learning

204

00:11:34,896 --> 00:11:39,136

但是GBT的話它提出的是用解碼器來進行生成

205

00:11:39,136 --> 00:11:44,336

所以我覺得那個時候學術圈裡面還是處於一個百花齊放百家真名的狀態

206

00:11:44,336 --> 00:11:48,536

有不同的解碼器、解碼器或者一個混合有各種各樣的學派

207

00:11:48,536 --> 00:11:51,736

當時包括我在內我覺得很多人也沒有意識到

208

00:11:51,736 --> 00:11:53,736

就GPT其實是非常好的一條路

209

00:11:53,736 --> 00:11:55,216

可能比別的模型會更強

210

00:11:55,216 --> 00:11:57,616

當時我覺得絕大部分人都沒有意識到

211

00:11:58,216 --> 00:12:03,016

那大家是怎麼敢在GPT裡面去堆這麼多的算力進去

212

00:12:03,016 --> 00:12:04,616

這麼多的數據進去

213

00:12:04,616 --> 00:12:08,096

因為其實堆算力的過程就是不停地板

214

00:12:08,096 --> 00:12:10,096

資金砸入進去的一個過程

215

00:12:10,096 --> 00:12:13,656

我覺得我們除了說它需要很多的決心

216

00:12:13,656 --> 00:12:17,256

同時我相信大家需要在科研上是看到有反饋的

217

00:12:17,496 --> 00:12:19,816

那為什麼大家最後賭的是GPT

218

00:12:20,256 --> 00:12:24,616

對,我覺得首先我在16年數集之後就離開OpenAI

219

00:12:24,616 --> 00:12:28,256

所以之後他們做GPT的時候我並沒有親自在場

220

00:12:28,376 --> 00:12:30,696

所以我也只從外界來觀察這事

221

00:12:30,856 --> 00:12:35,016

我大致猜測就是後來在GPT之後出了GPT2

222

00:12:35,168 --> 00:12:40,968

GPT2其實跟本來的GPT1的模型算法是幾乎完全一樣的

223

00:12:40,968 --> 00:12:43,928

唯一的區別就是更多的數據、更大的模型

224

00:12:43,928 --> 00:12:46,288

但其實GPT2也沒有特別大

225

00:12:46,288 --> 00:12:48,848

就是大到不容個十個億美金訓練不了

226

00:12:48,848 --> 00:12:50,568

也遠遠沒有到這個規模

227

00:12:50,568 --> 00:12:54,688

但是其實GPT2已經有一些我們稱之為叫emergent property

228

00:12:54,688 --> 00:12:57,008

就一種湧現的一些智能在裡面

229

00:12:57,008 --> 00:13:00,168

比如說它做多任務什麼的會做得特別好

230

00:13:00,168 --> 00:13:02,008

比GPT1會好很多

231

00:13:02,008 --> 00:13:05,128

還包括一些微調、fine tuning什麼也都做得很好

232

00:13:05,424 --> 00:13:08,984

所以我覺得OpenAI可能在那個時候看到GPT-2

233

00:13:08,984 --> 00:13:13,624

它的能力還要生成文本的流暢程度比GPT-1高那麼多

234

00:13:13,624 --> 00:13:15,784

我覺得他們可能看到了這一點

235

00:13:15,784 --> 00:13:17,224

然後他們就下了一個賭注

236

00:13:17,224 --> 00:13:19,944

我們能大量的算力、大量的經費

237

00:13:19,944 --> 00:13:22,584

把GPT-2擴大10倍甚至100倍

238

00:13:22,584 --> 00:13:25,104

所以後來就成為了GPT-3

239

00:13:25,104 --> 00:13:27,504

所以我覺得這條應該是OpenAI內部

240

00:13:27,504 --> 00:13:29,784

他們看到了這樣一種湧現的智能

241

00:13:29,784 --> 00:13:30,904

下了一個賭注

242

00:13:30,904 --> 00:13:32,304

當然有可能賭輸

243

00:13:32,304 --> 00:13:34,944

但是事實上就是歷史證明他們賭贏了

244

00:13:35,056 --> 00:13:37,496

所以我覺得這也是一個很非凡的成就

245

00:13:37,496 --> 00:13:41,656

是的你剛說到其實還有一個點我覺得挺有意思的

246

00:13:41,656 --> 00:13:47,336

你提到Ellick他其實是最早提出用Reddit的數據去做訓練數據的

247

00:13:47,336 --> 00:13:52,016

因為以往大家在堆訓練數據的時候可能會去堆更準確的數據

248

00:13:52,016 --> 00:13:56,936

比如說維基百科他在說一個事實的時候他的數據是非常準的

249

00:13:56,976 --> 00:14:00,216

但我們知道在Reddit上它其實是一個用戶論壇嘛

250

00:14:00,216 --> 00:14:02,376

然後這個論壇上什麼樣的帖子也有

251

00:14:02,376 --> 00:14:05,576

也有很多的回帖也有很多的Meme符號

252

00:14:05,576 --> 00:14:08,936

但是可能在這個論壇上也有很多逆氣

253

00:14:08,936 --> 00:14:11,656

大家去懟一件事情這都是非常正常的

254

00:14:11,656 --> 00:14:14,376

他當時想把Reddit的數據加進去

255

00:14:14,376 --> 00:14:17,056

只是說他為了去擴大數據量

256

00:14:17,056 --> 00:14:20,176

還是說他其實是為了讓他的表述更加生動

257

00:14:20,176 --> 00:14:21,656

還是出於其他的什麼原因

258

00:14:21,824 --> 00:14:27,824

當時我想知道你們在去決定去用一些新的數據去做訓練的時候這個思考是什麼

259

00:14:27,824 --> 00:14:33,824

首先我當時不在那個項目上所以他們的初衷我並不知道這是我的猜想啊

260

00:14:33,824 --> 00:14:37,824

我覺得就像你剛才提到的Reddit它更加生動它沒有那麼死板

261

00:14:37,824 --> 00:14:43,824

它不只是一個平鋪直敘的解釋一個知識點比如說百度百科啊

維基百科都是解釋一個知識點

262

00:14:43,824 --> 00:14:49,776

沒有什麼情感但是其實在Reddit上面中各種各樣的情感很多喜怒哀樂都有

263

00:14:49,776 --> 00:14:53,496

所以我猜測是他們覺得這樣作為一個生成式的模型

264

00:14:53,496 --> 00:14:54,896

至少會特別有意思

265

00:14:54,896 --> 00:14:59,096

因為你可以讓它生成各種語境下面的不同的一些話

266

00:14:59,096 --> 00:15:02,296

但如果GPT模型只用微幾百克來訓練的話

267

00:15:02,296 --> 00:15:05,696

那它生成的永遠是這種平凸直續的比較枯燥的內容

268

00:15:05,696 --> 00:15:10,016

所以我覺得可能一定程度上是從因為他們想要生成內容

269

00:15:10,016 --> 00:15:12,376

什麼樣的內容最有意思生成呢

270

00:15:12,376 --> 00:15:15,576

那可能是要從論壇上面大家這樣一個聊天的記錄

271

00:15:15,576 --> 00:15:18,816

其實Reddit就是一個公開聊天記錄說白了

272

00:15:18,944 --> 00:15:23,344

所以他們拿聊天記錄過來肯定生成的東西會更加生動一些

273

00:15:23,344 --> 00:15:25,744

我估計初衷是這樣的

274

00:15:25,744 --> 00:15:28,544

你早期2016年在的時候

275

00:15:28,544 --> 00:15:33,744

那個時候Sam Altman跟馬斯克因為他們當時是都在OpenAI

276

00:15:33,744 --> 00:15:36,944

你覺得誰對OpenAI的影響更大一點

277

00:15:36,944 --> 00:15:40,944

當然我當時是個實習生沒有接觸過他們決策管理層

278

00:15:40,944 --> 00:15:42,544

所以我不太清楚

279

00:15:42,816 --> 00:15:46,616

不過我覺得當時從技術上面的話我不知道他們參與了多少

280

00:15:46,616 --> 00:15:51,256

但我覺得Illya還有Alec還有Andre Caparzi和Greg

Brockman

281

00:15:51,256 --> 00:15:54,616

我覺得對GBT這樣一個技術的影響是非常的大的

282

00:15:54,816 --> 00:15:57,976

他們是直接去做這樣一個項目的科學家

283

00:15:58,456 --> 00:16:02,256

上次其實我們聊天的時候你還提到一個非常有意思的現象

284

00:16:02,256 --> 00:16:05,496

我們在提到跟AI相關方向的研究的時候

285

00:16:05,496 --> 00:16:07,576

V-RAN早期是非常非常強的

286

00:16:07,696 --> 00:16:12,496

那之後是很多人才跟AI研究相關的去了Google Brain

287

00:16:12,688 --> 00:16:14,848

後來又是去了OpenAI

288

00:16:14,848 --> 00:16:17,688

那如果你作為一個AI研究者

289

00:16:17,688 --> 00:16:21,688

就你覺得什麼是最吸引你去到一家公司的

290

00:16:21,688 --> 00:16:24,408

我現在在英偉達做研究科學家

291

00:16:24,408 --> 00:16:27,048

我覺得加入英偉達有幾個原因吧

292

00:16:27,048 --> 00:16:31,408

一個是英偉達研究院做的研究多樣性比較廣

293

00:16:31,408 --> 00:16:33,568

比如說有做計算識的視覺的

294

00:16:33,568 --> 00:16:35,208

有做自然元處理的

295

00:16:35,208 --> 00:16:36,648

還有做機器人的等等

296

00:16:36,848 --> 00:16:39,488

對我來說我從博士剛畢業的時候

297

00:16:39,488 --> 00:16:42,128

其實我是想要繼續能做一些研究的工作

298

00:16:42,128 --> 00:16:44,048

不一定說就直接去做產品

299

00:16:44,048 --> 00:16:47,168

然後我就因為在研究院給我很多探索的自由

300

00:16:47,168 --> 00:16:50,448

這一點上我是覺得一個很吸引我的地方

301

00:16:50,448 --> 00:16:55,408

第二看一個公司看它資源或者說是長期的計劃是怎麼樣的

302

00:16:55,408 --> 00:16:58,528

我確實覺得英偉達第一資源肯定是很強的

303

00:16:58,528 --> 00:17:00,448

畢竟我們是做GPU的公司

304

00:17:00,448 --> 00:17:04,768

現在GPU就顯卡基本上是訓練AI的主要的硬件

305

00:17:04,944 --> 00:17:07,504

所以我覺得這塊公司資源非常的強

306

00:17:07,504 --> 00:17:12,384

而且公司長期來說因為現在AI的模型基本都是用GPU來訓練的

307

00:17:12,384 --> 00:17:14,384

所以我覺得這塊發展也會比較好

308

00:17:14,384 --> 00:17:17,904

綜上所述就是一個是研究的自由探索自由

309

00:17:17,904 --> 00:17:19,904

還有第二個是未來的發展及資源

310

00:17:19,904 --> 00:17:21,904

這個是我比較重視的幾個方面

311

00:17:21,904 --> 00:17:23,904

我覺得選擇還是非常好的

312

00:17:23,904 --> 00:17:26,464

因為大家現在看英偉達的股價也看到了

313

00:17:26,464 --> 00:17:29,664

我們前期就聊了很多跟OpenAI相關的

314

00:17:29,664 --> 00:17:33,504

包括它的早期的成長包括你早期在中間的一些經歷

315

00:17:33,600 --> 00:17:38,600

接下來我其實也有一些關於大模型的一些觀點性的東西想跟你討論一下

316

00:17:38,600 --> 00:17:42,040

可能也是現在市場上大家關注的比較多的

317

00:17:42,040 --> 00:17:47,440

第一個問題就是未來的大模型你認為它會不會是一個贏者通吃的市場

318

00:17:47,440 --> 00:17:50,480

還是說它會有多個大模型存在的市場

319

00:17:50,480 --> 00:17:55,800

因為我們現在看OpenAI它可能暫時的領先其他大模型一段時間

320

00:17:55,800 --> 00:17:58,880

但它的領先可能是它會吃進去很多的數據

321

00:17:58,880 --> 00:18:00,600

大家會不停地跟OpenAI互動

322

00:18:00,600 --> 00:18:02,720

然後它會有反饋它會變得更強

323

00:18:02,800 --> 00:18:09,240

但是同時我們說不管是谷歌的模型還是說像Stability 包括一些圖片的模型

324

00:18:09,240 --> 00:18:14,480

它們有自己很強的應用你覺得未來的大模型的市場格局會是怎麼樣的呢?

325

00:18:14,480 --> 00:18:22,960

我覺得首先應該不會是迎者通吃肯定會有多個大模型但是我覺得也不會太多

326

00:18:23,136 --> 00:18:27,736

可能曾經比如說像SARS或者是做手機APP

327

00:18:27,736 --> 00:18:31,336

這些可能市面上有幾十萬個幾百萬個APP

328

00:18:31,336 --> 00:18:34,736

只要大家會寫一些代碼的人都能寫一個iPhone的App

329

00:18:35,136 --> 00:18:37,936

但是我覺得這個大模型肯定不可能是這樣

330

00:18:38,136 --> 00:18:39,836

但是大模型也不會只有一家

331

00:18:40,036 --> 00:18:41,936

所以我覺得可能更多的像是一個

332

00:18:41,936 --> 00:18:44,736

比如說有十幾種不同的大模型

333

00:18:44,736 --> 00:18:46,936

然後每一個都是不同公司做的

334

00:18:46,936 --> 00:18:48,536

每一個都有自己的專長

335

00:18:48,636 --> 00:18:51,336

這個是未來相當長一段時間的導向

336

00:18:51,552 --> 00:18:55,552

現在OpenAI確實在語言模型這個事情上面是主導的

337

00:18:55,552 --> 00:18:59,152

但是舉個例子比如說在圖像生成模型上面

338

00:18:59,152 --> 00:19:02,952

現在達利的質量有些時候並比不過Mid Journey

339

00:19:02,952 --> 00:19:06,552

Mid Journey是一個我跟聽眾朋友們很快介紹一下

340

00:19:06,552 --> 00:19:10,552

就是Mid Journey是一家只有11個人的一個初創公司

341

00:19:10,552 --> 00:19:13,552

他們做的就是從文本生成圖片

342

00:19:13,552 --> 00:19:17,552

現在目前基本大家公認Mid Journey生成的圖片的質量

343

00:19:17,552 --> 00:19:20,240

清晰度都是業界算是數一數二的

344

00:19:20,240 --> 00:19:25,040

這一點上我覺得Mid Journey在生成圖片的大模型上是比較領先的

345

00:19:25,040 --> 00:19:27,440

還有一家我聽說叫Eleven Labs

346

00:19:27,440 --> 00:19:30,240

這家公司是生成語音的合成語音

347

00:19:30,240 --> 00:19:32,840

之前我看過他們的一個展示

348

00:19:32,840 --> 00:19:36,640

他們用喬布斯生前的那些聲音合成

349

00:19:36,640 --> 00:19:39,640

你可以讓喬布斯講任何你想讓他講的話

350

00:19:39,640 --> 00:19:42,640

聽上去的聲音就像喬布斯本人在跟你講話一樣

351

00:19:42,640 --> 00:19:45,240

語音的低音的程度已經做得非常的好

352

00:19:45,240 --> 00:19:48,040

所以比如說像這樣子一個語音的大模型

353

00:19:48,040 --> 00:19:49,840

可能又是由不同的公司來主導

354

00:19:50,128 --> 00:19:53,928

所以我覺得未來一個是不會一家獨當

355

00:19:53,928 --> 00:19:55,928

肯定會有多種不同的大模型

356

00:19:55,928 --> 00:19:59,528

而且每一個模型有它的專長有它自己的一個市場

357

00:19:59,528 --> 00:20:03,528

第二我覺得未來是肯定會發展的一個方向是多模態

358

00:20:03,528 --> 00:20:08,928

就是說文本現在肯定是大家目前看到的最火的一個模態

359

00:20:08,928 --> 00:20:13,328

但之後的話比如說像視覺二維視覺甚至三維視覺

360

00:20:13,328 --> 00:20:16,928

還有語音等等或者之後可能還會有機器人等等

361

00:20:16,928 --> 00:20:19,312

就各種各樣的模態都會加進來

362

00:20:19,312 --> 00:20:24,512

我不覺得OpenAI或者任何少數幾家公司能把所有的模態全都做完

363

00:20:24,832 --> 00:20:26,832

所以這也是一個未來的方向的方向

364

00:20:27,232 --> 00:20:29,712

你相信通用人工智能會實現嗎?

365

00:20:30,112 --> 00:20:32,512

我覺得這個詞比較難定義

366

00:20:32,752 --> 00:20:35,952

而且我覺得可能定義這個詞本身意義也不大

367

00:20:35,952 --> 00:20:37,832

因為我現在給一個定義

368

00:20:37,832 --> 00:20:42,032

務必會有聽眾朋友或者學術圈裡面的學者和我持有不同的意見

369

00:20:42,392 --> 00:20:47,432

更有意思的一個討論點是這些模型能帶來多少的經濟價值

370

00:20:47,432 --> 00:20:49,352

我覺得這個經濟價值是巨大的

371

00:20:49,440 --> 00:20:56,800

包括剛才說的多模態基本上模態越多它能夠涵代的商業的應用就越來越多

372

00:20:56,800 --> 00:21:00,000

剛才提到語音啊視覺啊什麼的機器人啊等等

373

00:21:00,000 --> 00:21:03,120

現在光是文本我們已經看到各種各樣不同應用

374

00:21:03,120 --> 00:21:08,720

比如說在辦公立的應用在法律這樣子一個需要專業技能的一個領域裡的應用

375

00:21:08,720 --> 00:21:10,800

在會計裡面等等等等

376

00:21:10,800 --> 00:21:16,000

我們已經看到大模型滲透到商業和我們社會經濟的每一個領域

377

00:21:16,160 --> 00:21:18,720

所以我覺得更重要的一個問題是

378

00:21:18,720 --> 00:21:22,200

這些大模型未來能創造多少的社會價值

379

00:21:22,200 --> 00:21:24,560

我覺得這個社會價值是顛覆性的

380

00:21:24,560 --> 00:21:28,560

我個人覺得人工智能就是一場新的工業革命

381

00:21:28,560 --> 00:21:31,280

而且比前幾次工業革命可能加起來

382

00:21:31,280 --> 00:21:32,960

它的影響力都要大很多

383

00:21:32,960 --> 00:21:37,120

這是一個像指數爆炸一樣的社會價值的創造

384

00:21:37,120 --> 00:21:39,680

所以我覺得通用不通用不是特別重要

385

00:21:39,680 --> 00:21:43,760

重要的是社會價值以及體係都會受到顛覆

386

00:21:44,000 --> 00:21:47,360

對我再說一下我剛剛為什麼問你那個問題

387

00:21:47,360 --> 00:21:49,560

就是你相信通用人工智能嗎

388

00:21:49,560 --> 00:21:52,360

因為在我們在聊到大模型的時候

389

00:21:52,360 --> 00:21:55,240

其實我們有提到基於語言生成的大模型

390

00:21:55,240 --> 00:21:56,600

圖像生成的大模型

391

00:21:56,600 --> 00:21:59,120

甚至你有提到語音合成的大模型

392

00:21:59,120 --> 00:22:01,760

後來我們還提到了基於法律的大模型

393

00:22:01,760 --> 00:22:04,080

生物的大模型辦公軟件的大模型

394

00:22:04,080 --> 00:22:06,000

但是其實有一個基本的是

395

00:22:06,000 --> 00:22:07,880

比如說有一些基於法律的模型

396

00:22:07,880 --> 00:22:11,240

它可能是搭建在GBT上的一個應用

397

00:22:11,264 --> 00:22:15,264

它可能是其中的一個插件或者在它上面有一層優化

398

00:22:15,264 --> 00:22:18,064

我更想問的是你認為這種大模型

399

00:22:18,064 --> 00:22:23,184

它們未來有可能會訓練成一個通材還是專材

400

00:22:23,184 --> 00:22:26,504

當然我假設一個模型搭在CHEDGBT上

401

00:22:26,504 --> 00:22:29,144

我在上面再加一些法律方面的優化

402

00:22:29,144 --> 00:22:32,024

它最後能變成一個法律專家

403

00:22:32,024 --> 00:22:35,024

或者說一個生物的模型搭在CHEDGBT上

404

00:22:35,024 --> 00:22:38,224

最後變成一個可以合成蛋白質結構的模型

405

00:22:38,432 --> 00:22:41,472

但是還是說它需要分別的大模型

406

00:22:41,472 --> 00:22:45,032

就是專門的生物的數據庫去做生物的這條線

407

00:22:45,032 --> 00:22:47,832

還是說它都可以運用一個底層架構

408

00:22:48,112 --> 00:22:52,232

我考慮的是這個模型它到底未來是一個通材還是專材

409

00:22:52,632 --> 00:22:54,032

哦懂了懂了

410

00:22:54,032 --> 00:22:58,232

我覺得更有可能的是就像你剛才提到的一個通材的模型

411

00:22:58,632 --> 00:23:00,912

當然這個通用是否達到人類的智能

412

00:23:00,912 --> 00:23:02,832

就是我剛說的大家有不同的定義

413

00:23:02,832 --> 00:23:05,512

大家學術圈也不一定是有一個統一的定義

414

00:23:05,680 --> 00:23:12,080

但是我覺得一個通材的語言模型然後在上面加插件的這樣一個模式將會是一個未來的導向

415

00:23:12,760 --> 00:23:17,480

當然這個插件怎麼做以及這個通材上面的那一層是什麼

416

00:23:17,760 --> 00:23:20,520

我覺得這個可能不同公司會有一些不同的答案

417

00:23:20,880 --> 00:23:25,280

比如說現在我們看到OpenAI他們就實現了這樣一個Chat GPT的應用商店

418

00:23:25,720 --> 00:23:27,520

然後我覺得這個是一種方式

419

00:23:27,728 --> 00:23:30,568

另外一種可能是比如說現在有一個大模型

420

00:23:30,568 --> 00:23:32,648

但是我想把它應用在法律

421

00:23:32,648 --> 00:23:36,568

我可能在法律的領域裡面做一定的比如說真流等等

422

00:23:36,568 --> 00:23:41,128

可以讓這個模型變得在法律的領域裡面能夠更加的專業

423

00:23:41,128 --> 00:23:45,688

並且可能它會比一個完全通材的一個模型效率會更高

424

00:23:45,688 --> 00:23:48,688

因為那個模型它不需要知道任何醫學的知識等等

425

00:23:48,688 --> 00:23:50,528

它只要知道法律知識就可以了

426

00:23:50,528 --> 00:23:54,768

所以它也可以是一個通用模型的專業化的一個版本

427

00:23:54,992 --> 00:23:59,392

但是我覺得一個通用的模型這樣一個基石是很重要的

428

00:23:59,392 --> 00:24:02,672

有了這個基石以後要么做插件要么做一些蒸餾

429

00:24:02,672 --> 00:24:05,472

或者一個更加專業的版本我覺得這個都是可行的

430

00:24:05,472 --> 00:24:10,272

對但它們都是可以在大的模型下面或者說找一些開源的模型

431

00:24:10,272 --> 00:24:14,512

它們只是需要做一些優化或者加入一些特定領域的數據

432

00:24:14,512 --> 00:24:16,592

進行一些特定領域的訓練對吧

433

00:24:16,592 --> 00:24:18,672

它們不需要再從頭搭一個了

434

00:24:18,672 --> 00:24:22,512

對不過我覺得不一定每一家公司都能這樣做

435

00:24:22,656 --> 00:24:26,936

因為通用模型訓練起來肯定是難度非常非常的大

436

00:24:26,936 --> 00:24:30,856

現在能訓練通用模型的公司全世界屈指可數

437

00:24:30,856 --> 00:24:35,176

所以我覺得有些比如說中型企業甚至是初創公司

438

00:24:35,176 --> 00:24:38,856

如果想要用到這些語言模型做一些專業的事情的話

439

00:24:38,856 --> 00:24:42,776

我覺得一條更快的路不是先訓練一個通用模型

440

00:24:42,776 --> 00:24:45,256

再把它進行專業化或者加個插件

441

00:24:45,256 --> 00:24:47,736

而是直接去訓練一個專業的模型

442

00:24:47,736 --> 00:24:50,296

但是我覺得主要的原因是可能經費不夠

443

00:24:50,296 --> 00:24:51,504

公司的規模不夠

444

00:24:51,504 --> 00:24:54,704

在這樣子一個情況下那是迫不得已只能走這條路

445

00:24:55,024 --> 00:24:58,944

但我覺得這條路也是能夠解決某一個公司想解決的問題的

446

00:24:59,304 --> 00:25:01,384

所以我覺得通用模型是一件好事情

447

00:25:01,384 --> 00:25:04,624

但是可能對於某些特定的商業模式它沒有必要

448

00:25:04,824 --> 00:25:07,024

嗯Mid Journey 算是哪一類

449

00:25:07,304 --> 00:25:09,904

我覺得Mid Journey 目前應該是一個通用模型

450

00:25:10,104 --> 00:25:13,944

因為基本上所有的畫風不同的畫風它都能生成

451

00:25:13,944 --> 00:25:17,264

比如說它能夠合成看上去非常逼真的照片

452

00:25:17,504 --> 00:25:20,544

它也能夠合成一些像科幻的電影裡面的一些場景

453

00:25:20,672 --> 00:25:23,792

還能合成動脈,還能合成素描,油畫等等

454

00:25:23,992 --> 00:25:26,632

所以我覺得它現在目前是一個通用的模型

455

00:25:27,032 --> 00:25:30,272

對,雖然Mid Journey現在有很多很多的用戶啊

456

00:25:30,272 --> 00:25:32,072

就我也是它的付費用戶之一

457

00:25:32,232 --> 00:25:34,152

但是我一直都很好奇

458

00:25:34,152 --> 00:25:37,952

它這樣一家創業公司僅憑它的付費用戶的收入

459

00:25:38,112 --> 00:25:42,952

它是不是能夠支撐它的成本去訓練這樣一個通用的模型

460

00:25:42,952 --> 00:25:45,672

因為我們知道現在整個大模型的訓練成本

461

00:25:45,672 --> 00:25:47,952

包括堆算力整個還挺貴的

462

00:25:47,968 --> 00:25:51,168

它其實也不是完全是一個創業公司能夠做的事情

463

00:25:51,608 --> 00:25:53,368

對確實非常的昂貴

464

00:25:53,968 --> 00:25:55,928

不過我覺得還有另外一條路

465

00:25:55,928 --> 00:25:58,928

一個比較好的商業模式是和企業合作

466

00:25:59,368 --> 00:26:03,608

舉個例子有很多做遊戲或者電影特效的一些企業

467

00:26:03,608 --> 00:26:06,008

他們可能需要一些企業級的這種模型

468

00:26:06,368 --> 00:26:08,248

然後我覺得類似Made Journey這樣的公司

469

00:26:08,248 --> 00:26:10,408

有可能是可以通過和企業合作

470

00:26:10,408 --> 00:26:12,048

然後能夠獲得更大的訂單

471

00:26:12,328 --> 00:26:14,568

而不只是通過每一個散戶過來

472

00:26:14,568 --> 00:26:16,248

付一個每個月的訂閱費

473

00:26:16,400 --> 00:26:18,800

那個可能加錢不是特別多

474

00:26:18,800 --> 00:26:23,160

所以我覺得對於像這樣一個生成式的AI的初創公司的話

475

00:26:23,160 --> 00:26:24,400

有這兩條路可以走

476

00:26:24,400 --> 00:26:28,400

就是類似於他們在做一個SaaS級的產品

477

00:26:28,400 --> 00:26:31,400

相當於為企業來提供一些增值服務

478

00:26:31,400 --> 00:26:34,000

其實有點類似於Jasper他們現在做的

479

00:26:34,000 --> 00:26:38,000

對其實英偉達在上一次GTC發布會的時候

480

00:26:38,000 --> 00:26:42,400

也提到英偉達更多的是一個為企業服務的大模型

481

00:26:42,560 --> 00:26:46,560

叫NVIDIA AI Foundations 其實也是剛才提到類似的想法

482

00:26:46,560 --> 00:26:51,560

比如說為企業做一些這種生成圖片和大的預言模型

483

00:26:51,560 --> 00:26:55,560

其實就在我們今天這個訪談開始的前一兩天

484

00:26:55,560 --> 00:27:01,560

我看業界大家又在歡呼一件事情就是Meta AI它做的Segment

Anything

485

00:27:01,560 --> 00:27:03,560

它是一個圖片的模型

486

00:27:03,560 --> 00:27:08,336

然後我看你在推特上是把它稱為是GPT-3 Moment

487

00:27:08,336 --> 00:27:11,336

在計算機世界領域它算是一個GPT-3 Moment

488

00:27:11,336 --> 00:27:13,536

因為我現在其實還沒有看那篇論文

489

00:27:13,536 --> 00:27:15,536

你可不可以跟大家解釋一下

490

00:27:15,536 --> 00:27:19,016

這個Segment Anything它主要的突破點在哪裡

491

00:27:19,016 --> 00:27:20,416

為什麼它意義重大

492

00:27:20,416 --> 00:27:22,816

對那篇論文我特別喜歡

493

00:27:22,816 --> 00:27:25,016

它解決的叫Image Segmentation

494

00:27:25,016 --> 00:27:27,016

也就是圖像分割的問題

495

00:27:27,016 --> 00:27:29,136

簡言之給一個圖片

496

00:27:29,136 --> 00:27:32,016

這圖片裡面比如說有三條狗兩隻貓

497

00:27:32,016 --> 00:27:35,616

AI它能不能把三條狗和兩隻貓的整個輪廓

498

00:27:35,616 --> 00:27:36,816

把它全部都勾下來

499

00:27:37,072 --> 00:27:41,112

這個就是一個很經典的計算機視覺問題叫圖像分割

500

00:27:41,112 --> 00:27:43,312

然後這個問題非常的難

501

00:27:43,312 --> 00:27:46,592

在計算機視覺領域也有幾十年的研究的歷史

502

00:27:46,592 --> 00:27:51,312

我覺得這一篇論文基本上完全用到了這樣大模型的一個範式

503

00:27:51,312 --> 00:27:52,472

大模型的思路

504

00:27:52,472 --> 00:27:56,952

首先我覺得它不是第一篇用Transformer來做分割的模型

505

00:27:56,952 --> 00:27:59,672

因為之前其實有很多論文用到了Transformer

506

00:27:59,672 --> 00:28:04,992

但是我覺得它確實是第一篇大規模用這樣一個大模型的思維去解的

507

00:28:05,232 --> 00:28:07,592

然後什麼意思呢?有以下幾條

508

00:28:07,592 --> 00:28:11,512

第一個是它的神經網絡的架構非常的簡單

509

00:28:11,512 --> 00:28:13,632

又簡單又比較Scalable

510

00:28:13,632 --> 00:28:15,672

當然也是用Constorm一個變體

511

00:28:15,672 --> 00:28:18,432

但是它裡面並沒有一些話裡胡哨的一些東西

512

00:28:18,432 --> 00:28:20,472

一個很簡潔的通用的一個架構

513

00:28:20,472 --> 00:28:25,752

第二條就是它有一個我們稱之為叫做Data Flywheel的一個東西

514

00:28:25,752 --> 00:28:30,232

一開始時候可能有少量的人工標註的一些圖像分割的數據

515

00:28:30,232 --> 00:28:31,232

一些訓練數據

516

00:28:31,232 --> 00:28:34,752

通過這個訓練數據已經能夠訓練一個版本的模型

517

00:28:34,768 --> 00:28:36,768

但這個模型可能效果不是特別好

518

00:28:36,768 --> 00:28:39,768

但是你可以用這個效果不太好的模型

519

00:28:39,768 --> 00:28:42,768

自動分割大量沒有人工標註的那些圖片

520

00:28:42,768 --> 00:28:47,768

可以顧一些人,比如說來在這些基礎上面再做一些標註

521

00:28:47,768 --> 00:28:49,768

這些標註就比較簡單了

522

00:28:49,768 --> 00:28:51,768

因為比叢林開始標肯定要簡單嘛

523

00:28:51,768 --> 00:28:54,768

如果這個機器已經標對了,那你就直接跳過就行了

524

00:28:54,768 --> 00:28:57,768

標錯的話你再幫它修改一下

525

00:28:57,768 --> 00:28:59,768

所以這個第二步已經是簡單很多

526

00:29:00,064 --> 00:29:05,264

這樣的話你可以讓這種高質量的標註的數據多很多而不需要顧太多的人

527

00:29:05,264 --> 00:29:06,264

這是第二步

528

00:29:06,264 --> 00:29:11,184

第三步就直接可以讓模型直接再去標剩下的各種各樣的所有的

529

00:29:11,184 --> 00:29:16,144

比如說我記得它應該有上千萬張圖片就直接用這個算法去標上千萬張

530

00:29:16,144 --> 00:29:21,384

然後用一些heuristic的一些方法你能夠從中獲得比較高質量的標註

531

00:29:21,384 --> 00:29:25,424

然後你把那些算法不是那麼的confident的一些內容給去掉

532

00:29:25,536 --> 00:29:30,136

通過這樣一個Data Flywheel,它就能夠做到一個越來越好的圖像風格的效果

533

00:29:30,136 --> 00:29:34,296

後來Facebook他們把他們的數據以及模型全部都開源了

534

00:29:34,296 --> 00:29:38,536

然後我覺得這個對AI的研究的社區也是相當有幫助的

535

00:29:38,536 --> 00:29:41,296

因為現在大部分的公司都不會開源大模型

536

00:29:41,296 --> 00:29:44,016

所以我覺得這一點上面他們也做得非常的好

537

00:29:44,592 --> 00:29:52,032

對那這篇論文出來了以後你覺得它會對哪些行業的發展產生非常重大的影響

538

00:29:52,032 --> 00:29:56,392

就比如說當你提到圖形標注的時候包括這些高質量的標注

539

00:29:56,392 --> 00:29:58,472

最後它可能會產生一個數據飛輪

540

00:29:58,952 --> 00:30:04,872

你覺得比如說它會對自動駕駛行業的Corner Case有更多精準的判斷嗎

541

00:30:05,472 --> 00:30:10,552

對我覺得它對無人駕駛啊機器人這些上面都會有比較大的幫助

542

00:30:10,688 --> 00:30:12,688

當然因為這個模型剛剛開源

543

00:30:12,688 --> 00:30:15,688

所以目前還沒有看到有大的一些項目真的用到

544

00:30:15,688 --> 00:30:19,188

但是我覺得之後未來一年應該會看到各種各樣的應用

545

00:30:19,688 --> 00:30:24,188

你為什麼覺得它的作用會像GVT-3那麼大

546

00:30:24,188 --> 00:30:27,688

是因為它對圖像領域的一個巨大的貢獻

547

00:30:27,688 --> 00:30:31,688

因為它的這個模型有一些Zero Shot的效果

548

00:30:31,688 --> 00:30:36,188

比如說之前從來沒有見過的物體它也能夠分割出來

549

00:30:36,208 --> 00:30:39,488

包括在有些可能非常特殊的一些情況

550

00:30:39,488 --> 00:30:43,008

比如說在海底啊或者說在醫學的一些影像上面

551

00:30:43,008 --> 00:30:44,528

它也能夠做一個分割

552

00:30:44,528 --> 00:30:48,688

這些都是有可能是之前在訓練的時候沒有遇到過的場景

553

00:30:48,688 --> 00:30:51,968

所以它能夠做到一個非常強的靈樣本的泛化

554

00:30:51,968 --> 00:30:54,688

所以我覺得這個有點類似GP3

555

00:30:54,688 --> 00:30:58,288

哦你這麼說我更加理解了

556

00:30:58,288 --> 00:31:02,608

類似於這個模型它已經不僅僅只是靠視覺來識別

557

00:31:02,624 --> 00:31:04,984

它同時還加入了它理解的部分

558

00:31:04,984 --> 00:31:05,344

對不對

559

00:31:05,344 --> 00:31:08,064

就是你說它可以識別它沒有見過的物體

560

00:31:08,384 --> 00:31:10,184

對我覺得它這個模型

561

00:31:10,184 --> 00:31:12,784

它學會了物體這樣一個抽象的概念

562

00:31:12,904 --> 00:31:14,464

因為對於我們人來說

563

00:31:14,464 --> 00:31:17,784

我們偶爾也會遇到一些奇形怪狀的東西

564

00:31:18,144 --> 00:31:20,424

但是我們照樣都知道這也是一個物體

565

00:31:20,424 --> 00:31:23,064

儘管我們之前可能這輩子從來沒有見過

566

00:31:23,064 --> 00:31:24,904

這樣一個特定的奇形怪狀的東西

567

00:31:24,904 --> 00:31:26,424

我們還是知道它是一個物體

568

00:31:26,624 --> 00:31:28,784

我覺得至少從他們的論文上看

569

00:31:28,784 --> 00:31:31,664

這一篇SAM這個模型也能夠做到這個

570

00:31:31,776 --> 00:31:35,776

之前從來沒有見過的某一種物體但是它能夠把它分割出來

571

00:31:35,776 --> 00:31:39,616

所以它學會了這樣一個很通用的物體的抽象的概念

572

00:31:39,616 --> 00:31:43,056

這個就有點類似GP3 所以我就打了這樣的比喻

573

00:31:43,056 --> 00:31:47,616

所以我覺得最近整個人工智能的發展太快了

574

00:31:47,616 --> 00:31:52,256

非常的激動人心我感覺每個月都有好多好多的新的進展出來

575

00:31:52,256 --> 00:31:54,048

對非常的激動

576

00:31:54,048 --> 00:31:57,528

你會覺得現在的人工智能的這些大模型

577

00:31:57,528 --> 00:32:02,848

它會像是之前我們說互聯網跟移動互聯網時代的一個操作系統

578

00:32:02,848 --> 00:32:08,248

比如說像一個Windows系統或者像一個Android的

或者蘋果的這樣的一個系統

579

00:32:08,248 --> 00:32:12,728

所有的這些應用是構建在上面的也還是一個一個的小應用

580

00:32:12,728 --> 00:32:17,488

我不知道你作為一個人工智能的研究者你會怎麼樣去定義這些大模型

581

00:32:17,568 --> 00:32:20,288

我知道現在大家可能對未來還有很多看不清楚的地方

582

00:32:20,288 --> 00:32:25,088

但還是很想知道你覺得他們未來會演變成一個大概什麼樣的形態

583

00:32:25,328 --> 00:32:27,568

對我覺得你剛才這個比喻特別的好

584

00:32:27,688 --> 00:32:31,968

就是這些大模型尤其是語言模型是一個操作系統

585

00:32:32,208 --> 00:32:35,008

然後剩下的東西就是上面這個應用層

586

00:32:35,328 --> 00:32:37,728

我覺得這個比喻特別恰當的一個原因是

587

00:32:37,728 --> 00:32:40,968

我就說當年喬布斯推出的第一款iPhone吧

588

00:32:41,448 --> 00:32:45,208

我覺得iPhone它的特點就是一整個手機都是一個觸摸屏

589

00:32:45,360 --> 00:32:49,860

沒有物理的鍵盤你完全用手指做所有在手機上面想做的事情

590

00:32:49,860 --> 00:32:52,560

包括撥號呀什麼的全都沒有一個物理鍵盤

591

00:32:52,560 --> 00:32:57,560

我覺得喬布斯當時提出iPhone一個最大的革新是這樣一個人機交互的界面

592

00:32:57,560 --> 00:33:00,060

他重定義了人機交互應該是什麼樣的

593

00:33:00,060 --> 00:33:03,460

iPhone之前對吧黑媒那些手機人機交互是通過鍵盤

594

00:33:03,460 --> 00:33:05,160

但是iPhone是通過觸摸屏

595

00:33:05,160 --> 00:33:08,360

之後所有的手機智能手機全是用觸摸屏

596

00:33:08,360 --> 00:33:12,560

所以我覺得這是一個人機交互的一個革命性的一個創舉

597

00:33:12,720 --> 00:33:15,920

我覺得現在大元模型也非常的像

598

00:33:15,920 --> 00:33:20,400

大元模型也將會重定義人機交互這樣一個方式

599

00:33:20,400 --> 00:33:23,960

可能我們現在是用觸摸屏或者用鼠標和鍵盤

600

00:33:23,960 --> 00:33:26,120

來和我們的電腦和手機交互

601

00:33:26,120 --> 00:33:28,480

但之後的話我們就完全通過語音

602

00:33:28,480 --> 00:33:31,800

或者不通過點鼠標不通過用手機上的應用

603

00:33:31,800 --> 00:33:34,400

而是直接上來我就開始寫一句話

604

00:33:34,400 --> 00:33:36,640

我今天想要去法國旅行

605

00:33:36,640 --> 00:33:38,360

幫我做一個旅行計劃

606

00:33:38,360 --> 00:33:40,560

然後這個大元模型

607

00:33:40,560 --> 00:33:47,760

以及這個元模型上面應用插件

比如說可能有些旅行內規劃的一些插件或者訂旅館呀或者訂機票的插件等等

608

00:33:47,760 --> 00:33:53,360

AI它來幫你做整個規劃你就只要負責確認一下最後付款就可以了

609

00:33:53,360 --> 00:33:59,360

所以我覺得你剛說這個操作系統比喻特別恰當因為這是新的一場人機交互的革命

610

00:33:59,360 --> 00:34:04,160

之後的話都是通過這種語言啊語音這樣的一個很自然而然的指令

611

00:34:04,160 --> 00:34:09,560

而不是通過我們去下載一個程序安裝然後鼠標和按鈕點來點去這樣子一個方式

612

00:34:09,872 --> 00:34:12,832

對而且我覺得你剛剛說的有一個點特別好

613

00:34:12,832 --> 00:34:18,072

就是你說其實iPhone它的意義它是定義了一個人機交互的方式

614

00:34:18,072 --> 00:34:21,832

我記得上次我們吃飯的時候其實有聊到我們說ChadGBT

615

00:34:21,832 --> 00:34:24,872

其實GBT模型在很早之前就有了嘛

616

00:34:24,872 --> 00:34:27,632

那ChadGBT很厲害的一個事情是

617

00:34:27,632 --> 00:34:30,992

它把它定義成了一個聊天的對話的形式

618

00:34:30,992 --> 00:34:34,112

而且那個產品的頁面是非常非常簡單的

619

00:34:34,128 --> 00:34:35,568

從這個意義上來說

620

00:34:35,568 --> 00:34:38,928

我們就覺得OpenAI它在怎麼把一個研究成果

621

00:34:38,928 --> 00:34:40,448

展示給公眾的時候

622

00:34:40,448 --> 00:34:42,768

這個步驟是做得非常厲害的

623

00:34:43,208 --> 00:34:46,288

對其實這也是一種人機交互上的突破

624

00:34:46,568 --> 00:34:50,728

因為其實GPD3以及3.5那時候已經出來了一段時間了

625

00:34:50,728 --> 00:34:52,448

至少根據Sam Altman的說法

626

00:34:52,608 --> 00:34:57,088

但是XGPT是第一個把它做成一個聊天機器人的交互介面

627

00:34:57,248 --> 00:34:59,568

而且那個介面確實非常乾淨好用

628

00:34:59,568 --> 00:35:00,608

大家都能用

629

00:35:00,608 --> 00:35:03,608

而不需要比如說自己去寫代碼才能用GPD3

630

00:35:03,824 --> 00:35:10,104

所以我覺得人機交互在未來很有可能跟人工智能大模型研究本身一樣的重要

631

00:35:10,104 --> 00:35:15,864

嗯是你覺得你現在的工作中最exciting的部分是什麼

632

00:35:15,864 --> 00:35:18,864

我現在在做一些多模態的研究

633

00:35:18,864 --> 00:35:23,344

還有對於人工智能決策上的就是做decision決策上的研究

634

00:35:23,344 --> 00:35:27,784

然後這兩塊我都覺得第一非常有意思第二未來的潛力也非常大

635

00:35:27,784 --> 00:35:32,984

首先多模態的話GPD4剛剛開始把視覺這塊加進來

636

00:35:33,024 --> 00:35:36,024

但是GPD4的視覺它還是一個靜態的視覺

637

00:35:36,024 --> 00:35:38,824

也就是說它一次輸入一張靜態的圖片

638

00:35:38,824 --> 00:35:41,424

可能還有些文本能夠再輸出一些文本

639

00:35:41,424 --> 00:35:43,624

但是我覺得未來多模態肯定會有

640

00:35:43,624 --> 00:35:46,324

比如說視頻或者三維或者語音

641

00:35:46,324 --> 00:35:48,024

這樣子模態也全都加進來

642

00:35:48,424 --> 00:35:53,424

並且不僅是輸入輸出也有可能是合成圖片合成語音等等

643

00:35:53,624 --> 00:35:56,324

所以我覺得這個是一個未來的必經的導向

644

00:35:56,624 --> 00:35:59,824

我自己在上個月也有一篇工作叫Prismar

645

00:35:59,968 --> 00:36:02,268

其實也是類似這樣一個想法

646

00:36:02,268 --> 00:36:06,168

就是如何把一些圖片的模態能夠接入大宇宙模型

647

00:36:06,168 --> 00:36:09,568

不需要太多的額外的訓練或額外的參數

648

00:36:09,568 --> 00:36:12,368

它就能把這幾個模態進行一個深度的融合

649

00:36:12,368 --> 00:36:14,368

所以這是一個很有意思的研究方向

650

00:36:14,368 --> 00:36:18,168

另外一方面我也在研究智能體做決策

651

00:36:18,168 --> 00:36:21,168

比如說在機器人或在遊戲裡面

652

00:36:21,168 --> 00:36:23,668

如何讓人工智能自主地探索

653

00:36:23,668 --> 00:36:24,968

完成各種各樣的任務

654

00:36:24,968 --> 00:36:27,360

這個是一個很難的研究問題

655

00:36:27,360 --> 00:36:32,040

目前為止也有很多種不同的方法能夠探索所以現在正在進行中

656

00:36:32,400 --> 00:36:35,600

我舉一個例子比如說我今天我現在在波士頓

657

00:36:35,600 --> 00:36:37,840

然後我想從波士頓飛舊金山

658

00:36:38,000 --> 00:36:42,600

我給AI一個任務讓它定一張從波士頓到舊金山的機票

659

00:36:42,600 --> 00:36:46,520

且還要便宜然後時間段會是在一個什麼樣的時間段內

660

00:36:46,560 --> 00:36:48,760

它完全定好發到我的郵箱

661

00:36:48,800 --> 00:36:51,680

你覺得現在整個AI可以做這件事情嗎

662

00:36:52,080 --> 00:36:53,600

現在肯定應該可以做了

663

00:36:53,744 --> 00:36:58,544

其實這個就可以通過GPT4或ChatGPT的插件就能做到

664

00:36:58,544 --> 00:37:02,184

你剛提到的比如說寫email或者上網瀏覽等等

665

00:37:02,184 --> 00:37:04,184

這些功能肯定是都能實現了

666

00:37:04,184 --> 00:37:05,944

我只想告訴他一個語言

667

00:37:05,944 --> 00:37:09,984

你來幫我訂一張從波士頓到舊金山的機票週一

668

00:37:09,984 --> 00:37:12,184

然後我要直飛比較便宜的

669

00:37:12,184 --> 00:37:13,184

對對

670

00:37:13,184 --> 00:37:15,904

這個的話可以通過一些對於Prompt

671

00:37:15,904 --> 00:37:18,504

也就是大語言模型提示的一些編寫

672

00:37:18,504 --> 00:37:20,384

就能夠做到你剛說的這個功能

673

00:37:20,496 --> 00:37:24,896

不過我這邊想加一句就是儘管這個東西可以做一個demo

674

00:37:24,896 --> 00:37:27,496

但是它沒有那麼的可靠

675

00:37:27,496 --> 00:37:32,376

比如說你讓它試十次我覺得有可能會有那麼四到五次

676

00:37:32,376 --> 00:37:33,776

它都會犯一些錯

677

00:37:33,776 --> 00:37:35,976

但這個犯的錯可能就會比較致命

678

00:37:35,976 --> 00:37:37,776

比如說你是要去波士頓

679

00:37:37,776 --> 00:37:40,376

它可能一不小心訂成了去舊金山的機票

680

00:37:40,376 --> 00:37:42,536

或者說是它沒有找到最便宜的

681

00:37:42,536 --> 00:37:45,136

它可能瀏覽了前三個搜索的結果

682

00:37:45,136 --> 00:37:46,736

但是可能最便宜的在第四個

683

00:37:46,736 --> 00:37:48,336

它就沒有看到那個等等

684

00:37:48,384 --> 00:37:50,584

所以我覺得還是沒有那麼的可靠

685

00:37:50,584 --> 00:37:52,784

但是至少目前我覺得是可以實現的

686

00:37:53,184 --> 00:37:55,384

我其實覺得現在整個大模型來說

687

00:37:55,384 --> 00:37:58,784

最重要的就是它如何去解決準確性的問題

688

00:37:58,784 --> 00:38:01,784

我該如何信任它給我的決策對不對

689

00:38:01,784 --> 00:38:04,784

這個我覺得是一個目前最大的難題之一

690

00:38:04,984 --> 00:38:07,584

如何讓它做到可靠並且是安全的

691

00:38:07,584 --> 00:38:09,384

比如說它會不會一不當心

692

00:38:09,384 --> 00:38:12,184

把你的信用卡的信息然後發在網上等等

693

00:38:12,184 --> 00:38:14,984

它不是說故意做但它可能就出錯了

694

00:38:15,184 --> 00:38:17,344

但是它也沒有跟你及時彙報

695

00:38:17,344 --> 00:38:21,504

你如果沒有仔細看的話可能就沒意識到結果你的個人信息就洩漏了

696

00:38:21,504 --> 00:38:25,784

或者說是它可能一不當心上了一個釣魚網站又把個人信息寫在上面

697

00:38:25,784 --> 00:38:28,784

它可能沒有辦法判斷那個網站是否是釣魚的

698

00:38:28,784 --> 00:38:32,104

所以我覺得這一塊上面還是有很多研究需要做的

699

00:38:32,104 --> 00:38:36,104

對對對就看起來它是一個挺簡單的人物

700

00:38:36,104 --> 00:38:40,304

但是交給機器的時候可能還是有很多我們意想不到的一些點會卡住

701

00:38:40,304 --> 00:38:42,704

而且我覺得它其實也是一個交互問題

702

00:38:42,720 --> 00:38:46,320

比如說我用語音輸入的話那它如何跟我互動

703

00:38:46,320 --> 00:38:49,920

然後它做決策的時候整個的流程怎麼走下來

704

00:38:49,920 --> 00:38:52,720

其實感覺還有很多很多的產品的問題需要解決

705

00:38:52,720 --> 00:38:56,120

對這個我覺得也不是一時半刻能解決的

706

00:38:56,120 --> 00:38:59,720

但是未來這些方向我覺得都非常激動人心

707

00:38:59,720 --> 00:39:02,720

你剛提到你現在工作中做的圖片模式

708

00:39:02,720 --> 00:39:05,320

可以介入到語言的大模型中

709

00:39:05,424 --> 00:39:09,544

包括我記得之前就是我們有嘉賓到我們《貴果101》的節目上聊

710

00:39:09,544 --> 00:39:12,424

他們就也是預測未來多模態的一些發展嘛

711

00:39:12,424 --> 00:39:15,584

就是說那未來我們想要去畫一個什麼樣的圖

712

00:39:15,584 --> 00:39:17,664

可能不需要輸入pumped詞了

713

00:39:17,664 --> 00:39:20,784

可以有更多的交互方式去告訴他怎麼畫

714

00:39:20,784 --> 00:39:23,864

好像這是大家都是在研究的一個方向

715

00:39:23,864 --> 00:39:27,944

對其實我覺得多模態一定程度上也是當提到的

716

00:39:27,944 --> 00:39:30,104

讓人際交互變得更加自然

717

00:39:30,104 --> 00:39:33,984

現在我覺得首先文本已經是一個很好的人際交互的界面了

718

00:39:34,128 --> 00:39:36,528

肯定是比我自己去安裝一個程序啊

719

00:39:36,528 --> 00:39:38,528

去點滑鼠什麼的更加自然的

720

00:39:38,528 --> 00:39:42,528

但是有很多問題並不是文本能夠很方便的表達

721

00:39:42,528 --> 00:39:45,328

有些時候可能給AI看一個圖片

722

00:39:45,328 --> 00:39:47,328

跟著這個圖片講會清晰很多

723

00:39:47,328 --> 00:39:49,528

就像有些時候我們人在交流的時候

724

00:39:49,528 --> 00:39:51,928

講一大段話不如就直接畫上圖

725

00:39:51,928 --> 00:39:53,328

來得清晰畫一個圖表

726

00:39:53,328 --> 00:39:55,328

所以我覺得其實多麼大的研究

727

00:39:55,328 --> 00:39:56,928

還有包括另外一個語音

728

00:39:56,928 --> 00:39:58,928

有些時候通過語音直接輸入

729

00:39:58,928 --> 00:40:00,928

也會是一個非常自然的一個界面

730

00:40:01,184 --> 00:40:07,864

所以我覺得現在多莫泰的研究也是一定程度上在推進剛才說的人機交互界面的可用程度

731

00:40:07,864 --> 00:40:09,864

對這是一個很重要的導向

732

00:40:09,864 --> 00:40:14,424

對對對然後你剛提到你研究的另一塊智能體的決策是什麼樣的

733

00:40:14,424 --> 00:40:18,664

我不知道它跟我剛剛訂機票的那個例子是不是有一些相同之處

734

00:40:18,664 --> 00:40:22,184

對其實剛才你說的這個就是一個決策的國產

735

00:40:22,184 --> 00:40:25,064

現在GPD-4有一定的決策能力

736

00:40:25,064 --> 00:40:29,184

但我覺得第一不是特別強有些複雜性還是做不了

737

00:40:29,184 --> 00:40:30,984

第二它不是特別可耗

738

00:40:31,152 --> 00:40:35,072

所以怎麼讓智能體做一些非常可靠的決策

739

00:40:35,072 --> 00:40:38,352

而且保證它按照規則來安全的執行

740

00:40:38,352 --> 00:40:41,152

然後我覺得這塊也是很多研究的一個方向

741

00:40:41,152 --> 00:40:44,792

因為我知道Jim之前是研究機器人的

742

00:40:44,792 --> 00:40:47,952

然後你為什麼從研究機器人轉向了多莫泰

743

00:40:47,952 --> 00:40:51,072

它這個中間是有比較傳承的一部分嗎

744

00:40:51,072 --> 00:40:56,072

對我覺得機器人其實是對於多莫泰的一個很好的研究的載體

745

00:40:56,072 --> 00:40:59,760

因為舉個例子有些任務我們想傳達給機器人

746

00:40:59,760 --> 00:41:01,960

可能完全通過文本會比較困難

747

00:41:02,320 --> 00:41:04,320

但有時候我們比如說告訴機器人

748

00:41:04,320 --> 00:41:05,560

這件事應該怎麼做

749

00:41:05,560 --> 00:41:08,320

可能機器人看著我們就是看了一段視頻

750

00:41:08,320 --> 00:41:09,360

我們就表演給他看

751

00:41:09,360 --> 00:41:11,920

比如說我現在想要做某一道菜

752

00:41:11,920 --> 00:41:13,000

做個番茄炒蛋

753

00:41:13,000 --> 00:41:14,600

這是我做的方式

754

00:41:14,600 --> 00:41:16,000

然後機器人看完以後

755

00:41:16,000 --> 00:41:17,720

他就也能夠去做番茄炒蛋

756

00:41:18,200 --> 00:41:20,720

這個要比我們詳細地把這整個過程

757

00:41:20,720 --> 00:41:22,240

要拿一個什麼材料等等

758

00:41:22,240 --> 00:41:24,440

全部都寫下來可能會更加的容易

759

00:41:24,752 --> 00:41:30,352

或者是我們可能又需要給機器人表演一遍這個菜該怎麼做同時也要有個講解

760

00:41:30,352 --> 00:41:36,152

用一些這種圖文並茂的給機器人一個輸入讓他才能夠聽得懂我們這樣一個想要他做的任務

761

00:41:36,152 --> 00:41:39,952

所以我覺得多麼太是一個對於機器人的一個很自然的界面

762

00:41:39,952 --> 00:41:42,952

理解聽起來還是一脈相承的

763

00:41:42,952 --> 00:41:45,352

那謝謝Jim 你有什麼要補充的嗎

764

00:41:45,352 --> 00:41:51,072

最後我就想說我覺得人工智能現在基本上是一個幾何爆炸的速度在發展

765

00:41:51,072 --> 00:41:54,832

可能我今天說的話說不定下週就有些模型已經能做到了

766

00:41:54,832 --> 00:41:58,272

可能我今天覺得是難題下周有篇論文出來已經解決了

767

00:41:58,272 --> 00:42:00,872

我覺得這個又是一個很激動人心的時候

768

00:42:00,872 --> 00:42:04,872

然後確實也是一個讓人非常感覺有點追無上時代的步伐

769

00:42:04,872 --> 00:42:06,472

因為實在步伐實在太快了

770

00:42:06,472 --> 00:42:08,072

我也在努力的追趕

771

00:42:08,072 --> 00:42:11,672

也希望大家聽了我們今天這個討論也有所幫助

772

00:42:11,672 --> 00:42:15,272

哇你是一個AI研究者你都覺得追不上步伐

773

00:42:15,272 --> 00:42:19,072

那我們來看到就覺得更快了對就眼花繚亂

774

00:42:19,104 --> 00:42:21,344

最後我稍微補充一個小問題

775

00:42:21,344 --> 00:42:24,784

為什麼人工智能會在今天這樣一個時間點

776

00:42:24,784 --> 00:42:26,544

形成一個爆炸式的發展

777

00:42:26,544 --> 00:42:29,744

它的幾個重要的貢獻點跟節點是什麼

778

00:42:29,744 --> 00:42:31,984

你可不可以幫大家簡單的梳理一下

779

00:42:31,984 --> 00:42:35,344

我覺得一個是算力和數據吧

780

00:42:35,344 --> 00:42:37,744

這個肯定是最最重要的

781

00:42:37,744 --> 00:42:41,744

然後算力的話用GPU能夠訓練這些大模型

782

00:42:41,744 --> 00:42:43,984

我覺得GPU可能也就在過去幾年裡面

783

00:42:43,984 --> 00:42:47,504

能夠達到一個大模型所需要的算力

784

00:42:47,600 --> 00:42:53,000

所以這個也是相對於人工智能的模型的能力也是跟著硬件發展而發展的

785

00:42:53,000 --> 00:42:56,600

然後硬件沒有到的話我覺得訓練這些大模型也非常的吃力

786

00:42:56,600 --> 00:42:58,000

所以這是一個時間點

787

00:42:58,000 --> 00:43:01,400

另外就是大家意識到通過大量的下載

788

00:43:01,400 --> 00:43:05,200

就從網上下載文本的數據能夠讓這模型變得越來越好

789

00:43:05,200 --> 00:43:09,600

可能比如說在GPD3之前大家在學術圈裡面做研究的時候

790

00:43:09,600 --> 00:43:11,600

都是用幾個固定的數據機

791

00:43:11,600 --> 00:43:15,400

剛提到的維基百科也好聯合國的一些文件也好等等

792

00:43:15,568 --> 00:43:19,968

但那些數據集體上面訓練的模型它不會有這種湧現的智能

793

00:43:19,968 --> 00:43:21,768

因為它的數據實在太少了

794

00:43:21,768 --> 00:43:24,168

但是後來的話GPD3就告訴我們

795

00:43:24,168 --> 00:43:27,968

通過大量的下載網上的文本的數據不斷地增加算力

796

00:43:27,968 --> 00:43:29,968

你可以有這樣一個湧現的智能

797

00:43:29,968 --> 00:43:34,168

所以我覺得從GPD3開始的時候大家才意識到大模型

798

00:43:34,168 --> 00:43:37,968

是一條通向一個更加通用的人工智能的路

799

00:43:37,968 --> 00:43:40,568

所以就是為什麼現在是這個時間的節點

800

00:43:40,568 --> 00:43:43,568

簡單來說就是對算力對數據

801

00:43:43,568 --> 00:43:44,720

好

802

00:43:44,720 --> 00:43:48,400

謝謝Jim今天的分享非常的精彩

803

00:43:48,400 --> 00:43:49,840

那另外我聲明一點

804

00:43:49,840 --> 00:43:51,640

今天Jim所有的發言呢

805

00:43:51,640 --> 00:43:54,320

都只代表個人觀點不代表公司

806

00:43:54,320 --> 00:43:55,520

好謝謝

807

00:43:55,520 --> 00:43:56,520

謝謝謝謝

808

00:43:58,240 --> 00:44:00,760

另外我們這期講OpenAI成章史的內容

809

00:44:00,760 --> 00:44:04,320

也有一個更加清晰完整的視頻盤點

810

00:44:04,320 --> 00:44:08,400

大家可以在B站上搜索矽谷101來關注我們

811

00:44:08,400 --> 00:44:10,200

這個視頻不是播客的副盤

812

00:44:10,200 --> 00:44:12,160

是專門為視頻去創作的

813

00:44:12,160 --> 00:44:14,560

也是我個人非常喜歡的一期

814

00:44:14,592 --> 00:44:20,832

當然也歡迎大家去關注我們開頭提到的B站整理的AIGC的優質內容合集

815

00:44:20,832 --> 00:44:23,672

建立自己關注的渠道和資源庫

816

00:44:23,672 --> 00:44:27,392

關注的方法是播客Show Notes中點鏈接

817

00:44:27,392 --> 00:44:31,112

或者在B站搜索AI工具大法

818

00:44:31,112 --> 00:44:37,392

也歡迎大家在我們的評論區推薦你們看過的高質量的AI視頻

819

00:44:37,392 --> 00:44:39,392

大家來相互的學習一下

820

00:44:39,728 --> 00:44:45,488

這就是我們今天的節目如果大家對我們的節目有什麼樣的觀點和看法

821

00:44:45,488 --> 00:44:50,088

也歡迎大家給我們寫評論寫留言感謝大家的收聽謝謝

18 歲的我 ?

2022-11-25T21:59:00.005+08:00

18 歲的我在做什麼 ? 剛開始在用 modem (2400 bps)…

然後連到中央大學的 Terminal server , 借高中同學的中央大學 unix 帳號用, 自我感覺良好, 覺得連到全世界很了不起

過幾年就開始玩 Linux (雲觀光碟) 已經忘記雲觀之前有沒有用 Linux, 應該沒有吧, 因為都要用撥接, 電話費很貴, 後來大學終於有網路, 9600bps (!?, 你沒看錯), 所以用學校 PC 裝了 Linux , 再裝 proxy server , 但是大家都在上 Internet BBS

既然有了 Linux , 就順便裝了 http server , 然後在自己的 homepage 寫上, 影響我最重要的一篇文章 "社會心理學的一堂課 " by 王溢嘉, 講解了米爾格倫的電極實驗 [1]

然後實在想不起來為什麼會知道 irc #elixus [2], 然後在裡面亂聊天, 然後就是 OSW99 ( Open Source Workshop 1999 ) , 2000 年 SLAT , 2002 SARS Wiki , 2003 的 NICI 的2.03億元預算, Open Foundry 應該也是同一筆預算成立的吧, 然後中間忙開業, 不太知道有什麼重大事件, 然後就是 2009 的 COSCUP , 2011 的 GOSCUP , 2012 g0v , 2014 OCF … …

然後, 就八年了, 然後這八年的心得都沒辦法講, 然後現在也沒辦拉票啊啊啊啊啊啊啊啊啊啊

希望大家都有那個勇氣, 去當百分之三十八的人, 拒絕服從權威的命令 (好怪的結論 XD)

[1] https://www.lawtw.com/archives/321648
[2] 藝立協 elixus 到 g0v 之 ilya 紀念共筆

健保資料庫

2022-03-18T19:46:00.002+08:00

我自認為是偏執的人, 所以看到之前那篇 :
"時代的改變，通常是因為一些偏執的人的努力。這些偏執的人若經商或從政不一定會成功。偏執的人若偏執過頭也可能會成為阻礙社會進步的大石頭。不過，如果沒有這些偏執的人在過去四十年不斷搧風點火，哪會有今天民進黨的全面執政呢？"

心有戚戚焉, 所以徵得原作者同意後, 匿名全文轉貼, 這同時也讓我想到健康護照(健保病歷下載)的發展歷史 :

101 年, 朱敬一政務委員召開 "我國公開資料加值(open data)推動策略會議", 會中提出三個加值的方向, 政府地理圖資, 故宮資料, 健保資料庫,

一方面這個 "公開資料加值" 的定義跟國際上的 open data 定義, 完全不同, 引起了台灣 open source 與 open data 議題推動者的高度關注, 另一方面, 健保資料庫加值釋出的隱私問題, 也引起了台權會的關注,

除了健保資料庫本身隱私敏感的議題之外, 我(們)跟台權會也不斷質疑, 政府為何沒有徵得人民同意, 卻一直釋放資料給學研機構做研究, 反而人民無法看到自己的資料 (Mydata) , 所以我在好幾次的會議都不斷提到, 為何人民無法自己下載健保局的資料, 反而是一直要釋出給學界或商界應用 ?

也許是在健保資料釋出商用的方向不斷受阻之下, 健保局便開啟了健康存摺的發展, 讓一般人民能夠透過健保快易通App, 下載自己的用藥紀錄與檢查結果, 有了這個基礎架構, 往後健保快易通也新增, 訂購口罩, 查 PCR + 疫苗紀錄的各式功能, 成為對抗疫情的重要基礎建設 ...

03/03 7:00 爬起來處理私事, 處理完畢之後, 回去睡覺, 12:10 起床處理公事 ( ConCall ) 13:50 包便當準備去公司吃飯, 14:30 到公司之後, 處理雜事, 來不及吃, 15:00上工之後, 一路忙 , 一直到回家後 23:20 才吃第一餐 (中午的便當) 03/04 02:09 寫完這篇 XD

名詞解釋: Open-Source Intelligence ( OSINT )

2022-03-18T19:46:00.001+08:00

名詞解釋: Open-Source Intelligence (OSINT)

“公開來源情報 (Open-Source Intelligence)是從公開來源收集到的情報。在情報機構來看，「公開」是指公然展示的、公眾可見的來源。它與開源軟體或群體智能無關。” via 維基百科

ocf.tw 的 rosa 問了一個好問題, 為何在這篇新聞中《澳黑客竊公安密件400少年列恐怖分子　上海監控維人大小通殺》所提到的開源資料平台還要需要駭進去, 而不能直接下載 ?

"澳洲黑客去年駭入上海公安局的資料庫，取得110萬份監控文件，當中找到名為「維吾爾恐怖分子」的開源資料平台（open-source data platform），他們近日將資料交到澳洲網絡安全企業「Internet 2.0」，揭發今次監控系統。"

因為這裡講的開源資料應該是指 Open-Source Intelligence Data, 政府為了方便監控, 會先派爬蟲去把網路上各處的公開的資料抓回來, 放在資料庫裏面, 之後再去分析, 所以這個資料庫才會鎖在政府內部

衍伸閱讀:

Peter Thiel 的 Palantir (幫忙抓到賓拉登的公司) 所提供的職缺 : OSINT 分析師
https://startup.jobs/302467-open-source-intelligence-osint-analyst-at-palantir

"臉書董事會成員提爾（Peter Thiel）6日在尼克森基金會（Richard Nixon Foundation）主辦的網路論壇直指，他曾與谷歌（Google）的人工智慧團隊交流，卻發現谷歌團隊對其技術是否被用在新疆的勞動集中營並不關心，也從不過問。"
https://www.cna.com.tw/news/aopl/202104100217.aspx

圖片引自: Rev Vínculos, D. Mosquera & Mediná, Martin & Hernández, Cristian & López, Daniel & Ruiz, Juan & Rico, Ricardo. (2018). "Use of OSINT in a colombian context and sentiment Analysis". 15-2. 195-214.

平板電腦是否會造成過動症 ?

2021-10-04T01:29:00.006+08:00

平板電腦是否會造成過動症 ? 兼談內容慘業下的搜索之道。

舊文備份, 原文出處 :
https://www.facebook.com/notes/10151543978004949/

剛剛有個朋友私訊來問說:
"有看過任何比較可靠的文獻來源，有提到關於三歲以下幼兒與智慧型手機或平板電腦之間的研究嗎。"

因為很久沒唸論文了，但還是憑印象說:
"印象中精神科不認為電視會造成過動 (所以我不認為 3C 會造成 ADHD)
我不贊成小孩太早用 3C 主要理由，不是過動是近視
有很多人認為 3C 電視會讓小孩子過動，但我的看法這些小孩不是過動，是學習障礙，
(表現不好)所以學校老師就覺得他是過動或不專心"

接下來岔題聊到
"現在搜尋引擎都只能找到一堆內容農場的謠言文了。
前幾百則都是內容農場相同的東西，真的要找的都不知道如何找了。
然後我覺得一些不是太正式實驗研究，只是臨床經驗報告的，也有可能是因果顛倒。原本有ADHD 的，傳統的學習方式效果不好，用平板反而好，因此產生對平板的依賴。"

回答:
"我相信有相關但不是因果
就像上次安眠藥造成腦癌的統計論文 (吃兩年內機會最高，之後反而下降)
很明顯就是，腦癌的人常吃安眠藥
ADHD 的人課業表現不好，所以依賴 3C (或電視)"

最後加了 "精神科" 當關鍵字去 google，回答:
"剛剛用 '精神科兒童使用平板電腦 ADHD' 去查
'萬芳醫院精神科醫師張勝傑表示，ADHD患者比一般孩童容易沉迷3C產品，他們大腦活性太低而造成注意力不足，對枯燥乏味的事情不感興趣，3C產品的聲光效果吸引他們專注，所以不少ADHD患者有過度依賴3C產品的傾向。'

https://tw.news.yahoo.com/3c%E7%A7%91%E6%8A%80-%E5%BD%B1%E9%9F%BF%E7%8F%BE%E4%BB%A3%E4%BA%BA%E5%B0%88%E6%B3%A8%E5%8A%9B-034800366.html"

結案 !! :p

資料落地 vs 長臂管轄

2021-06-24T12:02:00.005+08:00

回答某人的 call-in 關於 , 杜奕瑾董事長所述: "歐盟要求臉書資料落地、允許長臂管轄"
https://www.facebook.com/PTT.TU/posts/10158620658796137

杜董所指的 "資料落地" 在台灣可以歸在個資法第21條國際傳輸,

"長臂管轄" 是指比利時法院可以根據 GDPR 裁罰愛爾蘭公司 (FB)

個資法第21條

非公務機關為國際傳輸個人資料，而有下列情形之一者，中央目的事業主管機關得限制之：
三、接受國對於個人資料之保護未有完善之法規，致有損當事人權益之虞。

比如說, 台灣如果擔心 A 國的個資保護不完全, 則對 A 國的網路服務, 中央目的事業主管機關可以禁止個人資料往 A 國傳, 那麼 A 國網站為了繼續服務台灣用戶則必須在台灣設立資料中心, 虛擬主機, 在台灣處理個人資料, 一般稱作 "資料落地"

"2015年，比利時監管部門將 Facebook 告上法庭，指控後者使用 cookies 追蹤個人的網站瀏覽情況。GDPR 生效後，這個案件被移交給了歐盟最高法院處理。"

FB 為了避稅把公司設在愛爾蘭 ( "雙層愛爾蘭－荷蘭三明治" 避稅手法 )

"歐盟法院15日裁判指出，在特定情況下，一國的監管機關得以行使權利，能在歐盟成員國的各處法院，控告任何涉嫌違反GDPR者，支持各國主管機關擁有採取行動的權利。"

https://udn.com/news/story/6811/5534985

所以, 比利時法院可以根據 GDPR 裁罰愛爾蘭公司 (FB) ( 長臂管轄 )

台灣的問題是, 如果我們真的判定 FB 或 Clubhouse 違法了, 勒令資料落地, 這些跨國網路公司是否願意是否願意遵守 ? FB 因為稅務的問題, 有台灣分公司, 也許可以施壓, 但是像 Clubhouse 等新興的網路服務, 台灣在技術上如何禁止個資傳送 ? 法律上如何裁罰 ?

Image CC BY: Dennis van der Heijden
https://www.flickr.com/photos/160103778@N03/40899487972

手部清潔用肥皂，環境清潔用含氯漂白水

2021-06-05T23:57:00.002+08:00

先講結論: 手部清潔用肥皂，環境清潔用含氯漂白水

不知道為什麼，一直很流行用酒精或次氯酸水消毒手部，甚至是消毒環境，所以重新再講一次，酒精只能殺死有套膜的病毒，但對無套膜病毒無效，SARS-CoV-2 是有套膜的病毒，所以臨時出門在外沒有肥皂洗手，是可以用適量的酒精消毒手部，但是像諾羅病毒、腸病毒、腺病毒、輪狀病毒，這些都是無套膜病毒，一定要靠肥皂洗手

怎麼洗手，去年有講過: https://www.facebook.com/pofeng.org/posts/2841781452576557

環境消毒的部分 ( 漂白水比酒精好 ) : "可以用1：50 ( 當天泡製，以1份漂白水加49份的冷水)的稀釋漂白水/次氯酸鈉 (1000ppm)，以拖把或抹布進行桌椅等環境表面及地面擦拭，留置時間建議1-2分鐘，再以濕拖把或抹布擦拭清潔乾淨，消毒頻率每天至少一次。 "
摘自: COVID-19(武漢肺炎)社區防疫公共環境消毒指引 https://www.cdc.gov.tw/File/Get/ZPrmtzqyTJsL2YRMfbqKpA

次氯酸水的部分: 首先，次氯酸水 (HClO) 並不是漂白水 (次氯酸鈉水溶液, NaClO) 而且，目前沒有足夠的資料支持次氯酸水可以安全有效的用於手部的清潔，用於環境清潔的話，保存時需要注意避光，濃度建議100ppm～300ppm 擋人財路, 請多包涵 XD

Icon by freepik and Smashicons from flaticon.com

6/14 前提供 #視訊門診，加 #LINE 就可以看病，戒菸，請參考 https://www.facebook.com/pofeng.org/photos/a.466700020084724/4084137038340986/ https://page.line.me/a2207480

新冠病毒 vs 肺炎鏈球菌

2021-06-02T19:41:00.005+08:00

最近大家在瘋傳美國某研究發現，新冠病毒跟肺炎鏈球菌可能有一些關聯性，而透過接種肺炎鏈球菌疫苗，可以幫助 65 歲以上的人降低重症死亡的風險，所以診所自費肺炎疫苗瞬間被打完 XD

其實這不是什麼新消息，任何病毒感染對長者都有可能併發細菌性肺炎，所以台灣本來就有提供 75 歲以上的長者，施打公費肺炎鏈球菌疫苗，65 歲以上的長輩則需要詢問戶籍所在的縣市是否有提供公費的肺炎鏈球菌疫苗，如果長輩不記得是否施打過公費的肺炎鏈球菌疫苗，可以請晚輩帶著長輩的健保卡，去附近有提供疫苗注射的診所幫忙查詢，另外年輕人要考慮戒菸，應該也可以降低重症風險

工商服務: 桃園李柏鋒診所提供各式公費疫苗注射，戒菸門診，6/14 前提供 #視訊門診，加 #LINE 就可以看病，戒菸，請參考
https://www.facebook.com/pofeng.org/posts/4075413959213294
https://page.line.me/a2207480

新聞報導: 肺炎鏈球菌疫苗能預防重症
https://heho.com.tw/archives/17412

eID

2019-09-24T23:57:00.002+08:00

電子身分證 (eID) 推動箭在弦上， 來多講一些 eID 的事

文長，請先看結論跟重點摘要：
1) 人民應能有權力選擇，有晶片或無晶片的身分證。
2) 相關的基礎驅動程式或讀取程式，應採開放原始碼授權，讓大眾使用並檢視。
3) 人民使用政府網站所產生的數位足跡，應能查詢並刪除。

2017 年，政府開始準備合併身分證和自然人憑證，不跟健保卡合併，當時準備修法，看起來有保留紙本身分證的選項，但於 2018 年之後，似乎又推翻了之前身分證不合併健保卡的規劃，並保留 eID 的擴充能力, 偷偷的再次邁向多卡合一，完全放棄保留紙本身分證的選項，更放棄了修法。大家最喜歡參考的愛沙尼亞 eID 案例中，也並非一開始就強制全民更換晶片身分證，而是在 15 年內慢慢推動，第一年也只有有 10 萬人持有，為何台灣目前無法保留持有紙本身分證的選項呢 ?

自然人憑證

我大概是從 2015 開始追自然人憑證，當初原本只是想測試電子公文而開始研究，結果竟然發現密碼（PIN）是加密過才傳入卡片裡面，而且中華電信拒絕釋出加密金鑰（AES KEY），所以最終我們無法做出開放原始碼的讀取程式。實在無法想像一個國家級的基礎建設會掌握在私人公司手裡（雖然交通部是中華電信最大的股東），而當初跟中華電信的同仁抱怨這個狀況時，被嗆：「都是照規格與合約執行的」，我只好回嗆：「少來這套，國家的招標細節，也都是你們廠商提供的。」

由於追自然人憑證的不好經驗，所以也開始關注身分證和自然人憑證合併的事。

歷史回顧

1998年，行政院研考會在八月十日宣佈國民卡決標完成，待議約程序在三個月內完成後，第一張「國民卡」將在1999年底發出﹐1999年六月底前則全面完成國民卡換發程序

當時有個「要求政府暫停推動國民卡計畫」連署 :
發起單位：立法院永續發展促進會、台灣教授協會、澄社
發起個人：柯建銘、范巽綠、蕭裕珍、蘇煥智、蕭秋德、林子儀、張清溪、瞿海源、陳少廷、高成炎、黃宗樂、許清琦、劉俊秀、何建明、莊庭瑞、王大為、黃世昆、劉靜怡、陳正然

之後 2005 年有個釋憲案 (釋字603號解釋)
宣告戶籍法第 8 條第2、3項　”強制按捺指紋錄存，否則不發給國民身分證” 這個規定違憲，立即失效。聲請人是 85 位民進黨團立法委員，由賴清德提案。

現況 (2017 ~ 2019)

接著快轉來到 2017 年，政府開始準備合併身分證和自然人憑證，不跟健保卡合併，有準備修法，看起來有保留紙本身分證的選項，但於 2018 年之後，似乎又推翻了之前身分證不合併健保卡的規劃，保留 eID 的擴充能力, 偷偷的再次邁向多卡合一，完全放棄保留紙本身分證的選項，也放棄了修法，以下是相關資訊與報導:

“葉俊榮提及，若要結合健保卡、護照，牽涉各機關權責及資安問題，也影響民眾使用習慣，牽涉面向龐雜，目前僅規劃晶片身分證結合自然人憑證。”https://news.ltn.com.tw/news/life/paper/1144852

陳恭(政大資訊科學系特聘教授兼電算中心主任) :
"所以我做了一點功課，我們看愛沙尼亞，他們另外一份文獻提到，為了推 eID 至少修了至少十個法規，個資法、國家檔案法、國家機密法都牽涉在內，"
摘自 "晶片國民身分證研討會" 文字記錄

媒體報導:
"因此，參考他國晶片身分證法令，戶政司也計畫修訂《戶籍法》，以及《國民身分證及戶口名簿製發相片影像檔建置管理辦法》，並公布了增修要點，修正重點在於加強臺灣民眾對於該卡的使用自主權，例如，晶片身分證的存取、儲存使用必須經過該持卡人的同意。而服務提供者提供之服務，不得強制讀取晶片身分證，未經過法院、當事人同意，服務提供者亦不能對外提供當事人的使用紀錄。
"https://www.ithome.com.tw/news/116946

2017-09-09「晶片國民身分證？」開放決策工作坊 議題手冊https://drive.google.com/open?id=1M5BwL49AUj-XkDHM7itUYM5hPIwyUuLi
Q:如果要換發國民身分證，只能換發晶片國民身分證(eID)嗎?
1.內政部並沒有預設立場是否一定要換 eID，但是基於應用的便利及負責的態度，需要研提適切的方案以利討論，所以目前有規劃將傳統身分證換發 eID版本。
2.不同利害關係人，對換發eID有不同的看法，藉由本次開放決策案之方式與民溝通活動， 提出換發eID版本進行溝通，蒐集溝通結果再進行政策建議方案。

2017「晶片國民身分證？」開放決策工作坊成果資料
https://drive.google.com/open?id=1dlJ1_clO7qymeEeB_wFqvuHYFDgHnsOm
（二）張琬宜司長回應：
目前身分證的換證方案是沒有定案的。也就是說未來到底要繼續換紙本身分證還是要換晶片身分證，我們希望透過跟各位意見的表達跟理性思辨討論，作為決策的參考。如果我們有晶片身分證的方案可以來跟大家討論的話，當然是有責任必須要先做一些規劃，跟各位做一些重點的說明。

但，上述開放決策工作坊的相關文件皆遭內政部網站移除，且多次經台灣人權促進會請求，依然不肯重新上網，公民審議儼然成為替政策擦脂抹粉的工具。

2017-09-08，賴清德就任行政院長，陳美伶就任行政院政務委員兼國家發展委員會主任委員

2018 二代健保卡的換發被陳美伶主委打回票
李伯璋 : “謝謝政委幫忙推二代健保卡，本來快要ok了，不過一下子就打回來了，不過沒有關係，主委的方向並不是不好。”
引自 《2018-05-07 健保卡行動憑證規劃討論會議》

2018-12-03 匿名高層突然開始放出身分證會合併健保卡的風聲
"行政院國發會預計2020年啟用晶片身分證，高層人士表示，健保IC卡確定和晶片身分證合併"

2018-12-27 決定 2020 年要全面換發 New eID 而且不用修法
《賴清德：數位身分識別證 擬2020年全面發放》

2019-08-22 
內政部次長陳宗彥: "至於新式身分證結合健保卡與駕照的功能究竟何時開放？陳宗彥說，新式身分證是否結合健保卡與駕照的功能，下階段會繼續研議，包括資安的建構，目前還沒有確切的開放時間表。"
《新式數位身分證免費換發 第二階段綁定手機》

RFID 爭議

原本 2019-04「國巨管理顧問公司」標得「新一代國民身分證換發規劃案」之後, 大家都在等詳細的規畫報告, 但在規劃案完成之前，竟然發現 eID 已經完成委託給中央印製廠印製，且開始轉包出去，並引發了追蹤的爭議 :

《「PC晶片卡及印製設備乙式」購案招標規範》(舊版)

作業系統之安全考量必須包含以下內容：
晶片內所有EF及DF資料欄位均可以設定各自安全存取權限。
作業系統必須具備支援「生命週期安全管理」機制。
具備支援Random UID功能，以保障持卡人之個人行蹤安全。
具備追蹤機制，此機制須經內政部授權，方可進行晶片之追蹤。
可追蹤之資料（UID）必須儲存於晶片唯讀記憶體（ROM或OTP）內，以確保資料確實無法遭任意竄改。

另外，聽說國巨看到公開的招標規範後很煩惱，因為跟他們規劃的差很多，還要大改規劃案的報告內容

根據招標規範，eID 的非接觸介面是採用 iso14443 工作頻率13.56MHz，雖然說是屬於 0~10cm 的近距離的讀取，但網路上早就有工具可以從 40~50 cm 的距離直接讀取，理論值應該(?)可以達到 1.5 m (超過 1.5m 需要用微波)

另外一個遠距讀取的方式是，讀取 RFID reader 發送給 RFID tag 的訊號，根據台大鄭振牟教授的論文 《MIFARE Classic: Practical Attacks and Defenses》兩公尺是一定有把握讀取到的距離，鄭教授並表示理論值應可以達到十幾公尺

也許有人說，包個錫箔紙就好了，但說實話，我真的不想教我的阿公阿嬤，身分證隨時都要包個錫箔紙，而且還要記兩個密碼(PIN)，如果再加一個PUK，就三個了，難道他們真的連拿一般的紙本身分證的權利都沒有嗎 ? 而且萬一 eID 有漏洞，如 2017 年愛沙尼亞 eID 被發現有漏洞，到時還要教他們上網更新韌體嗎 ? 

放棄修法

如果保持目前不修法的狀態，那就是沒有要求政府網站一定要能接受 eID (愛沙尼亞有修法要求政府一定要接受電子簽章)  而台灣的電子簽章法也只是規定 "經相對人同意者，得以電子文件為表示方法。簽約的對方還是可以拒絕電子簽章，不像電子發票(雲端發票)有要求，廠商不能拒收電子發票(雲端發票)。

所以，不修法就是，政府花了錢，全民強迫發 eID ，全民有 RFID 的風險，晶片本身瑕疵的風險 (2017 年愛沙尼亞 eID 事件)，結果政府機關網站還是能夠拒收 eID，民間企業還是可以拒絕電子簽章，原地踏步。

愛沙尼亞也不是一開始就強制全民領取 eID，而是在 15 年內慢慢推動，在2002年推行晶片身分證政策時，於實施的第一年僅有10萬人持有，但是在推動15年下來，目前卡片持有率已經高達97％"   為何台灣目前無法有良好的轉換時程，而是全名老幼一併突然強制使用剛建置好的 eID 呢?

更不用說如法國,新加坡根本沒有晶片身分證 

後端的軟體系統

最後講後端的軟體系統，說實話，這才是最弱的一環

台灣政府很多單位很多都沒有開資訊規格的能力，一般就是找廠商提供或東抄西抄，外包之後也沒辦法監督，看看自然人憑證的 PIN 被加密就是個例子，也親眼看過政府要求廠商 open source 的時候，竟然被廠商威脅，明年就不標這個維護案。也聽過資安廠商轉述，我們政府各大資料庫在對岸都已經有備份。雖然這些跟 eID 沒有直接關係，但是 eID 存在的目的，就是要開啟更多的政府網路服務，如果政府沒有能力開規格，監督外包廠商，實在很擔心這些數位足跡會流向中國。

綜上所述，有這三個結論，敬請批評指教

1) 人民應能選擇有晶片或無晶片的身分證
2) 相關的基礎驅動程式或讀取程式應採，開放原始碼授權讓大眾使用並檢視
3) 人民使用政府網站所產生的數位足跡，應能查詢並刪除

感謝您的耐心看完，也請您順手轉一下這篇，讓更多人知道 eID 政策二十多年的來龍去脈

~~~~~~

參考資料: 
1998 「要求政府暫停推動國民卡計畫」連署https://www.iis.sinica.edu.tw/~hoho/bookmarks/ccard.html

身分證強制按指紋，為什麼違憲？
https://casebf.com/2017/09/25/fingerprint/

2015-11-19 
行政院交議內政部「晶片國民身分證全面換發計畫（草案）」審議第2次會議記錄
http://media.academia.tw/u/trc/m/eid-2nd-review-meeting/

2017-06-14  "晶片國民身分證研討會" 文字記錄
https://docs.google.com/document/d/1YGBrqBgWNPQ1w5LmN3_jAaa9na2IPGa-ymTm5ic7wGY/edit#

2017-09-09「晶片國民身分證？」開放決策工作坊 議題手冊
https://drive.google.com/open?id=1M5BwL49AUj-XkDHM7itUYM5hPIwyUuLi

2017「晶片國民身分證？」開放決策工作坊成果資料
https://drive.google.com/open?id=1dlJ1_clO7qymeEeB_wFqvuHYFDgHnsOm

2018-05-07 健保卡行動憑證規劃討論會議
https://sayit.pdis.nat.gov.tw/2018-05-07-健保卡行動憑證規劃討論會議

2018-08-22 內政部：「數位身分識別證-新一代國民身分證換發計畫辦理情形」
https://www.slideshare.net/OpenMic1/1-1moi-a

2019 赴愛沙尼亞考察智慧政府數位服務
https://report.nat.gov.tw/ReportFront/PageSystem/reportFileDownload/C10801167/001

MIFARE Classic: Practical Attacks and Defenses
http://dx.doi.org/10.29615/CISC.201005.0126

2017-10-22 
【國外eID實例：愛沙尼亞】技術、法源、開源三管齊下，2千項數位服務才能安心用eID
https://www.ithome.com.tw/news/117367

本文 web 版:  https://blog.pofeng.org/2019/09/eID.html
本文 FB 版:  https://www.facebook.com/notes/10151543979604949/

踢爆「賈伯斯第二」的神話，Theranos 深喉嚨背後的故事

2019-02-13T08:46:00.001+08:00

"泰勒坦承為了 Theranos 的案件，父母已經替他付了 40 萬美金的律師費，相當於新台幣 1,268 萬，還賣了一棟房子。他也曾經考慮過與 Theranos 協商和解，最後卻無法說服自己接受公司開的條件" (兩年前的文章)
from Facebook http://bit.ly/2StEHLl
at 2019-02-13T00:46:24.000Z

银行雇员穷追不舍 1英镑撬动两千亿美元洗钱大案 | CareerEngine

2019-02-10T09:31:00.001+08:00

"按照巴塞爾反洗錢指數(Basel AML index)的標準，愛沙尼亞當時是全球反洗錢工作做得第二好的國家，反腐敗監測機構透明國際(Transparency International)則將丹麥評為當年全球最透明的國家。威爾金森感嘆道，知名銀行機構對客戶違規行為睜一隻眼閉一隻眼並不罕見，罕見的是居然被抓了個現行。" " (丹麥銀行)愛沙尼亞分行90%的利潤來自三樓的一個部門。該部門的客戶是威爾金森從未接觸過的大金主，被稱作「非居民儲戶」。這些客戶並不在愛沙尼亞生活，他們的公司也基本不在愛沙尼亞經營業務。他們大多是俄羅斯人，外界有時很難瞭解他們為什麼選擇在愛沙尼亞辦理銀行業務。許多非居民儲戶總是在賬戶進賬後短短幾天內（有的甚至在短短幾小時內）就把資金全部轉移出去。 " "另外根據歐盟法令，未經丹麥監管機構許可，愛沙尼亞檢查人員不得進入該分行大樓。因為丹麥銀行在愛沙尼亞設立的機構屬於分行而非子公司，只有丹麥金融管理局有權管轄。" "愛沙尼亞代表在會場裡高喊來自俄羅斯的非法資金正利用該國洗錢，丹麥身為北約創始成員國卻袖手旁觀。"
from Facebook http://bit.ly/2RRIYTQ
at 2019-02-10T01:31:27.000Z

華爾街日報中文版 The Wall Street Journal

2019-02-10T08:48:00.001+08:00

"哈佛押注氣候變暖，悄悄做起買地抽水種葡萄的生意" " 自2012年以來，哈佛已經購買了數千英畝的加州葡萄園。它現在估計這些房產價值3.05億美元。" wsj 原文翻譯 : http://bit.ly/2SDJglp
from Facebook https://on.wsj.com/2rRrADR
at 2019-02-10T00:48:17.000Z

遊戲策劃：為什麼我的兒子不沉迷遊戲？ - layzer板 - Disp BBS

2019-02-09T22:39:00.001+08:00

先轉再看，成績也可以獎勵小成就
from Facebook https://goo.gl/wW1Fc6
at 2019-02-09T14:39:24.000Z

其實很常見耶, 所以初診病人我都懶得囉嗦, 直接讀 IC 卡+讀雲端藥歷

2019-01-28T00:34:00.001+08:00

其實很常見耶, 所以初診病人我都懶得囉嗦, 直接讀 IC 卡+讀雲端藥歷
by Pofeng Lee

2019-01-27T16:34:23.000Z
from Facebook

就像大家狂推光州事件 (我只是個計程車司機) , 但避而不談光州事件之後的反美情緒 XDDD "《美韓共同防禦條約》，確立了經濟、軍事上的同盟關係，重要的條文包括容許美軍駐守韓國邊界中，並將韓國軍隊的指揮權交給駐韓美軍。而在光州事件中，全斗煥多次調派軍隊到光州，亦須得到美國的准許才能下達此指令。換言之，光州的軍隊暴力鎮壓，是得到美國的默許⋯⋯" http://bit.ly/2CKryTo

2019-01-26T01:04:00.001+08:00

就像大家狂推光州事件 (我只是個計程車司機) , 但避而不談光州事件之後的反美情緒 XDDD "《美韓共同防禦條約》，確立了經濟、軍事上的同盟關係，重要的條文包括容許美軍駐守韓國邊界中，並將韓國軍隊的指揮權交給駐韓美軍。而在光州事件中，全斗煥多次調派軍隊到光州，亦須得到美國的准許才能下達此指令。換言之，光州的軍隊暴力鎮壓，是得到美國的默許⋯⋯" http://bit.ly/2CKryTo
by Pofeng Lee

2019-01-25T17:04:12.000Z
from Facebook

海闊天空 A Journey of 35 (2017) - CATCHPLAY ON DEMAND TW

2019-01-24T01:15:00.001+08:00

步調有點慢, 但終於把《海闊天空》2017 看完了感覺像是《你的孩子不是你的孩子》溫馨版 XDDD 《海闊天空的一代》希望與榮耀 (1996) https://www.youtube.com/watch?v=ZrzSPjEV78E 《海闊天空的一代：教改十年後》 (2006) https://www.youtube.com/watch?v=PWOBsCE-yjo 《海闊天空》長大以後 (2017) CatchPlay NTD 80 元 http://bit.ly/2HvO73U 中電電信mod 免費版: http://bit.ly/2S2g6ME
from Facebook http://bit.ly/2HvO73U
at 2019-01-23T17:14:54.000Z

大家好, 我是理科大大, 今天要來講一個益生菌的故事, 科學家利用生物彼此相剋的特性來治療疾病, 應該有數百年(?)的歷史了, 就算是近年人人喊打的抗生素, 當初也是發現黴菌能殺死細菌的特性, 進而找出能殺死細菌的物質, 最近我太太也跟我說了移植便便可以變胖變瘦的老鼠實驗, 說實話, 如果要進入臨床使用的話, 困難點還是純化菌種或分離出有效化合物, 最近有個失敗(?)的例子, 就是那位跟我名子很像的網紅, 之前的產品就是益生菌保養品(cream/lotion), 後來就沒在賣了, 其實產品賣不好下架沒關係, 但是如果產品沒效, 但是拍影片卻顯示有效, 就值得大家深入思考了, 好的, 如果大家喜歡我的影片, 請記得訂閱我的頻道, 或幫我按讚分享給朋友, 我們下集見 (並沒有)

2019-01-22T20:23:00.001+08:00

大家好, 我是理科大大, 今天要來講一個益生菌的故事, 科學家利用生物彼此相剋的特性來治療疾病, 應該有數百年(?)的歷史了, 就算是近年人人喊打的抗生素, 當初也是發現黴菌能殺死細菌的特性, 進而找出能殺死細菌的物質, 最近我太太也跟我說了移植便便可以變胖變瘦的老鼠實驗, 說實話, 如果要進入臨床使用的話, 困難點還是純化菌種或分離出有效化合物, 最近有個失敗(?)的例子, 就是那位跟我名子很像的網紅, 之前的產品就是益生菌保養品(cream/lotion), 後來就沒在賣了, 其實產品賣不好下架沒關係, 但是如果產品沒效, 但是拍影片卻顯示有效, 就值得大家深入思考了, 好的, 如果大家喜歡我的影片, 請記得訂閱我的頻道, 或幫我按讚分享給朋友, 我們下集見 (並沒有)
by Pofeng Lee

2019-01-22T12:23:04.000Z
from Facebook

GDPR实施后最大罚单：法国罚款谷歌5700万美元

2019-01-22T14:03:00.001+08:00

"其次，CNIL認為，谷歌使用數據前獲取用戶同意的流程不符合GDPR規定。在默認情況下，谷歌會促使用戶註冊谷歌賬戶。該公司告訴用戶，如果沒有谷歌賬戶，他們的體驗會非常糟糕。CNIL宣稱，谷歌應將創建賬戶的行為與設置設備的行為分開，這種捆綁行為是違法的。"
from Facebook http://bit.ly/2RZavGZ
at 2019-01-22T06:03:45.000Z

內文大多可以套用到各種行業 ... (特別是醫師 XDDD) "緊接著臉書粉絲團大行其道，在2017年前投入粉絲團經營，並且在行銷技巧掌握得宜的律師粉絲團，就筆者所知在案源上都有不錯的斬獲。然而在臉書大幅調整演算法後，粉絲團經營成本越發提高，有部分律師開始轉向經營Youtube或Instagram作為主要行銷管道。"

2019-01-21T09:49:00.001+08:00

內文大多可以套用到各種行業 ... (特別是醫師 XDDD) "緊接著臉書粉絲團大行其道，在2017年前投入粉絲團經營，並且在行銷技巧掌握得宜的律師粉絲團，就筆者所知在案源上都有不錯的斬獲。然而在臉書大幅調整演算法後，粉絲團經營成本越發提高，有部分律師開始轉向經營Youtube或Instagram作為主要行銷管道。"
by Pofeng Lee

2019-01-21T01:49:15.000Z
from Facebook

研華收購日商歐姆龍直方公平會准了 | 產經 | 重點新聞 | 中央社 CNA

2019-01-19T09:50:00.001+08:00

喔喔, 以後會看到工業用血壓計了嗎 (誤)
from Facebook http://bit.ly/2ssV0se
at 2019-01-19T01:50:45.000Z

深度：女版“乔布斯”覆灭记！硅谷美女CEO被曝百亿美元大骗局 | 远读重洋

2019-01-16T22:53:00.001+08:00

好讚的評論晨塵（陳俊榮） : "這是一個 Theranos 因為 her 變成 Thanos 的故事文非常長...." 改貼原始出處, 不要貼內容農場
from Facebook http://bit.ly/2FBjyao
at 2019-01-16T14:52:46.000Z

女版喬布斯的覆滅，美國創新史上的大騙局落幕 | PTT新聞

2019-01-16T18:10:00.001+08:00

好讚的評論 "這是一個 Theranos 因為 her 變成 Thanos 的故事文非常長...."
from Facebook http://bit.ly/2HgoGTI
at 2019-01-16T10:09:46.000Z

Po-chiang

2019-01-15T21:53:00.001+08:00

果然文組的解說起來比較清楚 (戰) 我的措辭比較粗暴一點 : "應該是指導創作者簽訂正確的授權合約, 而不是亂簽之後出來說要「尊重創作者」"
from Facebook http://bit.ly/2Ryddnz
at 2019-01-15T13:53:29.000Z