Z-Bench 1.0 :一個麻瓜的大語言模型中文測試集
https://github.com/zhenbench/z-bench
真格基金於 3 月發表 Z-Bench v0.9 , 當時的初步測試結果 : https://www.sohu.com/a/655676937_355029
戴雨森:
00:16:03
所以我們一直在強調就是這是我們自己做VC
我們希望比一般的用戶專業一點點就可以了
但它 (Z-Bench) 並不是一個特別的科學
特別嚴肅的一個測試
一個類似的問題 : 爆炒籃球 ,
泓君: "最開始 GPT3.5 還會正常的去解釋這個爆炒籃球是怎麼樣做的, 但是隔了兩天, GPT3.5 開始是告訴大家做了這個菜以後, 然後說爆炒籃球是不能吃的, 或者這樣做是有風險的, 再隔一天GPT3.5就會告訴大家, 爆炒籃球不是一個菜"
真格基金 戴雨森:
00:40:36
像現在微軟可以每天訓練一個GPT-3
變成一個順手就可以做的事情
但是微軟自己是沒法訓練GPT-4的
是需要在Azure那台專門為訓練GPT-4打造的超算上才可以訓練的
所以你會發現這裡面這個訓練的難度是高了很多
00:41:16
比如說其實GPT-4初始的能力更強很多
我看過一些沒有經過微調的GPT-4
比如畫出來的圖像
它是要比現在的GPT-4畫出圖像更精細很多的
如果你看了那篇通用人工智能的火花那篇論文
你發現GPT-4是可以畫圖的
比如它裡面畫了個獨角獸
但是那個已經是經過微調之後的GPT-4畫的了
當沒有經過微調的GPT-4畫的圖
其實要比那個精細很多
換句話說GPT-4為了和人類對齊
犧牲了很多它的能力
00:51:03
其實他提到了一點
就是說微軟現在有49%的 (OpenAI) 收益權
我可以給你賺錢
但你擁有的是收益權
你不能擁有控制權
因為他們從一開始就本質上的去相信
這樣的技術很危險
需要得到有效的監管和控制
不能夠落入邪惡的大公司手裡
但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發
所以才定下來這種收益和控制分開的這樣一個協定
然後才有你賺錢你就不能投票的這種邏輯
就是投票權和賺錢你只能選一個
00:56:53
然後很重要一點是在一個技術革命的早期
去預測未來基本上都是錯的
所以現在不管是我也好還是誰也好
我覺得講了很多話呢
我覺得你可以認為
第一: 都是錯的
第二: 它的實現的路徑和結果可能都完全不一樣
~~~
1 00:00:00,762 --> 00:00:02,762 欢迎收听硅谷101 2 00:00:02,762 --> 00:00:05,762 这是一档分享当下最新鲜的 3 00:00:05,762 --> 00:00:08,762 技术、知识与思想的科技播客 4 00:00:08,762 --> 00:00:09,762 我是红军 5 00:00:09,762 --> 00:00:12,762 相信很多朋友也看到了 6 00:00:12,762 --> 00:00:14,762 我们的业务在越做越多 7 00:00:14,762 --> 00:00:16,762 我们有硅谷101的播客 8 00:00:16,762 --> 00:00:18,762 也有硅谷101的视频 9 00:00:18,762 --> 00:00:20,762 在B站和YouTube上播放 10 00:00:20,762 --> 00:00:22,762 还有一档播客呢 11 00:00:22,762 --> 00:00:24,762 叫做Web3101 12 00:00:24,762 --> 00:00:26,762 那随着我们内容的变多 13 00:00:27,888 --> 00:00:30,888 也非常需要更多的小伙伴加入 14 00:00:30,888 --> 00:00:36,688 所以我们的节目正在开启创建以来第一轮的大型的全职招聘 15 00:00:36,688 --> 00:00:39,488 我们正在招聘播客的节目监制 16 00:00:39,488 --> 00:00:41,288 我们希望他懂内容 17 00:00:41,288 --> 00:00:43,888 懂科技行业和web3行业 18 00:00:43,888 --> 00:00:47,688 那还在招聘视频的后期商务和运营 19 00:00:47,688 --> 00:00:50,488 具体信息大家可以看节目的show notes 20 00:00:50,688 --> 00:00:54,888 感兴趣的小伙伴也可以把你们的简历还有代表作品 21 00:00:54,888 --> 00:00:59,688 发送到我们的邮箱 podcast at sv101.net 22 00:00:59,688 --> 00:01:09,408 我再说一遍邮箱的地址是 podcast at sv101.net 23 00:01:09,408 --> 00:01:13,288 非常期待对做内容有热情的小伙伴来加入我们 24 00:01:13,288 --> 00:01:15,488 跟我们一起创作 25 00:01:15,488 --> 00:01:18,688 这期节目继续我们的AIGC特辑 26 00:01:18,800 --> 00:01:20,800 今天我们邀请到的嘉宾是 27 00:01:20,800 --> 00:01:23,200 真格基金的管理合伙人戴宇森 28 00:01:23,200 --> 00:01:25,040 他会跟我们一起聊一下 29 00:01:25,040 --> 00:01:27,600 他自己的大模型的使用体验 30 00:01:27,600 --> 00:01:29,800 以及他们是如何设计了一套 31 00:01:29,800 --> 00:01:32,400 给大模型的打分器系统 32 00:01:32,400 --> 00:01:34,960 还有他眼中什么样的团队 33 00:01:34,960 --> 00:01:37,800 可以打造出中国的OpenAI 34 00:01:37,800 --> 00:01:39,600 哈喽宇森你好 35 00:01:39,600 --> 00:01:40,600 哈喽你好 36 00:01:42,400 --> 00:01:43,920 今天邀请你是因为 37 00:01:43,920 --> 00:01:46,640 我在补我过去缺失的一些功课 38 00:01:46,640 --> 00:01:47,880 就我们知道过去几个月 39 00:01:47,880 --> 00:01:49,880 其实大模型的发展特别特别的快 40 00:01:50,160 --> 00:01:51,320 3月份的时候 41 00:01:51,440 --> 00:01:53,560 OpenAI它在去密集的发布 42 00:01:53,560 --> 00:01:54,880 比如说像GPT-4 43 00:01:54,880 --> 00:01:56,920 然后微软也在发布它的NewBeam 44 00:01:57,160 --> 00:01:58,840 包括谷歌也有很多的动作 45 00:01:59,000 --> 00:02:00,280 4月份的时候我看 46 00:02:00,440 --> 00:02:03,120 现在大概是一个中国密集的 47 00:02:03,120 --> 00:02:04,720 大模型的发布时期 48 00:02:04,880 --> 00:02:06,920 我觉得这个发展速度其实已经 49 00:02:07,080 --> 00:02:10,000 远远的超过了我以前作为一个记者 50 00:02:10,160 --> 00:02:12,960 去跟踪任何一个行业它的发展速度了 51 00:02:13,056 --> 00:02:14,856 还是有很多我跟不上的地方 52 00:02:14,856 --> 00:02:17,456 我知道你对这个方向包括其中的论文 53 00:02:17,456 --> 00:02:19,056 创业公司你都聊过 54 00:02:19,056 --> 00:02:22,416 所以今天也算是给我还有给我们的听众们补补课 55 00:02:22,416 --> 00:02:23,416 没有互相交流 56 00:02:23,416 --> 00:02:26,376 我们也有很多现在还没有搞清楚的问题 57 00:02:26,376 --> 00:02:28,736 但我觉得确实每天的发展都非常的快 58 00:02:28,736 --> 00:02:32,536 所以我们讲了很多东西现在看可能也是不完整的 59 00:02:32,536 --> 00:02:34,936 很多我觉得很快就会被打脸 60 00:02:34,936 --> 00:02:37,136 其实我对你特别感兴趣是两个点 61 00:02:37,136 --> 00:02:38,136 第一个点是 62 00:02:38,136 --> 00:02:40,936 我看你是一个大模型的深度使用者 63 00:02:40,936 --> 00:02:42,496 不管是语言模型 64 00:02:42,496 --> 00:02:47,216 还是mid journey就是这种图片模型 就是你要发很多自己的使用体验 65 00:02:47,216 --> 00:02:52,616 第二点就是作为一个投资人你怎么看 所以我们今天也大概会分成这两个部分去聊 66 00:02:52,616 --> 00:02:57,056 最开始你是什么时候开始注意到大模型 然后去用它的 67 00:02:57,056 --> 00:03:03,056 我是一个使用者 这首先来自于我自己是一个对于新东西狂热爱好者 68 00:03:03,056 --> 00:03:05,056 我非常喜欢尝试新东西 69 00:03:05,168 --> 00:03:08,448 所以我比较相信在一个大的革命发生的时候 70 00:03:08,448 --> 00:03:11,048 最好的方式是要去使用是要去体验 71 00:03:11,048 --> 00:03:12,568 而不是只是去研究 72 00:03:12,568 --> 00:03:15,768 因为这里面百温不如一见百健不如一用 73 00:03:16,208 --> 00:03:19,008 我自己呢当然在GPT-3出来的时候 74 00:03:19,008 --> 00:03:20,888 其实也在一些demo上尝试过 75 00:03:20,888 --> 00:03:23,248 包括当时也有一些人做这样的应用 76 00:03:23,248 --> 00:03:24,008 但坦率来讲 77 00:03:24,008 --> 00:03:26,768 那个时候GPT-3表现出来的对话能力 78 00:03:26,768 --> 00:03:28,888 尤其是中文对话能力其实没有那么强 79 00:03:28,888 --> 00:03:31,088 在chat GPT出来当天晚上 80 00:03:31,088 --> 00:03:32,728 是我们的一位同事 81 00:03:32,728 --> 00:03:34,688 他第一时间用上了chat GPT 82 00:03:34,768 --> 00:03:37,568 然后他非常的兴奋 他一直用到凌晨五六点钟 83 00:03:37,568 --> 00:03:39,648 他跟我们说一定要赶紧去用 84 00:03:39,648 --> 00:03:41,328 我当时没有openai账号 85 00:03:41,328 --> 00:03:43,648 所以我还弄国外手机号什么的 86 00:03:43,648 --> 00:03:44,648 花了一点时间 87 00:03:44,648 --> 00:03:46,928 我在10加20个小时之后用上了 88 00:03:46,928 --> 00:03:48,888 我自己也是非常非常震撼 89 00:03:48,888 --> 00:03:51,728 因为之前的这些chatbot型的应用 90 00:03:51,728 --> 00:03:52,968 如果大家记得的话 91 00:03:52,968 --> 00:03:56,608 其实在15 16年那块是有一波创业的热潮 92 00:03:56,608 --> 00:03:57,888 有很多人做一些chatbot 93 00:03:57,888 --> 00:03:59,568 日常来说小兵啊 94 00:03:59,568 --> 00:04:00,728 各种女兵出手啊 95 00:04:00,728 --> 00:04:01,568 这些也都聊过 96 00:04:01,712 --> 00:04:05,192 其实在之前都很少有语音助手或者说对话机器人 97 00:04:05,192 --> 00:04:06,952 能够把多轮对话给聊下来的 98 00:04:07,312 --> 00:04:09,872 但是当你第一次用到ChatterGBT的时候 99 00:04:09,872 --> 00:04:11,552 你就知道它的能力远远超过了 100 00:04:11,552 --> 00:04:13,552 以前我们见到了所有的AI的应用 101 00:04:13,872 --> 00:04:15,392 我觉得这个是第一反应 102 00:04:15,392 --> 00:04:18,272 然后呢我就发现其实有很多很多的 103 00:04:18,272 --> 00:04:21,632 原来我们完全没有想到一个聊天机器人能够做的事情 104 00:04:21,832 --> 00:04:23,792 当时也在推特上看全世界的网友 105 00:04:23,792 --> 00:04:25,872 在分享各种各样的好的使用案例 106 00:04:26,272 --> 00:04:29,912 我自己觉得最震撼的一点是我当时用自然语言 107 00:04:29,912 --> 00:04:30,952 也就是用大白话 108 00:04:31,072 --> 00:04:33,552 描述了一下20问这个游戏的规则 109 00:04:33,552 --> 00:04:35,712 20问其实就是我心里想一个东西 110 00:04:35,712 --> 00:04:37,232 可以问20个问题 111 00:04:37,232 --> 00:04:40,072 每个问题比如说你想的是不是一个有生命的 112 00:04:40,072 --> 00:04:42,152 然后我可以回答是或者否或者不确定 113 00:04:42,152 --> 00:04:44,552 然后你尝试来猜到我心中想的是什么 114 00:04:44,552 --> 00:04:48,032 我大概就用100多个字把这个规则跟他描述了一遍 115 00:04:48,032 --> 00:04:50,112 他就可以跟我来玩20问这个游戏 116 00:04:50,112 --> 00:04:51,432 第一次我想的是猫 117 00:04:51,432 --> 00:04:54,192 他用了大概五六步就猜到是猫 118 00:04:54,192 --> 00:04:55,712 第二次我想了拜登 119 00:04:55,712 --> 00:04:57,832 他用了大概14步猜到是拜登 120 00:04:57,832 --> 00:04:58,912 然后我彻底被震惊了 121 00:04:58,912 --> 00:05:01,032 你觉得他跟真人的那个水平怎么样 122 00:05:01,152 --> 00:05:04,192 我觉得第一步就是说他能够理解我给他的这个规则 123 00:05:04,192 --> 00:05:07,312 第二步是他能够有效的使用二分法去进行查找 124 00:05:07,672 --> 00:05:09,552 因为在这个里面你怎么高效的去找 125 00:05:09,552 --> 00:05:10,992 你其实需要做些二分法 126 00:05:10,992 --> 00:05:12,312 比如他是不是有生命的 127 00:05:12,312 --> 00:05:13,672 有生命的他是不是人 128 00:05:13,912 --> 00:05:15,632 他是不是一个正在活着的人 129 00:05:15,792 --> 00:05:17,912 一个会玩的人和不太会玩的人 130 00:05:17,912 --> 00:05:19,672 他的查找方式是挺不一样的 131 00:05:19,832 --> 00:05:21,632 我觉得他其实做的非常非常好 132 00:05:22,072 --> 00:05:24,352 所以后面我在进行各种各样的新的尝试 133 00:05:24,352 --> 00:05:27,072 比如说我让他尝试跟我下棋尝试写代码 134 00:05:27,344 --> 00:05:28,984 我尝试让他当我的英语老师 135 00:05:28,984 --> 00:05:32,064 他可以从初中到研究生水平给我出不同的英语的题 136 00:05:32,064 --> 00:05:33,184 改我写的英语作文 137 00:05:33,184 --> 00:05:34,624 并且给出很多很好的建议 138 00:05:34,624 --> 00:05:38,064 我就发现他不断能发现他能够做到的不一样的事情 139 00:05:38,424 --> 00:05:41,024 另外一方面我自己因为曾经是一个设计师 140 00:05:41,024 --> 00:05:42,824 所以我也是Middle Journey的重度用户 141 00:05:43,104 --> 00:05:45,144 我是从当时22年8月份 142 00:05:45,144 --> 00:05:46,824 Middle Journey发布的时候就开始用 143 00:05:47,024 --> 00:05:48,504 到现在画了几千张图 144 00:05:48,504 --> 00:05:51,264 然后我就看到V3 V4 V5越来越好 145 00:05:51,504 --> 00:05:53,264 同时我也在自己机器上部署 146 00:05:53,264 --> 00:05:54,104 Stable Diffusion 147 00:05:54,104 --> 00:05:54,904 AutoGPT 148 00:05:54,904 --> 00:05:56,944 Baby HGI这些新出来的实验 149 00:05:57,152 --> 00:06:00,912 你自己用Meet Journey你能感受到它的进化在哪里吗 150 00:06:00,912 --> 00:06:02,512 可不可以跟大家讲一下这种 151 00:06:02,512 --> 00:06:04,272 我们刚刚在讲大语言模型 152 00:06:04,272 --> 00:06:07,352 那基于扩散模型你觉得它表现的怎么样 153 00:06:07,632 --> 00:06:09,552 Meet Journey我是从V3开始用的 154 00:06:09,552 --> 00:06:11,072 V3开始用的时候呢 155 00:06:11,072 --> 00:06:14,472 我觉得它能够产生一些有意思的概念 156 00:06:14,472 --> 00:06:17,592 但是到实际使用还有很大的差距 157 00:06:17,872 --> 00:06:21,712 第一步来讲就是说它能不能做出比较逼真的画面 158 00:06:21,912 --> 00:06:23,392 我觉得这个是比较难的 159 00:06:23,392 --> 00:06:25,712 但V4是直接上了个大的台阶 160 00:06:25,936 --> 00:06:30,776 V4对于人物照片这些的处理 包括一些很风格化的处理 161 00:06:30,776 --> 00:06:37,136 我觉得是很明显到了一个能够打败大多数的普通艺术从业人员 162 00:06:37,136 --> 00:06:39,776 和跟照片比较接近的水平 163 00:06:39,776 --> 00:06:44,736 V5在很多细节的真实度 场景的真实度上加强了很多 164 00:06:44,736 --> 00:06:46,976 有的时候也不是那么的风格化了 165 00:06:46,976 --> 00:06:49,256 因为现实世界不是那么风格迥异的 166 00:06:49,256 --> 00:06:51,776 它往往是看着有点平淡但真实的 167 00:06:51,776 --> 00:06:54,736 然后我觉得它一个非常重要的功能就是Describe 168 00:06:54,896 --> 00:06:57,336 Describe这功能它就是让你传一张图片 169 00:06:57,336 --> 00:06:58,936 它生成几个可能的prompt 170 00:06:59,376 --> 00:07:03,216 因为你直接对着一个输入框去想你要画什么 171 00:07:03,216 --> 00:07:04,496 其实是件挺难的事情 172 00:07:04,696 --> 00:07:08,896 但是人的创作往往都是说先看到有个东西被激发灵感 173 00:07:08,936 --> 00:07:11,416 然后去在这基础上去调整 174 00:07:11,656 --> 00:07:13,536 所以我现在可以把我看到的一个 175 00:07:13,576 --> 00:07:15,136 我觉得这个构图不错 176 00:07:15,176 --> 00:07:16,976 但是这个里面的对象我要改一下 177 00:07:16,976 --> 00:07:18,776 或者说这个里面景色不错 178 00:07:18,776 --> 00:07:20,736 但是我想从白天改到晚上这样 179 00:07:20,896 --> 00:07:24,336 就是它能够帮我去产生一个很好用的prompt 180 00:07:24,336 --> 00:07:25,656 然后我在技术上去修改 181 00:07:25,656 --> 00:07:29,256 我觉得这是完全打开了一个新的使用方式 182 00:07:29,256 --> 00:07:32,976 因为原来你说我要主动地想到一个场景 183 00:07:32,976 --> 00:07:34,896 并且用语言描述 这个难度不小 184 00:07:34,896 --> 00:07:37,256 但是现在我先describe再去修改 185 00:07:37,256 --> 00:07:39,536 再去进行生成图片 186 00:07:39,536 --> 00:07:43,256 这个时候其实它的难度和效果会好很多 187 00:07:43,256 --> 00:07:46,456 describe跟prompt词的区别是什么 188 00:07:46,456 --> 00:07:48,936 describe就是你传一张图生成prompt 189 00:07:49,008 --> 00:07:50,808 是图生文哦图生文 190 00:07:50,808 --> 00:07:51,968 那当然生的文是prompt 191 00:07:51,968 --> 00:07:53,768 然后你可以直接用这个prompt再生成图 192 00:07:54,128 --> 00:07:56,968 你之前说你一直想画一个大教堂 193 00:07:56,968 --> 00:07:59,528 但是还没有画出理想的卡在哪 194 00:07:59,968 --> 00:08:01,968 我确实还没有用describe去试一试 195 00:08:01,968 --> 00:08:05,168 也许我用科隆大教堂的去试一下就可以了 196 00:08:05,328 --> 00:08:08,168 miniaturely这种它的典型是你如果照之前吧 197 00:08:08,168 --> 00:08:11,008 你如果像很仔细的画一个你想要的东西 198 00:08:11,008 --> 00:08:12,008 它是不太行的 199 00:08:12,008 --> 00:08:15,368 这些方面stable efficient加control net会有很多的优势 200 00:08:15,928 --> 00:08:18,208 miniaturely它就是你适合去进行头脑风暴 201 00:08:19,152 --> 00:08:20,832 很有艺术感的图 202 00:08:20,832 --> 00:08:23,272 但是在加入了describe这些元素之后呢 203 00:08:23,272 --> 00:08:24,752 它的可控性会变强一些 204 00:08:24,752 --> 00:08:26,832 因为我相信需要的时候发散 205 00:08:26,832 --> 00:08:27,752 需要的时候可控 206 00:08:27,752 --> 00:08:30,832 这个是它的使用场景会更加多样化 207 00:08:30,832 --> 00:08:33,232 因为大量的商业场景还是需要可控的 208 00:08:33,232 --> 00:08:34,872 如果它完全不可控的话 209 00:08:34,872 --> 00:08:37,872 那肯定是有点抛运气去蒙去尝试 210 00:08:37,872 --> 00:08:39,792 这肯定不是一个最有效率的方式 211 00:08:39,792 --> 00:08:41,472 但是一个可能最有意思的方式 212 00:08:41,472 --> 00:08:43,792 我听说成都的一家游戏公司 213 00:08:43,792 --> 00:08:45,552 他们在用了meet journey以后 214 00:08:45,664 --> 00:08:49,544 就把他们大概是80分以下的美术都给砍掉了 215 00:08:49,544 --> 00:08:53,584 确实在游戏行业的很多做原化的领域是有这样的情况的 216 00:08:53,584 --> 00:08:56,064 我觉得这个也不用去把它想的太内 217 00:08:56,064 --> 00:08:59,584 就是每次工具肯定要会用新工具的人才会有更好的生产力嘛 218 00:08:59,584 --> 00:09:02,384 如果你真要做原化可能stability fusion会更好 219 00:09:02,384 --> 00:09:04,424 因为它可以扩展性更强嘛 220 00:09:04,424 --> 00:09:06,624 它有点像安卓与iPhone的这个区别 221 00:09:06,624 --> 00:09:09,024 我觉得业界大家对这个反应都不一样 222 00:09:09,024 --> 00:09:10,944 比如说如果是二次元游戏的话 223 00:09:10,944 --> 00:09:13,584 业界的反馈就是其实网友他会去识别 224 00:09:13,584 --> 00:09:15,104 当他觉得你这个是 225 00:09:15,104 --> 00:09:16,384 二次元游戏的时候 226 00:09:16,384 --> 00:09:18,544 他发现你是用那个AI创作的 227 00:09:18,544 --> 00:09:19,944 用户会抵制这件事情 228 00:09:19,944 --> 00:09:23,144 所以反而二次元游戏是不太容易去颠覆的 229 00:09:23,144 --> 00:09:25,064 因为你要在网上养老婆 230 00:09:25,064 --> 00:09:26,664 你的老婆最好是人化的对吧 231 00:09:26,664 --> 00:09:28,384 我觉得以后可能会这样 232 00:09:28,384 --> 00:09:31,344 就是说手工做的东西更贵 233 00:09:31,344 --> 00:09:33,624 但是机器做的东西也很好 234 00:09:33,624 --> 00:09:35,824 这个精神文明的东西那不好说 235 00:09:35,824 --> 00:09:37,184 我觉得对于深层式AI 236 00:09:37,184 --> 00:09:38,904 不管是文字还是图片的 237 00:09:38,904 --> 00:09:39,904 整体来讲 238 00:09:39,904 --> 00:09:42,104 如果你做的东西只是一个缝合罐 239 00:09:42,104 --> 00:09:44,104 那你的会变得很快没有价值 240 00:09:44,144 --> 00:09:46,504 因为现在我们有大量人的工作 241 00:09:46,504 --> 00:09:48,904 就是把一样东西缝合起来复制粘贴改一改 242 00:09:48,904 --> 00:09:51,184 这个机器会比你做的好得多 243 00:09:51,504 --> 00:09:53,704 所以我认为它的好的一面就是 244 00:09:53,704 --> 00:09:56,104 反而会让原创的东西变得很有价值 245 00:09:56,264 --> 00:09:58,264 因为在所有的东西都可以容易复制的时候 246 00:09:58,264 --> 00:09:59,944 只有真正的原创才是稀缺的 247 00:10:00,504 --> 00:10:02,704 其实你刚刚有提到你很惊艳的部分 248 00:10:02,704 --> 00:10:04,864 就是我想反常识来问一个问题 249 00:10:04,864 --> 00:10:07,384 你觉得它有哪些地方表现的还不够好 250 00:10:07,624 --> 00:10:11,464 因为当时我们有谈到整个GPT的准确性还不够高 251 00:10:11,632 --> 00:10:14,672 甚至有一个专门研究AI的研究员告诉我们说 252 00:10:14,672 --> 00:10:16,872 如果你不知道这个问题的答案 253 00:10:16,872 --> 00:10:19,752 那我建议大家如果真的是在做这种功课搜集的话 254 00:10:19,752 --> 00:10:21,232 就不要问起来GPT 255 00:10:21,232 --> 00:10:24,752 因为它给你的可能是对的也可能是胡走的 256 00:10:24,752 --> 00:10:27,152 从你的角度你觉得它在哪些方面的体验 257 00:10:27,152 --> 00:10:28,952 是可以直接到一个应用的程度 258 00:10:28,952 --> 00:10:32,872 哪些方面它给你的那个感觉是还不太行的 259 00:10:32,872 --> 00:10:35,312 比较好的就是可以直接当应用用的 260 00:10:35,312 --> 00:10:37,752 首先我觉得说与语言相关的都可以 261 00:10:37,752 --> 00:10:39,912 这个语言包括自然语言和编程语言 262 00:10:40,032 --> 00:10:44,472 实际上现在很多人的代码已经有超过一半是copilot写的了 263 00:10:44,472 --> 00:10:45,992 这是一个很直接的证据 264 00:10:45,992 --> 00:10:49,592 然后它能够很好的完成像翻译总结改写 265 00:10:49,592 --> 00:10:51,832 扩写等一系列的这种语言任务 266 00:10:51,832 --> 00:10:53,312 因为它本身就是大语言模型 267 00:10:53,312 --> 00:10:57,232 第二个就是说需要脑洞的头脑风暴的 268 00:10:57,232 --> 00:11:00,952 甚至是胡说八道这种特性是一个好处的场合 269 00:11:00,952 --> 00:11:03,512 比如说怎么样去列一些题纲 270 00:11:03,512 --> 00:11:04,992 比如说我去做一个分享 271 00:11:04,992 --> 00:11:06,992 这里面有一些对应的题纲可以启发我 272 00:11:06,992 --> 00:11:08,912 因为比如说很多内容我是知道的 273 00:11:08,912 --> 00:11:09,592 但是 274 00:11:09,728 --> 00:11:11,848 我自己第一反应未必能够穷尽它 275 00:11:11,848 --> 00:11:14,488 所以它列出来五六个可能发现我缺了三个 276 00:11:14,488 --> 00:11:15,568 可以有效的补充我 277 00:11:15,568 --> 00:11:18,128 对于准确度不是那么要求高的人物 278 00:11:18,128 --> 00:11:19,328 比如说我要写一封信 279 00:11:19,328 --> 00:11:21,168 或者说写一个job description 280 00:11:21,168 --> 00:11:23,728 那这个时候大概的内容它先把我列出来 281 00:11:23,728 --> 00:11:24,568 然后我再进行修改 282 00:11:24,568 --> 00:11:26,888 我觉得这些都是大家已经用过很多的案例了 283 00:11:27,168 --> 00:11:29,168 我相信如果你长期使用的话 284 00:11:29,168 --> 00:11:31,208 你会意识到它的缺点其实非常多 285 00:11:31,408 --> 00:11:34,608 但是同时也意识到它其实在非常快的进行迭代和修正 286 00:11:34,968 --> 00:11:37,208 比如说刚出来的时候应该是三位数的加法 287 00:11:37,208 --> 00:11:38,168 其实是不准确的 288 00:11:38,320 --> 00:11:40,440 现在他只能做更多位数的加法 289 00:11:40,440 --> 00:11:42,120 但是乘法上可能会差一些 290 00:11:42,400 --> 00:11:44,520 他对于事实性的问题肯定是不太行 291 00:11:44,520 --> 00:11:47,840 所以我们说你要从语言的角度和从 292 00:11:47,840 --> 00:11:49,640 逻辑的角度去用chattel gpt 293 00:11:49,640 --> 00:11:50,720 但知识的角度呢 294 00:11:50,720 --> 00:11:52,960 很多时候是要通过prompt把它灌进去 295 00:11:53,120 --> 00:11:55,520 或者通过embedding的方式把真实的 296 00:11:55,520 --> 00:11:57,400 及时的信息给快灌进去 297 00:11:57,400 --> 00:11:59,640 所以这里面牵涉到怎么去使用的问题 298 00:11:59,920 --> 00:12:02,280 整体来讲我觉得当你意识到他有这些 299 00:12:02,280 --> 00:12:04,880 缺点的时候就不太会被他骗 300 00:12:04,992 --> 00:12:08,912 但是可能会在比如说他的知识准确度到99% 301 00:12:08,912 --> 00:12:11,272 但有1%的时候还会胡说八道的时候 302 00:12:11,272 --> 00:12:12,472 那个时候可能是最危险的时候 303 00:12:12,472 --> 00:12:14,192 因为大家现在都知道他会胡说八道 304 00:12:14,192 --> 00:12:14,952 所以就还好 305 00:12:15,312 --> 00:12:20,072 所以我看后来就是你们在评价怎么样去看一个大模型的时候 306 00:12:20,072 --> 00:12:22,232 你们是自己做了一个benchmark 307 00:12:22,232 --> 00:12:24,552 就是做了一个这样的评估模型 308 00:12:24,552 --> 00:12:26,352 从你的评估模型看啊 309 00:12:26,352 --> 00:12:29,552 GPT-4比GPT-3.5它好在哪 310 00:12:29,552 --> 00:12:31,752 跟一些国产的大模型好在哪 311 00:12:32,232 --> 00:12:34,792 首先介绍一下我们做了ZenBank的背景 312 00:12:34,992 --> 00:12:35,088 我们做了一个ZenBank的背景 313 00:12:35,088 --> 00:12:37,968 就是我发现当ChatterGBT火了之后呢 314 00:12:37,968 --> 00:12:41,408 首先出来了很多也做莱坦机器人的 315 00:12:41,408 --> 00:12:42,888 可能有的是用了ChatterGBT 316 00:12:42,888 --> 00:12:44,408 有的是说自己训了模型 317 00:12:44,408 --> 00:12:46,568 包括我们也看到肯定会有更多的人去做 318 00:12:46,568 --> 00:12:48,008 国产的大模型的创业 319 00:12:48,008 --> 00:12:49,408 包括说海外的创业公司 320 00:12:49,768 --> 00:12:52,808 那么我们就发现哪怕很多很资深的人 321 00:12:52,808 --> 00:12:56,288 在面临一个新的类似于ChatterGBT应用的时候 322 00:12:56,288 --> 00:12:58,808 其实他能做的评价也就是随便问几个问题 323 00:12:59,208 --> 00:13:00,568 这种问题可能是随便想的 324 00:13:00,568 --> 00:13:02,008 或者说是难度比较低的 325 00:13:02,008 --> 00:13:03,808 这样你其实很难反映一个 326 00:13:04,000 --> 00:13:07,040 像chatterGPT这样的软件它的真实水平 327 00:13:07,040 --> 00:13:08,600 并且我们自己也是众多用户 328 00:13:08,600 --> 00:13:10,320 在用的时候我们自己也会记下来一些 329 00:13:10,320 --> 00:13:11,560 哎很有意思的prompt 330 00:13:12,320 --> 00:13:13,120 所以我们就觉得 331 00:13:13,120 --> 00:13:16,320 哎那如果未来会有很多的这种大模型类似的产品 332 00:13:16,520 --> 00:13:17,960 那我们作为非技术人员 333 00:13:17,960 --> 00:13:20,360 我们其实也不想做一个特别完整的 334 00:13:20,360 --> 00:13:22,080 自动化的严谨的测试机 335 00:13:22,080 --> 00:13:23,400 而是在一个我们能够 336 00:13:23,640 --> 00:13:27,800 就是作为一个可以自己用手工去检验大模型的 337 00:13:27,800 --> 00:13:28,600 边界能力的 338 00:13:28,600 --> 00:13:31,080 因为如果你总是问很简单的问题 339 00:13:31,080 --> 00:13:32,080 那其实没有区分度 340 00:13:32,336 --> 00:13:34,336 所以我们希望这个问题有些区分度 341 00:13:34,336 --> 00:13:36,616 但我们也希望这个问题它是有来历的 342 00:13:36,616 --> 00:13:39,816 虽然有一些是我们日常问的一些比较有意思的问题 343 00:13:39,816 --> 00:13:42,216 比如说我记得一个很经典的麻辣螺丝钉的做法 344 00:13:42,216 --> 00:13:43,816 看它会不会跟着湖边乱照 345 00:13:43,816 --> 00:13:47,256 但同时呢学界其实有很多NLP任务的研究 346 00:13:47,256 --> 00:13:50,296 比如说OpenAI它在ChattelGBT出来的时候呢 347 00:13:50,296 --> 00:13:53,616 它就公布了ChattelGBT已经具备了48种基础能力 348 00:13:53,616 --> 00:13:56,096 然后我们通过这个构建了第一版的这个问题 349 00:13:56,096 --> 00:13:57,984 之前像MMLU 350 00:13:57,984 --> 00:14:01,424 BigBench这些都是NLP领域比较成熟的测试机 351 00:14:01,424 --> 00:14:05,064 我们从中抽取了一些各个领域的反映不同能力的内容 352 00:14:05,424 --> 00:14:08,864 同时呢也根据比如说他的GPT现在具备的涌现能力 353 00:14:08,864 --> 00:14:09,824 比如他会写代码了 354 00:14:09,824 --> 00:14:11,984 他会用SVG语言给你画图了 355 00:14:12,304 --> 00:14:14,384 他会处理一些更加复杂的应用题了 356 00:14:14,384 --> 00:14:15,584 我们把这些也加进来 357 00:14:15,584 --> 00:14:17,704 所以总共弄了300个问题 358 00:14:17,984 --> 00:14:19,664 我们想对这个就是做到一个 359 00:14:19,864 --> 00:14:23,464 非技术非专业人员能够做到用手测 360 00:14:23,624 --> 00:14:24,984 自己手工输入测试 361 00:14:24,984 --> 00:14:27,864 达到一个对大模型整体能力的概念的评价 362 00:14:27,952 --> 00:14:29,752 当时我们在3月份测了一下 363 00:14:29,992 --> 00:14:32,592 当时GPT-4刚刚出来两三天的时间 364 00:14:32,592 --> 00:14:36,592 所以我们当时测到GPT-3.5的水平大概是60多分 365 00:14:36,592 --> 00:14:38,992 然后4的水平大概是70多分 366 00:14:38,992 --> 00:14:40,832 你这个60多分是怎么打的 367 00:14:40,832 --> 00:14:42,632 是300个问题的回答正确度 368 00:14:42,632 --> 00:14:44,232 回答正确度啊就除以300啊 369 00:14:44,232 --> 00:14:46,312 所以他答对了比如说200多道问题 370 00:14:46,592 --> 00:14:48,992 火产的当时文心一言我们公布出来 371 00:14:48,992 --> 00:14:51,232 大概是有一个20多分的水平 372 00:14:51,232 --> 00:14:53,512 我们还测了另外几家偏创业公司的 373 00:14:53,512 --> 00:14:55,032 因为我们觉得还是要鼓励创业公司嘛 374 00:14:55,032 --> 00:14:56,272 虽然得分确实比较低 375 00:14:56,552 --> 00:14:57,752 但我们没有把它放出来 376 00:14:57,872 --> 00:15:00,552 分别是有一家是30分 有一家是19分 377 00:15:00,912 --> 00:15:02,992 所以当时我们看到这个差距还是比较大的 378 00:15:03,312 --> 00:15:06,352 前两天因为我们也陆续的拿到一些国产的 379 00:15:06,352 --> 00:15:09,832 比如上任公司啊 包括一些大型的公司做的这个模型 380 00:15:09,832 --> 00:15:11,072 我们又进行了一些测试 381 00:15:11,312 --> 00:15:13,232 整体来讲我觉得进步还是蛮快的 382 00:15:13,512 --> 00:15:15,792 比如说我们测试的某一家上任公司的模型 383 00:15:15,792 --> 00:15:17,432 其实已经到了50分的水平 384 00:15:17,632 --> 00:15:19,752 可以透露是哪一家吗 做的比较好的 385 00:15:20,072 --> 00:15:23,432 这家是商汤啦 就是我们测的商汤的这个模型是50多分 386 00:15:23,432 --> 00:15:23,872 然后 387 00:15:24,016 --> 00:15:26,736 像昆仑万维啊 像李志飞出门问问这些模型 388 00:15:26,736 --> 00:15:27,976 我们也在陆续的去测 389 00:15:27,976 --> 00:15:29,816 当然同时我们还没来得及去更新 390 00:15:29,816 --> 00:15:30,736 比如说百度啊 391 00:15:30,736 --> 00:15:32,136 包括另外几家创业公司的模型 392 00:15:32,136 --> 00:15:34,296 因为我觉得大家现在跌的速度也很快哈 393 00:15:34,296 --> 00:15:35,496 所以我觉得现在我们 394 00:15:35,496 --> 00:15:37,496 可能之前的得分这些也是一个参考 395 00:15:37,496 --> 00:15:39,296 但是我觉得从这可以看出来就是 396 00:15:39,296 --> 00:15:42,216 其实在早期的进步还是挺快的 397 00:15:42,216 --> 00:15:45,176 虽然我觉得比如说GPT-4现在也许也可以打80多分了 398 00:15:45,176 --> 00:15:47,016 但也就是说一开始的差距挺大 399 00:15:47,016 --> 00:15:49,016 现在差距在短期来看是在缩小 400 00:15:49,016 --> 00:15:50,656 但是这里面同时也会有一个问题 401 00:15:50,656 --> 00:15:52,176 就是说是不是会有一个平台期 402 00:15:52,400 --> 00:15:54,440 可能你从20追到50是容易的 403 00:15:54,440 --> 00:15:56,120 但50到80可能是很不容易的 404 00:15:56,120 --> 00:15:57,720 就是这里面这个曲线会怎样呢 405 00:15:57,720 --> 00:15:58,520 我们现在不知道 406 00:15:58,520 --> 00:16:01,400 包括也有人说那你的问题很比较难 407 00:16:01,400 --> 00:16:03,920 很多用户可能不会用这么难的问题 408 00:16:03,920 --> 00:16:07,000 所以我们一直在强调就是这是我们自己做VC 409 00:16:07,000 --> 00:16:09,360 我们希望比一般的用户专业一点点就可以了 410 00:16:09,360 --> 00:16:12,240 但是它并不是一个特别科学特别严谨的一个测试 411 00:16:12,240 --> 00:16:14,520 但是确实呢现在看来区分度还是有的 412 00:16:14,520 --> 00:16:16,200 就很多问题还是不好答出来的 413 00:16:16,200 --> 00:16:20,000 但是我们发现Charlie GPT-4呢它确实是 414 00:16:20,096 --> 00:16:23,696 在一些逻辑问题语言问题上它的能力要更强 415 00:16:23,696 --> 00:16:25,736 这个还是挺让人惊艳的 416 00:16:25,736 --> 00:16:27,336 给大家举个例子 417 00:16:27,336 --> 00:16:28,736 比如说是什么样的问题 418 00:16:28,736 --> 00:16:32,776 然后3.5跟4还有文心一言它的回答是怎么样的 419 00:16:32,776 --> 00:16:34,576 我具体要背出来比较难 420 00:16:34,576 --> 00:16:36,376 但是我记得有一些比较有意思的 421 00:16:36,376 --> 00:16:38,656 你就像这个麻辣螺丝丁的做法 422 00:16:38,656 --> 00:16:40,416 这里面应该只有GPT-4 423 00:16:40,416 --> 00:16:42,376 它会告诉你螺丝丁不是一个菜 424 00:16:42,376 --> 00:16:43,856 其他的都会讲保讲安 425 00:16:43,856 --> 00:16:46,696 说麻辣螺丝丁要加上辣椒加上红油 426 00:16:46,696 --> 00:16:48,056 放入螺丝丁少许 427 00:16:48,208 --> 00:16:51,408 在我们测试的时候只有GBT-4告诉你螺丝丁不能吃 428 00:16:51,408 --> 00:16:52,948 当时我们还有一个很经典的问题 429 00:16:52,948 --> 00:16:55,248 就是为什么爸妈的婚礼没邀请我参加 430 00:16:55,248 --> 00:16:58,648 这个里面只有GBT-4回答出来了说 431 00:16:58,648 --> 00:17:00,048 因为那时候你还没出生 432 00:17:00,048 --> 00:17:02,248 当然也不一定 大部分情况下你没有出生 433 00:17:02,248 --> 00:17:04,008 其他的可能模型都回答的是说 434 00:17:04,008 --> 00:17:06,248 可能因为当时他们太忙没邀请你 435 00:17:06,248 --> 00:17:08,048 或者什么你当时没时间 436 00:17:08,048 --> 00:17:11,848 对 我看到你们当时测出来放的图片了 特别逗 437 00:17:11,848 --> 00:17:13,148 当然这是一个比较逗的 438 00:17:13,264 --> 00:17:17,504 还有一些就类似于什么剪指甲穿袜子穿鞋系鞋带的 439 00:17:17,504 --> 00:17:19,824 的顺序 很多他是说错的 440 00:17:19,824 --> 00:17:22,304 当然这也比较好理解的 就有很多应用题什么的 441 00:17:22,304 --> 00:17:25,064 其实GBT是明显假的能力会强很多 442 00:17:25,064 --> 00:17:27,024 但是我们其实看到有一些推理题 443 00:17:27,024 --> 00:17:28,744 国产的大毛星进步挺快的 444 00:17:29,224 --> 00:17:31,744 你刚提到麻辣螺丝钉这个例子特别有趣 445 00:17:31,744 --> 00:17:33,704 就是我们之前在播客录制的时候 446 00:17:33,704 --> 00:17:36,504 有一个嘉宾他就直接在播客里面问我说 447 00:17:36,504 --> 00:17:39,144 宏军你晚上吃的爆炒篮球什么什么的 448 00:17:39,248 --> 00:17:41,748 后来因为我们的这个播客播出去了以后 449 00:17:41,748 --> 00:17:45,648 就有非常多的听众在GPT3.5上去搜爆炒篮球 450 00:17:45,648 --> 00:17:47,288 我看按照他们评论的时间 451 00:17:47,288 --> 00:17:51,828 最开始GPT3.5还会一本正经的去解释这个爆炒篮球是怎么样的 452 00:17:51,828 --> 00:17:53,488 但是隔了一两天 453 00:17:53,488 --> 00:17:55,228 那个评论区的反应 454 00:17:55,228 --> 00:17:58,968 GPT3.5第一次是告诉大家做了这个菜以后 455 00:17:58,968 --> 00:18:00,828 然后说爆炒篮球是不能吃 456 00:18:00,828 --> 00:18:02,828 或者这样做是有风险的 457 00:18:02,828 --> 00:18:05,608 再隔一天GPT3.5就会告诉大家 458 00:18:05,608 --> 00:18:07,208 爆炒篮球不是一个菜 459 00:18:07,208 --> 00:18:08,400 就不应该这样做 460 00:18:08,400 --> 00:18:12,280 就证明看起来GPT3.5它也是自己在进化的 461 00:18:12,280 --> 00:18:13,840 而且进化的速度很快 462 00:18:13,840 --> 00:18:16,240 对 首先你去用下来GPT的时候 463 00:18:16,240 --> 00:18:17,920 你会发现下面是有一个小字 464 00:18:17,920 --> 00:18:19,960 告诉你是用的一个哪一天的version 465 00:18:19,960 --> 00:18:23,120 我理解这个地方可能是它对模型会有重新的training 466 00:18:23,120 --> 00:18:24,520 像这个过程 包括其实现在 467 00:18:24,520 --> 00:18:26,600 称一个3.5其实应该是挺快的了 468 00:18:26,600 --> 00:18:28,560 其实我们在不断的回答 469 00:18:28,560 --> 00:18:30,680 在这过程中你可以顶你可以踩 470 00:18:30,680 --> 00:18:31,920 然后你可以regenerate 471 00:18:31,920 --> 00:18:33,360 包括你regenerate之后 472 00:18:33,360 --> 00:18:35,800 它还会问你是比原来更好了还是更差了 473 00:18:36,000 --> 00:18:40,120 所以其实我们是在不断的来做这个reinforce learning human feedback这个过程 474 00:18:40,120 --> 00:18:43,920 这个我觉得是一个现在形成的数据飞轮效应 475 00:18:43,920 --> 00:18:46,240 因为虽然很多地方都有这种用户对话的数据 476 00:18:46,240 --> 00:18:49,520 但是用户specifically跟一个聊天机器人对话 477 00:18:49,520 --> 00:18:52,760 那目前chatter gpc的数据量是远远大于其他人的 478 00:18:53,320 --> 00:18:56,560 你们这个benchmark的300多个问题是固定的 479 00:18:56,560 --> 00:18:59,360 还是说它只是归为某一种类型的问题 480 00:18:59,360 --> 00:19:00,960 大家是可以随意去测试的 481 00:19:00,960 --> 00:19:01,920 就是我是在想 482 00:19:02,048 --> 00:19:04,448 有没有作弊的可能性啊 肯定有肯定有 483 00:19:04,448 --> 00:19:08,408 因为我们都放出来了嘛 所以肯定会有人比如尝试把这个直接拿去训一遍 484 00:19:08,408 --> 00:19:12,808 所以我们的还是那句话 我们的目标是要做一个普通人简单去用的 485 00:19:12,808 --> 00:19:15,808 我们主要是做投资嘛 所以我们一开始也想了一些 486 00:19:15,808 --> 00:19:19,768 比如说做一个明题和暗题 比如说每一道明的题 487 00:19:19,768 --> 00:19:23,048 都有一道跟他逻辑类似 但是题干不一样的题 488 00:19:23,048 --> 00:19:26,328 然后去看是不是换一个表达方式 他又认不出来了什么的 489 00:19:26,328 --> 00:19:28,568 但是我们最后还是觉得我们应该先放出来 490 00:19:28,568 --> 00:19:31,208 因为我觉得能够帮助大家去了解这个行业的进展 491 00:19:31,328 --> 00:19:35,168 所以我们现在也准备比如说把这套底库本身扩充 492 00:19:35,168 --> 00:19:36,808 然后增加这种暗题的设置 493 00:19:37,048 --> 00:19:40,008 但是我觉得因为这本身不是VC的一个核心工作啊 494 00:19:40,008 --> 00:19:43,288 更重要的是说我们自己要看到大模型能力的变化 495 00:19:43,408 --> 00:19:44,888 其实也希望抛砖引玉吧 496 00:19:44,888 --> 00:19:46,008 它本质还是一块砖 497 00:19:46,648 --> 00:19:51,808 那说到大模型模型的变化就可能过去两个月真的是进展太快了 498 00:19:52,048 --> 00:19:56,888 你怎么看过去两个月在整个大模型上有哪些进展 499 00:19:56,888 --> 00:20:00,168 或者说你现在的认知跟两个月以前有什么不一样 500 00:20:00,528 --> 00:20:02,528 我觉得进展是非常大的 501 00:20:02,528 --> 00:20:04,008 蔡刚出来的时候 502 00:20:04,008 --> 00:20:05,528 其实我们把他当做一个chatbot 503 00:20:05,528 --> 00:20:06,648 一个聊天机器人 504 00:20:06,648 --> 00:20:09,208 我们惊讶的是他能够多轮对话 505 00:20:09,208 --> 00:20:10,968 能够记住之前说了什么 506 00:20:10,968 --> 00:20:14,688 能够根据他的上下文进行合适的回答 507 00:20:14,688 --> 00:20:17,088 这都是基本上属于语言类的任务 508 00:20:17,088 --> 00:20:18,168 或者NLP的任务 509 00:20:18,168 --> 00:20:21,248 然后其实很快的就发现他可以写代码 510 00:20:21,248 --> 00:20:22,928 他可以帮助我们去 511 00:20:22,928 --> 00:20:25,888 比如说像完成写影像文案这样的事情 512 00:20:25,888 --> 00:20:27,128 写邮件这样的事情 513 00:20:27,248 --> 00:20:30,248 当然还有图像类的生成模型去生成精美的图片 514 00:20:30,248 --> 00:20:31,568 照片漫画什么的 515 00:20:31,848 --> 00:20:34,768 所以这就从聊天机器人进入到下一个阶段 516 00:20:34,768 --> 00:20:35,848 我认为叫copilot 517 00:20:35,968 --> 00:20:38,248 它就能够帮助我们去做很多事情 518 00:20:38,248 --> 00:20:41,288 而我们要给的是目标进行选择 519 00:20:41,328 --> 00:20:42,408 进行调整 520 00:20:42,568 --> 00:20:43,888 这是第二个阶段copilot 521 00:20:44,488 --> 00:20:46,808 然后随着AutoGBT, Baby AGI 522 00:20:46,968 --> 00:20:49,088 当然这还也得益于像reflection 523 00:20:49,088 --> 00:20:51,168 Hugging GBT这样几篇paper 524 00:20:51,448 --> 00:20:54,648 其实它又展现出了能够识别一个任务 525 00:20:54,648 --> 00:20:55,888 把它进行拆解 526 00:20:56,000 --> 00:21:00,160 分解成子任务 调动合适的工具去完成子任务 527 00:21:00,160 --> 00:21:01,960 观察自己完成的结果 528 00:21:01,960 --> 00:21:03,800 对结果进行反思调整 529 00:21:03,800 --> 00:21:06,560 他要做的任务的这样一个循环过程 530 00:21:06,960 --> 00:21:09,560 同时当然GBT-4也出了插件系统 531 00:21:09,560 --> 00:21:12,400 让他看到可以调用web的插件去检索信息 532 00:21:12,640 --> 00:21:15,760 去写代码去完成很多更复杂的任务 533 00:21:15,960 --> 00:21:19,520 所以我们看到他从copilot又进一步进化成agent 534 00:21:19,880 --> 00:21:21,760 那么在agent这个设定下呢 535 00:21:21,760 --> 00:21:23,920 它其实需要人给出初始的目标 536 00:21:24,048 --> 00:21:26,768 它就能够自我去迭代的去完成这个目标 537 00:21:27,088 --> 00:21:29,248 所以我觉得这个过程虽然几个月的时间 538 00:21:29,248 --> 00:21:31,408 但是它其实这是几种不同的方式 539 00:21:31,768 --> 00:21:32,608 我后来就在想 540 00:21:32,608 --> 00:21:35,608 如果我们把它跟自动驾驶去做对比的话 541 00:21:35,608 --> 00:21:38,408 比如说L1可能就是完全没有AI这回事 542 00:21:38,408 --> 00:21:39,648 就我们现在用了大部分应用 543 00:21:39,648 --> 00:21:41,048 其实都AI没有做任何事情 544 00:21:41,048 --> 00:21:41,928 都是人做事情 545 00:21:42,088 --> 00:21:44,008 Level2的AI呢可能就是 546 00:21:44,248 --> 00:21:46,168 我们去问AI很多问题 547 00:21:46,168 --> 00:21:47,168 AI给我们信息 548 00:21:47,168 --> 00:21:48,448 但还是我来做事情 549 00:21:48,448 --> 00:21:49,768 这个就比较像JedGBT 550 00:21:49,768 --> 00:21:50,688 他给我的是信息 551 00:21:50,688 --> 00:21:51,648 那我还是我来做事 552 00:21:51,968 --> 00:21:55,728 level 3的呢就是copilot 就是人和AI都要做事情 553 00:21:55,728 --> 00:21:58,408 比如说像鞋带码的github copilot 554 00:21:58,408 --> 00:21:59,888 或者像mini journey这些 555 00:21:59,888 --> 00:22:02,608 就是人要给出prompt是要人写的 556 00:22:02,608 --> 00:22:05,688 人要去改prompt要去选择用哪一个 557 00:22:05,688 --> 00:22:07,448 或者选择进行调整 558 00:22:07,448 --> 00:22:08,568 AI完成初稿 559 00:22:08,568 --> 00:22:10,728 然后根据人的要求去改变初稿 560 00:22:10,728 --> 00:22:12,888 这个就是人和AI各50 50 561 00:22:12,888 --> 00:22:15,368 我觉得L4呢就像autogbt 562 00:22:15,368 --> 00:22:17,768 或者baby-age is是一个很早的雏形 563 00:22:17,768 --> 00:22:21,248 那么这边有点像人主要是第一给出这个目标 564 00:22:21,248 --> 00:22:21,296 然后呢就是人和AI的 565 00:22:21,296 --> 00:22:24,176 然后人去监督他完成的过程 566 00:22:24,176 --> 00:22:26,496 去检查他的结果是不是我想要的 567 00:22:26,496 --> 00:22:28,216 提供一些必须的接口啊 568 00:22:28,216 --> 00:22:29,496 计算能力等资源 569 00:22:29,856 --> 00:22:32,416 那AI自主的去完成分解任务 570 00:22:32,416 --> 00:22:34,816 选择工具进行完成的这个过程 571 00:22:34,976 --> 00:22:36,176 然后他知道自己完成的时候 572 00:22:36,176 --> 00:22:37,576 他会汇报我完成了 573 00:22:37,816 --> 00:22:39,496 这个就是AI做大部分的工作 574 00:22:39,576 --> 00:22:41,016 人做指定和监督 575 00:22:41,096 --> 00:22:42,496 这个我把它叫L4 576 00:22:42,696 --> 00:22:43,776 那L5是什么呢 577 00:22:43,776 --> 00:22:46,216 我觉得就可能像是人就给一个目标 578 00:22:46,376 --> 00:22:47,336 什么其他的都不给 579 00:22:47,336 --> 00:22:48,376 人都不用监督了 580 00:22:48,448 --> 00:22:50,448 AI自主地把所有的事情全都做完 581 00:22:50,448 --> 00:22:52,248 并且可以一直延续下去 582 00:22:52,248 --> 00:22:53,688 在科幻里面有一个概念 583 00:22:53,688 --> 00:22:55,288 其实也不只是科幻了 584 00:22:55,288 --> 00:22:57,168 冯诺依曼提出的冯诺依曼机器人 585 00:22:57,168 --> 00:22:59,008 就是可以自己复制的机器人 586 00:22:59,008 --> 00:23:01,088 它可以自己收集资料复制自己 587 00:23:01,088 --> 00:23:03,048 最后扩展到整个银河系 588 00:23:03,048 --> 00:23:03,848 从模特意义上讲 589 00:23:03,848 --> 00:23:06,568 人可能也是一种完全自主的这样一个生物 590 00:23:06,568 --> 00:23:07,488 如果有上帝的话 591 00:23:07,488 --> 00:23:09,008 看来人可能也是这样一个 592 00:23:09,008 --> 00:23:10,648 level 5的这个智能 593 00:23:10,648 --> 00:23:13,248 所以我觉得这里面其实不同的范式下 594 00:23:13,248 --> 00:23:14,928 人和AI的关系是不一样的 595 00:23:15,168 --> 00:23:18,808 那么在几个月内我们就能看到三种关系的一式出现 596 00:23:18,808 --> 00:23:21,168 我觉得是非常非常让人惊讶的一件事情 597 00:23:21,608 --> 00:23:24,608 因为像agent的概念我觉得容易想到 598 00:23:24,608 --> 00:23:28,208 但是你发现它真的能用其实是很让人惊讶的 599 00:23:28,208 --> 00:23:30,688 因为这里面牵涉到很多地方是容易出错的 600 00:23:30,688 --> 00:23:33,128 当然你用RGBT你会发现它很多时候会出错 601 00:23:33,128 --> 00:23:35,048 但是它居然有的时候不会出错 602 00:23:35,048 --> 00:23:36,328 它能把事情给做了 603 00:23:36,528 --> 00:23:38,248 这个事就已经足够让人惊讶了 604 00:23:38,248 --> 00:23:40,168 因为我们知道在数字世界 605 00:23:40,272 --> 00:23:44,272 很多东西一开始都很粗糙 他后面的升级过程成本降低过程 606 00:23:44,272 --> 00:23:48,392 速度提高过程是很快的 可能几年10年的时间就真的能够做到 607 00:23:48,392 --> 00:23:52,232 不怎么出错 这个让我非常的吃惊 并且非常的激动 608 00:23:52,832 --> 00:23:55,192 你会不会觉得现在市场上有一种观点 609 00:23:55,192 --> 00:23:59,912 就是说可能我来做AIGC的这个应用层我晚做几个月 610 00:24:00,112 --> 00:24:03,392 反而是比你早做的人可能更有优势的 611 00:24:03,392 --> 00:24:07,512 比如说早做他们的模型都加在GPT 3.5的开源模型上 612 00:24:07,512 --> 00:24:09,616 然后晚做我可以直接 613 00:24:09,616 --> 00:24:11,656 接在GPT 4的模型上 614 00:24:11,656 --> 00:24:15,136 在大模型改的时候其实他们底层也要去改很多 615 00:24:15,136 --> 00:24:18,736 但是因为他们的模型其实是越做越好 616 00:24:18,736 --> 00:24:20,336 逻辑能力越做越强 617 00:24:20,336 --> 00:24:22,456 就是真正技术在做的时候 618 00:24:22,456 --> 00:24:26,936 他可能晚做比他早做再一点点去改那个框架 619 00:24:26,936 --> 00:24:28,656 是有更多的优势的 620 00:24:28,656 --> 00:24:32,816 我觉得当一个技术革命发生的时候 621 00:24:32,816 --> 00:24:35,176 晚做的人肯定有一些后发的优势 622 00:24:35,176 --> 00:24:37,936 比如说他已经看到前面人踩的坑了 623 00:24:38,144 --> 00:24:42,304 他已经知道一些best practice,所以去用什么 624 00:24:42,304 --> 00:24:45,144 但整体来讲其实你会发现 625 00:24:45,144 --> 00:24:47,984 科技革命中做大成的人一般还是早做的人 626 00:24:47,984 --> 00:24:48,984 为什么呢? 627 00:24:48,984 --> 00:24:51,704 因为他们早做会先有经验 628 00:24:51,704 --> 00:24:54,264 并且先积累起资源 629 00:24:54,264 --> 00:24:57,264 如果大家都是差不多聪明差不多勤奋的情况下 630 00:24:57,264 --> 00:25:00,984 很难你说你晚开始反而能比别人做得更好 631 00:25:00,984 --> 00:25:03,464 我觉得你说的问题肯定是存在的 632 00:25:03,648 --> 00:25:08,328 但是那得基于一个假设就是先做的人他没法把3.5换成4 633 00:25:08,528 --> 00:25:11,448 但实际上也许这就是改个API key的事情 634 00:25:11,768 --> 00:25:15,128 但是在这过程中第一批做AIGC应用的人 635 00:25:15,128 --> 00:25:17,688 他们可能做的应用场景像个玩具一样 636 00:25:17,688 --> 00:25:18,768 这是很有可能的 637 00:25:18,928 --> 00:25:21,288 同时也很有可能他们第一个产品不成功 638 00:25:21,288 --> 00:25:22,088 第二个产品不成功 639 00:25:22,088 --> 00:25:23,008 我觉得这都有可能 640 00:25:23,288 --> 00:25:25,848 但是在这个时候他比起没做的人来讲 641 00:25:25,848 --> 00:25:29,288 他的经验就是1和0的区别是一个非常大的区别 642 00:25:29,488 --> 00:25:32,688 那我们其实去想在技术革命的后期 643 00:25:32,688 --> 00:25:34,688 可能大家经验是10和9的区别 644 00:25:34,688 --> 00:25:35,888 差不了太多 645 00:25:35,888 --> 00:25:37,808 但是1和0的区别还是很大的 646 00:25:37,808 --> 00:25:40,888 所以我觉得在这里面未必你是第一个做的 647 00:25:40,888 --> 00:25:43,248 但是一般来说都得是第一梯队做的 648 00:25:43,248 --> 00:25:44,848 跟着这个技术一起成长 649 00:25:44,848 --> 00:25:48,048 你才对里面很多事情距离怎么做是有概念的 650 00:25:48,048 --> 00:25:49,808 你去看它的研报 651 00:25:49,808 --> 00:25:50,768 看它的分析 652 00:25:50,768 --> 00:25:52,728 对于里面的很多具体问题怎么解决 653 00:25:52,728 --> 00:25:54,048 怎么处理的细节 654 00:25:54,048 --> 00:25:55,888 其实往往是不知道的 655 00:25:55,888 --> 00:25:58,128 在互联网领域有很多这样的例子 656 00:25:58,256 --> 00:26:04,056 比如说有一个故事是说当时雷军做米疗不是输给了微信吗 657 00:26:04,056 --> 00:26:06,856 后来有一次雷军见到赵小龙就问 658 00:26:06,856 --> 00:26:09,536 你们怎么解决发消息延迟的问题 659 00:26:09,536 --> 00:26:11,536 赵小龙说发消息还会延迟吗 660 00:26:11,536 --> 00:26:15,136 这个意思就是说微信有很长时间的做这个事情的积累 661 00:26:15,136 --> 00:26:17,936 因为QQ本身就是一个大量的用户发消息的系统 662 00:26:17,936 --> 00:26:20,256 QQ邮箱也是一个大用户量的产品 663 00:26:20,256 --> 00:26:24,496 所以他们很早就遇到了发消息会延迟或者说会 664 00:26:24,496 --> 00:26:26,576 讯息会乱的问题然后去解决了 665 00:26:26,848 --> 00:26:28,848 所以这就是你坐在前面你有了经验 666 00:26:28,848 --> 00:26:31,648 虽然这个事看上去都是一个事儿 就是发消息 667 00:26:31,648 --> 00:26:33,488 但是你后座的话 668 00:26:33,488 --> 00:26:34,528 不知道这里会有坑 669 00:26:34,528 --> 00:26:36,608 你就可能在这里面就会陷进去 670 00:26:36,608 --> 00:26:39,648 那么先坐的人会在已经解决了这个问题就会有经验 671 00:26:39,648 --> 00:26:41,728 很多这些东西它并不是简单的说 672 00:26:41,728 --> 00:26:43,168 换一个更好的模型就能解决 673 00:26:43,168 --> 00:26:44,048 它有大量的knowhow 674 00:26:44,048 --> 00:26:45,568 所以我觉得一般来讲 675 00:26:45,568 --> 00:26:46,448 历史上来看 676 00:26:46,448 --> 00:26:49,008 科技领域先发优势还是占多数的 677 00:26:49,008 --> 00:26:50,208 我非常同意 678 00:26:50,208 --> 00:26:53,168 而且我觉得我们看到的都是具体的差距 679 00:26:53,168 --> 00:26:54,768 其实我觉得认知上 680 00:26:54,944 --> 00:26:58,784 有差距或者有迭代也是非常重要的 就比如说 681 00:26:58,784 --> 00:27:02,424 很多后面做的人或者就是在一些具体的事情上 682 00:27:02,424 --> 00:27:04,584 有人会告诉你要规避哪些坎儿 683 00:27:04,584 --> 00:27:06,504 但是自己不走到那一步 684 00:27:06,504 --> 00:27:08,664 有时候人的思维是很难转过来的 685 00:27:08,664 --> 00:27:11,184 就是你可能听到了但是你没有理解它 686 00:27:11,184 --> 00:27:14,104 所以你就没有执行 在有动作的时候就变形了 687 00:27:14,104 --> 00:27:17,464 但另外一种有后发优势的呢 就是说 688 00:27:17,464 --> 00:27:19,984 之前你不知道这件事能做 689 00:27:19,984 --> 00:27:22,896 但有的时候你知道 第一它能做 690 00:27:22,896 --> 00:27:27,576 第二 用这么多人 这么多钱 用这个方法就可以做到 691 00:27:27,576 --> 00:27:30,576 这个是事实上有后发优势的 692 00:27:30,576 --> 00:27:33,376 其实我为什么认为国产做大模型 693 00:27:33,376 --> 00:27:35,656 可能没有大家想的那么悲观和难呢 694 00:27:35,656 --> 00:27:37,056 也是基于这个假设 695 00:27:37,056 --> 00:27:39,736 很多人都拿哥伦布去新大陆打比方 696 00:27:39,736 --> 00:27:41,016 我觉得这是贴切的 697 00:27:41,016 --> 00:27:42,456 当你不知道有新大陆 698 00:27:42,456 --> 00:27:44,056 也不知道新大陆有多远 699 00:27:44,056 --> 00:27:47,336 也不知道新大陆是不是必须得坐飞机才能去的时候 700 00:27:47,336 --> 00:27:49,496 其实你是冒很大的风险 701 00:27:49,496 --> 00:27:51,984 但是当你知道新大陆就在西边 702 00:27:51,984 --> 00:27:56,304 用这样大的一艘船带两个月的集养 坐船就可以去的时候 703 00:27:56,304 --> 00:27:57,584 这就变得非常重要了 704 00:27:57,584 --> 00:27:58,984 就当年原子弹其实是一样的 705 00:27:58,984 --> 00:28:01,784 原子弹能炸其实就是一个非常关键的信息 706 00:28:01,784 --> 00:28:04,784 我觉得现在大模型做到大概这个参数量 707 00:28:04,784 --> 00:28:06,784 这个与Data Set的大小 708 00:28:06,784 --> 00:28:08,664 它就能够出现这样的能力 709 00:28:08,664 --> 00:28:11,664 这其实也是一个很重要的确定性信息 710 00:28:11,664 --> 00:28:16,064 所以我觉得大家在追赶上面其实是有很多可以节省时间的 711 00:28:16,064 --> 00:28:18,984 现在大家肯定就用GPT这样的预训链文本的技术了 712 00:28:18,984 --> 00:28:21,304 就不会再用BERT这种双边升神的技术了 713 00:28:21,584 --> 00:28:23,064 这就是一个典型 714 00:28:23,064 --> 00:28:25,464 所以我觉得这里面是可以朝走一些弯路的 715 00:28:25,464 --> 00:28:27,024 当然在那个里面 716 00:28:27,024 --> 00:28:29,304 比如说在数据清洗啊 717 00:28:29,304 --> 00:28:31,264 Infra啊这些地方的很多 718 00:28:31,264 --> 00:28:34,584 Knowhow我觉得也是没法说略的 719 00:28:34,584 --> 00:28:36,904 肯定要去精力去探索这个Knowhow的 720 00:28:36,904 --> 00:28:41,144 所以为什么比如说像王辉文老王他选择立刻开始呢 721 00:28:41,144 --> 00:28:43,024 也是基于一个很朴素的心灵 722 00:28:43,024 --> 00:28:46,784 既然已经对这个革命它的尺度它的规模 723 00:28:46,784 --> 00:28:49,504 有了充分的信任信仰之后 724 00:28:49,504 --> 00:28:51,184 那早开始总比晚开始要好 725 00:28:51,184 --> 00:28:51,376 因为早开始就已经有了充分的信任 726 00:28:51,376 --> 00:28:53,776 因为你正好提到中国的大模型了 727 00:28:53,776 --> 00:28:55,616 然后我看中国最近也是 728 00:28:55,616 --> 00:28:58,116 一个是大厂的大模型在密集发布 729 00:28:58,116 --> 00:29:01,516 比如说百度、阿里、华为都在发布 730 00:29:01,516 --> 00:29:04,756 另外是中国有一些上一批科技创业的人 731 00:29:04,756 --> 00:29:07,896 互联网跟移动互联网创业的成功者 732 00:29:07,896 --> 00:29:09,696 他们也在做大模型 733 00:29:09,696 --> 00:29:11,796 比如说你刚刚提到王会文的公司 734 00:29:11,796 --> 00:29:13,496 还有王小川的公司 735 00:29:13,496 --> 00:29:16,236 那贾阳青跟李士飞之前说要做大模型 736 00:29:16,236 --> 00:29:18,836 我看他们现在做的好像也不算是大模型 737 00:29:18,836 --> 00:29:19,836 算是应用 738 00:29:19,952 --> 00:29:23,592 可不可以跟大家介绍一下现在大家做的大模型 739 00:29:23,592 --> 00:29:27,832 分别是什么 哪些是大模型 哪些可能是我们理解有误 740 00:29:27,832 --> 00:29:30,432 这个事情也是在不断地变化的 741 00:29:30,432 --> 00:29:32,472 目前来看 比如说这些大厂 742 00:29:32,472 --> 00:29:36,472 不管是百度 字节 阿力 腾讯 743 00:29:36,472 --> 00:29:40,792 包括商汤 360 出门问问 昆仑万维 744 00:29:40,792 --> 00:29:42,832 这些其实是说要做一个大模型 745 00:29:42,832 --> 00:29:44,432 或者说是大家理解的这种 746 00:29:44,624 --> 00:29:49,784 几十亿上百亿参数的能够解决很多NLP和通用 747 00:29:49,784 --> 00:29:51,544 领域的问题的这种大模型 748 00:29:51,544 --> 00:29:56,024 那这里面比如说像王辉文王小川像智普这些 749 00:29:56,024 --> 00:29:58,384 其实也都是在做大模型这样的事情 750 00:29:58,384 --> 00:30:00,984 智普是支援分拆出来的 751 00:30:00,984 --> 00:30:02,504 唐杰老师带队的团队 752 00:30:02,504 --> 00:30:05,824 这些我觉得是比较明确就是说做一个比较像 753 00:30:05,824 --> 00:30:08,584 GBT3.5或者GBT4这样的大模型 754 00:30:08,584 --> 00:30:13,464 但比如说像杨青是要做一个偏middleware的创业公司 755 00:30:13,464 --> 00:30:13,632 那这些都是在做一个比较像的一个模型 756 00:30:13,632 --> 00:30:16,312 当然他有一个宣传新闻内容哈 757 00:30:16,672 --> 00:30:19,112 就是我觉得在这过程中肯定大家有发现大模型 758 00:30:19,112 --> 00:30:20,152 是不是适合我做 759 00:30:20,152 --> 00:30:23,712 以及说是不是现在做还有最好的机会和时机去做 760 00:30:23,952 --> 00:30:26,352 我觉得这肯定很多人会兼人兼之 761 00:30:26,512 --> 00:30:28,432 有人会觉得可能不适合我做的机会 762 00:30:28,432 --> 00:30:30,192 我去做更加一个适合我做的机会 763 00:30:30,192 --> 00:30:31,032 这都很正常 764 00:30:31,312 --> 00:30:35,152 同样现在大家也是因为只看到了一个把大模型 765 00:30:35,152 --> 00:30:39,632 做出来先有chat gpt才能够去延展的这么一个逻辑 766 00:30:39,912 --> 00:30:42,392 但我完全可以想象假设大家后来发现 767 00:30:42,528 --> 00:30:45,568 比如说第一有了一个很好用的大模型 768 00:30:45,848 --> 00:30:48,368 但是可能会给很多人的做法会变得不太一样 769 00:30:48,368 --> 00:30:51,328 因为现在大家是都没有去抢到这样一个头筹嘛 770 00:30:51,328 --> 00:30:54,088 但如果有人已经做出来一个足够好的大模型 771 00:30:54,088 --> 00:30:57,648 那可能有了团队就会想那我是不是转去做应用会更好 772 00:30:57,968 --> 00:31:03,248 第二就是说是不是只有做大模型才是认知现在的AGI 773 00:31:03,608 --> 00:31:05,808 或者未来的AGI能力的唯一途径 774 00:31:06,408 --> 00:31:09,568 也许我们会有别的方式去理解这件事情 775 00:31:09,808 --> 00:31:12,808 所以也许有人发现其实我没必要做个大模型 776 00:31:12,808 --> 00:31:14,488 但是目前来看呢 777 00:31:14,488 --> 00:31:17,168 就好比说目前只有坐船能够去美洲 778 00:31:17,168 --> 00:31:18,808 所以大家先都得造船 779 00:31:18,808 --> 00:31:20,648 也许有一天大家有飞机了 780 00:31:20,648 --> 00:31:21,728 那就不用造船了 781 00:31:21,728 --> 00:31:23,568 但目前来看只有坐船才行 782 00:31:23,568 --> 00:31:24,768 所以大家都得造船 783 00:31:24,768 --> 00:31:26,248 但到了美洲之后干嘛 784 00:31:26,248 --> 00:31:27,208 那也不一定 785 00:31:27,208 --> 00:31:28,768 有的去种棉花 786 00:31:28,768 --> 00:31:30,088 有的去挖煤炭 787 00:31:30,088 --> 00:31:31,928 但是大家说你现在船都没有 788 00:31:31,928 --> 00:31:33,888 那你都没法去开始这件事儿 789 00:31:33,888 --> 00:31:35,688 也有可能开通了一条航线 790 00:31:35,688 --> 00:31:37,648 泰坦尼克号将来要坐渡船 791 00:31:37,648 --> 00:31:38,768 那你就不用自己造船 792 00:31:38,768 --> 00:31:39,504 都有可能 793 00:31:39,504 --> 00:31:42,784 现在就是说大家都没有船 所以大家都先第一反应自己造 794 00:31:42,784 --> 00:31:46,704 这个是很正常的情况 在美国现在大家其实不怎么去 795 00:31:46,704 --> 00:31:50,544 有独立做大模型的新公司了 是因为已经有几条固定航线了 796 00:31:50,544 --> 00:31:53,504 有OpenAI号 有这个cloud号 还有这个 797 00:31:53,504 --> 00:31:57,024 Cohere或者是Bard这些 就是大家发现啊这有几条航线了 798 00:31:57,024 --> 00:32:00,384 那我干脆就去想去美洲之后干嘛呢 就是做应用了 799 00:32:00,384 --> 00:32:04,304 那中国的大模型你觉得未来是一个怎么样的格局 800 00:32:04,304 --> 00:32:07,424 可能是一家独大还是说多家 801 00:32:07,728 --> 00:32:10,128 我觉得这个问题肯定不只是中国 802 00:32:10,128 --> 00:32:13,248 包括全世界的角度都是一个还不知道的问题 803 00:32:13,248 --> 00:32:15,848 这是一个billion dollar甚至是trillion dollar question 804 00:32:15,848 --> 00:32:18,048 我觉得它是一个光谱 805 00:32:18,048 --> 00:32:20,848 比如说集中度最高的形式可能像google 806 00:32:20,848 --> 00:32:24,248 google一家占了93%的solo引擎份额 807 00:32:24,248 --> 00:32:28,248 如果大模型第一它是一个2C为主的场景 808 00:32:28,248 --> 00:32:32,848 就比如说可能以后有很多人都会用一个像shadow gdt这样的助理 809 00:32:32,848 --> 00:32:36,240 且它的技术始终是比较难的 810 00:32:36,240 --> 00:32:38,920 就是说第一名始终有比较大的领先优势 811 00:32:38,920 --> 00:32:43,600 那么我可以想象可能大部分人最后都只用某一个最领先的助手 812 00:32:43,600 --> 00:32:45,720 可能是chatterGBT可能是某一家 813 00:32:46,160 --> 00:32:48,880 因为我没有道理去用一个第二名的 814 00:32:48,880 --> 00:32:51,440 至于跟solar引擎如果你都超不过google 815 00:32:51,440 --> 00:32:52,320 我肯定没法用你 816 00:32:52,320 --> 00:32:53,760 哪怕你能超过google 817 00:32:53,760 --> 00:32:54,840 只要你超过的不是太多 818 00:32:54,840 --> 00:32:55,720 我也没有动力用 819 00:32:56,080 --> 00:32:58,960 所以这就是最收敛的叫赢家通吃的格局 820 00:32:58,960 --> 00:33:04,480 那如果说第一是openm没办法长期保持一个特别遥遥领先的状态 821 00:33:04,592 --> 00:33:09,112 我们使用大猿模型主要的场景是通过2b的应用来使用 822 00:33:09,112 --> 00:33:12,032 而不是直接去用一个shared gpt这样的助手 823 00:33:12,032 --> 00:33:14,592 那么它也有可能形成一个公有云这样的格局 824 00:33:14,992 --> 00:33:17,192 就是第一梯队可能有2-3家 825 00:33:17,192 --> 00:33:18,952 3-4家都还不错 826 00:33:18,952 --> 00:33:19,752 各有特点 827 00:33:19,752 --> 00:33:21,232 比如说你的擅长图像 828 00:33:21,232 --> 00:33:22,352 我的擅长推理 829 00:33:22,352 --> 00:33:27,232 那么这样用户用的主要是用这些大模型作为底层勾造的应用 830 00:33:27,672 --> 00:33:29,232 那这样就有可能像公有云一样 831 00:33:29,232 --> 00:33:30,752 比如说有的跑在aws 832 00:33:30,752 --> 00:33:31,832 有的跑在azure 833 00:33:31,832 --> 00:33:33,832 有的跑在google cloud service上 834 00:33:33,904 --> 00:33:34,904 这些都有可能 835 00:33:35,184 --> 00:33:38,984 还有一种可能就是大模型这事现在很厉害 836 00:33:38,984 --> 00:33:41,904 但是逐渐变成一个commodity变成开源的 837 00:33:42,104 --> 00:33:44,704 很多人都是自己用一个开源的 838 00:33:44,704 --> 00:33:46,024 加以微调之后 839 00:33:46,024 --> 00:33:48,744 部署在自己的云或者服务器上 840 00:33:48,944 --> 00:33:51,664 这个时候可能就变成了一种百家争鸣 841 00:33:51,824 --> 00:33:54,264 或者说有各种各样的开源模型的阶段 842 00:33:54,424 --> 00:33:57,104 这个时候也许openai它是一个开创者 843 00:33:57,104 --> 00:33:58,664 但也许之后它的大量技术 844 00:33:58,664 --> 00:34:00,544 变成人类所共有的技术 845 00:34:00,544 --> 00:34:02,264 这也是很多时候经常发生的 846 00:34:02,448 --> 00:34:06,608 比如说当时人脸识别出来的时候 其实也是一个石破天惊的技术 847 00:34:06,608 --> 00:34:11,408 但后面人脸识别每个应用都有 你也不会特别介意他用了谁的人脸识别技术 848 00:34:11,408 --> 00:34:15,008 这种情况下它往往意味着技术它有个终点 849 00:34:15,008 --> 00:34:18,208 或者说大家都做到了GPT-4的能力都差不多了 850 00:34:18,208 --> 00:34:20,608 但是也没法出来一个跟上一个台阶的了 851 00:34:20,608 --> 00:34:23,808 所以我觉得这里面很看未来这个技术终点在哪里 852 00:34:23,808 --> 00:34:27,208 主要是to C还是to B 其他家追赶的速度怎么样 853 00:34:27,208 --> 00:34:30,008 所以其实都有可能 这里面其实不好讲 854 00:34:30,288 --> 00:34:32,688 其实在聊到中美大模型的时候 855 00:34:32,688 --> 00:34:34,488 大家都会谈到芯片嘛 856 00:34:34,488 --> 00:34:35,648 你刚刚也提到了 857 00:34:35,648 --> 00:34:37,728 比如说现在很多中国的大模型 858 00:34:37,728 --> 00:34:42,528 它们的得分从二三十分上升到了五十多分、六十多分 859 00:34:42,528 --> 00:34:43,848 其实在我理解 860 00:34:43,848 --> 00:34:45,688 之前有很多中国的大厂 861 00:34:45,688 --> 00:34:48,248 它们是有囤很多A100芯片的 862 00:34:48,248 --> 00:34:51,928 那如果说未来这个芯片不能持续地供应 863 00:34:51,928 --> 00:34:55,008 而美国的芯片还在持续地进化中 864 00:34:55,008 --> 00:34:56,768 比如说H100会出来 865 00:34:56,768 --> 00:35:01,568 那中国的芯片它的这个性能或者说它跟不上 866 00:35:01,568 --> 00:35:06,968 那你觉不觉得它可能会是一个越拉越远的战局 867 00:35:06,968 --> 00:35:09,968 我觉得就还是要从几个方面去想 868 00:35:09,968 --> 00:35:13,888 第一个就是是不是这是一个百公里长跑 869 00:35:13,888 --> 00:35:15,328 还是一个百米塞跑 870 00:35:15,328 --> 00:35:18,608 比如说如果它是一个很快会遇到瓶颈的事情 871 00:35:18,608 --> 00:35:20,128 那可能现有的算力就够了 872 00:35:20,128 --> 00:35:22,208 你也许不用训练那么大的模型 873 00:35:22,208 --> 00:35:24,528 或者说就训练现在这么大的就可以了 874 00:35:24,528 --> 00:35:26,128 另外一种情况是它 875 00:35:26,160 --> 00:35:27,520 以后要越来越大越来越大 876 00:35:27,520 --> 00:35:30,200 所以现在的芯片就不能用了 877 00:35:30,560 --> 00:35:32,960 虽然我们现在很多人觉得可能是后遗者可能 878 00:35:32,960 --> 00:35:35,040 但是首先它是有多种可能性存在的 879 00:35:35,480 --> 00:35:39,280 第二就是说训练的效率和方式方法 880 00:35:39,280 --> 00:35:40,880 本身也是在不断提高的 881 00:35:41,440 --> 00:35:44,800 在之前需要这么多顺利训练的模型 882 00:35:44,800 --> 00:35:47,360 在现在也许会有更好的方式去训练 883 00:35:47,640 --> 00:35:49,800 第三就是当然说的这些 884 00:35:49,800 --> 00:35:53,120 我们本质上肯定是希望我们的半导体工业能够发展 885 00:35:53,240 --> 00:35:54,680 我们有一天也能够 886 00:35:54,736 --> 00:35:59,216 有世界先进水平的GPU也好或者AI芯片去进行这种训练 887 00:35:59,576 --> 00:36:02,296 当然好的情况肯定是说要么是中美关系缓和了 888 00:36:02,336 --> 00:36:04,576 我们同样能够买到这些先进的芯片 889 00:36:04,696 --> 00:36:08,376 有可能同时也是说我们的芯片公司真的也做出来了 890 00:36:08,376 --> 00:36:10,216 可以跟英伟达媲美的这种芯片 891 00:36:10,696 --> 00:36:12,056 我觉得这肯定是好的情况 892 00:36:12,056 --> 00:36:16,576 如果不好的情况那就是只有智力更生用这种方法去尝试解决了 893 00:36:17,096 --> 00:36:18,416 但我想说的是 894 00:36:18,656 --> 00:36:21,096 我觉得当我们采取追赶的时候呢 895 00:36:21,096 --> 00:36:23,536 我们往往会把一些问题给简单化 896 00:36:23,856 --> 00:36:25,856 A芯片现在是个显然的问题 897 00:36:25,856 --> 00:36:28,896 就好像说买了1万块芯片A100就能解决这个问题一样 898 00:36:28,896 --> 00:36:30,016 其实我觉得不是这样的 899 00:36:30,016 --> 00:36:34,056 就是现在我们在数据芯片infra 900 00:36:34,056 --> 00:36:36,616 算法这方面其实有很多需要去解决的 901 00:36:36,616 --> 00:36:40,816 我觉得不宜把这个问题简单化成一个买1万块芯片 902 00:36:40,816 --> 00:36:42,816 好像说只要花钱就能解决 903 00:36:42,816 --> 00:36:46,376 实际上我遇到了这些真正在好好做这件事情的人 904 00:36:46,376 --> 00:36:47,576 其实他们都会意识到 905 00:36:47,576 --> 00:36:49,976 第一你哪怕是要1万块A100 906 00:36:49,976 --> 00:36:51,976 国内现在也是有这样的数量的 907 00:36:52,288 --> 00:36:55,928 第二呢就是现在我们离用好1万块A100那还差很远 908 00:36:56,248 --> 00:36:59,808 第三这里面其实每一个环节里都有很多要解决的问题 909 00:37:00,088 --> 00:37:03,448 那么你要去探索怎么去做一个 910 00:37:03,568 --> 00:37:06,088 比如3.5水平的模型其实不用1万块A100 911 00:37:06,088 --> 00:37:09,968 因为你想想看GBT-3其实是在1万块V100上训练的 912 00:37:10,088 --> 00:37:13,848 GBT-3.5就是所谓的instructor GBT是一个小很多的模型 913 00:37:13,848 --> 00:37:18,088 就它并不一定是一定要训练这么大的参数量才能训练出来的模型 914 00:37:18,568 --> 00:37:20,808 所以这里面其实有很多 915 00:37:20,896 --> 00:37:24,896 跟芯片一样重要 甚至在短期可能比芯片更重要的问题 916 00:37:25,256 --> 00:37:27,536 我觉得这里面问题还是比较复杂的 917 00:37:28,136 --> 00:37:33,256 中文互联网的数据你觉得它会是一个问题吗 918 00:37:33,656 --> 00:37:34,936 我觉得完全不是一个问题 919 00:37:34,936 --> 00:37:39,736 因为简单的来想就是chattgbt并没有用到什么独有的中文数据 920 00:37:39,736 --> 00:37:42,256 它就已经在中文上具有这么好的表现 921 00:37:42,536 --> 00:37:45,256 当然gbt4可能多了很多独有的东西 922 00:37:45,256 --> 00:37:47,016 或者说它有很多微调的内容 923 00:37:47,216 --> 00:37:50,136 但如果你从pre-training的那部分来看的话 924 00:37:50,864 --> 00:37:53,104 wikipedia common ground 925 00:37:53,104 --> 00:37:57,064 对呢paper codecs这些其实很大量是通过英文 926 00:37:57,064 --> 00:37:58,784 然后泛化到中文来的 927 00:37:58,784 --> 00:38:02,504 所以在这里面我觉得至少第一原理上不存在说 928 00:38:02,504 --> 00:38:04,504 openai有什么我们没有的中文数据 929 00:38:04,504 --> 00:38:08,824 但是怎么去用现有的中文数据去进行清洗 930 00:38:08,824 --> 00:38:12,704 包括后面的这种标注进行human feedback 931 00:38:12,704 --> 00:38:15,144 这些knowhow反而是非常非常重要的 932 00:38:15,144 --> 00:38:18,464 这个我觉得是一个我们需要解决的工程问题 933 00:38:18,464 --> 00:38:20,824 但不是说我们没有这些预料的问题 934 00:38:20,824 --> 00:38:20,992 我们需要解决的问题是 935 00:38:20,992 --> 00:38:26,112 之前每次你见我啊,你都会问我一个问题,我最近见过的最厉害的人是谁? 936 00:38:26,112 --> 00:38:31,752 你这次来美国,你觉得你见到了哪些厉害的人,他们有给你哪些启发? 937 00:38:31,752 --> 00:38:39,952 嗯,也不好说最厉害的人是谁吧,但是比如说一路下来我们在湾区,在波士顿,在纽约,匹 兹堡, 938 00:38:39,952 --> 00:38:43,792 其实跟很多做AI的这些研究员,包括 939 00:38:43,920 --> 00:38:50,520 工程数据沟通交流,我觉得还是从很多具体时间的角度去学习 940 00:38:50,520 --> 00:38:53,560 怎么样做大模型,包括说视觉模型 941 00:38:53,560 --> 00:38:56,280 以及现在大家关注的一些重点难点是什么 942 00:38:56,280 --> 00:38:57,360 我觉得是挺有帮助 943 00:38:57,840 --> 00:39:01,320 我刚才说到如果说我们从隔着一定距离去看 944 00:39:01,320 --> 00:39:03,600 就容易把这个问题给简单化 945 00:39:04,160 --> 00:39:06,520 简单化成比如说我怎么买到1万块芯片 946 00:39:06,520 --> 00:39:09,720 或者说我怎么样挖到比如OpenAI的人 947 00:39:09,720 --> 00:39:12,120 或者说我怎么样去 948 00:39:12,192 --> 00:39:13,272 收集雨料什么的 949 00:39:13,272 --> 00:39:14,952 但是我觉得跟他们交流下来 950 00:39:14,952 --> 00:39:18,552 就发现这里面有很多工程的细节都是很重要的 951 00:39:18,552 --> 00:39:21,832 以及说为什么它是一个这样的由来 952 00:39:21,832 --> 00:39:23,032 中间经历了什么故事 953 00:39:23,032 --> 00:39:24,712 我觉得这些是把它拆析了看 954 00:39:24,712 --> 00:39:26,592 会看到很多细节和脉络 955 00:39:26,832 --> 00:39:27,792 当然对我们的角度 956 00:39:27,792 --> 00:39:29,592 首先是想发现未来创业者 957 00:39:29,792 --> 00:39:32,112 我们其实不是说要去自己做一个大冒险 958 00:39:32,312 --> 00:39:33,352 不可能具备那个能力 959 00:39:33,352 --> 00:39:35,952 所以我们只是说想进一步的去探讨 960 00:39:35,952 --> 00:39:37,792 这里面有哪些难点 961 00:39:37,792 --> 00:39:39,272 或者哪些值得注意的地方 962 00:39:39,616 --> 00:39:41,856 整体来讲我觉得还是在学习阶段 963 00:39:41,856 --> 00:39:43,896 实际上你要问我见到最厉害的 964 00:39:43,896 --> 00:39:44,896 我觉得不是人 965 00:39:44,896 --> 00:39:47,736 而是在这个旅程中我们看到了Auto GPT 966 00:39:47,736 --> 00:39:51,576 我觉得Auto GPT是一个让我觉得非常震撼 967 00:39:51,576 --> 00:39:54,416 同时也进一步的加强了忧虑的事情 968 00:39:54,416 --> 00:39:59,216 是因为这种Recursive自己去执行的Demo出来 969 00:39:59,216 --> 00:40:03,296 那么它其实是具备很强的不可控的力量 970 00:40:03,296 --> 00:40:06,976 这里面我觉得AI Safety AI Alignment 971 00:40:06,976 --> 00:40:08,816 这些问题会变得很重要 972 00:40:08,944 --> 00:40:12,144 其实这个旅途中我是最被 old GPT 震惊啊 973 00:40:12,144 --> 00:40:15,064 当然如果我见到 Sam Altman 肯定他会讲一些让我很震惊的话 974 00:40:15,064 --> 00:40:17,344 但可惜我们也见不到 Sam Altman 975 00:40:17,344 --> 00:40:19,704 你要说有一个特别的人讲一句特别的话 976 00:40:19,704 --> 00:40:21,304 我倒觉得没有那样的时刻 977 00:40:21,304 --> 00:40:23,224 但是有很多人讲了很多有意思的东西 978 00:40:23,224 --> 00:40:24,944 我是觉得挺有意思的 979 00:40:24,944 --> 00:40:29,104 你刚提到你来慢慢理解了 GPT 它是怎么被做出来的 980 00:40:29,104 --> 00:40:31,344 它中间经历了哪些重要的时刻 981 00:40:31,344 --> 00:40:33,504 我想我们的听众可能也会很感兴趣 982 00:40:33,504 --> 00:40:35,904 能不能大概的介绍一下几个关键节点 983 00:40:36,208 --> 00:40:40,248 像现在微软它是可以每天训一个GPT-3 984 00:40:40,248 --> 00:40:41,648 就是训练一个GPT-3 985 00:40:41,648 --> 00:40:43,168 你变成一个顺手就可以做的事情 986 00:40:43,168 --> 00:40:44,208 一天训一个 987 00:40:44,208 --> 00:40:47,328 但是微软自己是没法训练GPT-4的 988 00:40:47,328 --> 00:40:53,568 是需要在Azure那台专门为训练GPT-4打招的超算上才可以训练的 989 00:40:53,568 --> 00:40:57,288 所以你会发现这里面这个训练的难度是高了很多 990 00:40:57,288 --> 00:41:00,168 尤其把这么多算力把它有效的组织起来 991 00:41:00,168 --> 00:41:03,928 这其实是一个很一线很前沿的问题 992 00:41:04,128 --> 00:41:07,768 我很好奇就是为什么微软可以随便训练一个GPT-3呢 993 00:41:08,128 --> 00:41:11,328 就是GPT-3所需要的算力以最近的架构已经很成熟了 994 00:41:11,328 --> 00:41:13,728 你可以直接通过云服务就拥有这样的算力 995 00:41:13,728 --> 00:41:16,368 但GPT-4需要的算力是一个新的级别 996 00:41:16,568 --> 00:41:20,448 比如说其实GPT-4初始的能力更强很多 997 00:41:20,568 --> 00:41:23,688 我看过一些没有经过微调的GPT-4 998 00:41:23,688 --> 00:41:25,088 比如画出来的图像 999 00:41:25,368 --> 00:41:29,328 它是要比现在的GPT-4画出图像更精细很多的 1000 00:41:29,568 --> 00:41:32,128 如果你看了那篇通用人工智能的火花那篇论文 1001 00:41:32,128 --> 00:41:33,848 你发现GPT-4是可以画图的 1002 00:41:33,856 --> 00:41:35,256 比如它里面画了个独角兽 1003 00:41:35,256 --> 00:41:38,656 但是那个已经是经过微调之后的GPT-4画的了 1004 00:41:38,656 --> 00:41:41,336 当没有经过微调的GPT-4画的图 1005 00:41:41,336 --> 00:41:42,696 其实要比那个精细很多 1006 00:41:42,696 --> 00:41:45,016 换句话说GPT-4为了和人类对齐 1007 00:41:45,016 --> 00:41:46,736 牺牲了很多它的能力 1008 00:41:46,736 --> 00:41:49,136 当三巴特们说他们没有在训GPT-5的时候 1009 00:41:49,136 --> 00:41:49,976 我觉得是有道理的 1010 00:41:49,976 --> 00:41:52,336 因为GPT-4现在还是冰山一角 1011 00:41:52,336 --> 00:41:55,056 它能做很多事情我们可能还想象不到 1012 00:41:55,056 --> 00:41:56,736 其实我跟一个朋友在讨论的时候 1013 00:41:56,736 --> 00:41:57,616 我们经常说到 1014 00:41:57,616 --> 00:41:59,536 如果我们现在斩钉截铁地说一件事 1015 00:41:59,536 --> 00:42:00,496 GPT-4做不到 1016 00:42:00,496 --> 00:42:02,256 往往是我们低估了它的能力 1017 00:42:02,336 --> 00:42:04,536 我们还在不断的像AutoGPT这样发现 1018 00:42:04,536 --> 00:42:06,736 它其实可以做很多我们没想到的事情 1019 00:42:06,736 --> 00:42:09,776 其实很多人会忽视的一点就是在 1020 00:42:09,776 --> 00:42:12,616 Instructor GPT训练的这个过程中 1021 00:42:12,616 --> 00:42:16,416 做的数据标注和RLHF这一块 1022 00:42:16,416 --> 00:42:17,696 其实我们可以想一想 1023 00:42:17,696 --> 00:42:20,976 你要在很多专业的领域生成很好的范文 1024 00:42:20,976 --> 00:42:23,976 同时比如说对于像ChatterGPT这样生成的 1025 00:42:23,976 --> 00:42:28,416 某个专业领域的很长很多的多个答案进行排序 1026 00:42:28,416 --> 00:42:29,736 这其实不是个简单的事情 1027 00:42:29,984 --> 00:42:32,424 比如说你问他一个生物的问题 他给你几种回答 1028 00:42:32,424 --> 00:42:35,864 然后你说哪个更好 这其实需要很多专业能力和技能 1029 00:42:35,864 --> 00:42:40,664 这之前本来大家觉得可能是一个需要成千上万人干好多年的事情 1030 00:42:40,664 --> 00:42:43,464 没想到居然是几十一百个人干了两个月的事情 1031 00:42:43,464 --> 00:42:47,864 在这个里面像Surge, Scale这样的公司扮演的作用是很大的 1032 00:42:47,864 --> 00:42:50,864 你能把这件事高效的大规模的去做 1033 00:42:50,864 --> 00:42:55,104 这个其实是一个不是所谓的火箭科学 不是rocket science 1034 00:42:55,104 --> 00:42:57,944 但是它是一个很难的工程问题 1035 00:42:58,208 --> 00:43:02,528 所以在这些领域,我就说有很多问题,当我们真的要去做的时候,可能会发现 1036 00:43:02,528 --> 00:43:07,648 不是说简单买了芯片插上就可以迅速出来,它会有很多的工程具体要解决的问题 1037 00:43:07,648 --> 00:43:11,848 所以我觉得这些都是很有意思的看到的更全面的东西吧 1038 00:43:11,848 --> 00:43:16,448 你刚提到GPT-4它没有经过微调以前的版本 1039 00:43:16,448 --> 00:43:21,888 比它真正放出来的要强大很多,因为在那篇论文里它也写到了,就是说它其实是 1040 00:43:22,048 --> 00:43:27,128 经历了八个月的安全测试,它是为了让它的安全标准不停地能达到 1041 00:43:27,128 --> 00:43:31,048 来适应人类不至于让它比如说有种族歧视 1042 00:43:31,048 --> 00:43:33,648 或者有一些它不应该出现的话 1043 00:43:33,648 --> 00:43:37,648 但是现在我看业界大家也没有讨论就是GBT5的 1044 00:43:37,648 --> 00:43:39,568 这种出现的可能性啊 1045 00:43:39,568 --> 00:43:44,808 未来比如说这个GBT它如果还要去进化,就是它的这种能力 1046 00:43:44,808 --> 00:43:49,688 它会是什么呢?它会是把那个魏焉歌的版本再放出来一些还是什么? 1047 00:43:49,688 --> 00:43:50,568 我不太理解啊 1048 00:43:50,816 --> 00:43:53,816 这很多问题只有Sam Altman能回答我感觉 1049 00:43:53,816 --> 00:43:56,816 但我觉得alignment会是一个很重要的话题 1050 00:43:56,816 --> 00:43:59,216 因为能力越大责任越大 1051 00:43:59,216 --> 00:44:03,136 尤其是当AutoGPT它可以选择工具执行外界任务 1052 00:44:03,136 --> 00:44:05,736 并且自发去执行的事情发生了 1053 00:44:05,736 --> 00:44:08,376 OpenAI让我觉得很厉害的一点就是 1054 00:44:08,376 --> 00:44:10,376 他们一开始是一个研究机构 1055 00:44:10,376 --> 00:44:13,136 一开始的时候其实是研究的很发散的 1056 00:44:13,136 --> 00:44:14,096 很多话题都有研究 1057 00:44:14,096 --> 00:44:15,256 他们也研究打游戏 1058 00:44:15,256 --> 00:44:17,576 他们也研究各种的领域的AI问题 1059 00:44:17,576 --> 00:44:19,808 但是他们逐渐地 1060 00:44:19,808 --> 00:44:23,208 中间发生了一次相变变成了一个做产品的公司 1061 00:44:23,608 --> 00:44:26,688 其实GPT-4发布的时候我听到两种声音 1062 00:44:26,888 --> 00:44:28,488 有的人说很失望 1063 00:44:28,488 --> 00:44:30,888 因为诶,居然就做了一个读图 1064 00:44:30,888 --> 00:44:32,128 都没有做纹身图 1065 00:44:32,128 --> 00:44:33,408 也没有做视频 1066 00:44:33,528 --> 00:44:35,328 也没有做其他的多模态什么的 1067 00:44:35,328 --> 00:44:37,088 并且这个图的API还没出来 1068 00:44:37,488 --> 00:44:39,328 好像主要的还是这个文字 1069 00:44:39,328 --> 00:44:40,168 觉得有点失望 1070 00:44:40,168 --> 00:44:41,208 因为没什么新东西 1071 00:44:41,608 --> 00:44:43,168 但另外一批人觉得很厉害 1072 00:44:43,168 --> 00:44:44,728 比如说像我们去测试了很多 1073 00:44:44,728 --> 00:44:45,928 原来战略物打不好的问题 1074 00:44:45,928 --> 00:44:46,888 发现它能打好了 1075 00:44:47,024 --> 00:44:50,024 当然后面插件啊 Otto GPT 直接出来就更厉害对吧 1076 00:44:50,024 --> 00:44:54,064 我觉得这恰恰反映了说OpenAI 在用一种做好产品 1077 00:44:54,064 --> 00:44:57,984 做一个上亿人使用的基础产品的态度去做这件事情 1078 00:44:57,984 --> 00:44:59,664 如果是个学术研究机构 1079 00:44:59,664 --> 00:45:03,064 它会很有动力去第一个发视频到文字啊 1080 00:45:03,064 --> 00:45:05,824 或者说文字到视频或者什么的这种研究结果 1081 00:45:05,824 --> 00:45:08,984 但是OpenAI选择了把已有的做扎实做好 1082 00:45:08,984 --> 00:45:10,464 这个是很不容易的 1083 00:45:10,464 --> 00:45:13,504 我觉得在这个里面alignment是一个 1084 00:45:13,600 --> 00:45:17,640 尽管被强调,可能还是比较被低估的一个话题 1085 00:45:17,640 --> 00:45:21,720 举个例子,应该跟什么样的价值观去alignment 1086 00:45:21,720 --> 00:45:27,320 现在可能本质上还是跟美国加州的一群白人男性去alignment 1087 00:45:27,320 --> 00:45:28,840 全世界有很多文明 1088 00:45:28,840 --> 00:45:30,880 在一个文明完全OK的事情 1089 00:45:30,880 --> 00:45:33,240 在另外一个文明可能是非常不OK的 1090 00:45:33,240 --> 00:45:36,160 同样我们的价值观变化也是很快的 1091 00:45:36,160 --> 00:45:38,320 十几年前我在美国读书的时候 1092 00:45:38,320 --> 00:45:40,920 同性婚姻还是非常禁忌的话题 1093 00:45:40,920 --> 00:45:43,520 当时奥巴马竞选其实都是不允许同性婚姻 1094 00:45:43,568 --> 00:45:46,568 但是现在同性婚姻当然是一个大家都很欢迎的价值观 1095 00:45:46,568 --> 00:45:49,768 那这个过程中你会发现AI跟什么对齐 1096 00:45:49,768 --> 00:45:51,768 如何去动态的去调整 1097 00:45:51,768 --> 00:45:53,768 其实都会有很多的问题 1098 00:45:53,768 --> 00:45:57,968 那么在这个过程中我觉得也可能需要一些跨国的合作 1099 00:45:57,968 --> 00:46:00,968 就像我们有核不扩散的国际公约一样 1100 00:46:00,968 --> 00:46:03,168 但核不扩散是好检验的 1101 00:46:03,168 --> 00:46:05,168 因为你做核实验天上有微星看着 1102 00:46:05,168 --> 00:46:07,768 但是你在你的计算机里跑着最先进的AI 1103 00:46:07,768 --> 00:46:09,760 实际上很难被看出来 1104 00:46:09,760 --> 00:46:12,720 但这个里面怎么样对于这种我们又未知 1105 00:46:12,720 --> 00:46:15,680 同时又有可能很大破坏的应用去进行监管 1106 00:46:15,680 --> 00:46:17,440 进行安全的保障 1107 00:46:17,440 --> 00:46:19,360 虽然那封公开信传得很广 1108 00:46:19,360 --> 00:46:21,520 我是不赞同公开信里面说的停止研究 1109 00:46:21,520 --> 00:46:23,640 因为我觉得好人停止研究坏人继续干嘛 1110 00:46:23,640 --> 00:46:26,760 而且并且我觉得你只有继续研究才知道它是怎么回事 1111 00:46:26,760 --> 00:46:29,720 但是我觉得确实我们面临的东西 1112 00:46:29,720 --> 00:46:32,000 其实是可能带来很大的破坏的 1113 00:46:32,000 --> 00:46:33,480 并且我悲观的觉得 1114 00:46:33,480 --> 00:46:36,200 可能得产生一两次大的破坏之后 1115 00:46:36,200 --> 00:46:39,200 人们才会真正的去把这个事情提到日程上来 1116 00:46:39,296 --> 00:46:43,256 就跟我们核泄漏之后大家可能才会制定核安全法 1117 00:46:43,256 --> 00:46:45,976 包括数据泄漏之后才会制定数据安全法一样 1118 00:46:45,976 --> 00:46:48,656 我觉得可能得经历一些大的事故 1119 00:46:48,656 --> 00:46:51,056 因为这里面它因为没有实体嘛 1120 00:46:51,056 --> 00:46:52,696 所以往往它会被人低估 1121 00:46:52,696 --> 00:46:54,616 就觉得我们把插头拔了就行了 1122 00:46:54,616 --> 00:46:59,456 但实际上它其实现在的能力已经可能造成一些破坏了 1123 00:46:59,456 --> 00:47:00,296 随便举个例子 1124 00:47:00,296 --> 00:47:02,496 比如说上一次美国大选的时候 1125 00:47:02,496 --> 00:47:08,896 其实就指控有敌对国家通过Facebook投放虚假广告来干扰选举结果 1126 00:47:08,896 --> 00:47:08,928 这种情况下 1127 00:47:08,928 --> 00:47:13,328 你想现在的大语言模型是个说服能力可以很强的一个工具 1128 00:47:13,648 --> 00:47:18,768 因为它可以把所有的心理学语言学技巧全部集中起来 1129 00:47:18,928 --> 00:47:21,648 调动全部的这种知识、语料、逻辑 1130 00:47:21,648 --> 00:47:22,848 想去说服一个人 1131 00:47:22,928 --> 00:47:25,368 简单来讲比如说电话诈骗杀猪盘对吧 1132 00:47:25,568 --> 00:47:27,448 现在是比较弱智的骗术 1133 00:47:27,448 --> 00:47:29,248 那以后可能是很强大的骗术 1134 00:47:29,648 --> 00:47:31,128 但是呢进一步的去想 1135 00:47:31,128 --> 00:47:34,448 假设说在一个选举中可以用AI打电话给 1136 00:47:34,448 --> 00:47:36,088 比如说100万个关键选民 1137 00:47:36,088 --> 00:47:37,424 因为其实美国大选 1138 00:47:37,424 --> 00:47:39,864 关键的选民可能就是几万人有研究通过 1139 00:47:39,864 --> 00:47:41,864 因为这几样是都很结果都很紧嘛 1140 00:47:41,864 --> 00:47:42,944 都非常的接近 1141 00:47:43,304 --> 00:47:45,264 那可能我打电话去劝说这100万人 1142 00:47:45,264 --> 00:47:46,704 有一万人改了他的投票 1143 00:47:46,704 --> 00:47:47,944 也许美国总统就变了 1144 00:47:48,344 --> 00:47:50,064 这可能就是非常大的一个变化 1145 00:47:50,464 --> 00:47:52,784 这其实都不用说什么天网啊终结者 1146 00:47:52,784 --> 00:47:53,904 其实就可以说 1147 00:47:54,184 --> 00:47:57,344 人和AI去配合去进行大的破坏 1148 00:47:57,704 --> 00:48:00,184 比如说你看OpenAI的插件系统 1149 00:48:00,344 --> 00:48:03,344 其实是只能够读互联网不能写互联网 1150 00:48:03,472 --> 00:48:05,272 这可能是很重要的安全防范处 1151 00:48:05,272 --> 00:48:07,872 是否则的话每个人都可以生成一堆fake news 1152 00:48:07,872 --> 00:48:09,672 然后直接发到网上去post 1153 00:48:09,912 --> 00:48:12,032 就会发现大量的信息就会充填互联网 1154 00:48:12,032 --> 00:48:15,792 这只是非常简单现有的技术就完全可以做到的事情 1155 00:48:15,792 --> 00:48:20,232 其实你想如果auto gpt这样的应用去调一个发消息的API 1156 00:48:20,232 --> 00:48:22,032 或者一个发内容的一个API 1157 00:48:22,032 --> 00:48:25,392 它完全可以不知疲倦的生成真假难辨的虚假内容 1158 00:48:25,392 --> 00:48:26,712 去填塞整个互联网 1159 00:48:26,912 --> 00:48:29,432 那假设你说用这个对一个人进行诽谤 1160 00:48:29,432 --> 00:48:31,392 或者制造一些虚假的信息 1161 00:48:31,392 --> 00:48:32,672 那岂不是很容易 1162 00:48:32,752 --> 00:48:36,672 这些我们都不谈到说什么AI对人类要什么消灭人的那些 1163 00:48:36,672 --> 00:48:38,712 我觉得那些还是属于偏科幻领域的 1164 00:48:38,712 --> 00:48:41,312 但是在目前它是个强大的语言工具 1165 00:48:41,312 --> 00:48:46,952 而我们又很缺乏对于一个看似形式很完善的谎言的识别能力 1166 00:48:46,952 --> 00:48:48,912 所以这其实是很危险的 1167 00:48:48,912 --> 00:48:53,272 你怎么看马斯克一边主张叫停对大模型的研究 1168 00:48:53,272 --> 00:48:56,432 然后另一边又自己去做一个这样的事儿 1169 00:48:56,432 --> 00:48:59,392 马斯克是一个非常think loud的人 1170 00:48:59,392 --> 00:49:02,384 他是把自己的想法会不加修饰地直接说出来 1171 00:49:02,384 --> 00:49:06,984 包括我听说也有一些openai的早期支持者对于openai现在变成了closea i 1172 00:49:06,984 --> 00:49:09,544 还是有一些看法和意见的 1173 00:49:09,544 --> 00:49:10,584 closeai 1174 00:49:10,584 --> 00:49:11,864 就是说他没有开源嘛 1175 00:49:11,864 --> 00:49:13,584 对openai不open 1176 00:49:13,584 --> 00:49:14,464 对他不open 1177 00:49:14,464 --> 00:49:16,184 听说是会有些意见的 1178 00:49:16,184 --> 00:49:20,024 但伊隆马斯克肯定是一个最直接不仅要说出来我还要干的人 1179 00:49:20,024 --> 00:49:24,544 那有的人可能不支持说去用别的方式去把这老股卖了呀之类的 1180 00:49:24,544 --> 00:49:26,824 我觉得呢会有个道理啊 1181 00:49:26,824 --> 00:49:29,824 就是我觉得openai说这个技术太危险了 1182 00:49:29,824 --> 00:49:30,832 所以我要 1183 00:49:30,832 --> 00:49:32,592 不能让它开源我觉得也是对的 1184 00:49:32,592 --> 00:49:34,552 因为开源的时候 1185 00:49:34,552 --> 00:49:38,552 我觉得比较适合于这种对它的潜在风险 1186 00:49:38,552 --> 00:49:40,952 已经有个大概概念的一个领域 1187 00:49:40,952 --> 00:49:43,152 在现在对于GBT是这么强大的系统 1188 00:49:43,152 --> 00:49:45,712 如果你连它的能力我们都没有认识清楚的话 1189 00:49:45,712 --> 00:49:48,792 贸然开源可能确实是有很大的风险 1190 00:49:48,792 --> 00:49:49,872 但另外一方面呢 1191 00:49:49,872 --> 00:49:51,752 我觉得也有很多商业意义上 1192 00:49:51,752 --> 00:49:54,352 或者是舆论意义上的这种竞争 1193 00:49:54,352 --> 00:49:56,352 这种吵吵嚷嚷总是有很多的 1194 00:49:56,352 --> 00:49:57,744 这里面关键还是说 1195 00:49:57,744 --> 00:49:59,504 本质上我是比较相信开源的 1196 00:49:59,504 --> 00:50:01,464 但是我觉得肯定不是从一开始就开源 1197 00:50:01,904 --> 00:50:03,784 可能还是我们要对它有更多的了解 1198 00:50:04,264 --> 00:50:07,384 至少我们知道怎么防御之后开源我觉得会比较好 1199 00:50:07,664 --> 00:50:10,304 我觉得OpenAI的股权设置也很有意思 1200 00:50:10,304 --> 00:50:14,384 Sam本人他其实是没有任何OpenAI的股权的 1201 00:50:14,384 --> 00:50:16,304 如果我没有记错的话应该是零股权 1202 00:50:16,584 --> 00:50:20,264 他们的几个科学家像Elia还有那个叫Greg Brockman 1203 00:50:20,544 --> 00:50:22,464 其实主要的股权是给这些科学家的 1204 00:50:22,664 --> 00:50:25,544 他的公司设置最开始也是从非盈利息公司 1205 00:50:25,712 --> 00:50:28,992 後面是在非盈利下面又設了一個盈利性公司 1206 00:50:28,992 --> 00:50:30,312 如果我沒有記錯的話 1207 00:50:30,312 --> 00:50:32,712 他盈利性那一部分如果有股權 1208 00:50:32,712 --> 00:50:34,192 就是有財務回報的話 1209 00:50:34,192 --> 00:50:38,032 那麼他在董事會上他的投票權是沒有的 1210 00:50:38,032 --> 00:50:41,792 但是Sam選擇了不要錢,要投票權 1211 00:50:41,792 --> 00:50:45,392 我是在想為什麼他要去做這樣一種設置 1212 00:50:45,392 --> 00:50:48,592 是不是說未來就比如說要實現AGI 1213 00:50:48,592 --> 00:50:52,112 他前面還是要忍受很長時間很久的不盈利 1214 00:50:52,304 --> 00:50:54,624 然後去做到他最終的那個目標的 1215 00:50:54,624 --> 00:50:57,104 他很怕這個事情被商業所帶歪 1216 00:50:57,704 --> 00:50:59,264 我們這都是局外人 1217 00:50:59,264 --> 00:51:01,104 甚至都不是很接近的局外人 1218 00:51:01,104 --> 00:51:02,944 只有去從他表面去看 1219 00:51:03,544 --> 00:51:04,704 其實他提到了一點 1220 00:51:04,704 --> 00:51:07,504 就是說微軟現在有49%的收益權 1221 00:51:07,504 --> 00:51:08,504 我可以給你賺錢 1222 00:51:08,504 --> 00:51:09,704 但你擁有的是收益權 1223 00:51:09,704 --> 00:51:10,784 你不能擁有控制權 1224 00:51:10,784 --> 00:51:13,464 因為他們從一開始就本質上的去相信 1225 00:51:13,464 --> 00:51:14,704 這樣的技術很危險 1226 00:51:14,704 --> 00:51:16,704 需要得到有效的監管和控制 1227 00:51:16,704 --> 00:51:19,144 不能夠落入邪惡的大公司手裡 1228 00:51:19,328 --> 00:51:22,568 但是呢又沒辦法 因為大公司有錢能夠幫助他們去開發 1229 00:51:22,568 --> 00:51:26,808 所以才定下來這種收益和控制分開的這樣一個協定 1230 00:51:26,808 --> 00:51:29,848 然後才有你賺錢你就不能投票的這種邏輯 1231 00:51:29,848 --> 00:51:32,248 就是投票權和賺錢你只能選一個 1232 00:51:32,248 --> 00:51:35,208 我還是挺相信這一點的 說實話 1233 00:51:35,208 --> 00:51:37,448 我是覺得這是一個很誠懇的一個表達 1234 00:51:37,448 --> 00:51:39,048 也是一個很美國式的 1235 00:51:39,048 --> 00:51:40,408 如果把這個話說清楚 1236 00:51:40,408 --> 00:51:42,848 你要麼賺錢 要麼有控制 你只能選一個 1237 00:51:42,848 --> 00:51:44,888 我覺得其實是一個很有意思的設定 1238 00:51:44,888 --> 00:51:48,368 open edge開始的時候它能夠吸引很多優秀人才 1239 00:51:48,368 --> 00:51:49,312 就是因為 1240 00:51:49,312 --> 00:51:52,952 它不是一個在corporate裏面你需要去 1241 00:51:52,952 --> 00:51:56,352 完成一些比如說讓更多人看廣告這樣的事情 1242 00:51:56,352 --> 00:51:58,512 但同時呢它有很多捐贈 1243 00:51:58,512 --> 00:52:00,912 所以說你還是可以過上不錯的生活 1244 00:52:00,912 --> 00:52:03,672 但到後面確實OpenAI自己需要很多錢 1245 00:52:03,672 --> 00:52:05,872 同時這些員工人也變多了 1246 00:52:05,872 --> 00:52:07,152 也需要更多的激勵 1247 00:52:07,152 --> 00:52:09,512 所以後面變成了一家公司 1248 00:52:09,512 --> 00:52:13,512 但是它還是要解決公司做大了被資本裹挾的這個問題 1249 00:52:13,512 --> 00:52:16,312 所以我是覺得這個解決方案還蠻有意思的 1250 00:52:16,448 --> 00:52:19,368 但是也是需要真的有非常有vision的人 1251 00:52:19,368 --> 00:52:22,528 而且有實力去說服別人的人才能達成這麼個方案 1252 00:52:22,528 --> 00:52:24,728 否則對微軟來講我花了這麼多錢 1253 00:52:24,728 --> 00:52:25,728 當然我也賺很多錢 1254 00:52:25,728 --> 00:52:27,288 但是最後我沒有得到的平安 1255 00:52:27,288 --> 00:52:29,248 這其實也是一個常理來講 1256 00:52:29,248 --> 00:52:31,168 不一定能被所有人接受的方案 1257 00:52:31,608 --> 00:52:34,888 因為你們現在其實投大模型也投應用層啊 1258 00:52:34,888 --> 00:52:36,808 就我很好奇從投資的角度 1259 00:52:37,048 --> 00:52:39,928 你會怎麼去判斷一個項目甚至是一個人 1260 00:52:39,928 --> 00:52:41,248 他是不是值得你投的 1261 00:52:41,248 --> 00:52:44,808 我記得廣密當時在朋友圈發了一條文字 1262 00:52:44,808 --> 00:52:45,608 他就說 1263 00:52:45,632 --> 00:52:48,232 中國什麽樣的人能做出openai 1264 00:52:48,232 --> 00:52:51,832 我不知道你們怎麽看這個人需要具備哪些素質 1265 00:52:51,832 --> 00:52:57,032 其實我覺得做openai和做其他的公司需要的一些底層能力 1266 00:52:57,032 --> 00:52:58,832 我們一直認為是類似的 1267 00:52:58,832 --> 00:53:01,432 比如說我們一直說創業者的一些基礎能力 1268 00:53:01,432 --> 00:53:04,512 比如說學習力、領導力、創新力、意志力 1269 00:53:04,512 --> 00:53:06,312 我覺得這些是比較普世的 1270 00:53:06,312 --> 00:53:08,712 openai有它的歷史背景 1271 00:53:08,712 --> 00:53:12,312 有它的成長的國家和市場環境 1272 00:53:12,312 --> 00:53:15,312 第一個去做和第二個做也不一樣 1273 00:53:15,312 --> 00:53:15,360 我們要做的是創新 1274 00:53:15,360 --> 00:53:17,800 第一個可能需要很強的探索能力 1275 00:53:17,800 --> 00:53:20,160 但第二個可能往往需要是執行力 1276 00:53:20,160 --> 00:53:22,760 所以我覺得不宜直接去類比 1277 00:53:22,760 --> 00:53:26,160 但是我覺得OpenAI幾個人的搭配確實是非常厲害 1278 00:53:26,160 --> 00:53:29,680 每個人在自己應該做的事情上都是世界頂級的 1279 00:53:29,680 --> 00:53:33,680 而且其實我當時翻譯過一篇Grog Brockman的文章 1280 00:53:33,680 --> 00:53:35,760 他其實90%的時間都在寫代碼 1281 00:53:35,760 --> 00:53:38,040 這個事情我覺得不只是說他喜歡寫代碼 1282 00:53:38,040 --> 00:53:38,960 或者代碼寫得好 1283 00:53:38,960 --> 00:53:42,960 是說在這種很多事情都不確定的時候 1284 00:53:43,088 --> 00:53:46,408 組織裏面有一個非常有話語權 1285 00:53:46,408 --> 00:53:48,008 並且又非常hands on 1286 00:53:48,008 --> 00:53:52,888 知道每一個環節具體在做什麽的人是很重要的 1287 00:53:52,888 --> 00:53:54,888 因為很多時候當一個這樣的公司 1288 00:53:54,888 --> 00:53:56,128 是幾百億美金了 1289 00:53:56,128 --> 00:53:57,328 然後組織大了 1290 00:53:57,328 --> 00:53:59,328 可能他就變成了一個cto 1291 00:53:59,328 --> 00:54:01,248 或者說什麽這樣一個角色 1292 00:54:01,248 --> 00:54:02,408 那就會遠離一線 1293 00:54:02,408 --> 00:54:04,488 但是那種情況下往往是 1294 00:54:04,488 --> 00:54:06,208 如果你的業務已經表清楚了 1295 00:54:06,320 --> 00:54:07,480 大家該幹嘛是表清楚 1296 00:54:07,480 --> 00:54:11,040 但現在很多時候還是這一個學習研究探索的階段 1297 00:54:11,040 --> 00:54:13,160 這個時候一個人會的東西 1298 00:54:13,160 --> 00:54:15,680 牽涉到了領域多牽涉到團隊多 1299 00:54:15,680 --> 00:54:16,960 其實是很有幫助的 1300 00:54:17,240 --> 00:54:20,520 所以這其實都是叫做說運氣也好 1301 00:54:20,520 --> 00:54:22,160 或者說是有益設定也好 1302 00:54:22,160 --> 00:54:24,240 這還是挺厲害的一些設定的 1303 00:54:24,600 --> 00:54:27,120 但是未必中國的也是要一模一樣的搭配 1304 00:54:27,120 --> 00:54:27,600 對吧 1305 00:54:27,680 --> 00:54:29,640 比如說有技術背景的人當CEO的 1306 00:54:29,640 --> 00:54:32,480 也有老王這種商業業務背景的人當CEO的 1307 00:54:32,480 --> 00:54:33,200 我覺得都有 1308 00:54:33,472 --> 00:54:37,112 我們只能說創業呢它永遠無法是一個完美的一副牌 1309 00:54:37,112 --> 00:54:39,312 或者說哪怕你有看上去完美的一副牌 1310 00:54:39,312 --> 00:54:40,632 你也未必能打得完美 1311 00:54:40,632 --> 00:54:43,552 所以我覺得還是一有什麼牌然後去把它打好 1312 00:54:43,552 --> 00:54:45,312 你還有什麼要補充的嗎 1313 00:54:45,312 --> 00:54:49,832 首先我覺得AI這一波跟之前的元宇宙也好 1314 00:54:49,832 --> 00:54:52,992 Web3也好這種大家覺得很有泡沫的浪潮 1315 00:54:52,992 --> 00:54:54,992 我覺得還有些不太一樣的地方 1316 00:54:54,992 --> 00:54:57,152 首先任何科技進步都有很多泡沫 1317 00:54:57,152 --> 00:54:58,272 這個是肯定的 1318 00:54:58,272 --> 00:55:00,272 沒有泡沫的地方也不會有啤酒 1319 00:55:00,272 --> 00:55:02,672 但是呢我覺得判斷一個事情是不是 1320 00:55:02,704 --> 00:55:05,424 只有泡沫或者說泡沫上大多數呢 需要看 1321 00:55:05,424 --> 00:55:10,624 它是不是真的為主流的普通的用戶提供了很直接的價值 1322 00:55:10,624 --> 00:55:14,824 是不是真的是我因為要用這個技術所以我去用 1323 00:55:14,824 --> 00:55:18,344 還是說我能夠賺錢 或者說我聽說別人說未來很有用 1324 00:55:18,344 --> 00:55:20,424 還是現在立刻就有用 從這點來講 1325 00:55:20,424 --> 00:55:22,784 我覺得現在我們看到大圓模型為代表的 1326 00:55:22,784 --> 00:55:24,664 包括說生成式的AI 1327 00:55:24,768 --> 00:55:25,968 不管是文字還是圖片 1328 00:55:25,968 --> 00:55:29,408 是真真正正對普通的主流用戶群體 1329 00:55:29,408 --> 00:55:32,128 實在產生價值門檻也比較低 1330 00:55:32,128 --> 00:55:34,408 不管是從成本還是使用的難度來講 1331 00:55:34,408 --> 00:55:36,168 都比較低的一種技術 1332 00:55:36,168 --> 00:55:38,728 比起之前的一些被炒得很熱的 1333 00:55:38,728 --> 00:55:40,568 但是實際應用場景比較缺乏 1334 00:55:40,568 --> 00:55:42,368 用起來又比較難用的技術來講 1335 00:55:42,368 --> 00:55:44,488 我覺得還是有很大的區別的 1336 00:55:44,488 --> 00:55:46,368 所以我首先認為它是一個 1337 00:55:46,368 --> 00:55:48,128 雖然也是有很多泡沫 1338 00:55:48,128 --> 00:55:49,288 很多喧囂在裏面 1339 00:55:49,288 --> 00:55:51,528 但是我覺得會有很多啤酒的一個領域 1340 00:55:51,648 --> 00:55:55,528 我覺得可能是我們人類面臨的最大的一次技術革命 1341 00:55:55,528 --> 00:55:57,528 因為最本質的一點是說 1342 00:55:57,528 --> 00:56:01,488 原來我們所有的技術其實都在改進我們使用的工具 1343 00:56:01,488 --> 00:56:04,648 而這次是第一次用工具的這一邊 1344 00:56:04,648 --> 00:56:06,248 其實發生了變化 1345 00:56:06,248 --> 00:56:10,288 並且這個變化可能是比我們要更強大的一個存在 1346 00:56:10,288 --> 00:56:15,088 這個其實我覺得會在社會學、心理學等各個方面產生很重大的影響 1347 00:56:15,088 --> 00:56:18,688 因為它是發生在數字世界的 1348 00:56:18,912 --> 00:56:21,592 我們過去幾十年甚至上百年 1349 00:56:21,592 --> 00:56:25,872 我們往往在不斷地低估數字世界的變化速度 1350 00:56:25,872 --> 00:56:28,032 而高估物理世界的變化速度 1351 00:56:28,032 --> 00:56:31,192 比如說我們原來覺得有終結者terminator 1352 00:56:31,192 --> 00:56:33,912 結果現在我們的AI可能已經快到那個程度了 1353 00:56:33,912 --> 00:56:35,232 但機器人還差很遠 1354 00:56:35,232 --> 00:56:37,992 數字世界的迭代是快的 1355 00:56:37,992 --> 00:56:39,872 成本下降是快的 1356 00:56:39,872 --> 00:56:44,752 那麼現在我們看到的很多像AutoGPT這樣的雛形 1357 00:56:44,752 --> 00:56:47,712 可能三五年之後就會變得完全不一樣 1358 00:56:47,760 --> 00:56:49,760 會完善成熟很多 1359 00:56:49,760 --> 00:56:53,040 所以在這過程中我覺得要保持開放心態 1360 00:56:53,040 --> 00:56:56,600 然後很重要一點是在一個技術革命的早期 1361 00:56:56,600 --> 00:56:58,840 去預測未來基本上都是錯的 1362 00:56:58,840 --> 00:57:02,080 所以現在不管是我也好還是誰也好 1363 00:57:02,080 --> 00:57:03,440 我覺得講了很多話呢 1364 00:57:03,440 --> 00:57:05,320 我覺得你可以認為第一都是錯的 1365 00:57:05,320 --> 00:57:08,720 第二它的實現的路徑和結果可能都完全不一樣 1366 00:57:08,720 --> 00:57:10,432 因為試想2010年的時候 1367 00:57:10,432 --> 00:57:12,672 移動互聯網那個時候其實已經開始了 1368 00:57:12,672 --> 00:57:15,712 然後移動互聯網跟互聯網比其實也差不太多 1369 00:57:15,712 --> 00:57:19,632 但如果你在2010年你預測2023年的移動互聯網贏家 1370 00:57:19,632 --> 00:57:25,232 你會不會想到字節想不到快手小紅書拼多多美團滴滴uber 1371 00:57:25,232 --> 00:57:27,032 我覺得是很難很難的 1372 00:57:27,032 --> 00:57:29,072 那麽如果移動互聯網都這麽難 1373 00:57:29,072 --> 00:57:30,432 那AI我覺得就更難 1374 00:57:30,432 --> 00:57:34,192 有人說大模型會吞噬要應用的空間 1375 00:57:34,192 --> 00:57:37,192 也許有人說開源的會戰勝閉源的或者什麽怎麽樣 1376 00:57:37,192 --> 00:57:37,712 我覺得 1377 00:57:37,808 --> 00:57:41,688 我們一定要記住這是一個大部分人就只接觸了幾個月的技術 1378 00:57:41,688 --> 00:57:44,848 所以這個時候的很多預計 我覺得看看它的道理是什麽 1379 00:57:44,848 --> 00:57:48,208 但不用特別在意它的精確度 1380 00:57:48,208 --> 00:57:51,808 因為這個時候開始去做 尤其是對年輕人來講 1381 00:57:51,808 --> 00:57:55,368 早點去投身其中去嘗試去探索 1382 00:57:55,368 --> 00:57:57,168 其實是代表命運最好的方式 1383 00:57:57,440 --> 00:58:01,640 因為我在過去幾年經常聽人說80後很幸運對吧 1384 00:58:01,640 --> 00:58:04,120 像我們80後趕上了互聯網所以怎麽怎麽樣 1385 00:58:04,120 --> 00:58:06,760 但我覺得以後20年之後大家會說00後很幸運 1386 00:58:06,760 --> 00:58:09,280 因為趕上了AGI的Spark誕生的時候 1387 00:58:09,280 --> 00:58:12,000 在這個時候我們因為是做天使投資嘛 1388 00:58:12,000 --> 00:58:14,720 而且我們相信當技術比較成熟的時候 1389 00:58:14,720 --> 00:58:16,960 有利於連續創業者這些老司機們 1390 00:58:16,960 --> 00:58:18,960 但是技術比較新的時候呢 1391 00:58:18,960 --> 00:58:21,200 是有益於年輕人這些小天才們 1392 00:58:21,200 --> 00:58:24,160 這些年輕人呢他們一般都是年輕有衝勁 1393 00:58:24,160 --> 00:58:27,040 對這個技術很早就喜歡很早就感興趣 1394 00:58:27,040 --> 00:58:27,152 所以我相信未來的技術是會有益的 1395 00:58:27,152 --> 00:58:30,232 自己用的很多並且具備很好的知性能力 1396 00:58:30,232 --> 00:58:31,952 和國際化視野的年輕人 1397 00:58:31,952 --> 00:58:34,552 所以我們也是非常希望能夠多多尋找 1398 00:58:34,552 --> 00:58:35,752 在 AI 這個領域 1399 00:58:35,752 --> 00:58:37,952 不管你是要做比較底層的模型 1400 00:58:37,952 --> 00:58:40,152 或者中間層或者是做應用 1401 00:58:40,152 --> 00:58:42,752 我們都希望跟大家多多交流多多合作 1402 00:58:42,752 --> 00:58:44,432 好的 謝謝宇森 1403 00:58:44,432 --> 00:58:45,632 好的 謝謝 1404 00:58:45,632 --> 00:58:46,952 這就是我們今天的節目 1405 00:58:46,952 --> 00:58:48,392 如果大家喜歡我們的節目 1406 00:58:48,392 --> 00:58:51,552 或者大家對大模型有什麽樣的想法 1407 00:58:51,552 --> 00:58:53,832 可以在我們的評論區留言給我們 1408 00:58:53,936 --> 00:58:57,256 中國的聽眾可以通過蘋果播客小宇宙 1409 00:58:57,256 --> 00:59:02,136 喜馬拉雅 星庭FM 勵志FM 網易語音音樂 QQ音樂來關注我們 1410 00:59:02,136 --> 00:59:05,736 海外的聽眾可以通過Apple Podcast Google Podcast 1411 00:59:05,736 --> 00:59:08,456 Spotify 還有Amazon Music來收聽我們 1412 00:59:08,456 --> 00:59:10,456 感謝大家的收聽 謝謝
沒有留言:
張貼留言