Re: [心得] DS對晶片產業的影響 @ Stock
熱度資訊
先恭祝大家新年快樂,嘶嘶如意~~~ 結論說在前頭 對硬體商尤其是Nvidia,短空長多。 對GG沒啥影響,硬體該用還是用。 某些有能力的代工廠,特別是做工業電腦的,有共同設計經驗的。 有機會吃到。 簡單有力一點可以說 這是AI的 IPHONE時刻 接下來就是發現誰是這個時代的 鴻海跟蘋概股 首先N不是只有顯卡跟伺服顯卡,DS最主要是提供一個更有趣的軟體架構。 他老東家是做AI投資的,對於把算力榨乾,(單一運算分散到算力叢集上的每個點 再回來,調教通訊,跟這種模型並行跟資料並行的它們玩的應該是滿熟練的 還有自己的演算法,基本上這就是有限利用算力的方法。) 某方便來說也算是被逼出來的軟體解,而且這種解法相當符合亞洲填鴨式教育精神。 對N來說,新的軟體架構,會讓他的算力可以有更大的發展,DIGITS如果運作良好 只要四台使用R1 的架構,針對資料做有意義的調整,一間中小型企業,或是稍微敢 花一點有技術能力的自然人就可以擁有一個 自己的地端AI,DIGITS還是可以堆疊的 一台不過定價台幣十萬,還有Jetson,軟體架構進化,跟優化,如果hugging face 上 openR1 專案又驗證順利的話,未來就是百花齊放,跟楊立昆說的一樣,這是開源的 勝利。 我自己本來的預想是 3-5年內 機器人社會會來臨。 現在,應該是三到五年內,稍微有點技術的人都可以做一個自己的賈維斯 而這些又會更加速,機器人,跟AI 還有VR的發展。 科技就是單點突破最可怕 突破以後,各種技術的疊加,加速會沒有辦法估算。 很多人只會想投資,跟地緣政治,但是其實站在人類歷史來看,這次的發展是很有趣的 也很好玩的一點是,這真的是因為民族性不同,所以歐美完全不會這樣思考。 這真的是亞洲的玩法XD 我自己覺得不用擔心算力過剩,這個軟體訓練架構不是只有LLM能用 只是LLM是目前最吸睛(金,各大廠商也最期待變現的,跟替自己臉上貼金(拉高估值 跟股價的原因,但今天DS就像是,超級賽亞人跳樓大拍賣。 所以,才會有急殺,因為你花600,2000訂gpt,我在local 本地端使用模型效果差不多 但是我只需要買兩張或是四張4090,或是50系列,甚至我花一百萬買十台DIGITS 串聯,然後從huggingface 上下載R1架構,用自己整理的資料集來微調或是 租卡訓練更別說,應該沒多久就會有各大廠商,推出自己的基於R1架構模型。 想想就興奮,現在關鍵點在於,針對既有資料數據集的優化,他做了哪些具體的事情 ,還有他使用模型產出的有效回答數據有哪些特殊點。 搞定這兩塊,加上,進入MOE前的有效路由建立,跟基於資料還有模型的叢集分散式運算 算法流變掌握。 AI自由不是難事,當賽道大轉彎的時候,可以說是AI從server 端 轉向PC端的時刻,這時候你還會覺得N家跟GG會GG嗎? 那時候是一個真AIPC年代。 只是堆疊大數據算力中心的會吃虧而已,短期我覺得大家會不再競爭跟狂買。 但是會開始深化,跟縮小,加速軟體架構迭代。 底下比較偏技術,可以不看。 有別於歐美一堆AI模型是從零,訓練到有,DS要白話一點類比的話就是,先拿 別人訓練好的開源武功秘笈,針對這些資料及做特化的批註,精煉一批更準確的 資料,(參考書),然後透過MOE,把大模型拆出很多分門別類地專攻模型,然後開始 不停地自己做模擬考,也使用知識蒸餾,去濃縮跟自我訓練解題,經過精練的考前題庫 模擬考,讓他在回答問題的時候更得心應手,而且他的思維鍊的步驟也經過標記。 一般LLM是接龍這個大家應該都知道了,transfermer 多頭注意力,就專門在處理這個。 DS做法是,他把可能的接下去的詞語都先預設起來,他在處理的時候就可以不用全載入 記憶體跟從頭來過,多頭潛在注意力,還有針對問題,丟給適合的MODEL去解。 加上他有針對性的優化不是每次都是用FP32精度下去做,可見 它們真的走土炮路線而且有能力做了不少次優化,選擇最有效的去運用它們手上有的算力 這一堆架構設計微調,其實都不是太難,比較難地的是思路,當你是算力富翁的時候 你不會想要做這些事情,因為這要反覆折磨自己,但是當你只有有限的資源,你就會去 想各種奇技淫巧,這點真的是很亞洲,有種熟悉感XD 川普說得很好,給美國的AI圈一記當頭棒喝。 這個模式成功,大型AI數據中心就會慢慢成為過去,不再那麼重要,本地化個人化 將會來臨,對軟體來說有硬底子技術的人才,會更搶手,專注做ETL的資料工程師 會崛起,對硬體來說,DIGITS,jetson算是領先,有集成式,可以做得又快又好的 OEM,JDM,EMS 會大大地好。 你不能說他不厲害,他很有趣。 然後對於言論審查,我只能說今天這個軟體架構的思路大於他模型本身跟公司的價值 孔雀開屏的時候不要被教育成只看他的屁眼,而忘記她美麗的羽翼。 p.s.我自己是用一張 4070ti 跑14b 會比線上gpt快,我問她我一般工作 回應良好,我是軟體工程師。我很期待其他間用這個思路下去改造它們自己的開源模型 -- WHY SO SERIOUS???
1F推TaiwanUp: ChatGPT就是iPhone時刻了吧 DeepSeek是iPhone 5C或
01/29 02:34
2F推stocktonty: 不顧道德的殺人機器人遲早誕生 真刺激
01/29 07:44
3F推isaacwu974: 出現,Intel 已完蛋,我們只需要 Pentium II 就夠了
01/29 06:56
4F推allen0080: 而已。
01/29 02:03
5F推TaiwanUp: 鴻蒙時刻
01/29 02:34
6F推isaacwu974: DS出現後NV需求將會下降,這就像在說: Windows 98se
01/29 06:55
7F推allen0080: 你寫這些這邊沒人想知道,大家只想爆V爆A,財富自由
01/29 02:03
8F推asusyang: 推
01/29 06:36
9F推kung1014tw: 推 說明
01/29 05:41
10F推tw00172848: 簡單講就是NV無腦多
01/29 09:46