英特爾,為啥?

2024-11-11 01:38:58 2

英特爾近期需要痛苦的事情實在太多太多了,一方面代工業務做不起來,另一方面AI業務也不如預期,資料中心市場同時面臨AMD和Arm的進攻,就連它引以為傲的消費市場,也出了一點小小的麻煩。

在2024年第三季度財報釋出後,英特爾執行長帕特·基辛格(Pat Gelsinger)表示,近期英特爾所推出的Lunar Lake架構被設計為一個小眾、一次性的產品,沒有直接繼任者。在財報電話會議中,他解釋說,採用外部製程節點以及LPDDR5X記憶體整合到封裝中的複雜性,導致了低利潤率,這影響了英特爾未來產品線的決策。

根據基辛格的說法,即將推出的Panther Lake CPU將有超過70%的部分由英特爾自己的晶圓廠製造,並且將是第一款採用英特爾18A製程節點的客戶端CPU,該產品計劃在2025年下半年釋出,且將不包含封裝記憶體,而作為Panther Lake繼任者的Nova Lake也不會包含封裝記憶體。

這意味著封裝記憶體只是英特爾處理器歷史中短暫劃過的一道流星,剛出生不到兩個月就被宣判了死刑,讓人為之惋惜之餘,也心生疑問:為什麼要砍掉好不容易才用上的封裝記憶體?

ARM難倒了英特爾

英特爾所代表的x86曾多次迎戰像ARM這樣的精簡指令集對手,最早可以追溯到上個世紀的PowerPC,其曾經以一己之力同IBM、蘋果、摩托羅拉這三者展開爭鬥,並最終取得了輝煌的勝利,實現了消費和伺服器市場兩開花,一度壓得其他廠商透不過氣。

但即便是如此強大的x86帝國,依舊無法涵蓋消費電子的方方面面,尤其是在以嵌入式為代表的低功耗領域,但有意思的事情來了,ARM似乎就是為了這方面而生的。

最早的ARM處理器起源於Acorn代號為Acorn RISC的專案,由兩位來自劍橋大學的才華橫溢的電腦科學家Sophie Wilson和Steve Furber在資源極度有限的情況下為設計了一款Acorn 自己的 32 位微處理器。

ARM1的結構非常簡單,基於 808 行 Basic 語言建立,僅有個25,000電晶體,甚至沒有乘法部件,引用 Sophie 在一次電報採訪中的話:“我們透過事先非常非常仔細地思考事情來實現這一點”,儘管在當時並沒有引起太大反響,但卻在英國保留了一枚處理器的火種。

不過與當時最火的386處理器不同的是,ARM處理器一開始的設計理念是low-cost, low-power和high- performance,這顯然和移動市場不謀而合,儘管當時還未發展出真正意義上的移動市場。

幾年後,蘋果似乎看到了ARM的潛力,和Acorn以及VLSI共同出資建立了ARM。蘋果當時正在為代號為牛頓的專案尋找低功耗處理器,這一專案的終極目標是打造地球上第一個平板電腦。

只可惜,牛頓專案過於超前,打造出來的平板電腦和現在相比,效能過於弱小,很快就宣告了失敗,但ARM並未從此一蹶不振,反而藉由這一次失敗,尋得了一片更廣闊的天空。

1993年至1995年,Cirrus Logic、德州儀器、諾基亞、夏普、三星和 NEC等公司、先後加入ARM陣營,透過合作,ARM發明了16位的Thumb指令集,也真正意義上建立了基於ARM的SoC商業模式,同時還迎來了公司成立以來最重要的一顆處理器核心——ARM7。ARM7使用的Die尺寸是80486的十六分之一,售價僅為50美金左右,較小的Die尺寸使得ARM7處理器獲得了較低功耗,適合手持式應用。

為什麼這麼多公司,包括已經生產自己的晶片的大型電子公司,都想與 ARM 簽約?部分原因是成本優勢——ARM 許可證並不昂貴,而且肯定比花數年時間僱傭數百名工程師從頭開始設計新晶片要便宜,而另一部分原因是 Sophie Wilson 和 Steve Furber 創造的技術遺產。ARM 晶片製造速度快、簡單,而且功耗低。

此外,ARM 還有另一張王牌:它不僅僅是一家晶片製造公司。當 ARM 與其他公司合作時,它就成為了合作伙伴,幫助設計可根據其他公司特定需求定製的解決方案,許多公司透過與ARM的合作,成功研發出了符合自身需求的處理器,進而取得了商業成功。

ARM的低功耗與精簡,以及實惠的授權費用,讓它在英特爾處理器之外的空白站穩了腳跟。

不過,ARM處理器真正迎來自己的成功,還要等到蘋果之後的四款產品線:iPod、iPhone、iPad和ARM Mac。

其中最值得關注也是最有意思的,就是初代iPhone所搭載的ARM處理器。

喬布斯曾問過英特爾的CEO保羅·歐德寧是否有興趣競標,為蘋果即將推出的手機制造晶片。當時,這家制造業巨頭正因桌面x86 CPU的銷售勢頭強勁,英特爾還擁有一個基於ARM的業務,即1998年從數字裝置公司(DEC)收購的XScale,因此,英特爾本來可以輕鬆滿足蘋果的需求。

但是歐德寧拒絕了這個提議。他計算出蘋果願意支付的每個CPU的最高價格低於英特爾的生產成本,而且他並不確定蘋果的手機會有很高的銷量。此外,他對支援XScale業務感到擔憂,特別是在英特爾正在研發低功耗的x86版本Atom的情況下。於是,他決定加碼x86,並在2006年出售了XScale部門。

在英特爾拒絕這個合作機會後,蘋果轉向了三星,其同意為蘋果即將推出的手機制造一款強大的新ARM晶片。它就是S5L8900,這是一款SoC(系統級晶片),採用ARM11核心,執行頻率(降頻)為412 MHz,配備128MB記憶體,最高16GB儲存空間,並整合了PowerVR MBX Lite 3D圖形處理器。這款處理器讓人想起了1991年的ARM 250“Archimedes on a chip”,但它並不是臺式電腦,而是一部手機——一部革命性的手機。

也正是從這一年開始,ARM憑藉著自己低功耗的特性,迅速佔領了手機市場,並在隨後的iPad釋出後,順勢佔領平板電腦市場,而被英特爾寄予眾望的Atom卻不堪一擊,市場份額很快就降至了冰點。

移動市場的失守已經是讓英特爾備受煎熬了,蘋果之後還在PC市場對英特爾和x86發起了進攻:2020年11月,蘋果正式釋出M1晶片,同時宣佈了搭載了該晶片的MacBook,並宣佈Mac在未來逐步放棄英特爾的x86平臺,逐步轉向蘋果自研的ARM平臺。

而M1晶片的最大優勢,也是ARM從80年代延續至今的優勢,就是低功耗。

低功耗並不意味著低效能,而在相同的效能下消耗更少的電量,或者在消耗相同電量的情況下,達成更高的效能。在蘋果2020年展示的PPT當中,M1的 CPU 功耗峰值約為 18W。而作為對比的x86晶片的峰值功耗則在 35-40W 範圍內,而結論是M1在低核心頻率下實現了更高效能:在峰值到峰值時,M1 的效能比x86產品提升了約 40%,同時功耗僅為其 40%。

英特爾在它的幾十年發展歷史中從未受到過如此沉重的打擊。

破除ARM高效神話

相信很多人都有過這樣的一個疑問:在同效能下,x86一定比ARM功耗更高嗎?

答案自然是否定的,沒有天生低功耗的架構,ARM現在的低功耗也是多年來持續導向和最佳化的結果,x86並非沒有低功耗的嘗試,例如前文中提到過的Atom,就是英特爾用來對標ARM低功耗的一條產品線。

多年來,在蘋果和高通等公司不懈努力下,ARM架構的高效被打造成了一個神話,乃至於許多消費者都形成了這樣的固有印象,但英特爾決定自己來破除這個神話。

在今年6月的Computex前夕,英特爾在臺北舉辦了Intel技術巡展(Intel Tech Tour),詳細介紹了其即將推出的代號為Lunar Lake的移動處理器。新晶片旨在實現多種目標,從更高效能到裝置上的人工智慧。英特爾還特別提到,他們希望“打破x86無法像ARM一樣高效的神話”。

在活動中,英特爾並未迴避關於ARM晶片的討論,也沒有試圖忽視這個“房間裡的大象”,高通和蘋果正在不斷侵蝕原本屬於英特爾和x86的市場份額,英特爾要怎麼做才能挽回十幾年以來的陳規陋見呢?

首先需要明確的是,x86是一種極其強大的架構。x86處理器基於複雜指令集計算(CISC)架構,包含更多複雜的指令,這些指令消耗更多功率。有些x86指令甚至需要多個週期來執行,這會增加功耗但降低效率。

由於擁有更復雜的指令,x86還可能具有更復雜的流水線。例如,x86使用的是可變長度的指令集,指令長度從1位元組到15位元組不等,而ARM的指令長度是固定的(儘管Thumb指令可以是可變的)。由於指令複雜性,分支預測在x86處理器中也顯得尤為重要,因為這些指令通常會被轉換成更簡單的類似RISC的微操作。這些分支預測器非常先進,因為錯誤預測和隨後的停滯成本可能比在ARM架構中的停滯成本大得多。

此外,ARM每條指令所需的電晶體較少,這也是其功耗需求較低的原因之一。這些只是ARM實現高效性的一些方法,但兩種架構之間還有大量的細微差異,使得ARM在效率上佔據優勢。然而,較少的每指令電晶體數也意味著複雜性降低,而這正是x86作為強大架構的閃光點,能夠滿足巨大的計算需求。

為了使x86能夠像ARM一樣高效,英特爾需要做大量工作。首先,從功耗角度來看,x86的指令集本身就很“昂貴”,因為在x86上指令的取指、解碼和執行週期比ARM更復雜。將簡單的指令組合成一個單獨的微操作也有幫助,特別是在減少開銷方面。

相比之下,ARM的RISC架構是一個巨大的優勢,尤其是每條指令在ARM中設計得更快更易執行。ARM還採用固定長度的指令,使得解碼更簡單,而較低位的Thumb指令可以減小程式碼大小,減少所需的記憶體空間。Thumb指令更小,意味著執行時需要的記憶體提取更少,並且更多的指令可以放入處理器的快取中。

此外,ARM晶片通常是更大系統級晶片(SoC)的一部分,而不是透過主機板與計算機其他部分介面的獨立CPU。ARM CPU與記憶體控制器、GPU和計算機硬體的其他關鍵部件的直接連線也可以帶來效率提升。這正是蘋果統一記憶體的運作方式,並且是其卓越電池續航能力的一個原因。

英特爾的實際做法也在相當程度上借鑑了蘋果,讓我們來看看英特爾Lunar Lake架構。

與去年的Meteor Lake架構的Core Ultra 100系列晶片類似,Lunar Lake也是透過英特爾的Foveros技術將多顆小晶片封裝在一起。在Meteor Lake中,Intel使用Foveros技術組合了不同公司製造的多個矽晶片——英特爾製造了主CPU核心所在的計算單元,而臺積電則負責圖形、I/O及其他功能模組的製造。

在Lunar Lake中,英特爾仍然使用Foveros技術,即透過一個“基礎單元”作為插入層,使不同的晶片之間能夠進行通訊來連線整個晶片。但是這次CPU、GPU和NPU都被整合在同一個計算單元中,而I/O和其他功能則由平臺控制單元(在之前的英特爾CPU中也稱為PCH,平臺控制集線器)負責。另外還包括一個“填充單元”,僅僅是為了讓最終產品呈矩形。這次計算單元和平臺控制單元都由臺積電製造。

英特爾仍然將其CPU核心分為高效能的E核(Efficiency Core)和高效能的P核(Performance Core),但總體核心數量相較於上一代Core Ultra晶片以及更早的第12和第13代Core晶片有所減少。

Lunar Lake擁有四個E核和四個P核,這種配置在Apple的M系列晶片中較常見,但在英特爾中並不多見。例如,Meteor Lake的Core Ultra 7 155H包含六個P核和總計十個E核;Core i7-1255U則包含兩個P核和八個E核。Intel還移除了P核的超執行緒(Hyperthreading)技術,騰出的矽片空間更適合用於提升單核效能。

英特爾還為Lunar Lake引入了一種新的GPU架構,代號為Battlemage,它也將驅動未來的桌面Arc獨立顯示卡,根據英特爾的說法,整合顯示卡Arc 140V在遊戲中平均比舊的Meteor Lake Arc GPU快31%,比AMD最新的Radeon 890M快16%,具體效能會因遊戲不同而有較大差異。而Arc 130V顯示卡少了一個英特爾的Xe核心(7個,而不是8個),頻率也更低。

計算模組的最後一部分是神經處理單元(NPU),它可以在本地處理一些AI和機器學習任務,英特爾表示,Lunar Lake的NPU在不同型號的晶片中效能介於40到48 TOPS之間,滿足或超過微軟的40 TOPS要求,且整體效能約為Meteor Lake NPU的四倍(11.5 TOPS)。

當然,Lunar Lake最重大的改變還是將記憶體整合在CPU封裝中,而這一點恰恰就是蘋果和高通正在做的。據介紹,Lunar Lake晶片有16GB或32GB記憶體(根據已釋出的型號,型號以8結尾的(例如Core Ultra 7 258V)為32GB,以6結尾的為16GB),這種封裝方式不僅節省了主機板空間,也因為資料的傳輸距離更短而減少了功耗。

在經過這一系列大刀闊斧的改革之後,Lunar Lake最終實現了x86架構下比肩ARM架構的功耗:根據媒體此前的測試,在搭載了258V的華碩Zenbook上,PCMark現代辦公電池續航測試中可持續約16.5小時,而配置相似的155H Zenbook 則僅持續了12小時出頭,這一成績和搭載M3的MacBook非常接近,是近幾年來續航最好的x86架構筆記本之一。

英特爾確實做到了,它用Lunar Lake這柄大錘打破了蘋果和ARM塑造的功耗神話。

壯士斷腕?

但很可惜的是,英特爾在打破神話之後卻選擇了放棄,直接宣告未來的處理器不會使用Lunar Lake這樣的封裝記憶體,再度迴歸傳統的處理器設計。

有意思的是,英特爾在Lunar Lake正式發售的半年前,就決定了後續的Arrow Lake、Nova Lake、Raptor Lake、Twin Lake、Panther Lake與Wildcat Lake等新產品,均不採用Lunar Lake的封裝方式,也就是說Lunar Lake在英特爾內部判了死刑。

為什麼口碑還不錯的Lunar Lake,英特爾自己卻不看好呢?

分析師郭明錤提供了一種觀點,他認為Lunar Lake的誕生有兩個原因,首先是與蘋果的競爭,MacBook採用自研晶片後市佔率提升,英特爾想要證明x86架構也能達到相似能效和續航;

第二個原因則是對微軟Surface改用ARM處理器的回應,微軟2Q24的新款Surface系列全面採用有45 TOPS算力的高通處理器,針對它推出競品。

他表示,雖然英特爾稱Lunar Lake因封裝記憶體稀釋毛利率而失敗,但真正原因是品牌和代工廠商因採用零件彈性降低不利於利潤因而採購意願低、英特爾對DRAM供應商議價能力遠低於蘋果且需要依靠臺積電代工因而不利於成本最佳化、AI PC應用不成熟因而消費者不願意為Lunar Lake買單。

他指出,從Lunar Lake失敗可見,英特爾面臨的挑戰不僅是製程落後,更深層的問題在於產品規劃能力(另一證明為AMD在伺服器的佔有率持續提升),製程技術或許只是表象,導致一連串錯誤產品決策的組織機制可能才是英特爾的核心問題。

郭明錤的看法可能不是完全正確,但他確實指出了英特爾產品線的一個核心問題:混亂。

英特爾的伺服器晶片暫且不做討論,面向消費市場的晶片已經亂成了一團亂麻,試想一下,倘若一個消費者對過往幾年的英特爾處理器續航感到失望,但在Lunar Lake上卻驚喜地獲得了比肩ARM MacBook的續航,但當下一代推出時,這樣優秀的續航表現卻消失不見,消費者內心會作何想法呢?

話說回來,英特爾的18A製程即將量產,但對於它自己的處理器來說,卻並不是什麼好訊息,這一製程目前有且只有英特爾自家會用,尚未敲定任何大客戶,每一次製程升級都像是摸著石頭過河,對比之下,臺積電卻有足夠的客戶來驗證和改良自己的最新制程,愈發凸顯英特爾的尷尬。

英特爾砍掉Lunar Lake的更深層原因,不僅僅是記憶體影響利潤那麼簡單,對於如今的執行長基辛格來說,最頭疼的就是如何做好處理器部門和代工部門之間的平衡,如果處理器部門未來持續選擇臺積電代工,那麼代工部門處境就會更加艱難,但如果處理器部門遲遲得不到最先進的製程技術,那麼不光是伺服器市場,連消費市場也會被競爭對手奪走。

歸根結底,就是一個讓誰吃苦的問題,很顯然,誰都不想過幾天苦日子。

但回想一下,蘋果為了一塊指甲蓋大小的晶片的晶片,又吃了多少苦呢,從摩托羅拉68K到PowerPC,再到英特爾,三度改換門庭,手機晶片也曾一度只能仰人鼻息,看三星的臉色行事,花了幾年匯入臺積電,最終推出自研的M1晶片,其中的坎坷都可以寫成一本血淚史了。

而英特爾如今要吃這一點苦,比起前幾十年的順風順水,又算得了什麼呢?

END

本文標籤