【PConline雜談】隨著RTX 3080顯卡性能的提升,可以透露更多關于NVIDIA Ampere架構和RTX 30系列顯卡的信息。今天,我們將根據(jù)我們的實測和官方信息,與您一起分析新架構顯卡性能飆升的秘訣。
全新的SM單元設計、升級后的Tensor Core、RT Core、8nm工藝以及NVIDIA Ampere架構上的GDDR6X內(nèi)存,為RTX 30系列顯卡帶來了驚人的性能提升,而面向未來的PCIe 4.0、HDMI 2.1、RTX IO、Reflex等新特性,為NVIDIA下一階段的發(fā)展奠定了良好的基礎。
SM單元再優(yōu)化,CUDA核心翻倍帶動性能暴漲
RTX 3090的性能是TITAN RTX的1.5倍,RTX 3080的性能是RTX 2080的2倍,RTX 3070的性能略高于RTX 2080 Ti和RTX 2070的1.6倍。
CUDA核心數(shù)的計算方法一直是一個SM模塊下的FP32算術單元數(shù)。按照原來的定義方法,一套完整的INT(整數(shù)運算單元)FP(浮點運算單元)組合需要被視為一個處理器單元,但是在目前的應用場景下,絕大多數(shù)運算(比如游戲計算)主要考察的是FP32單元的性能.
Turing架構(左)和Ampere架構(右)SM單元示意圖
所以老黃從費米架構開始,從直接用FP32單元=CUDA核心這樣的計算方式,.就開始使用了,以圖靈為例,每個SM單元包含64個CUDA核,看上圖中帶有FP32的網(wǎng)格就可以統(tǒng)計出64個FP32(4x16)單元。在這一代NVIDIA Ampere架構之后,雖然整體非布局結構類似于圖靈,但中間一組數(shù)據(jù)路徑仍然是全FP32單元設計,但左邊的獨立INT32單元數(shù)據(jù)路徑則變成“FP32+INT32”單元.
每組獨立的FP32單元包含16組FP32 CUDA內(nèi)核,每個時鐘周期可執(zhí)行16條FP32指令,而另一條數(shù)據(jù)路徑包含16個FP32和16個INT32內(nèi)核,每個時鐘周期仍可執(zhí)行多達16條FP32指令。在這種設計下,每個SM單元中的分區(qū)可以選擇每個時鐘周期執(zhí)行32條FP32指令或16條FP32和16條INT32指令。
這意味著在全新的安培架構中,一個SM單元每個時鐘周期最多可以執(zhí)行128條FP32指令,是圖靈架構的兩倍。同時每時鐘周期可執(zhí)行64條FP32指令和64條INT32指令,兼顧了性能和通用性。
RTX 3080核心示意圖,擁有68組SM單元
按照FP32臺=CUDA核心數(shù)的計算方法,配備RTX 3080的68組SM機組中有68*128 FP32臺=8704 FP32臺,與官方標稱CUDA核心數(shù)一致。
但這種方式帶來的CUDA核心的“翻倍”并不直接意味著Ampere架構可以憑借“堆核”將性能翻倍,因為在這種設計下,在執(zhí)行純FP32計算時只能直接將性能翻倍(比如“挖礦”的性能幾乎翻倍)。
在人們比較關注的游戲性能等實際應用中,雖然FP32單元會被調(diào)動更多(浮點運算),但也需要調(diào)用INT32(整數(shù)預算)等其他單元的各種運算,所以在游戲中幾乎不可能實現(xiàn)性能的雙提升。
在NVIDIA官網(wǎng)對Ampere架構的簡要介紹中,新的SM單元帶來了“2x FP32吞吐量”,而不是直接標注兩倍的FP32單元數(shù)量,考慮到字面意思會被曲解。畢竟,在這種架構下,只要執(zhí)行純浮點運算,性能就有可能翻倍。
雖然這種結構無法直接將性能翻倍,但整體計算效率的提升是實實在在的,這也是NVIDIA Ampere GPU在實際應用場景中能夠達到遠圖靈架構性能的核心原因之一。
Tensor Core與RT Core齊升級,4K+光追無壓力
光線追蹤和度學習超級采樣(DLSS)作為RTX 20系列顯卡的兩大主要新技術,共同將游戲的畫質(zhì)和性能提升到了一個新的維度。
RT Core主要影響實時光學跟蹤性能?;趫D靈架構的第一代RT Core可提供高達34T的RT性能,而DLSS技術的處理能力主要由Tensor Core決定。圖靈可提供高達89T的Tensor性能,而傳統(tǒng)SM單元提供11T的FP32計算能力。
Turing架構渲染時間(RTX 2080
Super)專門的光追單元可以大幅提升實時光線渲染能力,在Turing架構的RTX 2080 Super中,渲染同一演示圖像時使用傳統(tǒng)著色器需要51ms,使用RT Core渲染一幀圖像所需的時間僅為19ms,渲染速度提升了2.68倍,而在打開DLSS后,更是渲染速度縮短至13ms,性能表現(xiàn)進一步提高,這兩項技術也為游戲廠商們推出畫面表現(xiàn)更出色的游戲打下基礎。
不過在帶來比傳統(tǒng)的遠超光柵化渲染的光線效果的同時,也對顯卡的性能提出了嚴峻的考驗,即便有DLSS技術的加持,這一代的光追游戲始終差點意思,特別在2K甚至4K等高分辨率下,要么為了流暢關閉光追效果,要么為了光追效果忍受幀數(shù)下降。
而來到NVIDIA Ampere架構中,這三種單元的性能都獲得了顯著提升,SM單元的FP32計算性能提升至30T,提升幅度達到2.7倍;然后是RT Core的RT性能提升至58T,提升幅度是1.7倍;最后是Tensor Core的Tensor性能提升至238T,提升幅度更是高達2.67倍。
NVIDIA Ampere渲染時間(RTX 3080)
硬件上的升級帶來的也是渲染性能的全面提高,在同樣使用RT Core+Tensor Core進行渲染的情況下,RTX 2080 Super需要13ms,而RTX 3080可以將時間縮小至7.5ms,而通過全新的并行處理技術優(yōu)化,SM、RT Core與Tensor Core三大單元可以同時工作,渲染時間更是可以縮短至6.7ms,對比RTX 2080 Super提升高達94%。
而通過游戲實測可知,RTX 3080已經(jīng)能在絕大部分游戲中,滿足4K分辨率+光線追蹤效果拉滿的條件下,維持60FPS以上幀數(shù)的條件,這也意味著,RTX 30系列已經(jīng)實現(xiàn)從“能玩”到“可以玩”4K光追游戲的跨越。
全新8nm工藝加成,芯片整體效能激增
跟競爭對手AMD近年來在制程工藝的大動作不同(從格羅方德的12nm直接提升至臺積電7nm),NVIDIA近年來的工藝提升可謂非?!暗驼{(diào)”,從Pascal(10系列顯卡)的臺積電16nm工藝到Turing(20系列顯卡)的12nm FFN工藝(實際上算是16nm的改良版),制程上的提升并沒有它們的性能提升來的激進。
雖然NVIDIA要在Ampere架構上升級制程工藝基本是早已被確認,5月份發(fā)布GA100核心也使用上了全新的臺積電 7nm工藝,在RTX 30系列顯卡正式發(fā)布前,大家都以為他們將繼續(xù)采用這一工藝,而NVIDIA卻在發(fā)布會上官宣了RTX 30顯卡將使用三星的8nm工藝。
這一工藝雖然是在三星10nm工藝的基礎上改良而來,但是卻為Ampere架構的效能提升立下了汗馬功勞,同時也不得不佩服NVIDIA的芯片設計能力。
圖片來源igor's LAB
采用12nm FFN工藝的RTX 2080Ti(TU102核心)在764mm2的芯片面積內(nèi)裝入了186億個晶體管,而這一代的RTX 3080(GA102核心)卻能在628mm2的芯片面積內(nèi)塞入了280億個晶體管,密度提升幾乎翻倍,但稍遜于采用臺積電7nm工藝的GA100核心(在828mm2的芯片面積下塞入了540億個晶體管).
具體密度上,7nm GA100的6521萬個/mm2>8nm GA102的4458萬個/mm2>12nm的TU 102的2434萬個/mm2,三種工藝帶來的密度差異還是比較明顯的,雖然RTX 30系列沒有用上7nm工藝,但是三星8nm工藝對比臺積電12nm FFN工藝帶來的提升還是非常顯著的。
NVIDIA最終選擇三星8nm工藝可能也有運行頻率上的考量,RTX 3080在擁有比RTX 2080Ti翻倍的CUDA核心數(shù)的情況下,仍能獲得更高的Boost核心頻率,而目前的7nm工藝可能還沒法做到這一點,用在超算卡的GA 100則不需要太高的運行頻率,此外,不選擇臺積電7nm工藝可能也有產(chǎn)能方面的考量。
制程工藝的升級還帶來了能效比方便的提升,NVIDIA官方宣稱在同樣的60FPS幀率時,Ampere架構顯卡的能耗比可以達到Turing架構顯卡的1.9倍,要實現(xiàn)同樣的性能表現(xiàn),前者只需120W多點的功耗,而后者則要240W的功耗,并且前者的還溫度低了3°C,噪音也減少了2dB,這個提升還是非常可觀的。
GDDR6X顯存加持,為極致性能保駕護航
RTX 3090和RTX 3080用上了全新的全新的GDDR6X顯存,這也是RTX 30顯卡的性能表現(xiàn)得到大幅提升的重要因素之一,特別是在高分辨率、高光追特效等應用場景下,顯存的容量和帶寬都很容易成為顯卡性能的瓶頸。
尤其是在發(fā)布會演示的8K@60Hz+全光追特效這種極限應用場景下,性能更加強悍的GDDR6X顯存可以讓Ampere架構處理器更好地釋放性能。
GDDR6X除了在GDDR6對運行頻率進行超頻,最重要的改進就是首次在顯存上使用了PAM4編碼。
相比傳統(tǒng)的“NRZ”編碼方式,PAM4編碼可以讓顯卡在每個時鐘周期內(nèi)傳輸更多數(shù)據(jù)(從原來的每個時鐘周期發(fā)送兩位二進制數(shù)據(jù),升級為每個時鐘周期發(fā)送四位二進制數(shù)據(jù)),這也讓GDDR6X的最大顯存頻率從GDDR6的16Gb/s提升到21Gb/s,也擁有超過1TB/s(1050MB/s)的理論顯存帶寬上限,這個表現(xiàn)已經(jīng)達到HBM2的1TB/s帶寬的水平。
而在RTX 30系列的實際應用上,目前最強的RTX 3090擁有19.5Gb/s的顯存頻率,顯存帶寬也達到936Gb/s,對比RTX 2080 Ti上的GDDR6帶寬(616Gb/s)更是提高了52%。
GDDR6X顯存除了能在性能上比肩HBM2的水平,也可以在同樣的頻率下實現(xiàn)更高的顯存帶寬,進而降低GDDR6X的成本和能耗,未來應該還會下放到更多消費級顯卡上。
PCIe 4.0+RTX IO 面向未來的新特性
除了上面提到的一些直接給RTX 30系列顯卡帶來性能提升的特性,NVIDIA Ampere架構還擁有許多面向未來的新特新,這些新特新目前可能沒法給消費者提供直觀的使用體驗,卻代表著顯卡市場未來的潛在發(fā)展方向。
首先就是在AMD平臺上已經(jīng)應用多時的PCIe4.0,雖然在去年的RX 5000系列已經(jīng)率先應用在顯卡領域,不過該系列的性能表現(xiàn)完全用不上PCIe4.0x16的帶寬,AMD這邊也沒有推出特定的功能來利用這一優(yōu)勢。
而NVIDIA Ampere架構列在加入對PCIe4.0的支持后,雖然目前的RTX 30系列顯卡在理論性能上仍不能跑滿通道帶寬,在實測環(huán)節(jié)中跟PCIe3.0對比也沒有性能上的差距,但是NVIDIA卻專門準備了RTX IO技術來最大化利用PCIe4.0的超大帶寬。
在傳統(tǒng)的運行方式中,顯卡要渲染圖像,需要經(jīng)過如圖上復雜的路徑:GPU需要通過PCIe通道與CPU進行通訊,并且通過CPU將內(nèi)存中的文件傳輸?shù)斤@存上,再進行讀取和渲染,而內(nèi)存中的游戲文件,也要經(jīng)過CPU從PCIe通道另一端的硬盤進行讀取,數(shù)據(jù)要經(jīng)歷硬盤—>PCIe—>CPU—>內(nèi)存—>CPU—>PCIe-—>GPU-—>顯存的復雜流程。
這個過程頻繁調(diào)用CPU與內(nèi)存,整體效率也不夠高,而且由于硬件的木桶效應,整個流程中的硬件都有機會造成性能瓶頸,而且不能最大化利用PCIe通道的帶寬。
而NVIDA的RTX IO技術,可以讓GPU直接從走PCIe通道的硬盤中直接調(diào)用數(shù)據(jù),既節(jié)省了CPU和內(nèi)存的占用,也大幅提高了傳輸效率,可以更好地發(fā)揮GPU和顯存的性能,搭配PCIe4.0通道的超高帶寬,可以最大化高速PCIe4.0硬盤和GPU的性能表現(xiàn)。
從NVIDIA官方提供的展示DEMO來看,RTX IO技術帶來的傳輸效率提升非常明顯,對比傳統(tǒng)模式下使用PCIe 4.0 SSD和24核線程撕裂者的配置,RTX IO的加載時間只需1.5秒,而前者最快也要5秒,這個表現(xiàn)讓它具備相當出色的應用前景。
不過該技術目前還處于初始階段,未來也得像DLSS、光追技術一樣需要游戲獨立研發(fā)支持,NVIDA這邊也得花費不少成本才能完成研發(fā)和大規(guī)模推廣
HDMI 2.1:為8K游戲鋪路
采用NVIDIA Ampere架構的RTX 30系列顯卡還配備了最新的HDMI2.1顯示出書接口,這一接口專門為8K以上的畫面?zhèn)鬏敹O計,傳輸帶寬從HDMI2.0的18Gbps提升到48Gbps,提升幅度達到2.67倍,最大可傳輸10K@120FPS的視頻訊號,而且能完美支持HDR、增強音頻回程通道eARC、可變刷新率VRR、快速幀傳輸QFT、自動低延遲模式ALLM等特性。
不過目前要享受8K游戲的魅力,除了得擁有該接口外,還需要用上RTX 3090以上級別顯卡、HDMI 2.1的專用線纜和支持HDMI 2.1接口的8K顯示器,短期內(nèi)該接口依然會是為土豪準備的玩意。
NVIDIA Reflex:決勝分毫,提升電競表現(xiàn)
NVIDIA Reflex是一個為降低游戲顯示延遲的技術,該技術融合GPU和游戲優(yōu)化,通過硬件和軟件的結合動態(tài)降低系統(tǒng)延遲,優(yōu)化的核心精簡整個畫面輸出流程。
在傳統(tǒng)的輸出流程中,鼠標、鍵盤和手柄等輸入設備發(fā)送信號后,經(jīng)由CPU處理后,需要輸入到渲染隊列后并由GPU執(zhí)行渲染,最后再由GOU輸出到顯示器中,這個過程中,外設輸入、PC內(nèi)部處理和顯示器輸出都會有一定的延遲,NVIDIA Reflex主要是對PC內(nèi)部處理的部分進行精簡。
該技術直接去掉了交由渲染隊列等待的過程,直接向CPU處理過后的數(shù)據(jù)交由GPU即時進行處理,除了提升傳輸效率外還釋放了CPU的負載,降低延遲的同時也減少了對CPU資源的消耗。
在各項熱門游戲中,開啟NVIDIA Reflex功能可以有效降低系統(tǒng)延遲,這個提升幅度對游戲玩家,尤其是追求極致響應速度的電競選手來說非常重要,可以有效提升他們在電競比賽中的響應表現(xiàn)。
影馳RTX 30系列顯卡:散熱全面升級 帶來極致游戲體驗
NVIDIA Ampere架構各項新特性為RTX 30系列顯卡帶來了非常驚艷的性能表現(xiàn),影馳作為NVIDIA的核心AIC合作伙伴,也推出了全面覆蓋RTX 3090/3080/3070的GAMER、星曜、金屬大師、將系列產(chǎn)品。
在完整享受NVIDIA Ampere架構所有新特性的同時,影馳RTX30系列散熱器的設計全面升級,更加契合每個系列特性的設計語言,塑造完全不同以往的全新體驗,搭配更加優(yōu)秀的整卡調(diào)教及優(yōu)化,性能強悍穩(wěn)定無憂,為玩家打造真正的史上最強超級裝備,準備入手RTX 30系列顯卡的朋友可不要錯過了。