全面升級帶來性能暴漲 Ampere架構新特性看這里

互聯(lián)網(wǎng)

 0  304

生成海報

迷蹤19 2021-10-28 16:22

閱讀需：0

【PConline雜談】隨著RTX 3080顯卡性能的提升，可以透露更多關于NVIDIA Ampere架構和RTX 30系列顯卡的信息。今天，我們將根據(jù)我們的實測和官方信息，與您一起分析新架構顯卡性能飆升的秘訣。

全新的SM單元設計、升級后的Tensor Core、RT Core、8nm工藝以及NVIDIA Ampere架構上的GDDR6X內(nèi)存，為RTX 30系列顯卡帶來了驚人的性能提升，而面向未來的PCIe 4.0、HDMI 2.1、RTX IO、Reflex等新特性，為NVIDIA下一階段的發(fā)展奠定了良好的基礎。

SM單元再優(yōu)化，CUDA核心翻倍帶動性能暴漲

RTX 3090的性能是TITAN RTX的1.5倍，RTX 3080的性能是RTX 2080的2倍，RTX 3070的性能略高于RTX 2080 Ti和RTX 2070的1.6倍。

CUDA核心數(shù)的計算方法一直是一個SM模塊下的FP32算術單元數(shù)。按照原來的定義方法，一套完整的INT(整數(shù)運算單元)FP(浮點運算單元)組合需要被視為一個處理器單元，但是在目前的應用場景下，絕大多數(shù)運算（比如游戲計算）主要考察的是FP32單元的性能.

Turing架構(左)和Ampere架構(右)SM單元示意圖

所以老黃從費米架構開始，從直接用FP32單元=CUDA核心這樣的計算方式，.就開始使用了，以圖靈為例，每個SM單元包含64個CUDA核，看上圖中帶有FP32的網(wǎng)格就可以統(tǒng)計出64個FP32(4x16)單元。在這一代NVIDIA Ampere架構之后，雖然整體非布局結構類似于圖靈，但中間一組數(shù)據(jù)路徑仍然是全FP32單元設計，但左邊的獨立INT32單元數(shù)據(jù)路徑則變成“FP32+INT32”單元.

每組獨立的FP32單元包含16組FP32 CUDA內(nèi)核，每個時鐘周期可執(zhí)行16條FP32指令，而另一條數(shù)據(jù)路徑包含16個FP32和16個INT32內(nèi)核，每個時鐘周期仍可執(zhí)行多達16條FP32指令。在這種設計下，每個SM單元中的分區(qū)可以選擇每個時鐘周期執(zhí)行32條FP32指令或16條FP32和16條INT32指令。

這意味著在全新的安培架構中，一個SM單元每個時鐘周期最多可以執(zhí)行128條FP32指令，是圖靈架構的兩倍。同時每時鐘周期可執(zhí)行64條FP32指令和64條INT32指令，兼顧了性能和通用性。

RTX 3080核心示意圖，擁有68組SM單元

按照FP32臺=CUDA核心數(shù)的計算方法，配備RTX 3080的68組SM機組中有68*128 FP32臺=8704 FP32臺，與官方標稱CUDA核心數(shù)一致。

但這種方式帶來的CUDA核心的“翻倍”并不直接意味著Ampere架構可以憑借“堆核”將性能翻倍，因為在這種設計下，在執(zhí)行純FP32計算時只能直接將性能翻倍(比如“挖礦”的性能幾乎翻倍)。

在人們比較關注的游戲性能等實際應用中，雖然FP32單元會被調(diào)動更多(浮點運算)，但也需要調(diào)用INT32(整數(shù)預算)等其他單元的各種運算，所以在游戲中幾乎不可能實現(xiàn)性能的雙提升。

在NVIDIA官網(wǎng)對Ampere架構的簡要介紹中，新的SM單元帶來了“2x FP32吞吐量”，而不是直接標注兩倍的FP32單元數(shù)量，考慮到字面意思會被曲解。畢竟，在這種架構下，只要執(zhí)行純浮點運算，性能就有可能翻倍。

雖然這種結構無法直接將性能翻倍，但整體計算效率的提升是實實在在的，這也是NVIDIA Ampere GPU在實際應用場景中能夠達到遠圖靈架構性能的核心原因之一。

Tensor Core與RT Core齊升級，4K+光追無壓力

光線追蹤和度學習超級采樣(DLSS)作為RTX 20系列顯卡的兩大主要新技術，共同將游戲的畫質(zhì)和性能提升到了一個新的維度。

RT Core主要影響實時光學跟蹤性能?；趫D靈架構的第一代RT Core可提供高達34T的RT性能，而DLSS技術的處理能力主要由Tensor Core決定。圖靈可提供高達89T的Tensor性能，而傳統(tǒng)SM單元提供11T的FP32計算能力。

Turing架構渲染時間(RTX 2080

Super)

專門的光追單元可以大幅提升實時光線渲染能力，在Turing架構的RTX 2080 Super中，渲染同一演示圖像時使用傳統(tǒng)著色器需要51ms，使用RT Core渲染一幀圖像所需的時間僅為19ms，渲染速度提升了2.68倍，而在打開DLSS后，更是渲染速度縮短至13ms，性能表現(xiàn)進一步提高，這兩項技術也為游戲廠商們推出畫面表現(xiàn)更出色的游戲打下基礎。

不過在帶來比傳統(tǒng)的遠超光柵化渲染的光線效果的同時，也對顯卡的性能提出了嚴峻的考驗，即便有DLSS技術的加持，這一代的光追游戲始終差點意思，特別在2K甚至4K等高分辨率下，要么為了流暢關閉光追效果，要么為了光追效果忍受幀數(shù)下降。

而來到NVIDIA Ampere架構中，這三種單元的性能都獲得了顯著提升，SM單元的FP32計算性能提升至30T，提升幅度達到2.7倍；然后是RT Core的RT性能提升至58T，提升幅度是1.7倍；最后是Tensor Core的Tensor性能提升至238T，提升幅度更是高達2.67倍。

NVIDIA Ampere渲染時間(RTX 3080)

硬件上的升級帶來的也是渲染性能的全面提高，在同樣使用RT Core+Tensor Core進行渲染的情況下，RTX 2080 Super需要13ms，而RTX 3080可以將時間縮小至7.5ms，而通過全新的并行處理技術優(yōu)化，SM、RT Core與Tensor Core三大單元可以同時工作，渲染時間更是可以縮短至6.7ms，對比RTX 2080 Super提升高達94%。

而通過游戲實測可知，RTX 3080已經(jīng)能在絕大部分游戲中，滿足4K分辨率+光線追蹤效果拉滿的條件下，維持60FPS以上幀數(shù)的條件，這也意味著，RTX 30系列已經(jīng)實現(xiàn)從“能玩”到“可以玩”4K光追游戲的跨越。

全新8nm工藝加成，芯片整體效能激增

跟競爭對手AMD近年來在制程工藝的大動作不同（從格羅方德的12nm直接提升至臺積電7nm），NVIDIA近年來的工藝提升可謂非?！暗驼{(diào)”，從Pascal（10系列顯卡）的臺積電16nm工藝到Turing（20系列顯卡）的12nm FFN工藝（實際上算是16nm的改良版），制程上的提升并沒有它們的性能提升來的激進。

雖然NVIDIA要在Ampere架構上升級制程工藝基本是早已被確認，5月份發(fā)布GA100核心也使用上了全新的臺積電 7nm工藝，在RTX 30系列顯卡正式發(fā)布前，大家都以為他們將繼續(xù)采用這一工藝，而NVIDIA卻在發(fā)布會上官宣了RTX 30顯卡將使用三星的8nm工藝。

這一工藝雖然是在三星10nm工藝的基礎上改良而來，但是卻為Ampere架構的效能提升立下了汗馬功勞，同時也不得不佩服NVIDIA的芯片設計能力。

圖片來源igor's LAB

采用12nm FFN工藝的RTX 2080Ti（TU102核心）在764mm2的芯片面積內(nèi)裝入了186億個晶體管，而這一代的RTX 3080（GA102核心）卻能在628mm2的芯片面積內(nèi)塞入了280億個晶體管，密度提升幾乎翻倍，但稍遜于采用臺積電7nm工藝的GA100核心（在828mm2的芯片面積下塞入了540億個晶體管）.

具體密度上，7nm GA100的6521萬個/mm2>8nm GA102的4458萬個/mm2>12nm的TU 102的2434萬個/mm2，三種工藝帶來的密度差異還是比較明顯的，雖然RTX 30系列沒有用上7nm工藝，但是三星8nm工藝對比臺積電12nm FFN工藝帶來的提升還是非常顯著的。

NVIDIA最終選擇三星8nm工藝可能也有運行頻率上的考量，RTX 3080在擁有比RTX 2080Ti翻倍的CUDA核心數(shù)的情況下，仍能獲得更高的Boost核心頻率，而目前的7nm工藝可能還沒法做到這一點，用在超算卡的GA 100則不需要太高的運行頻率，此外，不選擇臺積電7nm工藝可能也有產(chǎn)能方面的考量。

制程工藝的升級還帶來了能效比方便的提升，NVIDIA官方宣稱在同樣的60FPS幀率時，Ampere架構顯卡的能耗比可以達到Turing架構顯卡的1.9倍，要實現(xiàn)同樣的性能表現(xiàn)，前者只需120W多點的功耗，而后者則要240W的功耗，并且前者的還溫度低了3°C，噪音也減少了2dB，這個提升還是非常可觀的。

GDDR6X顯存加持，為極致性能保駕護航

RTX 3090和RTX 3080用上了全新的全新的GDDR6X顯存，這也是RTX 30顯卡的性能表現(xiàn)得到大幅提升的重要因素之一，特別是在高分辨率、高光追特效等應用場景下，顯存的容量和帶寬都很容易成為顯卡性能的瓶頸。

尤其是在發(fā)布會演示的8K@60Hz+全光追特效這種極限應用場景下，性能更加強悍的GDDR6X顯存可以讓Ampere架構處理器更好地釋放性能。

GDDR6X除了在GDDR6對運行頻率進行超頻，最重要的改進就是首次在顯存上使用了PAM4編碼。

相比傳統(tǒng)的“NRZ”編碼方式，PAM4編碼可以讓顯卡在每個時鐘周期內(nèi)傳輸更多數(shù)據(jù)（從原來的每個時鐘周期發(fā)送兩位二進制數(shù)據(jù)，升級為每個時鐘周期發(fā)送四位二進制數(shù)據(jù)），這也讓GDDR6X的最大顯存頻率從GDDR6的16Gb/s提升到21Gb/s，也擁有超過1TB/s（1050MB/s）的理論顯存帶寬上限，這個表現(xiàn)已經(jīng)達到HBM2的1TB/s帶寬的水平。

而在RTX 30系列的實際應用上，目前最強的RTX 3090擁有19.5Gb/s的顯存頻率，顯存帶寬也達到936Gb/s，對比RTX 2080 Ti上的GDDR6帶寬（616Gb/s）更是提高了52%。

GDDR6X顯存除了能在性能上比肩HBM2的水平，也可以在同樣的頻率下實現(xiàn)更高的顯存帶寬，進而降低GDDR6X的成本和能耗，未來應該還會下放到更多消費級顯卡上。

PCIe 4.0+RTX IO 面向未來的新特性

除了上面提到的一些直接給RTX 30系列顯卡帶來性能提升的特性，NVIDIA Ampere架構還擁有許多面向未來的新特新，這些新特新目前可能沒法給消費者提供直觀的使用體驗，卻代表著顯卡市場未來的潛在發(fā)展方向。

首先就是在AMD平臺上已經(jīng)應用多時的PCIe4.0，雖然在去年的RX 5000系列已經(jīng)率先應用在顯卡領域，不過該系列的性能表現(xiàn)完全用不上PCIe4.0x16的帶寬，AMD這邊也沒有推出特定的功能來利用這一優(yōu)勢。

而NVIDIA Ampere架構列在加入對PCIe4.0的支持后，雖然目前的RTX 30系列顯卡在理論性能上仍不能跑滿通道帶寬，在實測環(huán)節(jié)中跟PCIe3.0對比也沒有性能上的差距，但是NVIDIA卻專門準備了RTX IO技術來最大化利用PCIe4.0的超大帶寬。

在傳統(tǒng)的運行方式中，顯卡要渲染圖像，需要經(jīng)過如圖上復雜的路徑：GPU需要通過PCIe通道與CPU進行通訊，并且通過CPU將內(nèi)存中的文件傳輸?shù)斤@存上，再進行讀取和渲染，而內(nèi)存中的游戲文件，也要經(jīng)過CPU從PCIe通道另一端的硬盤進行讀取，數(shù)據(jù)要經(jīng)歷硬盤—>PCIe—>CPU—>內(nèi)存—>CPU—>PCIe-—>GPU-—>顯存的復雜流程。

這個過程頻繁調(diào)用CPU與內(nèi)存，整體效率也不夠高，而且由于硬件的木桶效應，整個流程中的硬件都有機會造成性能瓶頸，而且不能最大化利用PCIe通道的帶寬。

而NVIDA的RTX IO技術，可以讓GPU直接從走PCIe通道的硬盤中直接調(diào)用數(shù)據(jù)，既節(jié)省了CPU和內(nèi)存的占用，也大幅提高了傳輸效率，可以更好地發(fā)揮GPU和顯存的性能，搭配PCIe4.0通道的超高帶寬，可以最大化高速PCIe4.0硬盤和GPU的性能表現(xiàn)。

從NVIDIA官方提供的展示DEMO來看，RTX IO技術帶來的傳輸效率提升非常明顯，對比傳統(tǒng)模式下使用PCIe 4.0 SSD和24核線程撕裂者的配置，RTX IO的加載時間只需1.5秒，而前者最快也要5秒，這個表現(xiàn)讓它具備相當出色的應用前景。

不過該技術目前還處于初始階段，未來也得像DLSS、光追技術一樣需要游戲獨立研發(fā)支持，NVIDA這邊也得花費不少成本才能完成研發(fā)和大規(guī)模推廣

HDMI 2.1：為8K游戲鋪路

采用NVIDIA Ampere架構的RTX 30系列顯卡還配備了最新的HDMI2.1顯示出書接口，這一接口專門為8K以上的畫面?zhèn)鬏敹O計，傳輸帶寬從HDMI2.0的18Gbps提升到48Gbps，提升幅度達到2.67倍，最大可傳輸10K@120FPS的視頻訊號，而且能完美支持HDR、增強音頻回程通道eARC、可變刷新率VRR、快速幀傳輸QFT、自動低延遲模式ALLM等特性。

不過目前要享受8K游戲的魅力，除了得擁有該接口外，還需要用上RTX 3090以上級別顯卡、HDMI 2.1的專用線纜和支持HDMI 2.1接口的8K顯示器，短期內(nèi)該接口依然會是為土豪準備的玩意。

NVIDIA Reflex：決勝分毫，提升電競表現(xiàn)

NVIDIA Reflex是一個為降低游戲顯示延遲的技術，該技術融合GPU和游戲優(yōu)化，通過硬件和軟件的結合動態(tài)降低系統(tǒng)延遲，優(yōu)化的核心精簡整個畫面輸出流程。

在傳統(tǒng)的輸出流程中，鼠標、鍵盤和手柄等輸入設備發(fā)送信號后，經(jīng)由CPU處理后，需要輸入到渲染隊列后并由GPU執(zhí)行渲染，最后再由GOU輸出到顯示器中，這個過程中，外設輸入、PC內(nèi)部處理和顯示器輸出都會有一定的延遲，NVIDIA Reflex主要是對PC內(nèi)部處理的部分進行精簡。

該技術直接去掉了交由渲染隊列等待的過程，直接向CPU處理過后的數(shù)據(jù)交由GPU即時進行處理，除了提升傳輸效率外還釋放了CPU的負載，降低延遲的同時也減少了對CPU資源的消耗。

在各項熱門游戲中，開啟NVIDIA Reflex功能可以有效降低系統(tǒng)延遲，這個提升幅度對游戲玩家，尤其是追求極致響應速度的電競選手來說非常重要，可以有效提升他們在電競比賽中的響應表現(xiàn)。

影馳RTX 30系列顯卡：散熱全面升級帶來極致游戲體驗

NVIDIA Ampere架構各項新特性為RTX 30系列顯卡帶來了非常驚艷的性能表現(xiàn)，影馳作為NVIDIA的核心AIC合作伙伴，也推出了全面覆蓋RTX 3090/3080/3070的GAMER、星曜、金屬大師、將系列產(chǎn)品。

在完整享受NVIDIA Ampere架構所有新特性的同時，影馳RTX30系列散熱器的設計全面升級，更加契合每個系列特性的設計語言，塑造完全不同以往的全新體驗，搭配更加優(yōu)秀的整卡調(diào)教及優(yōu)化，性能強悍穩(wěn)定無憂，為玩家打造真正的史上最強超級裝備，準備入手RTX 30系列顯卡的朋友可不要錯過了。

相關標簽:

評論

消滅零回復

全面升級帶來性能暴漲 Ampere架構新特性看這里

站長推薦