QPI
intel的全新架構(gòu),Bloomfield將采用全新的LGA 1366 Socket,Package Size為42.5 x 45mm,散熱器設(shè)計(jì)雖然和LGA 775類似,但Mounting Holes為80mm,相較LGA775的72mm2更大,因此散熱器不能另相兼容,VRM采用全新的11.1版本,最高TDP為130W 。
利用雙向串聯(lián)點(diǎn)對點(diǎn)傳輸,它可提供與FSB相近的Latency,可讓軟件及操作系統(tǒng)管理,并且針對部份Streams(Threading、ISOC、LT/VT)及out of order requests作出了優(yōu)化,單向最高速度暫 定為6.4GT/s,雙向最高速合共10.8GT/s,相比AMD采用的Hyper-Transport 3.0的速度更高。
Intel的QuickPath Interconnect技術(shù)縮寫為QPI,譯為快速通道互聯(lián)。事實(shí)上它的官方名字叫做CSI,Common System Interface公共系統(tǒng)界面,用來實(shí)現(xiàn)芯片之間的直接互聯(lián),而不是在通過FSB連接到北橋,矛頭直指AMD的HT總線。無論是速度、帶寬、每個(gè)針腳的帶寬、功耗等一切規(guī)格都要超越HT總線。
QPI最大的改進(jìn)是采用單條點(diǎn)對點(diǎn)模式下,QPI的輸出傳輸能力非常驚人,在4.8至6.4GT/s之間。一個(gè)連接的每個(gè)方向的位寬可以是5、10、20bit。因此每一個(gè)方向的QPI全寬度鏈接可以提供12至16BG/s的帶寬,那么每一個(gè)QPI鏈接的帶寬為24至32GB/s。(不過,這仍是遜色于AMD的Hypertransport3---單條連接最大傳輸帶寬可以達(dá)到45GB/s,但我們相信未來英特爾仍會對QPI進(jìn)行進(jìn)一步提速改進(jìn)。)在早期的Nehalem處理器中,Intel預(yù)計(jì)使用20bit的鏈接位寬,大約能提供25.6GB/s的數(shù)據(jù)傳輸能力。這個(gè)數(shù)字是Intel在上一季IDF中公布的。舉例來說,在X48芯片組中,F(xiàn)SB的速度為1600MHz,這是目前為止規(guī)格最高的FSB總線了。不過最初的QPI總線具備25.6GB/s的吞吐量,這個(gè)值相當(dāng)于1600MHz FSB帶寬的2倍。
QPI技術(shù)特點(diǎn)——效率更高
此外,QPI另一個(gè)亮點(diǎn)就是支持多條系統(tǒng)總線連接,Intel稱之為multi-FSB。系統(tǒng)總線將會被分成多條連接,并且頻率不再是單一固定的,也無須如以前那樣還要再經(jīng)過FSB進(jìn)行連接。根據(jù)系統(tǒng)各個(gè)子系統(tǒng)對數(shù)據(jù)吞吐量的需求,每條系統(tǒng)總線連接的速度也可不同,這種特性無疑要比AMD目前的Hypertransport總線更具彈性。
例如,針對服務(wù)器的Nehalem處理器將擁有至少4組QPI傳輸,可至少組成包括4枚處理器的4路高端服務(wù)器系統(tǒng)(也就是16枚運(yùn)算內(nèi)核至少32線程并行運(yùn)作)。而且在多處理器作業(yè)下,每顆處理器可以互相傳送資料,并不需經(jīng)過芯片組,從而大幅提升整體系統(tǒng)性能。隨著未來Nehalem架構(gòu)的處理器集成內(nèi)存控制器、PCI-E 2.0圖形接口乃至圖形核心,QPI架構(gòu)的優(yōu)勢將進(jìn)一步發(fā)揮出來。
為了降低QPI總線的延遲,Intel打算在4路處理器以上的系統(tǒng)中使用一種叫做粘貼緩存的技術(shù)。它主要是倚靠更大容量的二級高速緩存來存儲南橋和北橋的數(shù)據(jù),使處理器不必反復(fù)通過QPI總線來讀取南北橋信息。同時(shí),為了更高提升數(shù)據(jù)處理效率,英特爾還將在處理器內(nèi)部集成內(nèi)存控制器(IMC)。QPI和IMC結(jié)合,可以讓Intel更輕松地?cái)U(kuò)展多路系統(tǒng)和高性能計(jì)算(HPC)應(yīng)用,而Intel現(xiàn)有的處理器架構(gòu)更關(guān)注于指令執(zhí)行引擎和緩存架構(gòu),以便在單線程應(yīng)用中提高性能,導(dǎo)致雙路服務(wù)器平臺性能受限,也無法在對內(nèi)存帶寬需求甚高的HPC中發(fā)揮作用。對于第一代采用QPI總線的Nehalem Xeon來說,集成了3通道的DDR3內(nèi)存控制器,這樣在搭配DDR3 1066的情況下,每個(gè)處理器自己就能得到25.6GB/s的內(nèi)存帶寬,大概是現(xiàn)在Tigerton系統(tǒng)的5倍,并且這個(gè)帶寬數(shù)量隨著處理器插座的增長而增長,對于四插座系統(tǒng),總的帶寬將增長到恐怖的102.4GB/s。強(qiáng)大的內(nèi)存性能將保證即使每個(gè)插座上邊采用8核心的處理器,內(nèi)存帶寬也不會成為性能發(fā)揮的瓶頸。需要說明的是在QPI中,對于四路系統(tǒng)來說,任何兩個(gè)處理器之間都可以直接通信,這樣,一個(gè)處理器可以很方便的訪問到其他處理器控制的內(nèi)存,這可以大大提升效率。另外,由于在QPI系統(tǒng)下不同處理器可以直接通信,同步緩存稱為很方便的事情,再也不用通過北橋的內(nèi)存讀寫來進(jìn)行了。