Sprache
 
ChineseJapaneseKoreanTürkRussianNederlandsDanskPortuguesEnglishFrançaiseEspañolItaliano
Hinweis: Die Übersetzung dieser Webseite erfolgt automatisiert über translate.google.com, beim Klick auf die Flaggen werden Daten an Google übertragen. Mehr hierzu unter Datenschutz.
Werbung
Fette Prozente: Die aktuellen Gaming-Deals


Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 6/19
29.10.2007 by doelf
Der komplette Artikel als Druckversion

Smart Memory Access
Ein Punkt, bei dem AMD bisher glänzen konnte, ist der Speicherzugriff. Dank des in die CPU integrierten Speichercontrollers sparten sich die Texaner den Umweg über den Chipsatz und konnten die maximal möglichen Speicherbandweiten gut ausnutzen. Intel möchte diesen Vorteil des Mibewerbers durch optimierte Lese- und Schreibzugriffe (Load/Store) ausgleichen.

Eine Limitierung der Out Of Order Execution ist, dass die Befehle zwar in einer optimierten Reihenfolge ausgeführt werden, die CPU aber nur bedingt erkennen kann, welche Befehle zusammenhängen und welche nicht. Wenn die Zieladresse eines Lese- oder Schreibzugriffes noch nicht bekannt ist, kann keine Optimierung der Befehle vorgenommen werden, da die Gefahr besteht, dass Daten gelesen werden bevor sie überhaupt geschrieben wurden. Um unnötige Wartezyklen zu vermeiden, wäre es allerdings erstrebenswert, die Lesezugriffe vorzuziehen. Doch wie soll der Prozessor erkennen, welche Zugriffe voneinander abhängig sind und welche nicht?

Intel nennt die Lösung "Memory Disambiguation". Diese Technologie wägt anhand intelligenter Algorithmen ab, ob die Lesezugriffe von den Schreibzugriffen abhängig sind oder nicht. Danach werden die Zugriffe mit der höchst möglichen Parallelisierung ausgeführt. Sollte sich zeigen, dass der Prozessor falsch spekuliert hat, werden die fehlerhaften Daten neu geladen und die Datenkohärenz bleibt erhalten. Das folgende Beispiel zeigt, wie der Lesevorgang 4 vorgezogen und zuerst ausgeführt wird:

Zudem besitzen die Prozessoren der Core Mikroarchitektur "Advanced Prefetcher", welche Daten in den Cache laden, bevor diese benötigt werden. Dadurch läd die CPU die Daten vermehrt aus dem Cache, statt sie aus dem Speicher holen zu müssen. Da der Yorkfield über 12 MByte L2-Cache verfügt, kann diese Technik die wahren Latenzen der Speicherzugriffe verwischen oder - wie Intel es formuliert - verstecken. Intel verwendet zwei Daten-Prefetcher pro L1-Cache sowie zwei weitere pro L2-Cache, hinzu kommen insgesamt vier Befehls-Prefetcher, also einer je Kern.

Advanced Smart Cache
Im Gegensatz zu den Pentium D Prozessoren mit Smithfield oder Presler Kern teilen sich die beiden Kerne des Conroe einen gemeinsamen L2-Cache. Dies hat entscheidende Vorteile: Zum einen kann sich jeder Kern soviel L2-Cache sichern, wie er gerade benötigt, zum anderen hat jeder Prozessorkern Zugriff auf alle im L2-Cache befindlichen Daten. Hierzu zwei Beispiele:

  1. Ist nur ein Kern aktiv, so steht diesem Kern der komplette L2-Cache zur Verfügung. Bei einer Architektur mit getrennten Caches würde die Hälfte des L2-Caches hingegen brachliegen.

  2. Liegen Daten im L2-Cache eines CPU-Kernes, kommt der zweite Kern bei getrennten Caches nicht an diese heran. Er muss sie somit via Chipsatz aus dem Arbeitsspeicher anfordern, was natürlich viel mehr Zeit in Anspruch nimmt.

  3. Das zweite Beispiel zeigt allerdings noch ein weiteres Problem getrennter Caches auf: Es ist nicht unwahrscheinlich, dass am Ende identische Daten in beiden L2-Caches zu finden sind und somit doppelt soviel Platz verbrauchen. Mit zunehmender Kernzahl steigt zugleich auch die Ineffizienz getrennter Caches an.

Da sich der Yorkfield wie sein 65 nm Vorgänger Kentsfield aus zwei Doppelkernen zusammensetzt, profitieren nur die Kerne, welche einen gemeinsamen L2-Cache besitzen, von dieser Strategie. Wird die Last ungünstig verteilt, machen sich hingegen die genannten Nachteile bemerkbar und der Prozessor wird ausgebremst. Im Gegensatz zum L2-Cache verfügen die vier CPU-Kerne auch weiterhin über einen eigenen L1-Cache. Dieser setzt sich jeweils aus einem 32 KByte großen Ausführungs-Cache und einen ebenfalls 32 Bit großen Daten-Cache zusammen.

Neu: Verbesserte Virtualisierung
Die verbesserte Virtualisierung des Penryn soll Wechsel zwischen den virtuellen Maschinen um 25 bis 75 Prozent beschleunigen. Auch hierbei ist keine Anpassung vorhandener Software von Nöten.

Neu: FSB1600
Wie bereits mehrfach gesagt, stellt die Frontsidebus-Architektur Intel vor ein großes Problem. Nachdem der Quad-Pumped Frontsidebus von 400 über 533, 800 und 1067 MHz zuletzt im Sommer 2007 auf 1333 MHz beschleunigt wurde, steht nun der nächste Schritt an - vorerst allerdings nur im Workstation- und Server-Bereich. Intels Stoakley Plattform, bestehend aus den Xeon 5400 (Harpertown) Prozessoren und dem Seaburg Chipsatz, wird erstmals eine FSB1600-Anbindung bieten, welche die Bandweite von Dual-Channel FB-DIMM 800 zumindest theoretisch ausnutzen kann.

Als weitere Entschärfung des FSB-Engpasses dient zudem ein 24 MByte großer Snoop-Filter im Seaburg Chipsatz. Allerdings stellt sich die Frage, ob ein weiterer Zwischenspeicher nicht dem Konzept der Fully-Buffered DIMMs widerspricht.

Die Integration von 24 MByte Speicher in den Chipsatz dürfte sich zudem recht deutlich auf dessen Stromverbrauch und Abwärme auswirken, Intel konnte uns leider keine TDP für den Seaburg-Chipsatz nennen. Auch die Frage, wann der Frontsidebus der Desktop-Plattform auf 1600 MHz beschleunigt wird, blieb unbeantwortet. Es ist allerdings bekannt, dass Anfang 2008 ein Chipsatz namens X48 erscheinen wird und dieser soll als einzige Neuerung zum X38 über eine Validierung für FSB1600 verfügen. Wenn dem tatsächlich so sein sollte, wird Intel sicherlich auch rechtzeitig für die passenden CPUs sorgen.

Weiter: 7. Intel Core 2 Extreme QX9650 und Testsystem

1. 15 Monate Core-Mikroarchitektur
2. 45 nm: High-k und Metal Gates
3. Wide Dynamic Execution und Radix-16 Divider
4. Advanced Digital Media Boost, SSE4 und Super Shuffle Engine
5. Intelligent Power Capability, DPD, EDAT und CC3 State
6. Smart Memory Access, Advanced Smart Cache, VT und FSB1600
7. Intel Core 2 Extreme QX9650 und Testsystem
8. CPU-Leistung (synthetisch)
9. Multithreaded (synthetisch)
10. Datendurchsatz von Speicher und Cache
11. Primzahlen und Pi
12. Raytracing und Rendering
13. Kompression und mp3-Encoding
14. Video-Encoding
15. 3DMark06 und F.E.A.R.
16. Riddick und UT2004
17. Stromverbrauch
18. Übertakten
19. Fazit

Diesen Testbericht diskutieren...

Diese Werbefläche wurde deaktiviert. Damit geht Au-Ja.de eine wichtige Einnahmequelle verloren.

Werbung erlauben ]
© Copyright 1998-2023 by Dipl.-Ing. Michael Doering. [ Nutzungsbedingungen ] Impressum & Kontakt ] [ Datenschutz ]
Diese Werbefläche wurde deaktiviert. Damit geht Au-Ja.de eine wichtige Einnahmequelle verloren.

Werbung erlauben ]
generated on
11.12.2023 09:59:01
by Jikji CMS 0.9.9e