米国シノプシス
シニア・プロダクト・マーケティング・マネージャー Gary Ruggles
従来のPCI Express(PCIe)テクノロジから最新のRevision 5.0への移行は急速に進んでおり、PCIe 4.0への移行よりもはるかに速いペースで立ち上がりつつあります。シノプシスが最近実施したウェブ・セミナーで参加者に聞き取り調査を行ったところ、PCIe 4.0デザインの新規プロジェクトもまだ多く見られる一方、PCIe 4.0をスキップしてPCIe 5.0デザインへ直接移行しようと考えている設計者も多いことがわかりました。まだPCIe 5.0デザインへの移行を開始していない設計者も、その多くが今後12か月以内に移行の予定であると答えています。
PCIeは世代が進むごとに帯域幅が2倍ずつ拡大しており、現在のPCIe 4.0からPCIe 5.0への移行では16 GT/sから32 GT/sへと高速化します。PCIe 5.0 Base Specificationは先ごろバージョン0.9がリリースされ、機能仕様が確定したため、安心して設計を開始できる状態となっています。
2倍の帯域幅に加え、PCIe 5.0仕様ではリンクのブリングアップを高速化する等化バイパス・モード、高タップ比のDFE(Decision Feedback Equalization)に起因するバースト・エラーを防ぐプリコーディング・サポート、クロストークのシミュレーションに役立つループバックの改良など、新しい機能もいくつか導入されています。PCIe物理層を使用したオルタネート・プロトコル拡張機能のサポートもPCIe 5.0仕様に導入されており、今後の活用が期待されます。
PCIe 5.0テクノロジへの移行が加速する中、SoC(システム・オン・チップ)設計者には、チャネル損失の増大、コントローラに関する複雑な検討事項、PHYとコントローラの統合、パッケージングとシグナル・インテグリティの問題、モデリングとテストの要件など、いくつかの重要な課題についての理解が求められます。本稿では、PCIe 5.0デザインへの移行で直面するこれらの課題、および32 GT/s PCIe 5.0の機能を十分に活用できるように設計およびテストされた実証済みIPを使用してこれらの課題を解決する方法についてご説明します。
データ・レートが16 GT/sから32 GT/sに倍増すると、ナイキスト周波数も2倍の16 GHzとなり、周波数依存の挿入損失が増大します。また、高周波数領域で容量性結合が増えるため、干渉(信号に対するノイズ)が大きくなり、PCIe 4.0のチャネルに比べクロストークが悪化します。これらの要因が重なり、PCIe 5.0のチャネルはSoC設計者がこれまで扱った中で最も難易度の高いNRZ(Non-Return-to-Zero)チャネルとなっています。
PCB材料(FR4、Megtron、Tachyon、iSpeed)の選択は、チャネルの挿入損失に大きく影響します。図1は、各種PCB材料で16インチのトレースを使用した場合の挿入損失をデータ・レート16 GT/s(ナイキスト周波数8GHz)の場合と32 GT/s(ナイキスト周波数16GHz)の場合で比較したものです。最も一般的なFR4材料の場合、挿入損失は19.34 dB(ナイキスト周波数8GHz、Gen 4データ・レート)から33.44 dB(ナイキスト周波数16 GHz、Gen5データ・レート)へと増大します。PCIe 5.0仕様では全体のチャネル損失が約36 dB以内と規定されていますが、これはボードの損失以外にもパッケージ、複数のPCB、コネクタの損失を合計した値であり、しかも16インチというのはそれほど長い距離ではないことを考えると、実際のPCIe 5.0システムでFR4を使用するのは現実的でなく、より高性能な材料が必要です。
チャネル材料以外に、チャネルの構成もチャネル全体の挿入損失と反射(材料の変化する部分で発生)に大きく影響します。たとえば最も単純なチャネルとして、コネクタを使用しない基板またはボード上のチップ間インターフェイスがありますが、この場合の挿入損失は滑らかな曲線となります。しかし、チャネルの途中にコネクタを追加すると、チャネル性能は急速に悪化します。たとえば実際のチップ間チャネルにはメザニン・コネクタを1つ使用したもの、ライザー・カードとアドイン・カードを2つのコネクタで接続したもの、3つ以上のバックブレーン・コネクタと1つのメザニン・コネクタを使用したものなどがあります。チャネルに追加されるコネクタが増えるたびに、トランスミッタとレシーバはチャネル損失の増大に対処しなければならず、メイン・カーソルから何UI(Unit Interval)も離れた位置に現れる干渉源を等化することが必要になります。通常、そのためには固定およびフローティング・タップを使用した複雑なマルチタップDFEレシーバ・デザインを使用してチャネルを完全に等化し、32 GT/sでのアイ開口を大きくする必要があります。
データの伝送エラーをなくすには、これらの課題を想定して十分なマージンを確保し、システムのロバスト性を高める必要があります。PCIe 5.0デザインの場合、PCIe 4.0仕様で導入されたRXレーン・マージン調整機能を利用して、実際のシステムにおけるレシーバ・マージンを評価することが重要となります。PCIe 4.0仕様ではタイミングに関するRXレーン・マージン調整(水平方向のアイ開口)のみが必須でしたが、32 GT/sのPCIe 5.0仕様ではシステムのロバスト性を維持するために、電圧に関するRXレーン・マージン調整(垂直方向のアイ開口)も必須となっています。
性能とスループットを最適化するには、PCIe 5.0コントローラのコンフィギュレーション時にデータ・ペイロードのサイズを適切に決定することが重要となります。パケットごとのオーバーヘッドは、トランザクション層パケット(TLP)の場合で通常約20~24バイトとほぼ決まっています。このため、ペイロード・サイズが小さいと効率が悪く、スループット要件を満たすにはなるべく大きいサイズのペイロードをコントローラでサポートする必要があります。PCIe仕様では最大4096バイトまでのペイロード・サイズが定義されていますが、実際の平均ペイロード・サイズは256バイトです。ただし、ターゲット・アプリケーションのデータ・ペイロードの最大サイズは、PCIeリンク・パートナーがサポートするペイロードの制限を考慮しながら、PCIe 5.0コントローラの性能が理想的なレベルに達するように設計者の判断で選択できます。また、達成可能なスループットを見積もる際には、TLPヘッダのオーバーヘッド(LCRC、シーケンスおよびフレーミング、オプションのECRC)、および128b/130b符号化によるロスも考慮に入れる必要があります。
PCIe 5.0システムの性能を最大化するには、未処理のノンポステッド・リクエスト(NPR)の最大数を決定し、十分な数のタグを利用できるようにする必要があります。タグの数はコントローラのプロパティの1つであり、システム要件に基づいて正しく設定する必要があります。PCIe 5.0仕様の最新バージョンでは10ビット・タグが定義されており、最大768個のタグを使用できます(一部のビット値は予約のため、1024個ではありません)。タグの数の設定値が小さすぎると、性能が伸びません。全体のラウンドトリップ送信時間(レイテンシ)が大きくなると、32 GT/sの最大性能を維持するために必要なタグの数も多くなります。最大スループットを達成するために必要なタグの数は、ペイロード・サイズと最小読み出し要求サイズによっても変わります。32 GT/sではシステム・スループットが高くなるため、PCIe 5.0では必要なタグの数も多くなります。
PHYおよびコントローラIPは、単一のベンダから完全なソリューションとして提供されているものを実装するのが理想です。これに対し、これらを別々のベンダから調達する場合は、PHYとコントローラの統合に関してさまざまな課題に直面します。こうした課題を解決するため、Intel社が定義したのがPIPE(PHY Interface for PCIe)仕様です。しかしPIPE仕様も更新が続けられているため、このインターフェイスと実装を十分に理解しておくことが重要です。PIPE 4.4.1インターフェイスはPCIe 5.0テクノロジを明示的にはサポートしていません。これは、高速化に対応するには追加のレジスタ・ビットが必要なためです。PIPE 4.4.1を使用する場合、設計者とIPベンダには細部にわたって多くの技術的対応が求められるため、作業が煩雑になります。最新のPIPE 5.1.1仕様はPCIe 5.0テクノロジを初めて完全にサポートしており、設計者はこの仕様に追加された多くの新機能を十分に理解しておく必要があります。
従来のサイドバンド・ピンをレジスタ・ビットに置き換えたLPC(Low Pin Count)インターフェイスにより、PHYとコントローラのインターフェイスが簡略化されています。このコンセプトは元々、PCIe 4.0のRXレーン・マージン調整機能を少ないピン数でサポートするために導入されたもので、PIPE 5.1.1ではその適用範囲を拡大することで、インターフェイスの大幅な簡略化につなげています。
PIPE 5.1.1では、SerDesアーキテクチャが「必須」モードとして追加されています。このアーキテクチャによって、PCS(物理符号化副層)の機能の多くがPHYからコントローラへ移動されます。このため、PCS機能を持たないマルチスタンダードPHYの利用が容易になります。PCIe 5.0では従来のPIPEアーキテクチャも残すことが推奨されていますが、必須ではありません。このため、SerDesアーキテクチャのサポートを検討することが重要となります。
SerDesアーキテクチャ限定で、64ビットPIPEオプションが追加されました。これにより、PIPEインターフェイスの低速動作が可能となりますが、1024ビット・コントローラが存在しない現在、16レーンの実装には適用できません。シノプシスは従来のPIPEアーキテクチャでも64ビットPIPEをサポートしています。
PIPEインターフェイスのデータパス幅とタイミング・クロージャが必要な周波数の間には、常にトレードオフの関係があります。PCIe 5.0では、PCIe 4.0よりも選択肢が少なくなります。32 GT/sのPIPEインターフェイスでタイミング・クロージャの周波数を1 GHz以内に抑えるには、少なくとも32ビット幅が必要です。64ビット幅のPIPEインターフェイスも可能で、その場合のタイミング・クロージャの周波数は500 MHzとなりますが、x16リンクは使用できません。これを分かりやすくまとめたものを表1に示します。32 GT/sのPCIe 5.0では、16ビット幅のPIPEインターフェイスは利用できません。これは、タイミング・クロージャの周波数が2 GHzとなり、達成することがほとんど不可能なためです。残る選択肢は32ビットまたは64ビット幅のPIPEインターフェイスですが、スループット最大化のためにx16リンクを実装している場合は、32ビット幅のPIPEインターフェイスで512ビット・コントローラを使用し、タイミング・クロージャの周波数を1 GHzとするのが唯一の選択肢となります。64ビット幅のPIPEインターフェイスでx16リンクを実装するには1024ビット・コントローラ・アーキテクチャが必要となりますが、そのようなIPは現時点でどのベンダからも提供されていません。
このように、x16リンクを32 GT/sで動作させる場合は512ビットのコントローラが必須となるため、シリコン実証済み/テスト済みの512ビット・コントローラIPアーキテクチャを使用することが成功の鍵となります。512ビット・アーキテクチャへ移行すると、1クロック・サイクルで複数のデータ・パケットを扱うことになります。この場合、デザインのアプリケーション・ロジックが不必要に複雑になるのを防ぐため、TLPのシリアライズとオーダリングを適切に処理できるコントローラ・アーキテクチャが求められます。このような512ビット・コントローラを選ぶ際は、実証済みのソリューション、しかもなるべく高価な高速ライブラリではなく標準ライブラリを使って1 GHzでPIPEインターフェイスのタイミング・クロージャが可能な、実証済みのソリューションを選ぶことが重要となります。
パッケージングとシグナル・インテグリティに関しては、32 GT/sに高速化したデータ・レート(および16 GHzのナイキスト周波数)に対応できるように、挿入損失とクロストークの新しい仕様を設定し、満たす必要があります。クロストーク違反を防ぎ、挿入損失とクロストークの新しい仕様を満たすには、パッケージ・フォーム・ファクタ内でトレース長および配線を慎重に管理する必要があります。32 GT/sデザインではパッケージのインダクタンスを抑える必要があるため、電源分配も重要な要素となります。突入電流(di/dt)が大きくなるため、インダクタンスを抑えて電圧ノイズを同じレベルに維持する必要があります。
32 GT/sのデータ・レートでは、反射とクロストークの問題が大きくなるため、垂直方向のインターコネクト・アクセス(VIA、BGAボール、コネクタ、DCブロッキング・キャパシタなど)をはじめ、信号パスに存在するすべての不連続部を慎重に解析する必要があります。VIA領域におけるトランスミットとレシーバの配線が不適切な場合、隣接する信号またはレーンとの間でクロストークが増大します。クロストークを避けるには、混雑したVIA領域であってもトレース同士の間隔をなるべく大きく確保することが重要です。
データ・レートの向上に伴い、電源電流に求められる振幅と周波数は増大しますが、電源電圧の安定性を維持するという基本的な課題は変わりません。たとえば、あるレーンで電源ステートが変わると、連続送信モードで動作している別のレーンで突入電流が生じ、電源電圧に大きなスパイクが生じます。設計者は、以下の点に注意しながら電源分配回路(PDN)の解析を適切に実行する必要があります。
適切なデカップリング・キャパシンタスとパッケージ/ボード・インダクタンスにより、すべてのレーンを動作させた状態でノイズがACリップル仕様を満たしていることを確認する。
オンボード・フィルタ素子の周波数応答が最適であり、必要に応じて改善されていることを確認する。
1つのレーンでモードが変化しても別のレーンの動作に影響しないことを確認する。
パッケージングおよびシグナル・インテグリティの問題を理解し、必要であれば高データ・レートに対応したパッケージ/ボード設計の経験豊富な企業に協力を求める。
PCIe 5.0システムの正確なシミュレーションを実行するには、PHY TXおよびRXインターフェイスのIBIS-AMI(Input/Output Buffer Information Specification Algorithmic Modeling Interface)モデルが欠かせません。PHY IPプロバイダから提供されるIBIS-AMIモデルと、パッケージ、PCB、コネクタのモデルを組み合わせてチャネルの完全なモデルを構築することで、高精度なシステム・シミュレーションが可能となります。図3は、システム・ボード・シミュレーションでIBIS-AMIモデルのシミュレーション(左)と実際に計測したアイ・ダイアグラム(右)を比較したものです。IBIS-AMIシミュレーションと実際のシリコン・データの間には高い一致度が認められます。
量産デバイスの場合、32 GT/sで製造テストを実行するにはPHYおよびコントローラIPに内蔵されたループバック・モード、パターン・ジェネレータ/レシーバを使用してリンクを検証し、テスト時間の短縮を図る必要があります。テスト環境によっては、PCIe 5.0 PHY IPに内蔵されることの多いオシロスコープ機能を利用することもあります。効果的なシステム・テストとするには、PCIeコントローラIPソリューションに内蔵されたデバッグ、エラー注入、統計機能を利用することが推奨されます。これにより、実際のシステムで発生する可能性のある問題をファームウェアおよびソフトウェア・レベルで正しく予測し、対策をとることができます。
32 GT/s PHYのテストにおいて、より詳細な性能データが必要な場合は高速オシロスコープを使用してTXジッターなどの各種パラメータを計測します。32 GT/sへ移行すると、オシロスコープにもこれまで以上の帯域幅が求められます。どの程度の帯域幅が必要かは、信号の立ち上がり時間によって決まりますが、実際のPHYの多くは消費電力を現実的なレベルに抑えるために、立ち上がり時間に何らかの制約が加えられています。このため、32 GT/sの信号を解析するには50 GHzのオシロスコープがあればほぼ十分な帯域幅を確保できます [1]。
データ・レート32 GT/sのPCIe 5.0テクノロジへの移行が急速に進みつつありますが、それに伴ういくつかの課題をSoC設計者は十分に理解して対処する必要があります。32 GT/sのデザインは損失が大きく、多くの不連続部で反射が発生すると挿入損失が36 dBを超えることもあるなど、これまでで最も条件の悪いNRZチャネルとなっています。PCIe PHYデザインは、実証済みのアナログ・フロントエンド、CTLE(Continuous Time Linear Equalizer)、先進のマルチタップDFE(Decision Feedback Equalizer)をシームレスに連携させた独特のアーキテクチャによって設計上の問題を軽減していく必要があります。PHYとコントローラの統合に関しては、PIPEインターフェイス部の互換性を維持しながら、1 GHzで容易にタイミング・クロージャを達成できるように配慮して計画を立てる必要があります。
また、性能を最大化するにはPCIe 5.0コントローラのコンフィギュレーション・オプションも慎重に選択、管理する必要があります。最大ペイロード・サイズ、読み出し要求サイズ、タグ数などコントローラの重要なパラメータに関しては、アーキテクチャ上のトレードオフを考慮しながらバランスよく決定するようにします。
更に、チップとパッケージに対するシグナル・インテグリティ/パワー・インテグリティ解析を慎重に実行し、32 GT/sで性能目標を達成できるようにチャネル全体をシミュレーションする必要があります。
長年にわたり高品質なPCIe IPの開発を続けてきたシノプシスは、実績と信頼のあるIPパートナーとして、これら新たな課題の軽減/解消をお手伝いします。シノプシスDesignWare IPには、コントローラ、PHY、検証用IPで構成される完全なPCIe 5.0ソリューションが含まれます。PIPE 4.4.1および5.1.1仕様をサポートしたこのシリコン実証済みIPは、36 dBを超えるチャネル損失を許容可能なアーキテクチャを採用しており、1 GHzの周波数でタイミング・クロージャを容易に達成できます。コントローラは、テスト済み/シリコン実証済みの512ビット・アーキテクチャを含む複数のデータパス幅をサポートするなど柔軟なコンフィギュレーションが可能なほか、業界で最も充実したRAS-DES機能を備えており、シームレスなブリングアップとデバッグが可能です。このシリコン実証済みソリューションは既に多くの顧客で採用実績があり、PCIeシステムの正確なシミュレーションに必要なIBIS-AMIモデルも完備しています。
1「Real-time oscilloscope analysis for 28/32-Gbps SerDes measurements」(Brig Asay著、Agilent Technologies社ホワイトペーパー、2012年12月17日)