TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025016622
公報種別公開特許公報(A)
公開日2025-02-04
出願番号2024190335,2023540185
出願日2024-10-30,2021-04-13
発明の名称RoCE(RDMA over Converged Ethernet)のためのクラウドスケールのマルチテナンシ
出願人オラクル・インターナショナル・コーポレイション
代理人弁理士法人深見特許事務所
主分類H04L 45/586 20220101AFI20250128BHJP(電気通信技術)
要約【課題】データネットワーキングのための方法及び装置を提供する。
【解決手段】方法は、仮想ローカルエリアネットワーク(VLAN)タグとクオリティオブサービス(QoS)データフィールドとを含む第1のレイヤ2リモートダイレクトメモリアクセス(RDMA)パケットを受信するステップと、第1のレイヤ2RDMAパケットを第1のレイヤ3カプセル化パケットに変換するステップと、第1のレイヤ3カプセル化パケットをスイッチファブリックに転送するステップと、を含む。前記変換するステップは、少なくとも1つのヘッダを第1のレイヤ2RDMAパケットに追加するステップを含み、少なくとも1つのヘッダは、VLANタグからの情報に基づく仮想ネットワーク識別子と、QoSデータフィールドからの情報に基づくQoS値と、を含む。
【選択図】図7A
特許請求の範囲【請求項1】
データネットワーキングの方法であって、
複数のテナントの中の第1のテナントのための第1のレイヤ2RDMAパケットを、前記複数のテナントの複数の計算インスタンスを実行するホストマシンから、イングレススイッチにおいて受信するステップと、
前記第1のレイヤ2RDMAパケットを、少なくとも1つのヘッダを有する第1のレイヤ3カプセル化パケットに変換するステップと、
前記第1のレイヤ3カプセル化パケットをスイッチファブリックに転送するステップとを含み、
前記第1のレイヤ2RDMAパケットは、仮想ローカルエリアネットワーク(VLAN:Virtual Local Area Network)タグと、クオリティオブサービス(QoS:Quality-of-Service)データフィールドとを含み、
前記変換するステップは、前記少なくとも1つのヘッダを前記第1のレイヤ2RDMAパケットに追加するステップを含み、前記少なくとも1つのヘッダは、
前記VLANタグからの情報に基づく仮想ネットワーク識別子と、
前記QoSデータフィールドからの情報に基づくQoS値とを含む、方法。
続きを表示(約 2,200 文字)【請求項2】
輻輳の表示に応答して、前記スイッチファブリックの中間スイッチにおいて、前記第1のレイヤ3カプセル化パケットの前記少なくとも1つのヘッダの輻輳通知データフィールドを修正するステップをさらに含む、請求項1に記載の方法。
【請求項3】
VLANタグとQoSデータフィールドとを含む第2のレイヤ2RDMAパケットを前記イングレススイッチにおいて受信するステップと、
前記第2のレイヤ2RDMAパケットを、少なくとも1つのヘッダを有する第2のレイヤ3カプセル化パケットに変換するステップと、
前記第2のレイヤ3カプセル化パケットを前記スイッチファブリックに転送するステップとをさらに含み、
前記第2のレイヤ2RDMAパケットの前記VLANタグは、前記第1のレイヤ2RDMAパケットの前記VLANタグとは異なるVLANを示す、請求項1に記載の方法。
【請求項4】
前記スイッチファブリックの中間スイッチにおいて、
前記第1のレイヤ3カプセル化パケットの前記少なくとも1つのヘッダの前記QoS値に基づいて、前記第1のレイヤ3カプセル化パケットを前記中間スイッチの第1のキューにキューイングするステップと、
前記第2のレイヤ3カプセル化パケットの前記少なくとも1つのヘッダの前記QoS値に基づいて、前記第2のレイヤ3カプセル化パケットを、前記第1のキューとは異なる前記中間スイッチの第2のキューにキューイングするステップとをさらに含む、請求項3に記載の方法。
【請求項5】
エグレススイッチにおいて、前記第1のレイヤ3カプセル化パケットを受信するステップと、
前記第1のレイヤ3カプセル化パケットをデカプセル化して、前記第1のレイヤ2RDMAパケットを取得するステップと、
前記第1のレイヤ2RDMAパケットの前記VLANタグに基づいて、前記第1のレイヤ2RDMAパケットを第1の計算インスタンスに転送するステップと、
前記エグレススイッチにおいて、前記第2のレイヤ3カプセル化パケットを受信するステップと、
前記第2のレイヤ3カプセル化パケットをデカプセル化して、前記第2のレイヤ2RDMAパケットを取得するステップと、
前記第2のレイヤ2RDMAパケットの前記VLANタグに基づいて、前記第2のレイヤ2RDMAパケットを、前記第1の計算インスタンスとは異なる第2の計算インスタンスに転送するステップとをさらに含む、請求項3に記載の方法。
【請求項6】
エグレススイッチにおいて、前記第1のレイヤ3カプセル化パケットを受信するステップと、
前記第1のレイヤ3カプセル化パケットをデカプセル化して、前記第1のレイヤ2RDMAパケットを取得するステップと、
前記第1のレイヤ2RDMAパケットの前記VLANタグに基づいて、前記第1のレイヤ2RDMAパケットを第1の計算インスタンスに転送するステップとをさらに含む、請求項1に記載の方法。
【請求項7】
前記第1のレイヤ3カプセル化パケットの前記少なくとも1つのヘッダの輻輳通知データフィールドにおける情報に基づいて、前記第1のレイヤ2RDMAパケットの輻輳通知データフィールドの値を設定するステップをさらに含む、請求項6に記載の方法。
【請求項8】
前記QoS値は、前記第1のレイヤ3カプセル化パケットの外側IPヘッダの差別化されたサービスコードポイント(DSCP:Differentiated Services Code Point)フィールドであり、
前記変換するステップは、前記第1のレイヤ2RDMAパケットのIPヘッダのDSCPフィールドを前記第1のレイヤ3カプセル化パケットの前記外側IPヘッダの前記DSCPフィールドにコピーするステップを含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記第1のレイヤ3カプセル化パケットは、仮想拡張可能ローカルエリアネットワーク(VxLAN)パケットであり、
前記仮想ネットワーク識別子は、前記第1のレイヤ3カプセル化パケットのVxLANヘッダの仮想ネットワーク識別子(VNI:Virtual Network Identifier)である、請求項1~7のいずれか1項に記載の方法。
【請求項10】
データネットワーキングの方法であって、
エグレススイッチにおいて、第1のレイヤ3カプセル化パケットを受信するステップと、
前記第1のレイヤ3カプセル化パケットをデカプセル化して、第1のレイヤ2RDMAパケットを取得するステップと、
前記第1のレイヤ3カプセル化パケットの前記少なくとも1つのヘッダの輻輳通知データフィールドからの情報に基づいて、前記第1のレイヤ2RDMAパケットの輻輳通知データフィールドの値を設定するステップと、
前記設定するステップの後に、前記第1のレイヤ2RDMAパケットのVLANタグに基づいて、前記第1のレイヤ2RDMAパケットを、ホストマシン上で実行される第1の計算インスタンスに転送するステップとを含み、前記第1の計算インスタンスは、前記ホストマシン上で実行される複数の計算インスタンスの中にある、方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
関連出願の相互参照
本願は、「RoCE(RDMA over Converged Ethernet)のためのクラウドスケールのマルチテナンシ(CLOUD SCALE MULTI-TENANCY FOR RDMA OVER CONVERGED ETHERNET (RoCE)
)」と題される2020年12月30日に出願された米国仮出願番号第63/132,417号、「RoCE(RDMA over Converged Ethernet)のためのクラウドスケールのマルチテナンシ(CLOUD SCALE MULTI-TENANCY FOR RDMA OVER CONVERGED ETHERNET (RoCE))
」と題される2021年2月2日に出願された米国非仮出願番号第17/165,877号、「拡張可能なマルチテナントRDMAトラフィックのためのクラスベースのキューイング(CLASS-BASED QUEUEING FOR SCALABLE MULTI-TENANT RDMA TRAFFIC)」と題される
2021年2月3日に出願された米国非仮出願番号第17/166,922号、および「拡張可能なマルチテナントRDMAトラフィックのためのクラスベースのキューイング(CLASS-BASED QUEUEING FOR SCALABLE MULTI-TENANT RDMA TRAFFIC)」と題される202
1年4月1日に出願されたPCT出願番号第PCT/US2021/025459号に対する優先権を主張し、これらは全ての目的で引用によって全文が本明細書に援用される。
続きを表示(約 5,200 文字)【背景技術】
【0002】
背景
RoCE(RDMA over Converged Ethernet)は、ロスレスなイーサネット(登録商標)ネットワークを介したリモートダイレクトメモリアクセス(RDMA:Remote Direct Memory Access)を可能にするネットワークプロトコルである。RoCEは、イーサネット
を介してインフィニバンド(IB:InfiniBand)トランスポートパケットをカプセル化することによってこれを可能にする。一般的に言って、RoCEは、専用のRDMAキューおよび専用のVLANを有するレイヤ2ネットワークを含む。しかしながら、レイヤ2ネットワークは、拡張できず、あまり高性能ではない。なぜなら、レイヤ2ネットワークは、より拡張可能であって高性能のレイヤ3ネットワークに存在する重要な特性および特徴が無いからである。したがって、既存のパブリッククラウド実装は、RoCEプロトコルを使用したデータ転送を提供することができない。
【発明の概要】
【課題を解決するための手段】
【0003】
簡単な概要
本開示は、概してデータネットワーキングに関する。より特定的には、レイヤ3プロトコルを使用してレイヤ3ネットワークを介してレイヤ2トラフィックを通信することを可能にする技術が記載されている。特定の実施形態において、本開示に記載されている技術は、レイヤ3ルーティングプロトコルを使用して、共有のレイヤ3物理ネットワークまたはスイッチファブリックを介して、マルチテナントホストマシン(すなわち、様々なテナントまたは顧客に属する計算インスタンスをホストするホストマシン)上の計算インスタンスから別のマルチテナントホストマシン上の計算インスタンスにリモートダイレクトメモリアクセス(RDMA)トラフィック(例えば、RoCE(RDMA over Converged Ethernet)トラフィック)を通信することを可能にする。そのような通信は、任意に、他のトラフィック(例えば、TCPおよび/またはUDPトラフィック)も含んでもよい。顧客またはテナントは、通信が専用のレイヤ2ネットワーク上で行われるものとして経験するが、実際には、通信は、レイヤ3ルーティングプロトコルを使用して共有の(すなわち、複数の顧客またはテナント間で共有される)レイヤ3ネットワーク上で行われる。方法、システム、1つまたは複数のプロセッサによって実行可能なプログラム、コードまたは命
令を格納する非一時的なコンピュータ可読記憶媒体などを含む様々な実施形態が本開示に記載されている。
【0004】
特定の実施形態において、データネットワーキングの方法は、複数のテナントの中の第1のテナントのための第1のレイヤ2RDMAパケットを、上記複数のテナントの複数の計算インスタンスを実行するホストマシンから、イングレス(ingress)スイッチにおい
て受信するステップと、上記第1のレイヤ2RDMAパケットを、少なくとも1つのヘッダを有する第1のレイヤ3カプセル化パケットに変換するステップと、上記第1のレイヤ3カプセル化パケットをスイッチファブリックに転送するステップとを含み、上記第1のレイヤ2RDMAパケットは、仮想ローカルエリアネットワーク(VLAN:Virtual Local Area Network)タグと、クオリティオブサービス(QoS:Quality-of-Service)データフィールドとを含み、上記変換するステップは、上記少なくとも1つのヘッダを上記第1のレイヤ2RDMAパケットに追加するステップを含み、上記少なくとも1つのヘッダは、上記VLANタグからの情報に基づく仮想ネットワーク識別子と、上記QoSデータフィールドからの情報に基づくQoS値とを含む。上記方法は、輻輳の表示に応答して、上記スイッチファブリックの中間スイッチにおいて、上記第1のレイヤ3カプセル化パケットの上記少なくとも1つのヘッダの輻輳通知データフィールドを修正するステップをさらに含み得る。代替的にまたは追加的には、上記方法は、VLANタグとQoSデータフィールドとを含む第2のレイヤ2RDMAパケットを受信するステップと、上記第2のレイヤ2RDMAパケットを、少なくとも1つのヘッダを有する第2のレイヤ3カプセル化パケットに変換するステップと、上記第2のレイヤ3カプセル化パケットを上記スイッチファブリックに転送するステップとをさらに含み得て、上記第2のレイヤ2RDMAパケットの上記VLANタグは、上記第1のレイヤ2RDMAパケットの上記VLANタグとは異なるVLANを示す。そのような方法は、上記スイッチファブリックの中間スイッチにおいて、上記第1のレイヤ3カプセル化パケットの上記少なくとも1つのヘッダの上記QoS値に基づいて、上記第1のレイヤ3カプセル化パケットを上記中間スイッチの第1のキューにキューイングするステップと、上記第2のレイヤ3カプセル化パケットの上記少なくとも1つのヘッダの上記QoS値に基づいて、上記第2のレイヤ3カプセル化パケットを、上記第1のキューとは異なる上記中間スイッチの第2のキューにキューイングするステップとをさらに含み得る。
【0005】
さらに他の実施形態において、データネットワーキングの方法は、エグレス(egress)スイッチにおいて、第1のレイヤ3カプセル化パケットを受信するステップと、上記第1のレイヤ3カプセル化パケットをデカプセル化して、第1のレイヤ2RDMAパケットを取得するステップと、上記第1のレイヤ3カプセル化パケットの上記少なくとも1つのヘッダの輻輳通知データフィールドにおける情報に基づいて、上記第1のレイヤ2RDMAパケットの輻輳通知データフィールドの値を設定するステップと、上記設定するステップの後に、上記第1のレイヤ2RDMAパケットのVLANタグに基づいて、上記第1のレイヤ2RDMAパケットを第1の計算インスタンスに転送するステップとを含む。上記方法は、上記エグレススイッチにおいて、第2のレイヤ3カプセル化パケットを受信するステップと、上記第2のレイヤ3カプセル化パケットをデカプセル化して、第2のレイヤ2RDMAパケットを取得するステップと、上記第2のレイヤ2RDMAパケットのVLANタグに基づいて、上記第2のレイヤ2RDMAパケットを、上記第1の計算インスタンスとは異なる第2の計算インスタンスに転送するステップとをさらに含み得る。そのような方法は、上記エグレススイッチにおいて、上記第1のレイヤ3カプセル化パケットの外側ヘッダのクオリティオブサービス(QoS)値に基づいて、上記第1のレイヤ3カプセル化パケットを上記エグレススイッチの第1のキューにキューイングするステップと、上記第2のレイヤ3カプセル化パケットの外側ヘッダのQoS値に基づいて、上記第2のレイヤ3カプセル化パケットを、上記第1のキューとは異なる上記エグレススイッチの第2のキューにキューイングするステップとをさらに含み得る。
【0006】
さらに他の実施形態において、(例えば、レイヤ3ネットワークにおける)RDMAトラフィックのクラスベースのキューイングのための技術が記載されており、この技術を使用して、特定のキューにおけるRDMAトラフィックが他のキューにおけるRDMAトラフィックに影響を及ぼさないようにネットワークファブリック全体にわたるクラスベースの分離をクラウドスケールで維持することができる。特定の実施形態に従って、システムは、様々なクラスのRDMAトラフィックの移送および様々なテナントからのRDMAトラフィックの移送のための共有のファブリックを含むように実装され得て、あるRDMAネットワークインターフェイスコントローラ(NIC:Network Interface Controller)から別のNICまでの共有のファブリック全体にわたる経路内の各装置は、RDMAトラフィックの様々なクラスに専用の複数のキューを含む。
【0007】
特定の実施形態に従って、RDMAパケットをキューイングする方法は、ネットワーキング装置が、複数のRDMAパケットを受信するステップを含む。上記複数のRDMAパケットにおける各RDMAパケットは、クオリティオブサービス(QoS)データフィールドを含み、上記複数のRDMAパケットにおける各RDMAパケットについて、上記QoSデータフィールドは、上記RDMAパケットのためのサービスのクラスを示し、且つ、複数のQoS値の中にあるQoS値を有する。この方法は、上記ネットワーキング装置が、複数のRDMAキューの間で上記複数のRDMAパケットを分配するステップも含む。上記分配するステップは、上記複数のRDMAキューへの上記複数のQoS値の第1のマッピングに従って実行される。この方法は、上記ネットワーキング装置が、上記複数のRDMAキュー間の第1の重み付けに従って上記複数のRDMAキューから上記複数のRDMAパケットを取り出すステップをさらに含む。上記取り出された複数のRDMAパケットは、複数のパケットフローを含んでいてもよく、その場合、例は、フロー毎等コストマルチパススキームに従って、上記取り出された複数のRDMAパケットの上記複数のパケットフローをルーティングするステップをさらに含んでいてもよい。上記複数のRDMAパケットにおける各RDMAパケットは、RoCEv2パケットであってもよく、または、上記複数のRDMAパケットにおける各RDMAパケットは、オーバーレイカプセル化プロトコル(例えば、VxLAN、NVGRE、GENEVE、STTまたはMPLS)に従ってフォーマットされたレイヤ3カプセル化パケットであってもよい。
【0008】
さらなる例において、上記分配するステップは、上記複数のRDMAパケットにおける第1のRDMAパケットの上記QoSデータフィールドが第1のQoS値を有するとの判断に応答して、上記第1のRDMAパケットを上記複数のRDMAキューにおける第1のRDMAキューに格納するステップと、上記複数のRDMAパケットにおける第2のRDMAパケットの上記QoSデータフィールドが第2のQoS値を有するとの判断に応答して、上記第2のRDMAパケットを上記複数のRDMAキューにおける第2のRDMAキューに格納するステップとを含み、上記第2のQoS値は、上記第1のQoS値とは異なる。
【0009】
特定の実施形態に従って、RDMAパケットをキューイングするさらなる方法は、上記ネットワーキング装置が、制御キューから複数の制御パケットを取り出すステップも含み、上記複数の制御パケットを取り出すステップは、上記複数のRDMAパケットを取り出すステップよりも厳密な優先度を有する。この場合、上記制御キューは、上記複数のRDMAキューのいずれのキューよりも低い帯域幅を有するように構成され得る。代替的にまたは追加的には、上記複数の制御パケットは、少なくとも1つのネットワーク制御プロトコルパケット(例えば、BGPパケット)および/または少なくとも1つの輻輳通知パケット(CNPパケット)を含んでいてもよい。
【0010】
特定の実施形態に従って、ネットワーキング装置(例えば、リーフスイッチまたはスパ
インスイッチ)は、複数のRDMAキューと、上記複数のRDMAキューに結合され、複数のRDMAパケットを受信するように構成された処理回路とを含むように構成され得て、上記複数のRDMAパケットにおける各RDMAパケットは、クオリティオブサービス(QoS)データフィールドを含み、上記ネットワーキング装置はさらに、上記複数のRDMAキューへの複数のQoS値の第1のマッピングに従って上記複数のRDMAキューの間で上記複数のRDMAパケットを分配し、上記複数のRDMAキュー間の第1の重み付けに従って上記複数のRDMAキューから上記複数のRDMAパケットを取り出すように構成され得る。上記複数のRDMAパケットにおける各RDMAパケットについて、上記QoSデータフィールドは、上記RDMAパケットのためのサービスのクラスを示し、且つ、上記複数のQoS値の中にある値を有する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
環境音制御方法
2か月前
個人
インターホンシステム
3日前
日本精機株式会社
表示装置
2か月前
日本無線株式会社
秘匿通信
2か月前
個人
ヘッドホンカバー
1か月前
個人
押しボタン式側圧調整器
3か月前
株式会社奥村組
通信設備
10日前
キヤノン株式会社
電子機器
17日前
オムロン株式会社
通信装置
10日前
キヤノン株式会社
電子機器
12日前
BoCo株式会社
聴音装置
2か月前
BoCo株式会社
聴音装置
2か月前
キヤノン株式会社
撮像装置
2か月前
キヤノン株式会社
電子機器
19日前
キヤノン電子株式会社
画像読取装置
2か月前
キヤノン電子株式会社
画像読取装置
18日前
日本精機株式会社
車両用の撮像装置
1か月前
キヤノン電子株式会社
画像読取装置
11日前
キヤノン電子株式会社
画像読取装置
11日前
キヤノン株式会社
映像表示装置
1か月前
リオン株式会社
聴取装置
1か月前
株式会社ベアリッジ
携帯無線機
2か月前
日本放送協会
無線伝送システム
25日前
個人
テレビ画面の立体画像の表示方法
2か月前
株式会社クボタ
作業車両
3か月前
株式会社アーク
情報処理システム
1か月前
日本セラミック株式会社
超音波送受信器
3か月前
キヤノン電子株式会社
画像読取システム
1か月前
シャープ株式会社
表示装置
2か月前
株式会社Move
イヤホン
1か月前
キヤノン電子株式会社
画像読取システム
11日前
株式会社小糸製作所
画像照射装置
25日前
株式会社オカムラ
電子機器支持什器
18日前
株式会社日立国際電気
試験システム
1か月前
株式会社JVCケンウッド
撮像装置
1か月前
日本放送協会
送信装置及び受信装置
7日前
続きを見る