SmartNIC/DPU

Linux SmartNIC/DPU 하드웨어 가속 — DPU 아키텍처, devlink, Representor, OVS TC Offload, auxiliary_bus, IPsec/TLS 오프로드, 스토리지 오프로드 종합 가이드. 커널 내부 데이터 경로, 핵심 자료구조/API, 운영 환경 튜닝 포인트와 장애 디버깅(Debugging) 절차까지 실무 관점으로 다룹니다.

전제 조건: 네트워크 스택(Network Stack)과 네트워크 디바이스 드라이버 문서를 먼저 읽으세요. 고성능 패킷(Packet) 경로는 큐 구조, 메모리 배치, 드롭 위치가 성능을 좌우하므로 드라이버 경계를 먼저 이해하는 것이 중요합니다.

일상 비유: 이 주제는 고속 톨게이트 차선 분리와 비슷합니다. 일반 차선(커널 스택)과 하이패스 차선(XDP/DPDK)을 구분해 보면 왜 지연(Latency)과 처리량(Throughput)이 달라지는지 명확해집니다.

핵심 요약

패킷 수명주기 — ingress, 처리, egress 경로를 연결합니다.
큐/버퍼(Buffer) 모델 — sk_buff와 큐 지점의 역할을 분리합니다.
정책/데이터 분리 — 제어 평면과 데이터 평면을 구분합니다.
성능 지표 — PPS, 지연, 드롭 원인을 함께 분석합니다.
오프로딩(Offloading) 경계 — NIC/XDP/DPDK 경계를 명확히 유지합니다.

단계별 이해

경로 고정
문제가 발생한 ingress/egress 지점을 먼저 특정합니다.
큐 관찰
백로그와 드롭 위치를 계측합니다.
정책 반영 확인
라우팅(Routing)/필터 변경이 데이터 경로에 반영됐는지 봅니다.
부하 검증
실제 트래픽 패턴에서 재현성을 확인합니다.

유저스페이스 프레임워크: DPDK에서 고성능 패킷 처리 프레임워크 (EAL, PMD, rte_mbuf, Ring, Mempool, AF_XDP, OVS-DPDK)를 확인하세요.

관련 표준: PCIe Base Specification, SR-IOV Specification — 하드웨어 가속 표준입니다. 종합 목록은 참고자료 — 표준 & 규격 섹션을 참고하세요.

SmartNIC / DPU 기반 네트워크 가속

DPU(Data Processing Unit)는 단순 NIC를 넘어 자체 프로세서(ARM SoC), 메모리, 스토리지 인터페이스, 하드웨어 가속기를 탑재한 독립적인 컴퓨팅 플랫폼입니다. 데이터센터의 네트워킹, 보안, 스토리지 처리를 호스트 CPU에서 DPU로 오프로드하여 인프라 오버헤드(Overhead)를 제거하고, 호스트 CPU를 애플리케이션 워크로드에 전용할 수 있습니다.

NIC vs SmartNIC vs DPU 비교

구분	전통 NIC	SmartNIC	DPU
프로세서	없음 (고정 ASIC)	FPGA 또는 NP	ARM SoC + HW 가속
메모리	소량 SRAM (버퍼용)	수백 MB DRAM	수 GB~16GB+ DRAM
OS 실행	불가	제한적 (마이크로컨트롤러)	완전한 Linux 커널 구동
오프로드 범위	체크섬(Checksum), TSO/GRO	패킷 분류, 필터링	네트워킹 + 스토리지 + 보안 전체
프로그래밍	펌웨어(Firmware) 업데이트만	P4, BPF offload	풀 SDK (DOCA, DPDK, BPF 등)
사용 사례	일반 서버	패킷 처리 가속	클라우드 인프라, bare-metal-as-a-service
대표 제품	Intel X710, Mellanox CX-5	Netronome NFP, Xilinx SN1000	BlueField-3, Intel IPU, AMD Pensando

DPU 하드웨어 아키텍처

DPU의 핵심 특징은 완전한 Linux 커널을 자체 ARM SoC에서 구동하는 점입니다. 호스트와 독립적인 OS를 실행하면서 네트워크, 스토리지, 보안 서비스를 제공하고, 호스트에는 SR-IOV VF나 Virtio 디바이스만 노출합니다. 이로써 호스트 OS가 침해되더라도 인프라 서비스(방화벽(Firewall), 암호화(Encryption), 스토리지 가상화(Virtualization))의 무결성(Integrity)이 유지됩니다.

주요 DPU/IPU 제품군

제조사	제품	SoC	네트워크	커널 드라이버	핵심 특징
NVIDIA	BlueField-3	16x ARM A78 + HW 가속	2x400GbE	`mlx5_core`	DOCA SDK, OVS-DOCA offload, GPUDirect, Crypto, RegEx
Intel	IPU E2000 (Mount Evans)	16x ARM Neoverse N1 + FPGA	2x200GbE	`idpf`	IPDK (Infrastructure PDK), P4 프로그래밍, QAT 연동
AMD	Pensando DSC-200	ARM A72 + P4 파이프라인(Pipeline)	2x200GbE	`ionic`	P4 기반 프로그래밍, flow-aware 가속, 하드웨어 방화벽
Marvell	OCTEON 10 DPU	36x ARM N2 + 가속기	2x400GbE	`octeontx2`	인라인 IPsec, MACsec, OVS offload, 저전력
Broadcom	Stingray PS1100R	8x ARM A72	2x100GbE	`bnxt_en`	TruFlow, 하드웨어 OVS, 인라인 crypto
Intel	E810 (고급 NIC)	—	4x100GbE / 2x100GbE	`ice`	DDP 파이프라인 확장, VXLAN/GENEVE tunnel offload, tc flower, SR-IOV 256 VF

E810 위치: Intel E810은 ARM SoC를 내장한 DPU가 아니라 고급 SmartNIC입니다. DDP(Dynamic Device Personalization)로 파서 파이프라인을 확장할 수 있어 일부 DPU 수준의 프로그래밍이 가능하며, VXLAN, GENEVE, GTP 등 터널(Tunnel) 프로토콜의 하드웨어 encap/decap을 지원합니다. 완전한 DPU 기능이 필요한 경우 Intel IPU E2000(idpf)을 검토하세요.

DPU 오프로드 기능 상세

오프로드 기능	설명	성능 효과	커널 인터페이스
OVS TC flower offload	가상 스위치 플로우 규칙을 NIC eSwitch로 이동	호스트 CPU ~90% 감소, 지연 ~5x 개선	`tc flower` + `switchdev`
IPsec inline crypto	ESP 암호화/복호화(Decryption)를 NIC에서 수행	라인 레이트 IPsec (100Gbps+)	`xfrm_dev_offload`
TLS/kTLS offload	TLS 레코드 암호화를 NIC으로 오프로드	웹서버 TLS CPU 오버헤드 제거	`TLS_TX_ZEROCOPY_RO`
VXLAN/Geneve encap	터널 캡슐화(Encapsulation)/해제를 HW에서 수행	오버레이(Overlay) 네트워크 성능 향상	`tc tunnel_key`
Connection tracking	conntrack을 NIC에서 처리	stateful 방화벽 CPU 오프로드	`tc ct action`
NVMe-oF / virtio-blk	원격 스토리지 접근을 DPU에서 처리	스토리지 가상화 오버헤드 제거	`nvme-rdma` / `vhost`
RegEx / DPI	정규식 매칭으로 딥 패킷 인스펙션	IDS/IPS 처리 가속 (400Gbps+)	DOCA RegEx API
Compression	데이터 압축/해제 하드웨어 가속	스토리지/네트워크 데이터 압축 오프로드	DOCA Compress API

커널의 DPU 지원 서브시스템

리눅스 커널은 DPU를 지원하기 위해 여러 서브시스템을 활용합니다. 핵심은 devlink(디바이스 구성), switchdev(eSwitch 제어), representor port(VF/SF를 호스트에서 관리), auxiliary bus(다기능 디바이스 분할)입니다.

devlink: DPU 구성 및 관리

devlink은 DPU/SmartNIC를 관리하는 핵심 커널 인터페이스입니다. eSwitch 모드 전환, 포트 기능 설정, 리소스 할당, 펌웨어 관리, 헬스 리포터 등을 통합적으로 제어합니다.

# ━━━ devlink 기본 관리 ━━━

# DPU 디바이스 목록 조회
devlink dev show
# pci/0000:03:00.0: fw.mgmt 24.39.1002 fw.app 24.39.1002

# 펌웨어 버전 상세 조회
devlink dev info pci/0000:03:00.0
# driver: mlx5_core
# fw.mgmt: 24.39.1002
# fw.undi: 14.32.17
# fw.psid: MT_0000000835

# ━━━ eSwitch 모드 전환 ━━━

# legacy 모드 → switchdev 모드 (eSwitch 활성화)
# ⚠️ 모드 전환 시 네트워크 순간 단절 발생
devlink dev eswitch set pci/0000:03:00.0 mode switchdev

# eSwitch 인라인 모드 설정 (매칭 깊이)
devlink dev eswitch set pci/0000:03:00.0 inline-mode transport

# 현재 eSwitch 모드 확인
devlink dev eswitch show pci/0000:03:00.0
# mode switchdev inline-mode transport encap-mode basic

# ━━━ SR-IOV VF 관리 ━━━

# VF 생성 (PCIe SR-IOV)
echo 8 > /sys/class/net/enp3s0f0np0/device/sriov_numvfs

# VF의 MAC, VLAN, 대역폭 설정
ip link set enp3s0f0np0 vf 0 mac 00:11:22:33:44:55
ip link set enp3s0f0np0 vf 0 vlan 100
ip link set enp3s0f0np0 vf 0 max_tx_rate 10000  # Mbps

# VF representor 포트 확인 (switchdev 모드에서 자동 생성)
ip link show | grep "enp3s0f0np0_"
# enp3s0f0np0_0  ← VF0 representor
# enp3s0f0np0_1  ← VF1 representor

# ━━━ Scalable Functions (SF) ━━━

# SF 생성 (SR-IOV VF의 경량 대안, BlueField/ConnectX-7+)
devlink port add pci/0000:03:00.0 flavour pcisf pfnum 0 sfnum 88
devlink port function set pci/0000:03:00.0/32768 hw_addr 00:00:00:00:88:88 state active

# SF 포트 기능 설정
devlink port function set pci/0000:03:00.0/32768 \
    roce true \
    migratable true \
    ipsec_crypto true \
    ipsec_packet true

# SF의 auxiliary 디바이스 활성화
devlink port function set pci/0000:03:00.0/32768 state active

# 생성된 SF 확인
devlink port show pci/0000:03:00.0/32768
# pci/0000:03:00.0/32768: type eth netdev en3f0pf0sf88 flavour pcisf
#   controller 0 pfnum 0 sfnum 88 splittable false
#   function: hw_addr 00:00:00:00:88:88 state active opstate attached

SF vs VF:

VF(Virtual Function)는 PCIe SR-IOV 하드웨어 기반으로 생성 수가 제한적(보통 128~256개)이며, PCI 구성 공간을 소비합니다
SF(Scalable Function)는 소프트웨어 정의 방식으로 수천 개 생성 가능하며, 각 SF가 독립적인 네트워크 디바이스 + RDMA + crypto 기능을 가집니다
SF는 auxiliary_bus를 통해 커널에 등록되며, mlx5_core.sf.X 형태의 auxiliary 디바이스로 관리됩니다
컨테이너(Container) 환경에서는 SF가 VF보다 유연하며, 마이그레이션 지원이 용이합니다

Representor Port 아키텍처

Representor port는 switchdev 모드에서 DPU가 호스트 측에 노출하는 가상 netdev입니다. 각 VF/SF에 대응하는 representor가 생성되어, 호스트에서 TC flower 규칙을 통해 VF/SF 트래픽을 제어할 수 있습니다. 이는 OVS offload의 핵심 메커니즘입니다.

/* drivers/net/ethernet/mellanox/mlx5/core/eswitch.h */
struct mlx5_eswitch_rep {
    struct mlx5_eswitch *esw;
    u16 vport;                      /* 연결된 VF/SF의 vport 번호 */
    u16 vlan;                       /* 기본 VLAN */
    struct net_device *netdev;       /* representor netdev */
    struct mlx5_flow_handle *send_to_vport_rule;
    struct mlx5e_rep_priv *rep_data;
};

/* Representor의 역할:
 * 1. VF/SF로 향하는 slow-path 패킷의 수신/송신 경로
 * 2. TC flower 규칙의 연결점 (representor에 규칙 설치 → eSwitch HW로 오프로드)
 * 3. OVS 브릿지의 포트로 연결 (ovs-vsctl add-port br0 enp3s0f0np0_0)
 * 4. conntrack offload의 앵커 포인트
 */

/* drivers/net/ethernet/mellanox/mlx5/core/en_rep.c */
static const struct net_device_ops mlx5e_netdev_ops_rep = {
    .ndo_open         = mlx5e_rep_open,
    .ndo_stop         = mlx5e_rep_close,
    .ndo_start_xmit   = mlx5e_xmit,           /* slow-path 송신 */
    .ndo_setup_tc     = mlx5e_rep_setup_tc,   /* TC flower 오프로드 진입점 */
    .ndo_get_stats64  = mlx5e_rep_get_stats,  /* HW 카운터 기반 통계 */
};

코드 설명

2행 mlx5_eswitch_rep 구조체(Struct)는 VF/SF의 representor를 나타냅니다. representor는 eSwitch의 slow-path 인터페이스로, HW 오프로드되지 않은 패킷이 CPU로 전달되는 경로입니다.
4행 vport 번호로 representor와 실제 VF/SF를 매핑(Mapping)합니다. eSwitch 내부에서 패킷의 출발지/목적지를 식별하는 핵심 키입니다.
6행 netdev 포인터는 representor의 네트워크 디바이스를 가리킵니다. OVS는 이 netdev를 브릿지 포트로 사용하여 VF 트래픽을 제어합니다.
19행 mlx5e_netdev_ops_rep은 representor 전용 netdev_ops입니다. 일반 NIC의 ops와 달리 ndo_setup_tc를 통해 TC flower 규칙을 eSwitch FDB로 오프로드하는 진입점(Entry Point)을 제공합니다.
22행 ndo_setup_tc 콜백(Callback)은 TC 서브시스템에서 flower 규칙 추가/삭제 시 호출됩니다. representor에 설치된 규칙이 eSwitch 하드웨어로 오프로드되어 wire-speed 포워딩이 가능해집니다.

OVS TC Flower Offload 동작 원리

Open vSwitch(OVS)는 가상 스위칭의 표준이지만, 소프트웨어 처리로 인해 CPU 오버헤드가 큽니다. DPU의 eSwitch를 활용하면 OVS 플로우를 하드웨어로 오프로드하여 호스트 CPU 사용을 90% 이상 줄일 수 있습니다.

# ━━━ OVS-DPDK + TC Flower HW Offload 설정 ━━━

# 1. eSwitch를 switchdev 모드로 전환
devlink dev eswitch set pci/0000:03:00.0 mode switchdev

# 2. OVS에서 하드웨어 오프로드 활성화
ovs-vsctl set Open_vSwitch . other_config:hw-offload=true
ovs-vsctl set Open_vSwitch . other_config:tc-policy=skip_sw

# 3. OVS 브릿지에 PF와 VF representor 연결
ovs-vsctl add-br br-int
ovs-vsctl add-port br-int enp3s0f0np0       # PF (uplink)
ovs-vsctl add-port br-int enp3s0f0np0_0     # VF0 representor
ovs-vsctl add-port br-int enp3s0f0np0_1     # VF1 representor

# 4. 오프로드 동작 흐름:
#   a) 첫 패킷: eSwitch → representor → OVS userspace → flow 결정
#   b) OVS가 TC flower 규칙을 representor에 설치
#   c) 드라이버가 TC flower → eSwitch HW 규칙으로 변환
#   d) 이후 패킷: eSwitch HW에서 직접 포워딩 (CPU 바이패스)

# 오프로드된 플로우 확인
tc -s filter show dev enp3s0f0np0_0 ingress
# filter protocol ip pref 2 flower chain 0
#   eth_type ipv4
#   src_ip 10.0.0.5
#   dst_ip 10.0.0.10
#   in_hw in_hw_count 1    ← HW 오프로드 확인
#     action order 1: mirred (Egress Redirect to device enp3s0f0np0_1)
#     hw_stats immediate

# OVS 오프로드 통계 확인
ovs-appctl dpctl/dump-flows type=offloaded
# recirc_id(0),in_port(2),eth(...),ipv4(src=10.0.0.5,dst=10.0.0.10,...)
# packets:1523400, bytes:97497600, used:0.001s, flags:SFPR

OVS Offload 제한사항:

모든 OVS 액션이 HW 오프로드 가능한 것은 아닙니다. ct()(conntrack), output, set() 등 기본 액션은 지원되지만, learn(), clone() 등 복잡한 액션은 소프트웨어 폴백됩니다
eSwitch의 HW 플로우 테이블 크기가 유한합니다 (보통 수백만 엔트리). 초과 시 자동 소프트웨어 폴백
conntrack offload는 지원 연결 수와 타임아웃 동작이 소프트웨어 conntrack과 다를 수 있습니다
VXLAN/Geneve 등 오버레이 터널의 캡슐화/해제도 HW 오프로드 가능하지만, 드라이버와 펌웨어 버전에 따라 지원 범위가 다릅니다

auxiliary_bus: DPU 다기능 디바이스 분할

기술 문서: auxiliary_bus의 자료구조, 2단계 등록, 메모리 소유권 모델, 디버깅 기법 등을 상세히 다루는 Auxiliary Bus (보조 버스(Bus)) 페이지(Page)를 참고하세요.

auxiliary_bus는 하나의 PCIe 디바이스가 여러 기능(네트워크, RDMA, crypto, vDPA 등)을 독립적인 커널 드라이버에 분배하기 위한 메커니즘입니다. DPU처럼 다기능 디바이스에서 핵심적인 역할을 합니다.

/* include/linux/auxiliary_bus.h */
struct auxiliary_device {
    struct device dev;
    const char *name;   /* "mlx5_core.eth.0", "mlx5_core.rdma.0" 등 */
    u32 id;
};

struct auxiliary_driver {
    int (*probe)(struct auxiliary_device *adev,
                const struct auxiliary_device_id *id);
    void (*remove)(struct auxiliary_device *adev);
    const char *name;
    struct device_driver driver;
    const struct auxiliary_device_id *id_table;
};

/* mlx5 DPU에서 auxiliary_bus 활용 예시:
 *
 * mlx5_core (PCI 드라이버)
 *   ├── mlx5_core.eth.0     → mlx5e (이더넷 netdev)
 *   ├── mlx5_core.rdma.0    → mlx5_ib (RDMA/RoCE)
 *   ├── mlx5_core.vnet.0    → mlx5_vnet (vDPA - virtio 에뮬레이션)
 *   ├── mlx5_core.sf.88     → Scalable Function #88
 *   └── mlx5_core.crypto.0  → Crypto offload
 *
 * 각 기능이 독립 드라이버로 동작하며, 개별 로드/언로드 가능
 */

/* Scalable Function 등록 (drivers/net/ethernet/mellanox/mlx5/core/sf/) */
static int mlx5_sf_dev_probe(struct auxiliary_device *adev,
                             const struct auxiliary_device_id *id)
{
    struct mlx5_sf_dev *sf_dev = container_of(adev, struct mlx5_sf_dev, adev);
    struct mlx5_core_dev *mdev;

    mdev = mlx5_sf_dev_to_mdev(sf_dev);
    /* SF용 mlx5_core_dev 초기화 → 독립 netdev + RDMA + crypto 생성 */
    return mlx5_init_one(mdev);
}

코드 설명

2~6행 auxiliary_device는 하나의 PCI 디바이스 내에서 독립적인 기능 단위를 나타냅니다. mlx5에서는 "mlx5_core.eth.0" 같은 이름으로 이더넷, RDMA, vDPA 등을 개별 디바이스로 분리합니다.
8~15행 auxiliary_driver의 probe/remove 콜백은 PCI 드라이버와 동일한 패턴입니다. 각 서브시스템이 독립 드라이버로 동작하므로 이더넷만 재로드하면서 RDMA는 유지하는 등의 유연한 운영이 가능합니다.
17~27행 mlx5_core가 auxiliary_bus를 통해 기능을 분배하는 트리 구조입니다. 단일 PCI 함수에서 eth, rdma, vnet, sf, crypto 5개 이상의 서브드라이버를 독립적으로 관리합니다.
30~39행 mlx5_sf_dev_probe는 Scalable Function(SF) 디바이스의 probe 함수입니다. container_of로 부모 구조체를 얻고 mlx5_init_one을 호출하여 SF 전용 mlx5_core_dev를 초기화합니다. SF마다 독립 netdev와 RDMA 인터페이스가 생성됩니다.

IPsec / TLS 인라인 암호화 오프로드

DPU는 IPsec ESP와 TLS(kTLS)의 암호화/복호화를 하드웨어에서 수행하여 라인 레이트 암호화를 제공합니다. 커널의 xfrm_dev_offload 인터페이스를 통해 SA를 NIC에 직접 설치합니다.

/* include/net/xfrm.h — 하드웨어 오프로드 구조체 */
struct xfrm_dev_offload {
    struct net_device *dev;
    struct net_device *real_dev;  /* bond/vlan의 실제 HW 디바이스 */
    unsigned long offload_handle; /* 드라이버의 HW 오브젝트 핸들 */
    u8 dir : 2;                  /* XFRM_DEV_OFFLOAD_IN/OUT */
    u8 type : 2;                 /* CRYPTO (암호만) / PACKET (전체) */
    u8 flags : 2;
};

/* IPsec 오프로드 타입:
 * XFRM_DEV_OFFLOAD_CRYPTO — 암호화/복호화만 HW, 헤더 처리는 SW
 *   → ESP trailer/header는 커널이 추가, 암호 연산만 NIC 가속
 *   → 대부분의 NIC에서 지원 (ConnectX-6+, E810)
 *
 * XFRM_DEV_OFFLOAD_PACKET — 전체 IPsec 처리를 HW에서 수행
 *   → ESP 헤더 추가, SPI 매칭, anti-replay, 암호화 모두 NIC
 *   → 호스트 CPU 관여 0%. 최대 성능
 *   → BlueField-2/3에서 지원 (full offload)
 */

/* mlx5 드라이버의 IPsec offload 등록 */
/* drivers/net/ethernet/mellanox/mlx5/core/en_accel/ipsec.c */
static const struct xfrmdev_ops mlx5e_ipsec_xfrmdev_ops = {
    .xdo_dev_state_add    = mlx5e_xfrm_add_state,    /* SA를 HW에 설치 */
    .xdo_dev_state_delete = mlx5e_xfrm_del_state,    /* HW SA 삭제 */
    .xdo_dev_state_free   = mlx5e_xfrm_free_state,   /* 리소스 해제 */
    .xdo_dev_offload_ok   = mlx5e_ipsec_offload_ok,  /* 오프로드 가능 여부 확인 */
    .xdo_dev_policy_add   = mlx5e_xfrm_add_policy,   /* SP를 HW에 설치 */
    .xdo_dev_policy_delete= mlx5e_xfrm_del_policy,
};

코드 설명

2~8행 xfrm_dev_offload 구조체는 IPsec SA(Security Association)의 하드웨어 오프로드 상태를 나타냅니다. dir 비트필드로 인바운드/아웃바운드 방향을, type으로 CRYPTO(암호만)/PACKET(전체) 오프로드 수준을 구분합니다.
4행 real_dev는 bond/vlan 같은 가상 디바이스 아래의 실제 물리 NIC를 가리킵니다. 오프로드 명령은 최종적으로 이 물리 디바이스의 드라이버에 전달됩니다.
10~20행 CRYPTO 모드는 암호화/복호화만 NIC에서 수행하고 ESP 헤더 처리는 커널이 담당합니다. PACKET 모드는 ESP 전체를 NIC에서 처리하여 호스트 CPU 관여가 0%이며, BlueField-2/3에서 지원합니다.
23~30행 mlx5e_ipsec_xfrmdev_ops는 mlx5 드라이버의 IPsec 오프로드 인터페이스입니다. xdo_dev_state_add로 SA를 하드웨어에 설치하고, xdo_dev_offload_ok로 특정 패킷의 오프로드 가능 여부를 확인합니다.
28행 xdo_dev_policy_add는 SP(Security Policy)를 하드웨어에 설치합니다. SA와 SP가 모두 오프로드되어야 PACKET 모드의 full offload가 동작하며, 미지원 시 CRYPTO 모드로 폴백합니다.

💡

Crypto API 관점의 오프로드: NIC 인라인 암호화 오프로드의 커널 Crypto API 연동 구조, IPsec/kTLS/MACsec 오프로드 경로 비교, CPU ISA vs NIC vs PCI 가속기 선택 기준은 암호화 하드웨어 가속 — 네트워크 암호화 오프로드에서 종합적으로 다룹니다.

# ━━━ IPsec HW Offload 설정 예시 ━━━

# 1. 디바이스의 IPsec offload 지원 확인
ethtool -k enp3s0f0np0 | grep esp
# esp-hw-offload: on
# esp-tx-csum-hw-offload: on

# 2. IPsec SA 추가 시 offload 지정
ip xfrm state add \
    src 10.0.0.1 dst 10.0.0.2 \
    proto esp spi 0x1000 mode transport \
    aead "rfc4106(gcm(aes))" 0x$(openssl rand -hex 20) 128 \
    offload dev enp3s0f0np0 dir out   # ← HW offload 지정

ip xfrm state add \
    src 10.0.0.2 dst 10.0.0.1 \
    proto esp spi 0x2000 mode transport \
    aead "rfc4106(gcm(aes))" 0x$(openssl rand -hex 20) 128 \
    offload dev enp3s0f0np0 dir in

# 3. packet offload (full offload — BlueField-2/3)
ip xfrm state add \
    src 10.0.0.1 dst 10.0.0.2 \
    proto esp spi 0x3000 mode tunnel \
    aead "rfc4106(gcm(aes))" 0x$(openssl rand -hex 20) 128 \
    offload packet dev enp3s0f0np0 dir out  # ← packet 전체 오프로드

# 4. HW offload 상태 확인
ip xfrm state list
# ... offload type packet dev enp3s0f0np0 dir out ...

# 5. kTLS offload (TLS 1.3)
ethtool -k enp3s0f0np0 | grep tls
# tls-hw-tx-offload: on
# tls-hw-rx-offload: on
# tls-hw-record: on

# nginx에서 kTLS + HW offload 활용 (커널 5.2+)
# setsockopt(fd, SOL_TLS, TLS_TX, ...) → 커널이 자동 HW 오프로드

DPU 스토리지 오프로드

DPU는 네트워크뿐만 아니라 스토리지 가상화도 오프로드합니다. NVMe-oF(NVMe over Fabrics) 타겟을 DPU에서 실행하거나, virtio-blk 백엔드를 DPU의 ARM에서 처리하여 호스트 CPU를 완전히 해방시킵니다.

스토리지 오프로드	동작 방식	효과
NVMe-oF SNAP	DPU가 NVMe-oF initiator를 에뮬레이트하여 호스트에 로컬 NVMe 디스크처럼 노출	원격 스토리지를 로컬처럼 사용, 호스트 드라이버 불필요
virtio-blk SNAP	DPU ARM에서 virtio-blk 백엔드를 실행, 호스트 VM에 virtio 디스크 제공	QEMU vhost-user 불필요, 스토리지 I/O CPU 오버헤드 제거
RDMA/RoCE 가속	NVMe-oF RDMA 트랜스포트를 DPU RNIC에서 처리	제로카피 원격 스토리지 접근, μs 단위 지연
GPUDirect Storage	GPU ↔ DPU 간 직접 DMA로 스토리지 데이터 전달	CPU/시스템 메모리 바이패스, AI/HPC 워크로드 최적화

# ━━━ NVMe-oF SNAP (BlueField DPU) ━━━

# DPU ARM 측에서 NVMe-oF SNAP 컨트롤러 생성
# → 호스트에 가상 NVMe 디바이스가 나타남

# 1. SNAP 서비스 시작 (DPU ARM에서)
snap_rpc.py controller_nvme_create \
    --pf_id 0 \
    --nqn nqn.2022-01.com.nvidia:subsys1

# 2. 원격 NVMe-oF 타겟 연결
snap_rpc.py subsystem_nvme_create \
    --nqn nqn.2022-01.com.nvidia:subsys1 \
    --trtype rdma \
    --traddr 192.168.100.10 \
    --trsvcid 4420

# 호스트에서 확인 (별도 드라이버 불필요)
nvme list
# /dev/nvme0n1  SNAP Virtual NVMe  1.95 TB

# ━━━ vDPA (virtio DataPath Acceleration) ━━━

# DPU에서 vDPA 디바이스 생성 → VM에 virtio-net HW 가속 제공
# 호스트 커널의 vDPA bus + vhost-vdpa로 QEMU에 연결

# 1. vDPA management 디바이스 확인
vdpa mgmtdev show
# auxiliary/mlx5_core.sf.4:
#   supported_classes net

# 2. vDPA 디바이스 생성
vdpa dev add name vdpa0 mgmtdev auxiliary/mlx5_core.sf.4 \
    mac 00:11:22:33:44:55 max_vqp 8

# 3. QEMU에서 vhost-vdpa 디바이스로 VM에 연결
# -netdev vhost-vdpa,vhostdev=/dev/vhost-vdpa-0,id=vdpa0
# -device virtio-net-pci,netdev=vdpa0

DPU 보안 아키텍처

DPU의 가장 중요한 가치 중 하나는 인프라 보안의 격리(Isolation)입니다. 호스트 OS와 독립된 신뢰 도메인에서 보안 서비스를 실행하여, 호스트가 침해되더라도 인프라 무결성을 유지합니다.

보안 기능	설명	구현
Hardware Root of Trust	DPU 부팅 시 ROM → 부트로더(Bootloader) → OS까지 서명 체인 검증	Secure Boot + TPM 2.0 on ARM
호스트 격리	호스트 OS가 DPU의 ARM OS를 변조 불가	PCIe 기반 분리, restricted 모드
인라인 방화벽	모든 네트워크 트래픽이 DPU eSwitch를 통과	CT offload, TC flower, stateful FW
인라인 암호화	IPsec/TLS를 와이어 스피드로 처리	AES-GCM, ChaCha20 HW 엔진
DPI/IDS	RegEx 엔진으로 패턴 매칭 가속	Hyperscan 호환 HW RegEx
감사 및 로깅	DPU에서 독립적으로 트래픽 미러링/로깅	sFlow, IPFIX HW export

# ━━━ BlueField DPU 보안 모드 설정 ━━━

# DPU 동작 모드 확인 (mlxconfig)
mlxconfig -d /dev/mst/mt41692_pciconf0 query | grep -i "internal_cpu"
# INTERNAL_CPU_MODEL = EMBEDDED_CPU(1)

# 호스트 권한 모드 설정
# Privileged:    호스트가 DPU PF를 직접 제어 (개발/테스트용)
# Restricted:    DPU ARM이 모든 제어권 보유, 호스트는 VF만 사용
# Restricted+:   호스트가 DPU 리셋/재부팅도 불가
mlxconfig -d /dev/mst/mt41692_pciconf0 set INTERNAL_CPU_PAGE_SUPPLIER=ECPF
mlxconfig -d /dev/mst/mt41692_pciconf0 set INTERNAL_CPU_ESWITCH_MANAGER=ECPF
mlxconfig -d /dev/mst/mt41692_pciconf0 set INTERNAL_CPU_OFFLOAD_ENGINE=ENABLED

# ━━━ DPU 기반 격리된 방화벽 ━━━

# DPU ARM에서 nftables 방화벽 실행 (호스트 독립)
# → eSwitch를 통과하는 모든 호스트 트래픽에 적용
# → 호스트 root 권한으로도 우회 불가
nft add table inet host_fw
nft add chain inet host_fw input { type filter hook ingress device enp3s0f0np0 priority 0 \; }
nft add rule inet host_fw input ip saddr != 10.0.0.0/8 drop

# DPU의 독립 로깅 (syslog → 중앙 서버)
# 호스트 침해 시에도 DPU 로그는 보존

DPU 보안 아키텍처의 핵심: Restricted 모드에서 호스트 OS는 DPU의 PF(Physical Function)를 직접 제어할 수 없으며, DPU ARM에서 할당한 VF/SF만 사용할 수 있습니다. 이는 클라우드 환경에서 bare-metal-as-a-service를 구현하는 핵심 메커니즘으로, 테넌트에게 bare metal 성능을 제공하면서도 인프라 보안(방화벽, 암호화, 네트워크 격리)은 DPU에서 강제 적용됩니다.

DPU 프로그래밍 모델

프로그래밍 방식	대상	장점	단점
TC flower + switchdev	eSwitch (패킷 분류/포워딩)	표준 커널 API, OVS 연동	매칭/액션 범위 제한적
XDP/BPF offload	NIC의 BPF JIT 엔진	유연한 패킷 처리 로직	BPF 명령어 서브셋만 지원
P4	프로그래머블 파이프라인	파싱/매칭/액션 완전 커스텀	제조사별 P4 컴파일러 필요
DOCA SDK (NVIDIA)	BlueField ARM + 가속기	고수준 API, RegEx/Compress/Crypto 통합	NVIDIA 전용, 벤더 종속
IPDK (Intel)	Intel IPU	P4 + DPDK 기반 오픈소스	Intel IPU 전용
ARM Linux 직접 프로그래밍	DPU ARM SoC	완전한 자유도 (임의 데몬/서비스)	직접 개발/유지보수 부담

/* P4 프로그래밍 예시 — DPU의 프로그래머블 파이프라인에서 실행
 * Intel IPU (IPDK) 또는 AMD Pensando에서 P4 컴파일러로 HW 테이블 생성
 */

/* 커스텀 헤더 파싱 및 매칭 */
header custom_header_t {
    bit<16> type_id;
    bit<32> tenant_id;
    bit<16> service_tag;
}

parser CustomParser(packet_in pkt, out headers_t hdr) {
    state start {
        pkt.extract(hdr.ethernet);
        transition select(hdr.ethernet.etherType) {
            0x8100: parse_vlan;
            0x0800: parse_ipv4;
            0xFE01: parse_custom;  /* 커스텀 프로토콜 */
            default: accept;
        }
    }
    state parse_custom {
        pkt.extract(hdr.custom);
        transition parse_ipv4;
    }
}

/* 매칭 테이블: tenant_id 기반 라우팅 */
table tenant_routing {
    key = {
        hdr.custom.tenant_id : exact;
        hdr.ipv4.dstAddr     : lpm;
    }
    actions = {
        forward_to_port;
        apply_encryption;
        drop;
    }
    size = 1048576;  /* 100만 엔트리 */
}

DPU 모니터링 및 디버깅

# ━━━ devlink 헬스 리포터 ━━━
# DPU 하드웨어 상태 모니터링

devlink health show pci/0000:03:00.0
# reporter fw_fatal:
#   state healthy error 0 recover 0
# reporter fw:
#   state healthy error 0 recover 0
# reporter vnic:
#   state healthy error 0 recover 0

# 헬스 리포터 상세 덤프
devlink health dump show pci/0000:03:00.0 reporter fw

# ━━━ eSwitch 플로우 카운터 ━━━
# HW 오프로드된 플로우의 패킷/바이트 통계

tc -s filter show dev enp3s0f0np0_0 ingress
# filter ... flower ...
#   Sent 98234567 bytes 1523400 pkt (hardware)
#   action ... mirred ... (hardware)
#     Sent 98234567 bytes 1523400 pkt

# ━━━ DPU 리소스 사용량 ━━━

# 사용 가능한 HW 리소스 조회
devlink resource show pci/0000:03:00.0
# name flow_table size 4194304 occ 152340
# name flow_counter size 16777216 occ 304680
# name encap_entries size 65536 occ 1024

# ━━━ ethtool 확장 통계 ━━━

ethtool -S enp3s0f0np0 | grep -E "offload|hw_"
# rx_vport_rdma_unicast_packets: 4523100
# tx_vport_rdma_unicast_packets: 3891200
# rx_hw_timestamp: 15234001

# ━━━ SF/VF 개별 통계 ━━━

# Scalable Function 상태 확인
devlink port function show pci/0000:03:00.0/32768
# function:
#   hw_addr 00:00:00:00:88:88 state active opstate attached
#   roce true migratable true ipsec_crypto true

# ━━━ 디버깅 팁 ━━━
# HW offload 문제 시: skip_hw → skip_sw 순서로 테스트
# 1단계: skip_hw로 SW 경로에서 규칙이 올바른지 확인
tc filter add dev rep0 ingress flower ... action ... skip_hw
# 2단계: skip_sw로 HW 전용으로 전환, in_hw 확인
tc filter add dev rep0 ingress flower ... action ... skip_sw

# 오프로드 실패 원인 확인 (커널 로그)
dmesg | grep -i "offload\|eswitch\|flower"
# mlx5_core: TC flower offload failed: -EOPNOTSUPP (지원 안 되는 액션)
# mlx5_core: flow table full, falling back to software

DPU 운영 시 주요 주의사항:

펌웨어-드라이버 호환성 — DPU 펌웨어와 호스트 커널 드라이버 버전 불일치는 오프로드 실패의 주요 원인입니다. NVIDIA의 경우 MLNX_OFED/DOCA 버전 매트릭스를 확인하세요
eSwitch 모드 전환 — legacy ↔ switchdev 전환 시 수 초간 네트워크 중단 발생. 운영 중 전환은 유지보수 윈도우에서만 수행
DPU ARM OS 업데이트 — DPU의 ARM Linux 커널/rootfs 업데이트 시 DPU 재부팅 필요. 호스트와 독립적이지만 네트워크 경로 단절 발생
HW 플로우 테이블 한계 — eSwitch의 HW 플로우 테이블은 유한합니다(수백만 엔트리). microflow가 많은 환경에서는 aging/eviction 정책 조율 필요
열 관리(Thermal Management) — 400GbE DPU는 75W+ 전력을 소비합니다. 적절한 서버 냉각 확보 필수
CT offload 차이 — 하드웨어 conntrack은 소프트웨어 conntrack과 타임아웃, 최대 연결 수 등이 다를 수 있습니다. 사전 검증 필요

SmartNIC/DPU 선택 가이드:

클라우드/가상화 환경 — NVIDIA BlueField DPU가 주류. OVS offload + DOCA SDK + GPUDirect 생태계가 가장 성숙
통신사/네트워크 기능 — Intel IPU(P4 프로그래밍) 또는 AMD Pensando(하드웨어 P4 파이프라인)가 적합
순수 패킷 처리 가속 — Netronome NFP(XDP HW offload)가 BPF 오프로드에 최적화
Intel 서버 통합 — Intel E810(ADQ + QAT 연동) 또는 IPU E2000
저전력/고밀도 — Marvell OCTEON 10이 전력 효율 우수

eSwitch 내부 패킷 흐름

DPU의 eSwitch는 단순한 L2 스위치가 아니라 프로그래머블 패킷 파이프라인입니다. 패킷이 eSwitch에 도착하면 flow steering 파이프라인을 거쳐 fast path(HW 오프로드) 또는 slow path(소프트웨어 폴백)로 분기됩니다. 이 구조를 이해해야 오프로드 실패 원인을 진단할 수 있습니다.

/* drivers/net/ethernet/mellanox/mlx5/core/eswitch_offloads.c
 *
 * eSwitch FDB(Forwarding DataBase) 플로우 테이블 생성
 * Level 0~3의 계층적 파이프라인을 하드웨어에 설정
 */

static int esw_create_offloads_fdb_tables(struct mlx5_eswitch *esw)
{
    struct mlx5_flow_namespace *root_ns;
    struct mlx5_flow_table *fdb;
    int err;

    root_ns = mlx5_get_fdb_sub_ns(esw->dev, 0);

    /* Level 0: TC flower fast path — 사용자 규칙이 설치되는 테이블
     * tc filter add dev rep0 ingress flower ... skip_sw
     * 위 명령의 규칙이 여기에 HW 오프로드됨
     */
    fdb = mlx5_create_auto_grouped_flow_table(root_ns,
            &ft_attr);  /* max_fte = 수백만, autogroup = true */
    esw->fdb_table.offloads.tc = fdb;

    /* Level 1: Slow FDB — TC miss 시 representor로 전달하는 기본 규칙
     * FDB에서 매칭되지 않은 패킷 → representor netdev → CPU
     */
    fdb = mlx5_create_flow_table(root_ns, &ft_attr_slow);
    esw->fdb_table.offloads.slow_fdb = fdb;

    /* miss 규칙: FDB에 없는 패킷을 representor로 전달 */
    err = esw_add_fdb_miss_rule(esw);

    return err;
}

/* eSwitch 패킷 수신 경로:
 *
 * [Wire/VF] → NIC RX → Flow Steering → FDB Lookup
 *                                          │
 *                        ┌─────────────────┴──────────────────┐
 *                        │ HIT                                │ MISS
 *                        ▼                                    ▼
 *                   HW Action 실행                     Slow FDB rule
 *                   (forward/modify/                   → representor
 *                    encap/decap/ct)                    → CPU netdev rx
 *                        │                                    │
 *                        ▼                                    ▼
 *                   [Egress Port]                     OVS/TC SW 처리
 *                   CPU 관여 없음                     → flow install
 *                                                     → 이후 HW offload
 */

/* TC flower 오프로드 콜백 — representor의 ndo_setup_tc에서 호출 */
static int mlx5e_rep_setup_tc(struct net_device *dev,
                             enum tc_setup_type type,
                             void *type_data)
{
    struct mlx5e_priv *priv = netdev_priv(dev);

    switch (type) {
    case TC_SETUP_CLSFLOWER:
        /* TC flower 규칙을 eSwitch FDB에 설치/삭제/조회 */
        return mlx5e_rep_setup_tc_cls_flower(priv, type_data);
    case TC_SETUP_CLSMATCHALL:
        return mlx5e_rep_setup_tc_cb(type_data);
    default:
        return -EOPNOTSUPP;
    }
}

코드 설명

6행 esw_create_offloads_fdb_tables()는 eSwitch의 2단계 FDB 파이프라인을 생성합니다. Level 0(tc)은 TC flower 오프로드 규칙용이고, Level 1(slow_fdb)은 매칭되지 않은 패킷을 representor로 보내는 miss 규칙입니다.
18행 mlx5_create_auto_grouped_flow_table()은 HW가 규칙을 자동으로 그룹화하는 플로우 테이블을 생성합니다. ConnectX-7 기준 수백만 개 엔트리를 지원하며, 규칙 수가 증가해도 매칭 성능이 선형적으로 저하되지 않습니다.
51행 mlx5e_rep_setup_tc()는 TC 서브시스템이 representor에 flower 규칙을 설치할 때 호출되는 진입점입니다. TC_SETUP_CLSFLOWER 명령을 받아 mlx5e_rep_setup_tc_cls_flower()로 전달합니다.

FDB 플로우 테이블 용량:

ConnectX-6 Dx — FDB 최대 ~2M 엔트리, CT 테이블 ~1M 연결
ConnectX-7 — FDB 최대 ~4M 엔트리, CT 테이블 ~2M 연결
BlueField-3 — FDB 최대 ~16M 엔트리, CT 테이블 ~8M 연결
테이블이 가득 차면 mlx5_core: flow table full 경고와 함께 SW 폴백
devlink resource show로 현재 사용량 대비 최대치 확인 가능

TC Flower 오프로드 커널 내부 경로

TC flower 규칙이 사용자 공간(User Space)에서 eSwitch 하드웨어까지 전달되는 전체 커널 호출 경로를 추적합니다. 이 경로를 이해하면 오프로드 실패 시 정확히 어느 단계에서 -EOPNOTSUPP가 반환되는지 파악할 수 있습니다.

/* net/sched/cls_flower.c — TC flower 규칙 파싱 및 콜백 */

static int fl_change(struct net *net, struct sk_buff *in_skb,
                    struct tcf_proto *tp, unsigned long base,
                    u32 handle, struct nlattr **tca,
                    void **arg, u32 flags,
                    struct netlink_ext_ack *extack)
{
    struct cls_fl_head *head = fl_head_dereference(tp);
    struct cls_fl_filter *fnew;
    int err;

    /* 1단계: Netlink 속성에서 flower 매칭 키 파싱 */
    err = fl_set_key(net, tca[TCA_OPTIONS], &fnew->key, &fnew->mask, extack);
    if (err)
        goto errout;

    /* 2단계: 액션(mirred, ct, nat, vlan 등) 파싱 */
    err = tcf_exts_validate(net, tp, tca, ...);

    /* 3단계: HW 오프로드 시도 (skip_sw인 경우 필수) */
    if (!(flags & TCA_FLAGS_SKIP_HW)) {
        err = fl_hw_replace_filter(tp, fnew, rtnl_held, extack);
        if (err && (flags & TCA_FLAGS_SKIP_SW))
            goto errout;  /* skip_sw + HW 실패 → 전체 실패 */
    }

    return 0;
}

/* fl_hw_replace_filter() → 드라이버의 ndo_setup_tc 호출 */
static int fl_hw_replace_filter(struct tcf_proto *tp,
                                struct cls_fl_filter *f, ...)
{
    struct tc_cls_flower_offload cls_flower = {};
    struct flow_rule *rule;

    /* flower 키 → flow_rule 변환 */
    cls_flower.rule = flow_rule_alloc(tcf_exts_num_actions(&f->exts));
    cls_flower.command = FLOW_CLS_REPLACE;

    /* 드라이버 콜백 호출:
     * net_device->netdev_ops->ndo_setup_tc(TC_SETUP_CLSFLOWER, &cls_flower)
     * → mlx5e_rep_setup_tc_cls_flower()
     */
    return tc_setup_cb_call(block, TC_SETUP_CLSFLOWER, &cls_flower, ...);
}

/* drivers/net/ethernet/mellanox/mlx5/core/en_tc.c
 * mlx5 드라이버에서 flower 규칙을 eSwitch FDB로 변환
 */
static int mlx5e_tc_add_fdb_flow(struct mlx5e_priv *priv,
                                struct mlx5e_tc_flow *flow,
                                struct netlink_ext_ack *extack)
{
    struct mlx5_eswitch *esw = priv->mdev->priv.eswitch;
    struct mlx5_flow_attr *attr = flow->attr;
    int err;

    /* 1. 매칭 키 파싱: flower key → mlx5 match spec */
    err = parse_cls_flower(priv, flow, &parse_attr->spec, ...);
    if (err)
        return err;  /* HW 미지원 매칭 필드 → -EOPNOTSUPP */

    /* 2. 액션 파싱: flower action → mlx5 flow action */
    err = parse_tc_fdb_actions(priv, &rule->action, flow, extack);
    if (err)
        return err;  /* HW 미지원 액션 → -EOPNOTSUPP */

    /* 3. eSwitch FDB에 HW 규칙 설치 → FW 커맨드 전송 */
    flow->rule[0] = mlx5_eswitch_add_offloaded_rule(esw, &parse_attr->spec,
                                                      attr);

    return 0;
}

코드 설명

1-12행 (fl_change) fl_change()는 TC flower 규칙이 생성/수정될 때 호출되는 최상위 함수입니다. 3단계로 처리됩니다: (1) netlink 메시지에서 매칭 키 파싱, (2) 액션(mirred, ct, nat 등) 검증, (3) HW 오프로드 시도. skip_sw+HW 실패 시 규칙 전체가 거부됩니다.
15-30행 (fl_hw_replace_filter) flow_rule_alloc()은 TC 내부의 flower key/mask를 벤더 독립적인 flow_rule 구조로 변환합니다. tc_setup_cb_call()은 block에 등록된 드라이버 콜백 체인을 순회하여 ndo_setup_tc(TC_SETUP_CLSFLOWER)를 호출합니다.
35-58행 (mlx5e_tc_add_fdb_flow) mlx5 드라이버의 핵심 오프로드 함수입니다. parse_cls_flower()가 flower key를 mlx5 하드웨어의 match spec으로 변환하고, parse_tc_fdb_actions()가 액션을 mlx5 flow action으로 변환합니다. HW가 지원하지 않는 매칭/액션은 -EOPNOTSUPP를 반환하여 SW 폴백을 유도합니다.
54-55행 mlx5_eswitch_add_offloaded_rule()은 변환된 match/action spec을 NIC 펌웨어 커맨드로 전송하여 eSwitch FDB에 HW 규칙을 설치합니다. 이후 해당 트래픽은 CPU 관여 없이 NIC 하드웨어에서 라인레이트로 처리됩니다.

HW 오프로드 가능한 TC flower 매칭/액션:

구분	지원 항목	미지원 (SW 폴백)
매칭 키	eth_type, src/dst MAC, VLAN, src/dst IP, L4 port, ip_proto, ip_tos, tcp_flags, tunnel_key, ct_state, ct_zone, ct_mark	일부 L7 필드, 커스텀 프로토콜 (드라이버 의존)
액션	mirred redirect/mirror, vlan push/pop, tunnel_key set/unset, ct, nat, pedit (header rewrite), csum, goto chain	learn, clone, skbedit (일부), police (일부 드라이버)
체이닝	goto chain (multi-table pipeline)	무한 재귀, 과도한 체인 깊이

Conntrack HW Offload

Conntrack(CT) offload는 stateful 방화벽의 연결 추적(Connection Tracking)을 eSwitch 하드웨어에서 수행합니다. 소프트웨어 conntrack은 CPU 코어당 수십만 PPS가 한계이지만, HW CT offload는 수억 PPS를 처리하면서도 호스트 CPU를 전혀 사용하지 않습니다.

# ━━━ TC ct action으로 Stateful 방화벽 HW Offload ━━━

# Chain 0: Pre-CT — 모든 ingress 패킷을 conntrack으로 전달
tc filter add dev enp3s0f0np0_0 ingress prio 1 chain 0 \
    flower skip_sw \
    action ct zone 1 pipe \
    action goto chain 1

# Chain 1: Established 연결 허용 (fast path)
tc filter add dev enp3s0f0np0_0 ingress prio 1 chain 1 \
    flower skip_sw ct_state +est+trk \
    action mirred egress redirect dev enp3s0f0np0

# Chain 1: NEW + 허용 목적지만 commit하고 전달
tc filter add dev enp3s0f0np0_0 ingress prio 2 chain 1 \
    flower skip_sw ct_state +new+trk ip_proto tcp dst_port 80 \
    action ct commit zone 1 pipe \
    action mirred egress redirect dev enp3s0f0np0

# Chain 1: 그 외 NEW → drop (방화벽 정책)
tc filter add dev enp3s0f0np0_0 ingress prio 3 chain 1 \
    flower skip_sw ct_state +new+trk \
    action drop

# ━━━ CT + NAT HW Offload ━━━

# SNAT: 내부 → 외부 (소스 IP 변환)
tc filter add dev enp3s0f0np0_0 ingress prio 1 chain 0 \
    flower skip_sw ip_proto tcp \
    action ct zone 1 nat src addr 203.0.113.1 pipe \
    action goto chain 1

# DNAT: 외부 → 내부 (목적지 IP 변환)
tc filter add dev enp3s0f0np0 ingress prio 1 chain 0 \
    flower skip_sw ip_proto tcp dst_ip 203.0.113.1 dst_port 443 \
    action ct zone 1 nat dst addr 10.0.0.100 port 8443 pipe \
    action goto chain 1

# CT offload 상태 확인
tc -s filter show dev enp3s0f0np0_0 ingress
# ... in_hw in_hw_count 1 ← HW CT 오프로드 활성

# conntrack 하드웨어 엔트리 수 확인
devlink resource show pci/0000:03:00.0 | grep ct
# name ct_table size 2097152 occ 45230  ← 현재 45K 연결 HW 추적

CT Offload 제한사항:

프로토콜 — TCP, UDP, ICMP만 HW CT 지원. SCTP, GRE 등은 SW 폴백
ALG — FTP ALG, SIP ALG 등 애플리케이션 레벨 게이트웨이는 HW 미지원
Fragmentation — IP 단편화(Fragmentation) 패킷은 HW CT에서 처리 불가
Aging 차이 — HW aging timer와 SW conntrack timer가 동기화되지 않을 수 있음. net.netfilter.nf_conntrack_tcp_timeout_established 값과 HW timer 비교 필요
Zone 제한 — 동시 사용 가능한 CT zone 수에 HW 제한이 있을 수 있음 (드라이버 의존)

SR-IOV vs SF vs vDPA 가상화 비교

DPU는 호스트에 가상 디바이스를 노출하는 세 가지 주요 메커니즘을 제공합니다. 각 방식은 성능, 유연성, 마이그레이션 지원에서 서로 다른 트레이드오프를 가집니다.

비교 항목	SR-IOV VF	Scalable Function	vDPA
생성 메커니즘	PCIe spec (HW 고정)	devlink port add (SW)	vdpa dev add (SW)
최대 수량	128~256/PF	수천 개	SF/VF 기반 (제한 없음)
리부팅 필요	sriov_numvfs 변경 시	불필요	불필요
RDMA 지원	VF RDMA (별도 설정)	SF 당 독립 RDMA	미지원 (virtio)
라이브 마이그레이션	bond failover 필요	migratable 플래그	완전 지원
컨테이너 적합성	중간 (device plugin)	최적 (k8s CNI 연동)	VM 전용
게스트 드라이버	벤더 VF 드라이버 필요	호스트 네임스페이스(Namespace) 직접	표준 virtio 드라이버
커널 최소 버전	3.8+	5.12+	5.7+

/* include/linux/vdpa.h — vDPA 핵심 구조체 */
struct vdpa_device {
    struct device dev;
    struct vdpa_mgmt_dev *mdev;     /* 관리 디바이스 (mlx5_core.sf 등) */
    const struct vdpa_config_ops *config;
    unsigned int index;
    bool features_valid;
    bool use_va;
    u32 nvqs;                        /* virtqueue 수 */
    struct vdpa_mgmt_dev *mdev;
};

/* vDPA config ops — DPU 드라이버가 구현 */
struct vdpa_config_ops {
    /* VQ 설정 */
    int  (*set_vq_address)(...);      /* VQ 메모리 매핑 */
    void (*set_vq_num)(...);          /* VQ depth 설정 */
    void (*kick_vq)(...);             /* VQ doorbell */

    /* 디바이스 설정 */
    u64  (*get_device_features)(...); /* HW 지원 virtio feature */
    u8   (*get_status)(...);
    void (*set_status)(...);

    /* 라이브 마이그레이션 */
    int  (*suspend)(...);              /* 데이터 경로 일시 중지 */
    int  (*resume)(...);               /* 데이터 경로 재개 */
    int  (*get_vq_state)(...);         /* VQ 상태 스냅샷 */
    int  (*set_vq_state)(...);         /* VQ 상태 복원 */
};

/* mlx5 vDPA 드라이버: DPU에서 virtio-net HW 가속 구현
 * drivers/vdpa/mlx5/net/mlx5_vnet.c
 *
 * 데이터 경로:
 *   VM virtio-net ←→ vhost-vdpa ←→ mlx5_vdpa ←→ eSwitch HW
 *                                                  │
 *                                            wire speed 포워딩
 *
 * 라이브 마이그레이션:
 *   1. suspend() → HW 데이터 경로 중지
 *   2. get_vq_state() → VQ avail/used idx 스냅샷
 *   3. (마이그레이션 전송)
 *   4. set_vq_state() → 대상 DPU에서 VQ 상태 복원
 *   5. resume() → HW 데이터 경로 재개
 */

코드 설명

2-11행 (vdpa_device) vdpa_device는 vDPA(virtio Data Path Acceleration) 프레임워크의 핵심 추상화입니다. DPU의 mlx5 드라이버가 이 구조체를 구현하면, VM의 virtio-net 드라이버가 HW 가속된 데이터 경로를 사용할 수 있습니다. nvqs는 할당된 virtqueue 수로, 보통 RX+TX 2개입니다.
14-18행 vdpa_config_ops는 DPU 드라이버가 구현하는 콜백 테이블입니다. kick_vq()는 VM이 새 패킷을 enqueue했을 때 HW doorbell을 울리고, get_device_features()는 NIC이 지원하는 virtio feature(체크섬 오프로드, TSO 등)를 반환합니다.
21-25행 라이브 마이그레이션 콜백은 vDPA의 핵심 차별점입니다. suspend()→get_vq_state()→전송→set_vq_state()→resume() 순서로 VQ 상태를 스냅샷하여 대상 DPU에서 복원하며, 다운타임을 수십 ms로 줄일 수 있습니다.
28-40행 mlx5 vDPA 드라이버의 데이터 경로는 VM→vhost-vdpa→mlx5_vdpa→eSwitch HW 순으로 처리됩니다. QEMU의 vhost-vdpa 백엔드가 VM의 virtqueue를 mlx5 HW에 직접 매핑하므로, 호스트 커널의 네트워크 스택을 완전히 우회합니다.

mlx5_core 드라이버 모듈 구조

NVIDIA DPU(BlueField)와 ConnectX SmartNIC의 핵심 드라이버인 mlx5_core는 리눅스 네트워크 드라이버 중 가장 복잡한 구조를 가집니다. auxiliary_bus를 통해 이더넷, RDMA, vDPA, crypto 등의 기능을 독립 서브드라이버로 분리합니다.

/* drivers/net/ethernet/mellanox/mlx5/core/main.c
 *
 * mlx5_core 초기화 흐름: PCI probe → 기능별 서브드라이버 등록
 */

/* 핵심 구조체 — DPU/SmartNIC 전체 상태 */
struct mlx5_core_dev {
    struct pci_dev     *pdev;
    struct mlx5_priv    priv;           /* eswitch, health 등 */
    struct mlx5_port_caps port_caps;
    u8                  issi;          /* 인터페이스 사양 버전 */

    /* FW 커맨드 인터페이스 */
    struct mlx5_cmd     cmd;
    struct mlx5_eq_table *eq_table;     /* 이벤트 큐 테이블 */

    /* Capabilities — HW 기능 비트맵 */
    struct mlx5_caps    caps;
    u64                hca_caps_cur[MLX5_CAP_NUM];
    u64                hca_caps_max[MLX5_CAP_NUM];

    /* devlink 인터페이스 */
    struct devlink     *devlink;

    /* eSwitch — DPU/switchdev 핵심 */
    struct mlx5_eswitch *priv.eswitch;
};

/* 초기화 순서 */
static int mlx5_init_one(struct mlx5_core_dev *dev)
{
    int err;

    /* 1. FW 핸드셰이크: INIT_HCA, 이벤트 핸들러 등록 */
    err = mlx5_function_setup(dev, true);

    /* 2. 리소스 테이블 초기화: PD, MR, CQ, QP 풀 */
    err = mlx5_init_once(dev);

    /* 3. eSwitch 초기화 (DPU/switchdev 모드) */
    mlx5_eswitch_init(dev);

    /* 4. devlink 등록 (사용자 공간 관리 인터페이스) */
    mlx5_devlink_register(dev);

    /* 5. auxiliary_bus 디바이스 등록 → 서브드라이버 probe */
    mlx5_register_device(dev);
    /* → mlx5_core.eth.0  → mlx5e_probe()   (Ethernet)
     * → mlx5_core.rdma.0 → mlx5_ib_probe()  (RDMA)
     * → mlx5_core.vnet.0 → mlx5v_probe()    (vDPA)
     * → mlx5_core.sf.N   → mlx5_sf_probe()  (Scalable Functions)
     */

    return 0;
}

/* 소스 트리 구조 (drivers/net/ethernet/mellanox/mlx5/core/):
 *
 * main.c          — PCI probe/remove, mlx5_core_dev 관리
 * cmd.c           — FW 커맨드 mailbox (동기/비동기)
 * eq.c            — 이벤트 큐 (인터럽트 핸들러)
 * health.c        — 하드웨어 헬스 모니터 (watchdog)
 * devlink.c       — devlink 파라미터, 리소스, 헬스 리포터
 *
 * en_main.c       — Ethernet netdev 생성/초기화
 * en_rx.c / en_tx.c — 데이터 경로 (NAPI poll, xmit)
 * en_tc.c         — TC flower 오프로드 파싱/설치
 * en_rep.c        — Representor netdev
 *
 * eswitch.c       — eSwitch 코어 (모드 전환, vport 관리)
 * eswitch_offloads.c — FDB 오프로드 규칙 관리
 *
 * en_accel/       — 가속기 서브시스템
 *   ipsec.c       — IPsec xfrm offload
 *   ktls.c        — kTLS offload
 *
 * sf/             — Scalable Functions
 *   sf.c          — SF 생성/삭제
 *   devlink.c     — SF devlink 포트
 *
 * steering/       — Flow Steering 엔진
 *   fs_core.c     — Flow Table / Flow Group / FTE 관리
 *   fs_cmd.c      — FW 커맨드로 HW 테이블 조작
 */

코드 설명

7-18행 (mlx5_core_dev) mlx5_core_dev는 ConnectX/BlueField 디바이스의 최상위 구조체입니다. priv.eswitch가 eSwitch 서브시스템, cmd가 FW 커맨드 인터페이스, hca_caps_cur/max가 HW 기능 비트맵(Bitmap)을 관리합니다. PCI probe 시 단 한 번 할당되며, 모든 서브드라이버가 이 구조체를 공유합니다.
24-26행 mlx5_function_setup()은 INIT_HCA FW 커맨드로 하드웨어를 초기화하고, mlx5_init_once()는 PD(Protection Domain), MR(Memory Region), CQ/QP 풀 같은 RDMA 리소스 테이블을 생성합니다.
30-41행 mlx5_register_device()는 auxiliary_bus에 기능별 디바이스를 등록합니다. 각 mlx5_core.{eth,rdma,vnet,sf}.N 디바이스가 대응하는 서브드라이버(mlx5e, mlx5_ib, mlx5v, mlx5_sf)를 probe합니다. 이 설계로 이더넷, RDMA, vDPA가 독립적으로 로드/언로드됩니다.
46-72행 (소스 트리) mlx5 드라이버의 핵심 파일 구조입니다. en_tc.c가 TC flower→HW 오프로드 변환, eswitch_offloads.c가 FDB 규칙 관리, steering/fs_core.c가 Flow Table/Group/Entry의 HW 프로그래밍을 담당합니다.

DPU 부팅 및 프로비저닝

DPU는 독립적인 컴퓨팅 플랫폼이므로 자체 부팅 프로세스(Process)가 있습니다. BlueField DPU를 기준으로 부팅 시퀀스와 프로비저닝 절차를 살펴봅니다.

# ━━━ BFB 이미지를 통한 DPU 프로비저닝 ━━━

# 1. 호스트에서 RShim 드라이버 로드
modprobe rshim
systemctl start rshim

# RShim 디바이스 확인
ls /dev/rshim0/
# boot  console  misc
# boot: BFB 이미지 설치 경로
# console: DPU 시리얼 콘솔

# 2. DPU에 BFB 이미지 설치 (호스트에서)
cat DOCA_2.9_BSP_4.9_Ubuntu_22.04.bfb > /dev/rshim0/boot
# → DPU가 자동으로 재부팅되며 이미지 설치 시작
# → 10~15분 소요 (eMMC 쓰기)

# 3. DPU 콘솔 접속 (설치 상태 모니터링)
screen /dev/rshim0/console 115200
# 또는
minicom -D /dev/rshim0/console

# 4. 설치 완료 후 DPU SSH 접속
# RShim은 tmfifo_net0 인터페이스를 제공 (192.168.100.2)
ssh ubuntu@192.168.100.2

# ━━━ DPU 펌웨어 업데이트 ━━━

# DPU ARM에서 FW 업데이트
mlxfwmanager --online -d /dev/mst/mt41692_pciconf0 -u
# → NVIDIA 서버에서 최신 FW 다운로드 및 설치
# → DPU 리셋 필요 (mlxfwreset)

# FW 리셋 (서비스 중단 발생)
mlxfwreset -d /dev/mst/mt41692_pciconf0 reset

# ━━━ PXE 기반 무인 프로비저닝 ━━━

# DPU UEFI에서 PXE 부팅 우선순위 설정
mlxconfig -d /dev/mst/mt41692_pciconf0 set INTERNAL_CPU_BOOT_OPTION=PXE
# → DHCP + TFTP → 커널/rootfs 네트워크 부팅
# → cloud-init으로 초기 설정 자동화

# ━━━ DPU NIC 모드 설정 (SEPARATED_HOST / EMBEDDED_CPU) ━━━

# NIC 모드 확인
mlxconfig -d /dev/mst/mt41692_pciconf0 query | grep -i "internal_cpu_model"
# INTERNAL_CPU_MODEL = EMBEDDED_CPU(1)

# 모드 설명:
# EMBEDDED_CPU(1) — DPU 모드: ARM SoC가 eSwitch 관리자
# SEPARATED_HOST(0) — NIC 모드: 호스트가 직접 NIC 제어

RShim 네트워크: RShim은 PCIe를 통해 호스트와 DPU ARM 사이에 가상 네트워크(tmfifo_net0)를 제공합니다. 기본적으로 호스트 측 192.168.100.1, DPU 측 192.168.100.2로 설정됩니다. 이 경로는 OOB 관리용이며, 데이터 플레인과 완전히 분리되어 있어 네트워크 장애 시에도 DPU에 접근할 수 있습니다.

DPU 멀티테넌트 아키텍처

클라우드 환경에서 DPU의 핵심 가치는 인프라 레이어와 테넌트 레이어의 완전한 분리입니다. DPU ARM에서 인프라 서비스(네트워크, 보안, 스토리지)를 강제 적용하면서, 호스트에는 bare metal 수준의 성능을 제공합니다.

주요 클라우드의 DPU/SmartNIC 활용:

AWS Nitro — 자체 ASIC 기반. 네트워크(VPC), 스토리지(EBS), 보안을 Nitro Card로 오프로드. EC2의 모든 인스턴스가 Nitro 기반
Azure — FPGA SmartNIC(AccelNet)으로 SDN 가속. Azure Stack HCI에 DPU 적용 확대
GCP — gVNIC + Andromeda SDN. Titanium(커스텀 반도체) 발표, DPU 방향 전환
Oracle Cloud — 서버당 2개 SmartNIC으로 네트워크/스토리지 가상화 오프로드
Alibaba Cloud — 자체 MOC(Multi-function Offloading Card) DPU 개발

OVS 오프로드 파이프라인 비교

OVS(Open vSwitch)는 세 가지 데이터 경로 모드를 제공합니다. DPU 환경에서 가장 높은 성능을 달성하려면 TC flower HW offload 또는 DOCA offload를 사용합니다.

비교 항목	OVS-Kernel	OVS-DPDK	OVS-HW Offload	OVS-DOCA (BF DPU)
데이터 경로	커널 openvswitch.ko	유저스페이스 DPDK PMD	eSwitch HW (TC flower)	DOCA Flow API → eSwitch
CPU 소비	중간 (인터럽트(Interrupt) 기반)	매우 높음 (polling)	~0% (fast path)	~0% (fast path)
지연	10-50μs	3-10μs	1-2μs	1-2μs
처리량 (64B)	~5-10 Mpps	~30-50 Mpps	200+ Mpps	200+ Mpps
메모리	일반 커널 메모리	hugepages 필요	HW 테이블	HW 테이블
CT offload	SW nf_conntrack	SW conntrack	HW CT	HW CT
설정 복잡도	낮음	높음 (DPDK 설정)	중간 (switchdev)	중간 (DOCA SDK)
적합 환경	소규모, 호환성 우선	고성능 + 유연성	대규모 클라우드	NVIDIA BF DPU 전용

DPU 성능 벤치마킹 및 튜닝

DPU 오프로드의 효과를 정량적으로 측정하고 최적화하기 위한 벤치마킹 방법론과 튜닝 포인트를 다룹니다.

# ━━━ 기본 성능 측정 도구 ━━━

# 1. iperf3 — 대역폭 측정
# 서버 (수신 측)
iperf3 -s -p 5201

# 클라이언트 (송신 측) — 100GbE 전체 대역폭 테스트
iperf3 -c 10.0.0.2 -p 5201 -P 8 -t 30 -l 1M
# 결과: ~98 Gbps (오프로드 활성 시 CPU ~5%)

# 2. TRex / pktgen — PPS 측정
# 64바이트 패킷으로 최대 PPS 측정 (100GbE = 148.8 Mpps 이론값)
# HW offload 시 wire speed(~148 Mpps) 달성 가능
# SW OVS: ~5-10 Mpps / OVS-DPDK: ~30-50 Mpps

# 3. wrk / nginx — kTLS 오프로드 벤치마크
# kTLS HW offload ON vs OFF 비교
# 서버: nginx with ssl + sendfile (kTLS 자동 활성)
wrk -t 8 -c 200 -d 30s https://10.0.0.2/1GB.bin
# HW offload ON:  ~45 Gbps, CPU ~15%
# HW offload OFF: ~20 Gbps, CPU ~95%

# ━━━ 오프로드 효과 측정 방법 ━━━

# CPU 사용률 비교 (offfload 전후)
mpstat -P ALL 1 10

# 인터럽트 분포 확인 (HW offload 시 인터럽트 감소)
watch -n 1 "cat /proc/interrupts | grep mlx5"

# ethtool 카운터로 오프로드 패킷 수 확인
ethtool -S enp3s0f0np0 | grep -E "rx_packets|tx_packets|rx_bytes|tx_bytes"
ethtool -S enp3s0f0np0 | grep -E "offload|hw_"

# OVS dpctl 통계 — 오프로드 vs 소프트웨어 비율
ovs-appctl dpctl/dump-flows type=offloaded | wc -l   # HW offload 플로우 수
ovs-appctl dpctl/dump-flows type=ovs | wc -l         # SW 플로우 수
ovs-appctl coverage/show | grep -i "upcall"         # upcall 빈도 (낮을수록 좋음)

# ━━━ DPU 튜닝 포인트 ━━━

# 1. IRQ affinity — NUMA 정렬
# DPU PCIe 슬롯의 NUMA 노드 확인
cat /sys/class/net/enp3s0f0np0/device/numa_node
# IRQ를 같은 NUMA 노드의 CPU에 바인딩
# mlx5 드라이버는 기본적으로 최적 affinity 설정

# 2. Ring buffer 크기 조정
ethtool -g enp3s0f0np0
ethtool -G enp3s0f0np0 rx 8192 tx 8192

# 3. Adaptive coalescing (인터럽트 병합)
ethtool -C enp3s0f0np0 adaptive-rx on adaptive-tx on

# 4. aRFS (Accelerated Receive Flow Steering)
ethtool -K enp3s0f0np0 ntuple on
echo 32768 > /proc/sys/net/core/rps_sock_flow_entries

# 5. XDP (DPU에서 XDP 활용)
# DPU ARM에서 XDP 프로그램으로 패킷 필터링 가속
ip link set dev enp3s0f0np0 xdpdrv obj xdp_filter.o sec xdp

# 6. eSwitch 인라인 모드 (매칭 깊이 설정)
# none: L2만 매칭 / link: L2+L3 / network: L2~L4 / transport: L2~L4+tunnel
devlink dev eswitch set pci/0000:03:00.0 inline-mode transport

# 7. TC flower 규칙 최적화
# 규칙 수가 많으면 grouped flow table 사용 (자동)
# 불필요한 규칙 정리로 HW 테이블 용량 확보
tc -s filter show dev enp3s0f0np0_0 ingress | grep "in_hw"

벤치마크 시나리오	측정 도구	핵심 지표	기대 수치 (100GbE DPU)
L2 포워딩 (64B)	TRex, pktgen	PPS, 드롭률	HW: ~148 Mpps (wire speed)
L3 라우팅	TRex, iperf3	PPS, 지연	HW: ~148 Mpps, <2μs
VXLAN encap/decap	TRex, netperf	처리량, CPU 사용률	HW: ~100 Gbps, CPU ~0%
CT + NAT	TRex, ab/wrk	CPS, 동시 연결	HW: ~2M 연결, ~50M PPS
IPsec (AES-GCM)	iperf3 + xfrm	암호화 처리량	HW: ~100 Gbps (라인 레이트)
kTLS (TLS 1.3)	wrk + nginx	HTTPS 처리량, CPU	HW: ~45 Gbps, CPU ~15%
RDMA (RoCEv2)	perftest (ib_*)	대역폭(Bandwidth), 지연	~100 Gbps, <1μs

DPU 실전 트러블슈팅

DPU 운영 중 발생하는 일반적인 문제와 체계적인 디버깅 절차를 정리합니다.

증상	가능한 원인	진단 명령	해결 방법
TC flower 규칙이 in_hw로 표시되지 않음	eSwitch가 legacy 모드, 미지원 매칭/액션, FW 버전 부족	`devlink dev eswitch show` `dmesg \| grep -i flower`	switchdev 모드 전환, 지원 액션으로 변경, FW 업데이트
VF representor가 생성되지 않음	eSwitch가 switchdev 모드가 아님, VF 미생성	`ip link show` `cat /sys/class/net/*/device/sriov_numvfs`	switchdev 모드 전환 후 VF 생성
오프로드 성능이 기대 이하	일부 플로우가 SW 폴백, CT 미오프로드	`ovs-appctl dpctl/dump-flows type=ovs` `tc -s filter show ... \| grep in_hw`	SW 폴백 플로우 분석, 규칙 최적화
DPU ARM에 SSH 접속 불가	DPU OS 크래시, 네트워크 설정 오류	`screen /dev/rshim0/console`	RShim 콘솔로 DPU 상태 확인, BFB 재설치
FDB flow table full 경고	HW 테이블 용량 초과	`devlink resource show pci/...` `dmesg \| grep "flow table"`	불필요 규칙 정리, aging 정책 조정, 대역폭 업그레이드
IPsec offload 실패	미지원 알고리즘, SA 수 초과, 펌웨어 제한	`ip xfrm state list` `ethtool -k ... \| grep esp`	AES-GCM 사용 확인, SA 수 확인, FW 업데이트
DPU 펌웨어 업데이트 후 기능 미동작	FW-드라이버 호환성 불일치	`devlink dev info` `dmesg \| grep mlx5_core`	호환 드라이버 버전 설치 (MLNX_OFED 매트릭스 확인)
eSwitch 모드 전환 실패	VF가 사용 중, 드라이버 바인딩 상태	`echo 0 > sriov_numvfs` 먼저 실행	모든 VF 해제 후 모드 전환

# ━━━ 체계적 DPU 디버깅 절차 ━━━

# Step 1: 기본 상태 확인
devlink dev show                              # DPU 디바이스 인식 확인
devlink dev info pci/0000:03:00.0             # FW 버전 확인
devlink dev eswitch show pci/0000:03:00.0     # eSwitch 모드 확인
devlink health show pci/0000:03:00.0          # HW 헬스 상태

# Step 2: 드라이버 로그 확인
dmesg | grep -i "mlx5_core\|eswitch\|flower\|offload" | tail -50

# Step 3: 오프로드 상태 확인
tc -s filter show dev enp3s0f0np0_0 ingress   # in_hw 플래그 확인
tc -s filter show dev enp3s0f0np0 ingress
ovs-appctl dpctl/dump-flows type=offloaded | head -20

# Step 4: 리소스 사용량 확인
devlink resource show pci/0000:03:00.0        # HW 테이블 사용량

# Step 5: skip_hw/skip_sw 테스트로 문제 격리
# SW 전용 테스트 (HW 문제 격리)
tc filter add dev rep0 ingress flower ... action ... skip_hw
# HW 전용 테스트 (SW 문제 격리)
tc filter add dev rep0 ingress flower ... action ... skip_sw

# Step 6: FW 진단 (NVIDIA 도구)
mlxdump -d /dev/mst/mt41692_pciconf0 fsdump --type FT  # Flow Table 덤프
mst status                                              # MST 디바이스 상태
flint -d /dev/mst/mt41692_pciconf0 query                # FW 상세 정보

# Step 7: DPU ARM 측 진단 (RShim 또는 SSH)
ssh ubuntu@192.168.100.2 "dmesg | tail -30"    # DPU 커널 로그
ssh ubuntu@192.168.100.2 "ovs-vsctl show"      # DPU OVS 상태
ssh ubuntu@192.168.100.2 "systemctl status"    # DPU 서비스 상태

# ━━━ 고급 디버깅: ftrace로 TC offload 경로 추적 ━━━

# TC flower 오프로드 호출 경로 추적
echo 'mlx5e_rep_setup_tc*' > /sys/kernel/debug/tracing/set_ftrace_filter
echo 'mlx5_eswitch_add*' >> /sys/kernel/debug/tracing/set_ftrace_filter
echo function > /sys/kernel/debug/tracing/current_tracer
echo 1 > /sys/kernel/debug/tracing/tracing_on

# TC 규칙 추가 시도
tc filter add dev enp3s0f0np0_0 ingress flower ... skip_sw action ...

# 추적 결과 확인
cat /sys/kernel/debug/tracing/trace
# → mlx5e_rep_setup_tc_cls_flower()
# → mlx5e_tc_add_fdb_flow()
# → parse_cls_flower()
# → parse_tc_fdb_actions()
# → mlx5_eswitch_add_offloaded_rule()

echo 0 > /sys/kernel/debug/tracing/tracing_on

흔한 실수와 해결법

실수	증상	올바른 방법
eSwitch 전환 없이 offload 시도	TC flower에 `in_hw` 표시 안 됨, `-EOPNOTSUPP`	`devlink dev eswitch set ... mode switchdev` 먼저 실행
VF 사용 중 eSwitch 모드 전환	모드 전환 실패 또는 커널 패닉(Kernel Panic)	`echo 0 > sriov_numvfs` → 모드 전환 → VF 재생성
skip_sw 사용 시 HW 미지원 액션	규칙 추가 자체가 실패 (`Error: TC offload not supported`)	먼저 `skip_hw`로 규칙 동작 확인, 이후 skip_sw 테스트
CT offload 시 zone 누락	conntrack 매칭 실패, 패킷 드롭	`action ct zone 1`에서 zone 번호 반드시 명시
FW-드라이버 버전 불일치	오프로드 기능 미동작, 경고 메시지	MLNX_OFED / DOCA 버전 매트릭스 확인 후 맞는 조합 설치
Representor에 IP 주소 할당	데이터 경로 혼란, 예상치 못한 라우팅	Representor는 L2 포트로만 사용. IP는 PF 또는 VF에 할당
OVS hw-offload=true 설정 후 OVS 미재시작	오프로드 설정이 적용되지 않음	`ovs-vsctl set Open_vSwitch . other_config:hw-offload=true` 후 `systemctl restart openvswitch`
DPU restricted 모드에서 호스트로 PF 접근 시도	PF netdev 미노출, 권한 거부	Restricted 모드에서 호스트는 VF/SF만 사용 가능. PF 접근은 DPU ARM에서만
VXLAN offload 시 MTU 미고려	패킷 단편화, 성능 저하	VXLAN 오버헤드(50B) 감안하여 내부 MTU = 물리 MTU - 50
IPsec offload 시 AES-CBC 사용	HW 오프로드 실패 (`offload_ok` 거부)	HW는 AES-GCM(rfc4106)만 지원. CBC/SHA 조합은 SW 폴백

커널 소스 참조 가이드

구성 요소	소스 경로	핵심 파일
devlink	`net/devlink/`	`dev.c`, `port.c`, `health.c`, `resource.c`
switchdev	`net/switchdev/`	`switchdev.c` — `switchdev_port_obj_add/del`
TC flower	`net/sched/`	`cls_flower.c`, `act_ct.c`, `act_mirred.c`
flow offload	`net/core/`	`flow_offload.c` — `flow_rule`, `flow_action`
auxiliary_bus	`drivers/base/`	`auxiliary.c`, `include/linux/auxiliary_bus.h`
xfrm offload	`net/xfrm/`	`xfrm_device.c` — `xfrm_dev_offload`
vDPA	`drivers/vdpa/`	`vdpa.c`, `mlx5/net/mlx5_vnet.c`
mlx5 (NVIDIA)	`drivers/net/ethernet/mellanox/mlx5/core/`	`main.c`, `en_tc.c`, `eswitch_offloads.c`, `en_rep.c`
ice (Intel)	`drivers/net/ethernet/intel/ice/`	`ice_main.c`, `ice_tc_lib.c`, `ice_eswitch.c`
ionic (AMD)	`drivers/net/ethernet/pensando/ionic/`	`ionic_main.c`, `ionic_lif.c`
bnxt (Broadcom)	`drivers/net/ethernet/broadcom/bnxt/`	`bnxt.c`, `bnxt_tc.c`, `bnxt_devlink.c`

/* 주요 CONFIG 옵션 — DPU 관련 커널 빌드 설정 */

/* 필수 */
CONFIG_NET_SWITCHDEV=y          /* switchdev 프레임워크 */
CONFIG_NET_DEVLINK=y            /* devlink 서브시스템 */
CONFIG_AUXILIARY_BUS=y          /* auxiliary_bus */
CONFIG_NET_CLS_FLOWER=m         /* TC flower classifier */
CONFIG_NET_ACT_CT=m             /* TC ct action (conntrack) */
CONFIG_NET_ACT_MIRRED=m         /* TC mirred action */
CONFIG_NET_ACT_TUNNEL_KEY=m     /* TC tunnel_key action */
CONFIG_NET_ACT_PEDIT=m          /* TC pedit (header rewrite) */
CONFIG_NET_ACT_VLAN=m           /* TC vlan push/pop */

/* NVIDIA mlx5 */
CONFIG_MLX5_CORE=m              /* mlx5 핵심 드라이버 */
CONFIG_MLX5_CORE_EN=y           /* Ethernet 지원 */
CONFIG_MLX5_ESWITCH=y           /* eSwitch 지원 */
CONFIG_MLX5_TC_CT=y             /* CT offload */
CONFIG_MLX5_TC_SAMPLE=y         /* 패킷 샘플링 */
CONFIG_MLX5_CORE_IPOIB=y        /* IPoIB 지원 */
CONFIG_MLX5_EN_IPSEC=y          /* IPsec HW offload */
CONFIG_MLX5_EN_TLS=y            /* kTLS HW offload */
CONFIG_MLX5_SF=y                /* Scalable Functions */
CONFIG_MLX5_VDPA_NET=m          /* vDPA */
CONFIG_MLX5_INFINIBAND=m        /* RDMA/RoCE */

/* vDPA 프레임워크 */
CONFIG_VDPA=m
CONFIG_VHOST_VDPA=m
CONFIG_VIRTIO_VDPA=m

/* IPsec / xfrm */
CONFIG_XFRM_OFFLOAD=y           /* xfrm HW offload 프레임워크 */
CONFIG_INET_ESP=m               /* ESP 프로토콜 */
CONFIG_INET_ESP_OFFLOAD=m       /* ESP HW offload */

/* kTLS */
CONFIG_TLS=m                    /* 커널 TLS */
CONFIG_TLS_DEVICE=y             /* TLS HW offload */

관련 문서: DPDK에서 유저스페이스 고성능 패킷 처리 프레임워크 (EAL, PMD, rte_mbuf, Ring, Mempool, AF_XDP, OVS-DPDK) 관련 내용을 확인하세요.

DPU 기반 스토리지 가속

DPU는 네트워크 오프로드뿐 아니라 스토리지 I/O 경로를 호스트 CPU에서 분리하여 가속할 수 있습니다. NVMe-oF(NVMe over Fabrics) 타깃을 DPU ARM 코어에서 직접 처리하거나, virtio-blk 백엔드를 DPU에서 실행하여 호스트에는 표준 virtio-blk 디바이스만 노출하는 방식이 대표적입니다.

NVMe-oF 타깃 오프로드

DPU ARM 코어에서 nvmet (NVMe Target) 서브시스템을 실행하면, 원격 스토리지 요청이 호스트 CPU를 거치지 않고 DPU에서 직접 처리됩니다. NVIDIA SNAP 프레임워크는 이 패턴을 하드웨어 가속으로 확장합니다.

# DPU ARM 측: NVMe-oF TCP 타깃 설정
# 1. NVMe 타깃 모듈 로드
modprobe nvmet
modprobe nvmet-tcp

# 2. 서브시스템 생성
mkdir -p /sys/kernel/config/nvmet/subsystems/nqn.2024-01.com.dpu:storage1
cd /sys/kernel/config/nvmet/subsystems/nqn.2024-01.com.dpu:storage1
echo 1 > attr_allow_any_host

# 3. 네임스페이스에 로컬 NVMe 바인딩
mkdir namespaces/1
echo /dev/nvme0n1 > namespaces/1/device_path
echo 1 > namespaces/1/enable

# 4. TCP 포트 바인딩 (DPU 인터페이스 IP)
mkdir -p /sys/kernel/config/nvmet/ports/1
echo 192.168.100.1 > /sys/kernel/config/nvmet/ports/1/addr_traddr
echo 4420 > /sys/kernel/config/nvmet/ports/1/addr_trsvcid
echo tcp > /sys/kernel/config/nvmet/ports/1/addr_trtype
echo ipv4 > /sys/kernel/config/nvmet/ports/1/addr_adrfam
ln -s /sys/kernel/config/nvmet/subsystems/nqn.2024-01.com.dpu:storage1 \
      /sys/kernel/config/nvmet/ports/1/subsystems/

virtio-blk 에뮬레이션 (SNAP)

NVIDIA SNAP은 DPU에서 virtio-blk/virtio-scsi 컨트롤러를 하드웨어로 에뮬레이션합니다. 호스트 VM은 표준 virtio_blk 드라이버만 사용하므로 게스트 수정이 불필요합니다.

# DPU 측: SNAP virtio-blk 컨트롤러 생성
snap_rpc.py controller_virtio_blk_create \
  --pf_id 0 --vf_id 0 \
  --bdev_type spdk \
  --bdev Malloc0 \
  --num_queues 4 \
  --queue_depth 256

# 호스트 측: 표준 virtio-blk 디바이스로 인식됨
lsblk
# vda  252:0   0   1G  0 disk    ← SNAP 에뮬레이션 디바이스

# 성능 테스트 (호스트 측)
fio --name=randread --ioengine=libaio --direct=1 \
    --filename=/dev/vda --bs=4k --iodepth=64 \
    --rw=randread --numjobs=4 --runtime=30

성능 팁: SNAP virtio-blk은 SPDK 백엔드와 결합 시 호스트 CPU 사용률 0%에 가까운 스토리지 I/O를 달성합니다. NVMe-oF 타깃 + RDMA 전송 조합은 4KB 랜덤 읽기에서 1M+ IOPS를 DPU 단독으로 처리할 수 있습니다.

vDPA 연동: vhost-vdpa 경로를 통해 QEMU/KVM VM에 직접 virtio 데이터 경로를 연결하면, vhost-user 대비 추가 컨텍스트 스위치를 제거할 수 있습니다. 자세한 내용은 SR-IOV vs SF vs vDPA 가상화 비교 섹션을 참고하세요.

DPU 보안: IPsec/TLS 오프로드 및 마이크로세그멘테이션

DPU의 전용 Crypto Engine은 인라인 IPsec과 kTLS 암호화를 패킷 경로에서 직접 처리합니다. 호스트 CPU는 암호화/복호화 부하에서 완전히 해방되며, 마이크로세그멘테이션 정책도 DPU eSwitch에서 집행할 수 있습니다.

인라인 IPsec 오프로드 설정

# 1. xfrm state에 offload 플래그 추가
ip xfrm state add \
  src 10.0.0.1 dst 10.0.0.2 \
  proto esp spi 0x1001 reqid 1 mode tunnel \
  auth-trunc "hmac(sha256)" 0x$(openssl rand -hex 32) 128 \
  enc "cbc(aes)" 0x$(openssl rand -hex 16) \
  offload dev enp3s0f0 dir out

# 2. offload 상태 확인
ip xfrm state list
# ... offload dev enp3s0f0 dir out  ← HW offload 활성

# 3. 하드웨어 카운터로 오프로드 동작 검증
ethtool -S enp3s0f0 | grep ipsec
#   tx_ipsec_offload_pkts: 1482930
#   tx_ipsec_offload_bytes: 2137022400
#   tx_ipsec_offload_drop: 0

kTLS HW 오프로드

# kTLS + DPU HW offload 확인
ethtool -k enp3s0f0 | grep tls
# tls-hw-tx-offload: on
# tls-hw-rx-offload: on

# 성능 비교: SW kTLS vs HW kTLS
# SW (호스트 CPU AES-NI): ~40 Gbps, CPU 80%+
# HW (DPU Crypto):        ~100 Gbps, CPU < 5%

마이크로세그멘테이션

DPU eSwitch에서 VF/SF별 TC flower 규칙을 적용하면 VM 간 동-서 트래픽(East-West)을 하드웨어에서 격리할 수 있습니다. 호스트 OS가 침해되더라도 DPU에서 정책을 집행하므로 제로 트러스트 아키텍처의 핵심 구성요소가 됩니다.

# VM-A(VF0) → VM-B(VF1) 허용, 나머지 차단
# DPU ARM 측에서 실행

# 기본 정책: 모든 VF 간 트래픽 차단
tc filter add dev enp3s0f0_0 ingress protocol ip \
  flower action drop

# VM-A → VM-B (TCP 443만 허용)
tc filter add dev enp3s0f0_0 ingress protocol ip \
  flower \
    src_ip 10.0.1.10/32 dst_ip 10.0.1.20/32 \
    ip_proto tcp dst_port 443 \
  action mirred egress redirect dev enp3s0f0_1

# VM-B → VM-A (established 응답 허용 - ct offload)
tc filter add dev enp3s0f0_1 ingress protocol ip \
  flower ct_state +trk+est \
    src_ip 10.0.1.20/32 dst_ip 10.0.1.10/32 \
  action mirred egress redirect dev enp3s0f0_0

주의: 마이크로세그멘테이션 규칙은 eSwitch가 switchdev 모드일 때만 동작합니다. devlink dev eswitch set pci/0000:03:00.0 mode switchdev로 전환 후 적용하세요. Legacy 모드에서는 TC flower가 HW offload되지 않습니다.

DPU + Kubernetes 인프라 통합

클라우드 네이티브 환경에서 DPU는 인프라스트럭처 서비스(네트워킹, 스토리지, 보안)를 호스트에서 분리하여 전용 DPU에서 실행합니다. NVIDIA DOCA, Intel IPDK, DENT 등 프레임워크가 이 패턴을 지원합니다.

DOCA Infrastructure Manager 아키텍처

NVIDIA DOCA 프레임워크는 DPU를 독립 K8s 노드로 등록하여, 인프라 서비스 Pod를 DPU에서 스케줄링합니다. 호스트 노드는 순수 워크로드만 실행하고, 네트워크/스토리지/보안 기능은 DPU 노드가 전담합니다.

# DPU를 Kubernetes 노드로 등록
# DPU ARM 측에서 kubelet 실행
kubeadm join control-plane:6443 \
  --token abcdef.1234567890 \
  --discovery-token-ca-cert-hash sha256:... \
  --node-name dpu-node-01

# DPU 노드에 레이블/테인트 설정
kubectl label node dpu-node-01 \
  nvidia.com/dpu=true \
  node-role.kubernetes.io/dpu=""

kubectl taint node dpu-node-01 \
  nvidia.com/dpu=true:NoSchedule

# 인프라 서비스만 DPU에 스케줄
# OVS-DOCA DaemonSet 예시 (tolerations으로 DPU 노드 허용)
kubectl apply -f - <<'YAML'
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: ovs-doca
  namespace: kube-system
spec:
  selector:
    matchLabels:
      app: ovs-doca
  template:
    metadata:
      labels:
        app: ovs-doca
    spec:
      nodeSelector:
        nvidia.com/dpu: "true"
      tolerations:
      - key: nvidia.com/dpu
        effect: NoSchedule
      hostNetwork: true
      containers:
      - name: ovs-doca
        image: nvcr.io/nvidia/doca/doca_ovs:2.7.0
        securityContext:
          privileged: true
        volumeMounts:
        - name: dev
          mountPath: /dev
      volumes:
      - name: dev
        hostPath:
          path: /dev
YAML

kube-proxy 대체: DPU 기반 서비스 로드밸런싱

기존 kube-proxy의 iptables/IPVS 규칙을 DPU의 TC flower + conntrack 오프로드로 대체하면 서비스 트래픽이 하드웨어에서 처리됩니다. 이는 대규모 클러스터에서 iptables 규칙 수에 따른 성능 저하를 해소합니다.

# kube-proxy 비활성화 (DPU offload로 대체)
kubectl -n kube-system delete ds kube-proxy

# DPU 측: ClusterIP 서비스 DNAT offload 규칙 예시
# Service 10.96.0.100:80 → Backend Pod 10.244.1.5:8080
tc filter add dev enp3s0f0_0 ingress protocol ip \
  flower \
    dst_ip 10.96.0.100/32 ip_proto tcp dst_port 80 \
  action ct \
  action pedit ex munge ip dst set 10.244.1.5 \
  action pedit ex munge tcp dport set 8080 \
  action csum ip tcp \
  action mirred egress redirect dev enp3s0f0_1

CNI 통합: NVIDIA DOCA CNI / Multus CNI를 사용하면 Pod에 SRIOV VF 또는 SF를 직접 할당하여 Pod 네트워크 경로가 커널 네트워크 스택을 완전히 우회합니다. RDMA 워크로드(GPUDirect RDMA 등)에도 적용 가능합니다.

Intel IPU vs NVIDIA BlueField vs AMD Pensando 비교

주요 3사의 DPU/IPU는 아키텍처 철학과 프로그래밍 모델이 다릅니다. 아래에서 하드웨어 구조, 소프트웨어 스택, 커널 드라이버 지원 수준을 비교합니다.

항목	NVIDIA BlueField-3	Intel IPU (Mt. Evans)	AMD Pensando DSC-2
CPU	ARM A78 x16	Xeon-D / ARM x16	ARM A72 x8
네트워크	ConnectX-7, 2x200G / 400G	E2100, 2x100G / 200G	Elba ASIC, 2x100G / 200G
가속기	eSwitch, Crypto, RegEx, Compress, vDPA	P4 파이프라인, QAT, ACC	P4 MPU, Crypto, Storage Accel
커널 드라이버	`mlx5_core` (mainline 완전 통합)	`idpf` / `ice` (mainline 진행 중)	`ionic` (mainline 기본 지원)
프로그래밍 모델	DOCA SDK (DPDK 기반), OVS-DOCA	IPDK, P4-OVS, IMC	P4 직접 프로그래밍, PSM
eSwitch TC offload	완전 지원 (flower + ct + tunnel)	제한적 (P4 변환 필요)	부분 지원 (ionic TC 진행 중)
IPsec inline	AES-GCM-256, 200 Gbps+	QAT lookaside, ~50 Gbps	AES-GCM inline, ~100 Gbps
스토리지 오프로드	SNAP (virtio-blk/scsi, NVMe-oF)	Virtio 에뮬레이션 (제한적)	NVMe-oF 가속 (네이티브)
K8s 통합	DOCA Infrastructure Manager	IMC (Infrastructure Mgmt Container)	PSM API + Operator
에코시스템 성숙도	★★★★★	★★★☆☆	★★★☆☆

IDPF (Infrastructure Data Path Function): Intel이 주도하는 표준 VF 드라이버 인터페이스로, 벤더 종속 없이 동일한 idpf 드라이버로 다양한 IPU/SmartNIC을 지원하는 것을 목표로 합니다. Linux 6.4에서 drivers/net/ethernet/intel/idpf/로 mainline에 머지되었습니다.

DPU 펌웨어 업데이트 및 Lifecycle 관리

DPU는 독립 SoC이므로 펌웨어, 부트로더, OS 이미지를 별도로 관리해야 합니다. devlink 서브시스템의 flash 명령이 표준 인터페이스를 제공하며, 벤더별 추가 도구(mlxfwmanager, BFB 이미지 등)도 있습니다.

devlink 기반 펌웨어 업데이트

# 현재 펌웨어 버전 확인
devlink dev info pci/0000:03:00.0
# pci/0000:03:00.0:
#   driver mlx5_core
#   versions:
#     fixed:
#       hw.revision BF3
#     running:
#       fw 32.41.1000
#       fw.app  ...
#     stored:
#       fw 32.41.1000

# 펌웨어 업데이트 (devlink flash)
devlink dev flash pci/0000:03:00.0 \
  file fw-ConnectX7-rel-32_42_1000-BF3.mfa2

# 업데이트 진행 상태 모니터링
devlink monitor
# flash_update pci/0000:03:00.0 component fw:
#   status: in_progress
#   done_bytes: 32768 total_bytes: 52428800

# 업데이트 적용 (파워 사이클 또는 리셋 필요)
devlink dev reload pci/0000:03:00.0 action fw_activate

BlueField BFB 이미지 관리

# BFB (BlueField Boot Stream) 이미지 설치
# 호스트 측에서 DPU로 이미지 푸시
bfb-install --bfb DOCA_2.7.0_BSP_4.7.0_Ubuntu_22.04.bfb \
  --rshim rshim0

# DPU 리셋 후 새 이미지로 부팅
mlxfwreset -d /dev/mst/mt41692_pciconf0 reset

# DPU ARM 콘솔 접근 (rshim 통해)
screen /dev/rshim0/console

# DPU OS 업데이트 (DPU ARM 측에서)
apt update && apt upgrade -y
# 또는 DOCA 패키지 업데이트
apt install --upgrade doca-runtime doca-tools

Lifecycle 관리 자동화

단계	도구	설명
프로비저닝	`bfb-install`, PXE, rshim	초기 OS/DOCA 이미지 설치
펌웨어 업데이트	`devlink flash`, `mlxfwmanager`	NIC/DPU 펌웨어 + 부트로더 갱신
OS 업데이트	APT/DNF, Ansible, BMC 원격	DPU ARM Linux 커널/패키지 갱신
설정 동기화	GitOps (ArgoCD), ConfigMap	OVS 규칙, TC 정책, IPsec SA 동기화
모니터링	Prometheus + node-exporter (DPU)	DPU CPU/메모리/NIC 카운터 수집
장애 복구	`devlink health`, rshim, BMC	FW 복구 모드, 팩토리 리셋

# Ansible을 이용한 대규모 DPU 펌웨어 롤아웃 예시
# inventory: dpu-nodes 그룹에 모든 DPU ARM IP 등록

# playbook: dpu-firmware-update.yml
- hosts: dpu-nodes
  become: true
  serial: 1          # 순차 업데이트 (서비스 중단 최소화)
  tasks:
    - name: Upload firmware
      copy:
        src: fw-BF3-32_42_1000.mfa2
        dest: /tmp/

    - name: Flash firmware via mlxfwmanager
      command: >
        mlxfwmanager --online -u -d /dev/mst/mt41692_pciconf0
        -i /tmp/fw-BF3-32_42_1000.mfa2 --yes
      register: flash_result

    - name: Schedule reboot for activation
      reboot:
        reboot_timeout: 300
      when: flash_result.rc == 0

주의: DPU 펌웨어 업데이트 중 전원이 차단되면 디바이스가 복구 불가 상태에 빠질 수 있습니다. UPS 환경에서 진행하고, devlink health로 사전 상태를 확인한 후 업데이트하세요. BlueField의 경우 rshim 인터페이스를 통한 비상 복구가 가능하지만, 물리 접근이 필요합니다.

실습: BlueField DPU 초기 설정 및 모드 전환

이 실습에서는 NVIDIA BlueField-2/3 DPU를 DPU 모드, NIC 모드, Separated Host 모드로 전환하고, 각 모드에서의 네트워크 구성을 확인합니다.

사전 준비

# 호스트 측: DPU 장치 확인
lspci | grep -i mellanox
# 03:00.0 Ethernet controller: Mellanox Technologies MT42822 BlueField-2
# 03:00.1 Ethernet controller: Mellanox Technologies MT42822 BlueField-2

# devlink 장치 확인
devlink dev show
# pci/0000:03:00.0
# pci/0000:03:00.1

# rshim 인터페이스 확인 (DPU ARM 접근용)
ls /dev/rshim0/
# console  misc

# DPU ARM 콘솔 접근
minicom -D /dev/rshim0/console
# 또는
screen /dev/rshim0/console

Step 1: 현재 모드 확인

# 호스트 측에서 현재 DPU 모드 확인
devlink dev param show pci/0000:03:00.0 name internal_cpu_model
# pci/0000:03:00.0:
#   name internal_cpu_model type driver-specific
#   values:
#     cmode runtime value EMBEDDED_CPU(1)

# DPU ARM 측에서 확인
mlxconfig -d /dev/mst/mt41692_pciconf0 q | grep INTERNAL_CPU
# INTERNAL_CPU_MODEL                  EMBEDDED_CPU(1)

# 모드 설명:
# EMBEDDED_CPU(1) = DPU 모드 (ARM이 NIC 제어)
# SEPARATED_HOST(0) = NIC 모드 (호스트가 NIC 직접 제어)
# EMBEDDED_CPU(1) + ECPF_ESWITCH_MANAGER = Separated Host 모드

Step 2: DPU 모드로 전환 (기본 권장)

# DPU 모드: ARM SoC가 eSwitch, VF, 네트워크 관리 전담
# DPU ARM 측에서 실행

# 1. DPU 모드 설정
mlxconfig -d /dev/mst/mt41692_pciconf0 set \
  INTERNAL_CPU_MODEL=EMBEDDED_CPU \
  INTERNAL_CPU_PAGE_SUPPLIER=ECPF \
  INTERNAL_CPU_ESWITCH_MANAGER=ECPF \
  INTERNAL_CPU_IB_VPORT0=ECPF \
  INTERNAL_CPU_OFFLOAD_ENGINE=ENABLED

# 2. 리셋 적용
mlxfwreset -d /dev/mst/mt41692_pciconf0 reset -y

# 3. 리부팅 후 eSwitch를 switchdev 모드로 설정
devlink dev eswitch set pci/0000:03:00.0 mode switchdev

# 4. Representor 포트 확인 (DPU 측)
ip link show
# enp3s0f0: <...>         ← 물리 포트 (uplink)
# enp3s0f0_0: <...>       ← 호스트 PF representor
# enp3s0f0v0: <...>       ← VF0 representor

# 5. OVS 브릿지 설정
ovs-vsctl add-br br-dpu
ovs-vsctl add-port br-dpu enp3s0f0        # uplink
ovs-vsctl add-port br-dpu enp3s0f0_0      # host PF rep
ovs-vsctl add-port br-dpu enp3s0f0v0      # VF0 rep

Step 3: NIC 모드로 전환 (호환성/디버깅용)

# NIC 모드: DPU ARM은 비활성, 호스트가 NIC 직접 제어
# 전통적인 SmartNIC처럼 동작

# DPU ARM 측에서 설정 후 리셋
mlxconfig -d /dev/mst/mt41692_pciconf0 set \
  INTERNAL_CPU_MODEL=SEPARATED_HOST \
  INTERNAL_CPU_PAGE_SUPPLIER=HOST \
  INTERNAL_CPU_ESWITCH_MANAGER=HOST \
  INTERNAL_CPU_IB_VPORT0=HOST \
  INTERNAL_CPU_OFFLOAD_ENGINE=DISABLED

mlxfwreset -d /dev/mst/mt41692_pciconf0 reset -y

# 호스트 측: 일반 ConnectX NIC으로 인식
ethtool -i enp3s0f0
# driver: mlx5_core
# firmware-version: 32.41.1000
# eSwitch 관리는 호스트에서 직접 수행

Step 4: Separated Host 모드 (하이브리드)

# Separated Host 모드:
# - eSwitch 관리는 DPU ARM
# - 데이터 경로는 호스트 직접 접근 가능
# - 디버깅/마이그레이션 과도기에 유용

mlxconfig -d /dev/mst/mt41692_pciconf0 set \
  INTERNAL_CPU_MODEL=EMBEDDED_CPU \
  INTERNAL_CPU_PAGE_SUPPLIER=HOST \
  INTERNAL_CPU_ESWITCH_MANAGER=ECPF \
  INTERNAL_CPU_IB_VPORT0=HOST \
  INTERNAL_CPU_OFFLOAD_ENGINE=ENABLED

mlxfwreset -d /dev/mst/mt41692_pciconf0 reset -y

실습 팁: 모드 전환 후 devlink dev info와 dmesg | grep mlx5로 드라이버 초기화 로그를 확인하세요. ECPF 관련 메시지가 DPU 모드 활성화를 나타냅니다. 모드 전환은 서비스 중단을 동반하므로 유지보수 윈도우에서 진행합니다.

실습: DPU 위에서 OVS Offload + TC Flower 규칙 배포

이 실습에서는 DPU 위에서 OVS 브릿지를 구성하고, TC flower 규칙이 하드웨어에 오프로드되는 과정을 단계별로 확인합니다. 호스트 VM 간 트래픽이 DPU eSwitch를 통해 하드웨어에서 처리되는 것을 검증합니다.

환경 구성

# 구성도:
#   VM-A (VF0) ←→ DPU eSwitch (OVS br-dpu) ←→ VM-B (VF1)
#                          ↕
#                    Physical Port (uplink)
#                          ↕
#                    External Network

# DPU ARM 측에서 실행
# 1. eSwitch switchdev 모드 확인
devlink dev eswitch show pci/0000:03:00.0
# mode switchdev inline-mode none encap-mode basic

# 2. VF 생성 (호스트 측)
echo 2 > /sys/class/net/enp3s0f0/device/sriov_numvfs

# 3. DPU 측에서 representor 확인
ip link show | grep -E 'enp3s0f0(v|_)'
# enp3s0f0_0: <...>   ← Host PF representor
# enp3s0f0v0: <...>   ← VF0 representor
# enp3s0f0v1: <...>   ← VF1 representor

Step 1: OVS 브릿지 + HW Offload 활성화

# DPU ARM 측

# 1. OVS HW offload 활성화
ovs-vsctl set Open_vSwitch . other_config:hw-offload=true
ovs-vsctl set Open_vSwitch . other_config:tc-policy=skip_sw

# 2. OVS 재시작 (설정 적용)
systemctl restart openvswitch-switch

# 3. 브릿지 구성
ovs-vsctl --may-exist add-br br-dpu
ovs-vsctl --may-exist add-port br-dpu enp3s0f0     # uplink (물리 포트)
ovs-vsctl --may-exist add-port br-dpu enp3s0f0_0   # host PF rep
ovs-vsctl --may-exist add-port br-dpu enp3s0f0v0   # VF0 rep (VM-A)
ovs-vsctl --may-exist add-port br-dpu enp3s0f0v1   # VF1 rep (VM-B)

# 4. 구성 확인
ovs-vsctl show
# Bridge br-dpu
#   Port enp3s0f0
#     Interface enp3s0f0
#   Port enp3s0f0_0
#     Interface enp3s0f0_0
#   Port enp3s0f0v0
#     Interface enp3s0f0v0
#   Port enp3s0f0v1
#     Interface enp3s0f0v1

Step 2: VXLAN 터널 오프로드

# DPU ARM 측: VXLAN 터널 포트 추가
ovs-vsctl add-port br-dpu vxlan0 \
  -- set interface vxlan0 type=vxlan \
     options:remote_ip=flow \
     options:key=flow \
     options:dst_port=4789

# OpenFlow 규칙: VF0 → VXLAN 캡슐화 → 원격 호스트
ovs-ofctl add-flow br-dpu \
  "table=0,in_port=enp3s0f0v0,actions=set_field:100->tun_id,\
   set_field:192.168.1.2->tun_dst,output:vxlan0"

# VXLAN → VF0 디캡슐화
ovs-ofctl add-flow br-dpu \
  "table=0,in_port=vxlan0,tun_id=100,actions=output:enp3s0f0v0"

Step 3: TC Flower 오프로드 확인

# OVS가 생성한 TC flower 규칙 확인
tc -s filter show dev enp3s0f0v0 ingress
# filter protocol ip pref 2 flower chain 0
#   dst_mac aa:bb:cc:dd:ee:ff
#   eth_type ipv4
#   src_ip 10.0.1.10
#   in_hw in_hw_count 1          ← HW offload 확인!
#     action order 1: tunnel_key set
#       ...tunnel_id 100 dst_ip 192.168.1.2
#     action order 2: mirred (Egress Redirect to device vxlan_sys_4789)
#   Sent 0 bytes 0 pkt (dropped 0, overlimits 0)
#   Used: 0.000s

# HW offload 카운터 (eSwitch 하드웨어 통계)
tc -s filter show dev enp3s0f0v0 ingress | grep -A2 "in_hw"
# in_hw in_hw_count 1
# hardware statistics:
#   Sent 1048576 bytes 8192 pkt (hw_stats immediate)

# ethtool 오프로드 통계
ethtool -S enp3s0f0 | grep "tx_offload\|rx_offload"
#   tx_offload_packets: 82451
#   rx_offload_packets: 79830

Step 4: Conntrack 오프로드 + 보안 정책

# VM 간 stateful 방화벽 (DPU 하드웨어 CT offload)

# CT zone 설정
ovs-ofctl add-flow br-dpu \
  "table=0,priority=100,ip,ct_state=-trk,\
   actions=ct(table=1,zone=10)"

# Established 트래픽: fast-path (HW offload)
ovs-ofctl add-flow br-dpu \
  "table=1,priority=100,ip,ct_state=+trk+est,\
   actions=normal"

# New 트래픽: TCP 80/443만 허용
ovs-ofctl add-flow br-dpu \
  "table=1,priority=50,ip,ct_state=+trk+new,\
   tcp,tp_dst=80,actions=ct(commit,zone=10),normal"
ovs-ofctl add-flow br-dpu \
  "table=1,priority=50,ip,ct_state=+trk+new,\
   tcp,tp_dst=443,actions=ct(commit,zone=10),normal"

# 나머지 차단
ovs-ofctl add-flow br-dpu \
  "table=1,priority=0,actions=drop"

# CT offload 상태 확인
ovs-appctl dpctl/dump-conntrack zone=10
# tcp,orig=(src=10.0.1.10,dst=10.0.1.20,sport=43210,dport=443),
#     reply=(src=10.0.1.20,dst=10.0.1.10,sport=443,dport=43210),
#     zone=10,mark=0,protoinfo=(state=ESTABLISHED),
#     offload=yes    ← HW offload 확인!

Step 5: 성능 검증

# VM-A에서 VM-B로 iperf3 테스트
# VM-A (10.0.1.10):
iperf3 -c 10.0.1.20 -t 30 -P 8

# 예상 결과 (100GbE DPU):
# [SUM]  0.00-30.00  sec  340 GBytes  97.2 Gbits/sec
# → wire-rate에 근접, DPU CPU 사용률 < 5%

# DPU ARM 측 CPU 사용률 확인
top -bn1 | head -5
# %Cpu(s):  2.1 us,  1.3 sy,  0.0 ni, 96.4 id
# → 오프로드된 트래픽은 ARM CPU를 거의 사용하지 않음

# slow-path 패킷 확인 (오프로드되지 않은 트래픽)
ovs-appctl dpctl/dump-flows type=ovs | wc -l
# → 소수의 제어 패킷만 SW path

# TC flower 규칙 수 통계
tc -s filter show dev enp3s0f0v0 ingress | grep "in_hw" | wc -l
# → HW 오프로드된 규칙 수

디버깅 팁: TC flower 규칙이 in_hw로 표시되지 않으면 dmesg | grep -i "flower\|offload\|eswitch"를 확인하세요. 흔한 원인: eSwitch가 legacy 모드, 지원하지 않는 매치 필드 사용, FW 버전 미달. ovs-vsctl set Open_vSwitch . other_config:tc-policy=skip_sw를 설정하면 HW offload 불가 시 규칙 설치 자체가 실패하여 문제를 조기 발견할 수 있습니다.

skip_sw vs skip_hw:

skip_sw: SW fallback 없이 HW만 사용 (프로덕션 권장 — 오프로드 실패 시 즉시 에러)
skip_hw: HW offload 시도 안 함 (디버깅용)
둘 다 미지정: SW + HW 동시 설치 (기본값, 오프로드 실패를 놓칠 수 있음)

2026 DPU 로드맵 — BlueField-4, ConnectX-9, IPU E2200, AMD Pensando Salina

2025년 하반기부터 2026년까지 각 벤더는 400 Gbps 급 전 세대를 넘어 800 Gbps + PCIe Gen6 + AI 친화 아키텍처로 진입했습니다. 본 절은 주요 신제품을 비교표로 정리하고 Linux 드라이버/서브시스템 관점의 변화 포인트를 짚습니다.

제품	발표/출하	네트워킹	CPU 코어	메모리	PCIe	리눅스 드라이버
NVIDIA BlueField-4	2025-10 발표, 2026 출하	ConnectX-9 800 Gb/s (Eth + IB XDR)	64코어 Arm Neoverse V2 (64 B 트랜지스터)	128 GB LPDDR5 + 512 GB SSD	Gen6 ×16	`mlx5_core` 확장, DOCA 3.x
NVIDIA ConnectX-9 SuperNIC	2025-10 발표	XDR 800 Gb/s (Eth/InfiniBand)	—	—	Gen6 ×16 (OSFP)	`mlx5_core`, 기존 ConnectX-7/8 와 호환
NVIDIA BlueField-3 (기준선)	2023 출하	400 Gb/s	16코어 Cortex-A78 (22 B)	32 GB DDR5	Gen5 ×16	`mlx5_core`
Intel IPU E2200	Hot Chips 2025 공개	400 Gb/s	Arm 코어 (E2000 계승)	LPDDR5 + 내장 SSD	Gen5 ×16	`idpf`/`ice`, IPDK
Intel IPU E2000 (Mount Evans)	2023 Google Cloud 배포	200 Gb/s	16코어 Arm Neoverse N1	LPDDR4	Gen4 ×16	`idpf`
AMD Pensando Salina	2024 발표, 2025 출하	400 Gb/s (Elba2 ASIC)	16코어 Arm A78	HBM3	Gen5 ×16	`ionic`, P4 프로그래머블
AMD Pensando Pollara 400	2025 상반기 출하	400 Gb/s (AI NIC, UEC)	—	—	Gen5 ×16	`ionic`, UEC(Ultra Ethernet Consortium) 네이티브
Marvell OCTEON 10 DPU	2023 출하	200~400 Gb/s	24코어 Arm Neoverse N2	LPDDR5	Gen5 ×16	`octeon_ep`/`otx2`

BlueField-4 아키텍처 상세

BlueField-4는 NVIDIA가 "AI 공장의 운영체제"로 포지셔닝한 세대입니다. 기존 BF-3 대비 주요 변화는 다음과 같습니다.

컴퓨트 6배 — Arm Neoverse V2 64코어 (N2 기반 BF-3의 16코어 대비)
메모리 4배 — 128 GB LPDDR5 (BF-3은 32 GB DDR5), L3 캐시(Cache) 114 MB (BF-3 8 MB)
온보드 NVMe SSD 512 GB — OS/컨테이너 이미지 저장, 부트 가속
Grace CPU와 결합형 옵션 — Vera Rubin NVL144 랙 통합 시 BF-4 + Grace 패키지로 AI 공장 4배 확장
ConnectX-9 네이티브 통합 — 800 Gb/s (Eth + InfiniBand XDR), PCIe Gen6 ×16 호스트 인터페이스

Linux 드라이버 측면에서는 기존 mlx5_core/mlx5_ib가 확장되며, DOCA 3.x가 BF-4 전용 가속기(예: PSP 암호화 엔진, 신규 regex/DPI 엔진, AI 추론 오프로드)를 노출합니다. DOCA 2.x 애플리케이션은 소스 호환성을 유지하지만, 신규 엔진 사용을 위해서는 DOCA Flow v3 API로의 마이그레이션이 권장됩니다.

Intel IPU E2200 (Hot Chips 2025)

E2200은 Intel이 Mount Evans(E2000)에 이어 공개한 400 Gbps 급 IPU로, Google Cloud와의 공동 개발을 이어가며 다음을 강조합니다.

ASIC + FPGA 하이브리드 불필요 — 전세대처럼 Mount Morgan(ASIC)/Hot Springs Canyon(FPGA)로 분리된 라인업 대신 단일 400 Gbps ASIC으로 통일
P4 프로그래머블 파이프라인 — idpf 드라이버가 P4Runtime 레퍼런스 구현을 함께 제공 (IPDK 프로젝트)
차세대 세대교체 — 후속 세대는 더 높은 링크 속도와 새 패킷 처리 기능을 지향하지만, 정확한 제품 조합과 소프트웨어 공개 시점은 벤더 발표와 실제 드라이버 머지 이력을 함께 확인해야 합니다

AMD Pensando Salina / Pollara 400 — AI NIC

Salina(Elba2 ASIC)는 NVIDIA BF-3 대항마로 400 Gbps P4 파이프라인을 탑재합니다. 2025년 상반기 출하된 Pollara 400은 AI 전용 NIC로 UEC(Ultra Ethernet Consortium) 사양의 첫 상용 구현체로 평가되며, RDMA 세션을 GPU 주도(GPUDirect RDMA 대체 경로) 로 처리합니다. Linux 상의 드라이버는 ionic이며, Giglio 후속 제품도 소스 호환성을 유지합니다.

커널/DOCA 측 영향 요약

서브시스템	영향
`mlx5_core`	BF-4/CX-9 지원을 위한 PCIe Gen6 링크 훈련, 새 HW counter 노출 (6.16+)
PSP offload	Linux 6.18에 PSP 서브시스템이 통합되며 mlx5 PSP 드라이버 (netdev/psp) 초도 구현
switchdev / devlink	eSwitch 포트 수 증가 (ConnectX-9는 512 SF 지원), devlink resource UI 확장
io_uring ZCRX	Header/Data Split 연계 가능성은 실제 mlx5 패치 시리즈와 머지 로그 기준으로 확인해야 합니다
DOCA 3.x	Flow v3 API, PSP 암호화 라이브러리, AI 추론 런타임 같은 사용자 공간 기능은 커널 지원 범위와 분리해서 읽는 편이 안전합니다
UEC (Pollara)	`ionic` 드라이버와 UEC 연계 범위는 벤더 문서와 실제 upstream 드라이버 변경 이력으로 재확인해야 합니다

호환성 메모: 본 로드맵 표의 2026 출하 제품(BF-4)은 사전 발표 기준 사양입니다. 실제 출시 시 사양/펌웨어 기능이 변동될 수 있으며, 업스트림 머지 시점도 드라이버 리뷰 진행도에 따라 달라집니다.

참고자료

벤더 공식 문서

NVIDIA BlueField DPU Documentation — BlueField-2/3 아키텍처, DOCA SDK, Arm 서브시스템
NVIDIA DOCA SDK — DPU 프로그래밍 프레임워크, API 레퍼런스
DOCA SDK Documentation — Flow, DPI, Firewall, Erasure Coding 라이브러리
Intel IPU (Infrastructure Processing Unit) — Mount Evans, Oak Springs Canyon
AMD Pensando DSC — Elba/Capri ASIC, P4 프로그래머블 DPU
Marvell OCTEON DPU — OCTEON 10 DPU 플랫폼
Fungible DPU (현 Microsoft) — S1/F1 DPU 아키텍처

커널 공식 문서

Linux Kernel SwitchDev — 하드웨어 스위치 오프로드 프레임워크
Devlink — 디바이스 관리 인터페이스 (eSwitch, 리소스, 파라미터)
Port Representors — VF/SF representor 네트워킹 모델
mlx5 드라이버 문서 — ConnectX/BlueField 통합 드라이버
TC conntrack offload — TC flower CT action HW 오프로드

프레임워크 및 도구

P4 Language Consortium — 프로그래머블 데이터 플레인 언어
OpenConfig — 벤더 중립 네트워크 설정 모델
DPDK — DPU에서의 DPDK 활용
Open vSwitch — OVS TC flower offload, OVS-DPDK

주요 참고 글

SmartNICs and the Linux kernel (LWN) — 커널 SmartNIC 지원 현황
Scalable Functions (SF) — SR-IOV VF 대비 SF 장점
DPU-Powered Infrastructure Whitepaper — DPU 인프라 아키텍처

커널 소스 경로

drivers/net/ethernet/mellanox/mlx5/ — mlx5 코어 + eSwitch + representor
drivers/net/ethernet/mellanox/mlxsw/ — Spectrum ASIC SwitchDev 드라이버
drivers/net/ethernet/intel/ice/ — Intel E810/IPU 드라이버
net/sched/cls_flower.c — TC flower 분류기 (HW offload 진입점)
net/sched/act_ct.c — TC conntrack action (CT offload)
drivers/net/bonding/ — LAG offload (bond_3ad.c 등)
net/switchdev/ — SwitchDev 코어 프레임워크

필수 관련 문서:

eSwitch (Embedded Switch) — embedded switch 아키텍처, switchdev/legacy 모드, representor 포트, TC 오프로드
Netfilter Flowtable — Netfilter Flowtable SW/HW 오프로드 메커니즘, conntrack 대비

참고 문서:

네트워크 보안 — xfrm/IPSec, WireGuard, flooding 방어, Netlink 정책 경로와 DPU 적용 지점
Kernel TLS (kTLS) — Linux Kernel TLS — TLS 1.2/1.3 커널 구현, Zero-Copy 암호
eBPF 기반 보안 정책 — BPF LSM, cgroup_skb, tc/XDP 정책을 SmartNIC/DPU 경계에 배치하는 방법
NAS HW 오프로드 — HW RAID, RDMA, QAT, DPU 스토리지 오프로드 종합