라우팅 (Routing Subsystem)

Linux 커널 라우팅 서브시스템을 실제 조회 경로 기준으로 정리합니다. flowi 입력, RPDB(ip rule), local/main/default 및 커스텀 테이블, LC-trie/FIB6 prefix tree, nexthop 객체, neighbour(ARP/NDP) 해석, VRF l3mdev, ECMP, SRv6, NAT/mark에 의한 재평가 지점을 하나의 데이터 경로로 연결해 설명합니다.

전제 조건: 네트워크 스택(Network Stack) 개요, IP (IPv4/IPv6), Netlink 문서를 먼저 읽으세요. 라우팅은 "목적지 주소 하나만 보는 표 조회"가 아니라, skb에서 추출한 selector가 규칙, 테이블, nexthop, neighbour, 출력 디바이스까지 연쇄적으로 영향을 주는 구조이므로 IP 계층과 설정 전달 경로를 먼저 이해해야 합니다.

일상 비유: 이 주제는 국제 물류 허브의 분류 규칙과 비슷합니다. 송장 정보(출발지, 목적지, 우선순위(Priority), 표시)가 먼저 분류 규칙을 통과하고, 그 다음 어느 창고 테이블을 볼지 정한 뒤, 마지막에 실제 배송 차량과 기사(라우트, nexthop, neighbour)를 배정하는 식입니다.

핵심 요약

RPDB — ip rule 우선순위 목록이 어떤 라우팅 테이블(Routing Table)을 볼지 먼저 결정합니다.
기본 테이블 — local(255), main(254), default(253)는 커널이 기본으로 사용하는 예약 테이블입니다.
Longest Prefix Match — 같은 테이블 안에서는 가장 구체적인 접두사가 이깁니다.
nexthop 과 neighbour — 경로가 "다음으로 어디 보낼지"를 고르면, neighbour가 실제 L2 주소를 해결합니다.
dst_entry — 최종 결과는 dst_entry/rtable에 담겨 출력 경로, PMTU, redirect 예외와 함께 재사용됩니다.

단계별 이해

selector 확인
목적지뿐 아니라 소스 주소, mark, iif/oif, TOS, L4 포트까지 어떤 값이 조회에 들어가는지 확인합니다.
규칙과 테이블 분리
ip rule이 고른 테이블과, 그 테이블 안에서 LPM이 고른 엔트리를 따로 봅니다.
route 의미 해석
type, scope, proto, metric이 실제 동작에 어떤 의미인지 구분합니다.
neighbour 까지 추적
라우트가 맞아도 ARP/NDP가 실패하면 출력이 막히므로 ip neigh까지 확인합니다.
실측으로 검증
ip route get, ip monitor, tcpdump, tracepoint로 실제 경로를 검증합니다.

이 페이지(Page)의 학습 로드맵: 이 페이지는 패킷(Packet)이 라우팅 서브시스템을 통과하는 여정을 따라갑니다. 단계별로 읽으면 자연스럽게 전체 그림이 완성됩니다.

전체 조감도 (개요, 파이프라인(Pipeline)) — 라우팅이 무엇이고, 패킷이 거치는 7단계 경로
FIB 핵심 (구조체(Struct), LC-trie, 조회 경로) — 커널이 경로를 저장하고 찾는 방법
FIB 결과 처리 (fib_result→dst_entry, 콜백(Callback), 참조 카운팅) — 조회 결과가 패킷에 어떻게 적용되는지
FIB 지원 시스템 (통지, nexthop 객체, 메모리, HW offload) — 운영에 필요한 보조 메커니즘
FIB 특수 주제 (flowi 상세, 예외 캐시(Cache), 멀티캐스트/MPLS, 네임스페이스) — 필요할 때 참조
사용자 관점 (테이블 관리, Policy Routing) — ip route/ip rule 실전 사용법
프로토콜 확장 (IPv6, ECMP) — IPv4 지식을 IPv6와 다중 경로로 확장
Last Mile (Neighbour, VRF, Netfilter) — 경로 결정 후 실제 전송까지의 마지막 단계
운영 (캐시/최적화, 성능 튜닝, 디버깅(Debugging), SRv6) — 실무에서 필요한 도구와 기법

관련 표준: RFC 1812 (IPv4 라우터 요구사항), RFC 4191 (IPv6 라우터 preference), RFC 6724 (IPv6 source/destination address selection), RFC 8986 (SRv6 endpoint behavior) — Linux 라우팅은 주소 지정 표준만이 아니라, 라우터 동작 규칙과 주소 선택 규칙까지 함께 구현합니다. 종합 목록은 참고자료 — 표준 & 규격 섹션을 참고하세요.

라우팅 서브시스템 개요

일상 비유 — 우체국 분류 센터: 편지가 우체국에 도착하면 직원이 우편번호를 보고 어느 배송차에 실을지 결정합니다. 커널의 라우팅 서브시스템도 동일한 역할을 합니다 — 모든 네트워크 패킷의 목적지 주소를 보고 어느 네트워크 인터페이스로 보낼지 결정하는 "디지털 분류 센터"입니다.

이 섹션에서는 라우팅 서브시스템의 전체 구성 요소를 조감도로 살펴봅니다. 각 요소의 상세한 내부 구조와 동작은 이후 섹션에서 하나씩 다룹니다.

Linux 라우팅 서브시스템은 목적지 주소 하나만 보고 다음 홉을 고르는 단순 표 조회가 아닙니다. 실제 hot path는 flowi4/flowi6 selector 생성, fib_rules_lookup()에 의한 테이블 선택, 각 테이블 내부의 Longest Prefix Match, route type/scope/proto 해석, nexthop 또는 nexthop group 선택, neighbour(ARP/NDP) 해석, dst_entry 생성 순으로 이어집니다.

단순화한 Linux 라우팅 개념도: 입력 flow가 RPDB와 FIB를 거쳐 nexthop 과 출력 경로로 연결됩니다.

패킷 흐름에서 라우팅의 위치

라우팅 결정은 네트워크 스택에서 두 지점에서 발생합니다:

경로	라우팅 함수	시점	설명
수신 경로 (RX)	`ip_rcv()` → `ip_route_input_noref()`	`NF_INET_PRE_ROUTING` 뒤	로컬 배달(`RTN_LOCAL`)인지 포워딩인지 결정
송신 경로 (TX)	`ip_route_output_flow()`	소켓(Socket)에서 패킷 생성 직후	출력 인터페이스, 선택 소스 주소, nexthop 결정
OUTPUT 재평가	`ip_route_me_harder()` 계열 재조회	`NF_INET_LOCAL_OUT`에서 mark/DNAT 변경 시	이미 계산된 `dst`를 무효화(Invalidation)하고 새 결과를 다시 계산
출력 직전 해석	`dst_neigh_output()` 계열	egress 직전	ARP/NDP로 L2 목적지를 확인하고 실제 전송 큐로 전달

RPDB에서 출력 디바이스까지

운영 관점에서 가장 중요한 질문은 "이 패킷이 어느 테이블을 봤고, 왜 그 nexthop이 선택됐으며, 실제로 어느 L2 이웃으로 나가느냐"입니다. 라우팅 장애는 이 다섯 단계 중 하나에서 끊어집니다.

selector 값이 RPDB를 통과해 테이블을 고르고, LPM 결과가 nexthop 과 neighbour 해석을 거쳐 실제 egress 결과로 수렴합니다.

selector 생성 — 커널은 skb 또는 소켓 정보에서 목적지, 소스, mark, iif/oif, L4 포트 등을 추출해 flowi를 만듭니다.
RPDB 스캔 — fib_rules_lookup()가 priority 오름차순으로 규칙을 훑어 어떤 테이블을 볼지 결정합니다.
테이블 내부 조회 — 선택된 테이블 안에서 가장 긴 접두사와 route semantics(type, scope, metric, prefsrc)를 평가합니다.
nexthop 및 neighbour 해석 — route가 참조하는 게이트웨이, 출력 디바이스, ECMP 그룹을 정한 뒤 ARP/NDP로 실제 L2 목적지를 확인합니다.
dst 생성 및 출력 — 최종 결과는 dst_entry/rtable에 연결되고, PMTU/redirect 예외와 함께 출력 경로에 전달됩니다.

# 조회를 단계별로 확인하는 기본 세트
ip rule show
ip route show table local
ip -details route show table all

# 실제 조회 결과 (규칙 + 테이블 + 선택 소스 주소 반영)
ip route get 203.0.113.10 from 192.0.2.10 iif eth1 mark 0x10

# 어떤 FIB 엔트리가 맞았는지 직접 확인
ip route get fibmatch 203.0.113.10

해석 팁: ip route get은 "최종적으로 선택된 결과"를 보여주고, fibmatch는 "어느 FIB 엔트리가 일치했는지"를 보여줍니다. 둘을 함께 봐야 rule, source address 선택, nexthop group, 예외 캐시의 영향을 분리해서 이해할 수 있습니다.

FIB 내부 구조

FIB(Forwarding Information Base)는 ip route 명령으로 보는 라우팅 테이블을, 커널이 매우 빠르게 조회할 수 있도록 내부적으로 저장하는 방식입니다. 패킷이 들어올 때마다 "이 목적지 IP는 어디로 보내야 하나?"를 수십~수백 나노초 안에 결정해야 하므로, 단순한 리스트가 아닌 특별한 트리 자료구조를 사용합니다.

일상 비유 — FIB는 전화번호부의 색인 탭: 두꺼운 전화번호부에서 전화번호 10-0-1-5를 찾는다고 생각해 보세요. 처음부터 한 줄씩 훑지 않습니다. 먼저 "10"으로 시작하는 탭을 펼치고, 그 안에서 "10-0" 탭, 다시 "10-0-1" 탭으로 좁혀갑니다. 정확히 일치하는 항목이 없으면 가장 구체적인 탭의 정보를 사용합니다. 이것이 LPM(Longest Prefix Match)이고, LC-trie는 이 색인 탭을 효율적으로 관리하는 커널의 자료구조입니다.

FIB 한눈에 보기: 패킷의 목적지 주소가 RPDB로 테이블을 선택한 뒤, LC-trie를 따라 가장 구체적인 접두사(LPM)를 찾고, 그 결과가 nexthop과 출력 디바이스를 결정합니다.

FIB는 단순히 "목적지→게이트웨이" 매핑(Mapping)이 아니라, 접두사(prefix) 기반 트리 자료구조 위에 경로 메타데이터(type, scope, metric), nexthop 객체, 이벤트 통지 체계, HW offload 인터페이스까지 포함하는 복합 서브시스템입니다. Linux IPv4는 LC-trie(Level-Compressed trie), IPv6는 fib6_node 기반 prefix tree를 사용하여 최적의 LPM 성능을 달성합니다.

FIB의 역할과 위치

커널 네트워크 스택에서 FIB는 세 가지 핵심 역할을 수행합니다:

역할	설명	관련 함수
경로 저장	사용자 공간(User Space)(`ip route add`), 라우팅 데몬(BGP/OSPF), 커널 자동 생성 경로를 prefix tree에 저장	`fib_table_insert()`, `fib_create_info()`
LPM 조회	목적지 주소에 가장 구체적으로 일치하는 접두사를 찾아 nexthop과 출력 디바이스를 반환	`fib_table_lookup()`, `fib_lookup()`
이벤트 전파	경로 추가/삭제/변경을 구독자(switchdev, TC, BPF, netlink)에게 통지	`fib_notify()`, `call_fib_notifiers()`

FIB 서브시스템 전체 구조: 사용자 공간 명령이 Netlink를 통해 FIB 테이블을 조작하고, 조회 시 RPDB → LC-trie/fib6 → fib_result → nexthop → neighbour → dst_entry 순으로 해석됩니다. 변경 이벤트는 notifier chain을 통해 switchdev, BPF, Netlink 구독자에게 전파됩니다.

FIB 자료구조 계층

FIB의 핵심은 prefix(접두사)와 route(경로) 정보를 분리한 설계입니다. 하나의 접두사(예: 10.0.0.0/24)에 여러 경로(fib_alias)가 붙을 수 있고, 서로 다른 접두사가 동일한 nexthop 정보(fib_info)를 공유할 수 있습니다. 이 분리 덕분에 대규모 라우팅 테이블에서도 메모리 효율이 유지됩니다.

FIB 자료구조의 계층 관계: fib_table이 LC-trie를 소유하고, trie의 leaf에 fib_alias 체인이 달려 있으며, 각 fib_alias가 fib_info(nexthop 포함)를 참조합니다. 여러 prefix나 alias가 동일한 fib_info를 공유할 수 있어 메모리가 절약됩니다.

설계 원칙 — prefix와 route의 분리: 같은 접두사 10.0.0.0/24에 대해 TOS가 다르거나 type이 다른(unicast vs local) 복수의 경로가 존재할 수 있습니다. fib_alias는 이 복수 경로 각각을 나타내며, fa_tos, fa_type, fa_scope로 구별됩니다. 이 설계 덕분에 ip route add 10.0.0.0/24 via 192.168.1.1 tos 0x10과 같은 TOS 기반 경로 분리가 자연스럽게 가능합니다.

핵심 자료구조

코드를 읽기 전에: 아래 C 구조체들은 FIB의 "부품 목록"입니다. 전화번호부 비유로 각 부품의 역할을 먼저 이해하면 코드가 훨씬 쉬워집니다:

fib_table = 전화번호부 한 권 (main, local 등 여러 권이 있음)
key_vector = 전화번호부의 색인 탭 (trie 노드 — 비트별로 분기)
fib_alias = 같은 전화번호에 달린 개별 연락처 카드 (같은 IP 접두사에 여러 경로)
fib_info = 실제 배송 정보 (게이트웨이 주소, 출력 인터페이스, 메트릭)
fib_nh = 택배 기사 한 명 (게이트웨이 + 디바이스 조합)
fib_result = 조회 결과 봉투 (일치한 접두사, 선택된 nexthop, 경로 유형)
flowi4 = 조회 요청서 (목적지 주소, 소스 주소, TOS, mark 등)

/* net/ipv4/fib_semantics.c, net/ipv4/fib_trie.c */

/* fib_table: 하나의 라우팅 테이블 (예: main=254, local=255) */
struct fib_table {
    struct hlist_node tb_hlist;   /* 테이블 해시 리스트 */
    u32              tb_id;        /* 테이블 ID (254=main, 255=local) */
    int              tb_num_default; /* default 경로 수 */
    struct rcu_head  rcu;
    unsigned long    __data[];     /* trie 루트 (struct trie) */
};

/* fib_info: 경로(route)의 메타데이터 (여러 fib_alias가 공유 가능) */
struct fib_info {
    struct hlist_node fib_hash;
    int              fib_treeref;  /* 참조 카운트 */
    u32              fib_flags;
    unsigned char    fib_scope;    /* RT_SCOPE_UNIVERSE, LINK, HOST */
    unsigned char    fib_type;     /* RTN_UNICAST, LOCAL, BROADCAST, ... */
    u32              fib_priority; /* 경로 메트릭 (낮을수록 우선) */
    struct nexthop  *nh;           /* nexthop 객체 (5.x+) */
    int              fib_nhs;      /* nexthop 수 (multipath) */
    struct fib_nh    fib_nh[];     /* nexthop 배열 (레거시) */
};

/* fib_nh: 개별 nexthop (게이트웨이 + 출력 디바이스) */
struct fib_nh {
    struct fib_nh_common nh_common;
    struct net_device *fib_nh_dev;   /* 출력 디바이스 */
    __be32           fib_nh_gw4;      /* IPv4 게이트웨이 */
    int              fib_nh_weight;   /* ECMP 가중치 */
    u32              fib_nh_oif;      /* 출력 인터페이스 인덱스 */
    u8               fib_nh_scope;
};

/* fib_alias: 같은 prefix에 대한 개별 경로 엔트리 */
struct fib_alias {
    struct hlist_node fa_list;     /* leaf의 fib_alias 체인 */
    struct fib_info  *fa_info;     /* 공유 가능한 경로 메타데이터 */
    dscp_t           fa_dscp;      /* DSCP/TOS 선택자 (6.x+) */
    u8               fa_type;      /* RTN_UNICAST, RTN_LOCAL, ... */
    u8               fa_state;     /* FA_S_ACCESSED 등 */
    u8               fa_slen;      /* suffix length (trie 최적화) */
    u32              tb_id;        /* 소속 테이블 ID */
    s16              fa_default;   /* default route 인덱스 */
    struct rcu_head  rcu;
};

/* fib_result: FIB 조회 결과를 담는 구조체 */
struct fib_result {
    __be32           prefix;       /* 일치한 접두사 */
    unsigned char    prefixlen;    /* 접두사 길이 (0~32) */
    unsigned char    nh_sel;       /* 선택된 nexthop 인덱스 */
    unsigned char    type;         /* RTN_UNICAST 등 */
    unsigned char    scope;        /* RT_SCOPE_UNIVERSE 등 */
    u32              tclassid;     /* TC 분류 ID */
    struct fib_info  *fi;           /* 경로 메타데이터 */
    struct fib_table *table;        /* 조회에 사용된 테이블 */
    struct fib_nh_common *nhc;      /* 선택된 nexthop */
};

/* flowi4: 라우팅 조회 입력 키 (selector) */
struct flowi4 {
    struct flowi_common __fl_common;
    __be32           saddr;        /* 소스 주소 */
    __be32           daddr;        /* 목적지 주소 */
    /* flowi_common 포함:
     *   flowi4_oif   — 출력 인터페이스 인덱스
     *   flowi4_iif   — 입력 인터페이스 인덱스
     *   flowi4_mark  — fwmark (RPDB selector)
     *   flowi4_tos   — TOS/DSCP
     *   flowi4_scope — RT_SCOPE_UNIVERSE 등
     *   flowi4_proto — L4 프로토콜 (TCP/UDP)
     *   fl4_sport    — L4 소스 포트
     *   fl4_dport    — L4 목적지 포트
     */
};

자료구조 관계 요약:

fib_table → 하나의 라우팅 테이블. __data[] 뒤에 struct trie(root key_vector)가 위치
key_vector → LC-trie 노드. internal 노드는 자식 배열(tnode[])을, leaf 노드는 fib_alias 리스트를 가짐
fib_alias → 같은 prefix에 대한 개별 route. TOS/type이 다르면 같은 leaf에 여러 alias가 붙음
fib_info → nexthop 세트와 공통 메타데이터. 여러 alias가 같은 fib_info를 참조 가능 (refcount)
fib_nh → 개별 nexthop. 게이트웨이 주소, 출력 디바이스, ECMP weight 보유
fib_result → 조회 결과. 일치한 prefix, 선택된 nexthop, type/scope 등을 반환
flowi4 → 조회 입력 키. 소스/목적지 주소, mark, iif, TOS, L4 포트 포함

왜 공유가 중요한가: BGP 라우터에 경로가 10만 개 있는데, 대부분 같은 게이트웨이(예: 192.168.1.1)를 가리킨다면? 경로마다 게이트웨이 정보를 복사해서 10만 개 저장하면 메모리 낭비입니다. 대신 게이트웨이 정보(fib_info)를 딱 하나만 만들고, 10만 개의 경로 카드(fib_alias)가 그것을 "참조"합니다. 마치 도서관에서 같은 책 10만 권을 사는 대신, 1권의 책에 10만 장의 대출 카드를 만드는 것과 같습니다.

FIB의 메모리 효율은 fib_info 공유에 크게 의존합니다. 예를 들어 BGP 라우터에서 10만 개의 접두사가 모두 같은 게이트웨이를 가리킨다면, 10만 개의 fib_alias가 하나의 fib_info를 공유합니다. fib_info는 전역 해시 테이블(Hash Table, fib_info_hash)에 등록되어 중복 생성이 방지됩니다.

/* net/ipv4/fib_semantics.c — fib_info 생성/공유 로직 */

/* fib_create_info(): 새 route 추가 시 호출
 * 1. 요청된 nexthop 집합으로 fib_info 후보 생성
 * 2. fib_info_hash에서 동일 속성(gw, dev, scope, flags)의 기존 fi 검색
 * 3. 발견되면 refcount++ 후 기존 fi 반환 (새 fi 해제)
 * 4. 없으면 새 fi를 해시에 등록하고 반환
 */
struct fib_info *fib_create_info(struct fib_config *cfg) {
    struct fib_info *fi, *ofi;

    fi = kzalloc(struct_size(fi, fib_nh, nhs), GFP_KERNEL);
    /* nexthop 초기화 ... */

    ofi = fib_find_info(fi);  /* 기존 동일 fib_info 검색 */
    if (ofi) {
        fi->fib_dead = 1;
        fib_info_put(fi);       /* 새로 만든 fi 해제 */
        ofi->fib_treeref++;     /* 기존 fi 참조 증가 */
        return ofi;
    }
    /* 새 fi를 해시에 등록 */
    hlist_add_head(&fi->fib_hash, &fib_info_hash[...]);
    return fi;
}

/* fib_info 해제: refcount가 0이 되면 실제 해제 */
void fib_info_put(struct fib_info *fi) {
    if (refcount_dec_and_test(&fi->fib_clntref))
        free_fib_info(fi);
}

시나리오	fib_alias 수	fib_info 수	fib_nh 수	설명
단일 default route	1	1	1	가장 단순한 구성
같은 gw로 10개 prefix	10	1	1	fib_info 공유로 메모리 절약
ECMP 2경로 × 5 prefix	5	1	2	같은 nexthop 세트면 fi 공유
BGP full table (100K prefix)	~100K	수십~수백	수십	대부분 소수 fi를 공유
같은 prefix에 TOS 0 + TOS 0x10	2 (같은 leaf)	2 (다를 수 있음)	각 1	TOS별 다른 경로 → 별도 alias

LC-trie가 필요한 이유: 라우팅 테이블에 경로가 수십만 개일 때, 하나씩 순서대로 비교하면 패킷 하나에 수십 마이크로초가 걸려 회선 속도를 따라갈 수 없습니다. LC-trie는 IP 주소를 이진수로 보고 비트 단위로 분기하는 트리입니다. 전화번호부에서 앞자리로 대분류를 찾고, 다음 자리로 소분류를 찾는 것과 같은 원리입니다. 두 가지 압축(path compression — 중간에 분기가 없으면 건너뜀, level compression — 연속 1비트 분기를 한꺼번에 처리)으로 실제 조회 단계가 3~5단계로 줄어듭니다.

LC-trie 자료구조

일상 비유 — 사전에서 단어 찾기: 10만 단어가 수록된 사전에서 "network"를 찾을 때, 첫 페이지부터 한 줄씩 읽지 않습니다. 'N' 섹션으로 바로 건너뛴 뒤 'Ne...' → 'Net...' 순으로 범위를 좁혀갑니다. LC-trie가 바로 이 방식입니다 — IP 주소의 비트를 앞에서부터 비교하며 한 번에 여러 비트씩 건너뛰어 빠르게 목표 경로를 찾습니다.

앞에서 FIB가 경로를 저장하는 "전화번호부"라고 배웠습니다. LC-trie는 그 전화번호부의 색인 구조 — 원하는 페이지를 빠르게 찾아가는 방법입니다.

LC-trie는 path-compressed trie에 level compression을 추가한 구조로, 메모리 효율과 조회 속도를 모두 최적화합니다:

/* net/ipv4/fib_trie.c */

/* trie 노드: internal node와 leaf가 같은 구조체 */
struct key_vector {
    t_key          key;     /* 접두사 키 */
    unsigned char  pos;     /* 이 노드에서 검사 시작 비트 위치 */
    unsigned char  bits;    /* 이 노드에서 검사할 비트 수 */
    unsigned char  slen;    /* suffix length (최적화) */
    union {
        struct hlist_head leaf;    /* leaf: fib_alias 리스트 */
        struct key_vector *tnode[]; /* internal: 자식 배열 */
    };
};

# FIB trie 내부 구조 확인
cat /proc/net/fib_trie
# Main:
#   +-- 0.0.0.0/0 3 0 0
#      +-- 0.0.0.0/4 2 0 0
#         +-- 10.0.0.0/24 2 0 0
#            |-- 10.0.0.0
#               /24 host LOCAL
#         +-- 10.0.1.0/24 2 0 0
#            |-- 10.0.1.0
#               /24 link UNICAST

# FIB 통계
cat /proc/net/fib_triestat
# Basic info: size of leaf/tnode, Max depth, Prefixes, ...

상세 내용: LC-trie의 경로 압축(path compression), 레벨 압축(level compression), inflate/halve 리밸런싱 등 자료구조 심층 분석은 LC-Trie (FIB Trie)에서 다룹니다.

LC-trie 핵심 파라미터:

pos — 이 노드에서 검사를 시작할 비트 위치 (0=MSB). path compression의 결과
bits — 이 노드에서 한번에 검사할 비트 수. level compression의 결과. bits=n이면 2^n개 자식
slen — suffix length. backtrack 최적화에 사용. 이 값이 0이면 이 leaf 이하에 더 이상 검사할 접두사가 없음
key — 이 노드의 접두사 키 (32비트 IP를 정수로 표현)

LC-trie 삽입, 삭제, 리밸런싱

LC-trie는 정적 구조가 아니라 경로 추가/삭제 시 동적으로 변합니다. 커널은 fib_insert_node()와 fib_remove()로 trie를 수정하며, 자식 수 변화에 따라 level compression 수준을 자동 조정합니다.

상세 내용: fib_insert_node(), inflate()/halve() 리밸런싱, resize()의 상세 구현은 LC-Trie (FIB Trie) — 삽입과 삭제를 참조하세요.

연산	시간 복잡도	핵심 단계	RCU 고려
조회 (`fib_table_lookup`)	O(W) worst, 실제 O(log n)	bit 검사 → 자식 선택 → leaf 검증 → backtrack	RCU read lock만 사용, lock-free
삽입 (`fib_table_insert`)	O(W) + resize	위치 탐색 → leaf/internal 생성 → slen 전파 → resize	`rtnl_lock` 필요, RCU publish로 reader 비차단(Non-blocking)
삭제 (`fib_table_delete`)	O(W) + resize	alias 제거 → leaf 비면 leaf 제거 → parent resize	`rtnl_lock`, RCU grace period 후 메모리 해제
flush (`fib_table_flush`)	O(n)	모든 leaf 순회하며 조건 매칭 엔트리 제거	인터페이스 다운, VRF 삭제 시 사용

RCU 동시성: FIB 조회(fib_table_lookup)는 rcu_read_lock()만 잡고 수행되므로 어떤 코어에서든 lock 경합(Contention) 없이 병렬 조회가 가능합니다. 반면 삽입/삭제는 rtnl_lock(네트워크 큰 잠금(Lock))을 잡아야 합니다. 이 비대칭 설계 덕분에 데이터 플레인(조회) 성능은 제어 플레인(수정) 빈도에 영향받지 않습니다.

소스: fib_table_insert() — 경로 추가 내부 경로

fib_table_insert()는 ip route add 명령이나 라우팅 데몬이 Netlink로 경로를 추가할 때 호출됩니다. 기존 leaf에 alias를 추가하거나 새 leaf를 만들고, trie를 리밸런싱하며, 변경 사실을 RCU와 통지 체계로 전파하는 복합 작업을 수행합니다.

/* net/ipv4/fib_trie.c — fib_table_insert() 핵심 흐름 */

int fib_table_insert(struct net *net, struct fib_table *tb,
                     struct fib_config *cfg, struct netlink_ext_ack *extack)
{
    struct trie *t = (struct trie *)tb->__data;
    struct fib_alias *fa, *new_fa;
    struct key_vector *l, *tp;
    struct fib_info *fi;
    u8 plen = cfg->fc_dst_len;
    u32 key;

    /* 1단계: fib_info 생성 — nexthop, 게이트웨이, dev 검증 */
    fi = fib_create_info(cfg, extack);
    if (IS_ERR(fi))
        return PTR_ERR(fi);

    key = ntohl(cfg->fc_dst);

    /* 2단계: LC-trie에서 삽입 위치 탐색 */
    l = fib_find_node(t, &tp, key);

    if (l) {
        /* 동일 prefix에 leaf가 이미 존재 → alias 추가/교체 */
        fa = fib_find_alias(&l->leaf, plen, cfg->fc_tos,
                            cfg->fc_priority, tb->tb_id, false);
        if (fa && (cfg->fc_nlflags & NLM_F_REPLACE)) {
            fib_replace_alias(t, tp, l, fa, new_fa, key);
            goto succeeded;
        }
        /* 3단계a: 기존 leaf에 새 fib_alias 삽입 */
        fib_insert_alias(t, tp, l, new_fa, fa, key);
    } else {
        /* 3단계b: 해당 key에 leaf 없음 → 새 leaf 생성 */
        l = fib_insert_node(t, tp, key, plen);
        hlist_add_head(&new_fa->fa_list, &l->leaf);
    }

    /* 4단계: RCU publish — 독자가 새 leaf를 안전하게 볼 수 있도록 */
    rcu_assign_pointer(tp->tnode[get_index(key, tp)], l);

    /* 5단계: slen(suffix length) 역방향 전파 */
    fib_insert_alias_update_slen(t, l, new_fa, key, plen);

    /* 6단계: resize — level compression 재조정 */
    fib_resize(t, tp);

succeeded:
    /* 7단계: Netlink + fib_notify 변경 전파 */
    rtmsg_fib(RTM_NEWROUTE, htonl(key), new_fa, plen, tb->tb_id,
             &cfg->fc_nlinfo, 0);
    return 0;
}

코드 설명

fib_create_info()nexthop 유효성 검사(fib_check_nh() 포함), 게이트웨이 도달 가능성 확인, fib_info 객체 생성 및 전역 해시(Hash) 등록을 수행합니다. 동일 nexthop 조합이 이미 있으면 참조 카운트(Reference Count)만 증가시켜 재사용합니다.
fib_find_node()삽입하려는 key에 대응하는 leaf를 LC-trie에서 탐색합니다. 마지막으로 지나친 internal tnode 포인터를 tp에 저장하여 새 leaf 연결 위치를 알 수 있게 합니다.
fib_insert_alias()기존 leaf의 hlist에 새 fib_alias를 TOS → priority 순서에 맞게 삽입합니다.
fib_insert_node()새 leaf key_vector를 할당하고 trie에 연결합니다. 필요 시 intermediate tnode를 생성합니다.
rcu_assign_pointer()새 노드를 부모 tnode의 자식 슬롯에 원자적(Atomic)으로 publish합니다. write barrier가 포함되어 이전 초기화 완료가 보장됩니다.
fib_resize()자식 수 변화에 따라 inflate()(레벨 확장) 또는 halve()(레벨 축소)를 호출하여 LC-trie를 동적 리밸런싱합니다.
rtmsg_fib(RTM_NEWROUTE)Netlink 구독자와 switchdev/BPF FIB notification hook에 새 경로를 알립니다.

소스: fib_table_delete() — 경로 삭제 내부 경로

fib_table_delete()는 경로 삭제 시 대상 fib_alias를 찾아 leaf에서 제거하고, leaf가 비면 trie에서 leaf 노드를 제거합니다. RCU grace period를 거쳐 메모리를 안전하게 해제합니다.

/* net/ipv4/fib_trie.c — fib_table_delete() 핵심 흐름 */

int fib_table_delete(struct net *net, struct fib_table *tb,
                     struct fib_config *cfg, struct netlink_ext_ack *extack)
{
    struct trie *t = (struct trie *)tb->__data;
    struct fib_alias *fa_to_delete;
    struct key_vector *l, *tp;
    u32 key = ntohl(cfg->fc_dst);

    /* 1단계: 대상 leaf 탐색 */
    l = fib_find_node(t, &tp, key);
    if (!l)
        return -ESRCH;

    /* 2단계: leaf 안에서 일치하는 fib_alias 탐색 */
    fa_to_delete = fib_find_alias(&l->leaf, cfg->fc_dst_len,
                                  cfg->fc_tos, cfg->fc_priority,
                                  tb->tb_id, false);
    if (!fa_to_delete)
        return -ESRCH;

    /* 3단계: Netlink 통지 → hlist 분리 → fib_info 참조 해제 */
    rtmsg_fib(RTM_DELROUTE, htonl(key), fa_to_delete, ...);
    hlist_del_rcu(&fa_to_delete->fa_list);
    fib_info_put(fa_to_delete->fa_info);

    /* 4단계: leaf가 비면 trie에서 제거 + resize */
    if (hlist_empty(&l->leaf)) {
        fib_remove_alias(t, tp, l, key);
        fib_resize(t, tp);
    } else {
        fib_remove_alias_update_slen(t, l, key, cfg->fc_dst_len);
    }

    /* 5단계: RCU grace period 후 메모리 해제 */
    kfree_rcu(fa_to_delete, rcu);
    return 0;
}

코드 설명

hlist_del_rcu()alias를 hlist에서 제거하되 즉시 해제하지 않습니다. RCU read-side critical section의 독자가 여전히 접근할 수 있기 때문입니다.
fib_info_put()fib_info 참조 카운트를 감소시킵니다. 마지막 참조자가 해제를 담당합니다.
fib_remove_alias() + fib_resize()leaf가 비면 trie에서 제거하고 부모 tnode를 halve()로 축소합니다.
kfree_rcu()모든 RCU read-side critical section이 완료된 후(grace period) 메모리를 해제합니다.

소스: fib_check_nh() — nexthop 검증

fib_check_nh()는 경로 추가 시 fib_create_info() 내부에서 호출되어 각 nexthop의 유효성을 검증합니다. 게이트웨이 도달 가능성, 출력 디바이스 해석, 스코프(Scope) 일관성을 확인합니다.

/* net/ipv4/fib_semantics.c — fib_check_nh() 핵심 흐름 */

static int fib_check_nh(struct net *net, struct fib_nh *nh,
                        struct fib_info *fi, u32 table, u8 scope,
                        struct netlink_ext_ack *extack)
{
    if (nh->fib_nh_gw_family) {
        /* 게이트웨이 있는 경우: link-scope 역방향 조회 */
        struct flowi4 fl4 = {
            .daddr      = nh->fib_nh_gw4,
            .flowi4_oif = nh->fib_nh_oif,
            .flowi4_scope = RT_SCOPE_LINK,
        };
        struct fib_result res;

        int err = fib_lookup(net, &fl4, &res, FIB_LOOKUP_IGNORE_LINKSTATE);
        if (err) {
            NL_SET_ERR_MSG(extack, "Nexthop has invalid gateway");
            return err;
        }

        /* 스코프 검사: 게이트웨이는 경로보다 낮은(더 직접적) scope여야 */
        if (res.scope >= scope) {
            NL_SET_ERR_MSG(extack,
                "Nexthop scope >= route scope");
            return -EINVAL;
        }

        /* nh_oif 미지정 시 게이트웨이 경로에서 dev 추출 */
        if (!nh->fib_nh_dev) {
            nh->fib_nh_dev = res.nhc->nhc_dev;
            dev_hold(nh->fib_nh_dev);
        }
    } else {
        /* on-link nexthop: oif 필수, 디바이스 UP 확인 */
        nh->fib_nh_dev = dev_get_by_index(net, nh->fib_nh_oif);
        if (!nh->fib_nh_dev)
            return -ENODEV;
        if (!(nh->fib_nh_dev->flags & IFF_UP))
            return -ENETDOWN;
    }
    return 0;
}

코드 설명

RT_SCOPE_LINK 조회게이트웨이는 직접 연결 링크에 있어야 합니다. RT_SCOPE_LINK로 FIB를 재귀 조회하여 게이트웨이 도달 가능성을 확인합니다.
res.scope >= scope스코프 계층 규칙: 게이트웨이는 항상 더 직접적인(값이 큰) 스코프로 도달 가능해야 합니다. 예: RT_SCOPE_UNIVERSE(0) 경로의 게이트웨이는 RT_SCOPE_LINK(253) 경로로 도달 가능해야 합니다.
FIB_LOOKUP_IGNORE_LINKSTATE링크 다운 상태에서도 경로 설정이 가능하도록 하는 플래그입니다.
dev_hold() / dev_get_by_index()네트워크 디바이스 참조 카운트를 관리하여 경로가 활성인 동안 디바이스가 해제되지 않도록 보호합니다.

소스: fib_get_table() / fib_new_table() — 테이블 관리

각 네트워크 네임스페이스는 독립적인 라우팅 테이블 집합을 유지합니다. fib_get_table()은 테이블 ID로 조회하고, fib_new_table()은 없으면 온디맨드로 생성합니다.

/* net/ipv4/fib_frontend.c, net/ipv4/fib_trie.c */

struct fib_table *fib_get_table(struct net *net, u32 id)
{
    struct fib_table *tb;
    unsigned int h;

    if (id == 0)
        id = RT_TABLE_MAIN;

    h = id & (FIB_TABLE_HASHSZ - 1);
    hlist_for_each_entry_rcu(tb, &net->ipv4.fib_table_hash[h], tb_hlist) {
        if (tb->tb_id == id)
            return tb;
    }
    return NULL;
}

struct fib_table *fib_new_table(struct net *net, u32 id)
{
    struct fib_table *tb;

    tb = fib_get_table(net, id);
    if (tb)
        return tb;

    /* fib_table + trie 구조를 단일 kzalloc으로 할당 */
    tb = fib_trie_table(id, NULL);
    if (!tb)
        return NULL;

    /* 네임스페이스 해시에 등록 */
    hlist_add_head_rcu(&tb->tb_hlist,
        &net->ipv4.fib_table_hash[id & (FIB_TABLE_HASHSZ - 1)]);
    return tb;
}

struct fib_table *fib_trie_table(u32 id, struct fib_table *alias)
{
    struct fib_table *tb;
    struct trie *t;

    /* fib_table와 trie를 연속 메모리로 할당 */
    tb = kzalloc(sizeof(*tb) + sizeof(struct trie), GFP_KERNEL);
    tb->tb_id = id;
    t = (struct trie *)tb->__data;
    t->kv[0].pos = KEYLENGTH;  /* 32비트 루트 */
    t->kv[0].bits = 0;         /* leaf로 시작 */
    return tb;
}

코드 설명

net->ipv4.fib_table_hash[]FIB_TABLE_HASHSZ(256) 크기의 해시 테이블입니다. 테이블 ID를 키로 O(1) 평균 조회를 수행합니다.
RT_TABLE_MAIN, RT_TABLE_LOCAL커널 예약 테이블: local=255, main=254, default=253. 사용자 정의 테이블(1~252)은 처음 참조 시 온디맨드 생성됩니다.
fib_trie_table() 단일 kzallocsizeof(fib_table) + sizeof(trie)를 한 번에 할당하여 캐시 친화적으로 배치합니다.

FIB 조회 상세 경로

초보자를 위한 맥락: 앞에서 LC-trie가 "어떻게" 접두사를 찾는지 배웠습니다. 이 섹션에서는 그 조회가 전체 네트워크 스택의 "어디에서" 발생하는지를 봅니다. 소켓이 데이터를 보내려 할 때 → 커널이 어떤 함수를 어떤 순서로 호출하여 → 최종적으로 "이 패킷은 eth0으로 보내라"는 결론에 도달하는지, 그 전체 흐름입니다.

패킷이 들어오거나 소켓이 전송을 시작하면, 커널은 아래 함수 체인을 따라 FIB를 조회합니다. 각 단계에서 무슨 일이 일어나는지 정확히 이해하면 라우팅 문제의 원인 지점을 빠르게 좁힐 수 있습니다.

FIB 조회의 전체 함수 호출 체인: 소켓 송신 시 ip_route_output_flow()에서 시작하여 RPDB(또는 직접 조회) → LC-trie LPM → fib_result type 분기 → nexthop 선택 → dst_entry 생성 순으로 진행됩니다.

fib_table_lookup()은 3단계로 동작합니다: (1) trie 하강 — 목적지 IP의 비트를 따라 최대한 깊이 내려감, (2) leaf 검증 — 도달한 leaf의 접두사가 일치하는지 확인, (3) backtrack — 불일치 시 부모로 올라가 더 짧은 접두사를 탐색합니다.

상세 내용: fib_table_lookup()의 소스 코드 분석과 backtrace 알고리즘의 동작 원리는 LC-Trie (FIB Trie) — fib_table_lookup 분석을 참조하세요.

커널 소스 분석: 콜 체인과 핵심 구조체

이 섹션은 ip_route_output_key()에서 fib_table_lookup()까지의 실제 커널 콜 체인과, 각 함수가 조작하는 핵심 구조체(fib_table/trie, rtable)를 소스 코드 수준에서 분석합니다. 앞에서 개념적으로 배운 내용을 실제 커널 코드와 1:1로 대응시키는 단계입니다.

IPv4 출력 경로의 콜 체인: 소켓 송신에서 시작해 ip_route_output_key() → fib_lookup() → fib_table_lookup() 순으로 이어지며, 최종 결과는 fib_result에 저장됩니다.

구조체: fib_table과 trie

fib_table은 하나의 라우팅 테이블을 나타내는 최상위 컨테이너(Container)입니다. __data[] 플렉서블 배열 멤버 뒤에 struct trie가 인접하게 배치되어, 테이블과 LC-trie 루트가 단일 할당으로 관리됩니다.

/* include/net/ip_fib.h, net/ipv4/fib_trie.c */

/* fib_table: 단일 라우팅 테이블의 핸들 */
struct fib_table {
    struct hlist_node tb_hlist;     /* net->ipv4.fib_table_hash 버킷 연결 */
    u32              tb_id;          /* 테이블 번호 (254=main, 255=local) */
    int              tb_num_default; /* default 경로(0.0.0.0/0) 개수 */
    struct rcu_head  rcu;            /* RCU 비동기 해제용 */
    unsigned long    __data[];       /* struct trie가 이 위치에 인접 배치됨 */
};

/* LC-trie 루트: fib_table.__data[] 바로 뒤에 위치 */
struct trie {
    struct key_vector kv[1];        /* 인덱스 0 = trie 루트 key_vector */
    #ifdef CONFIG_IP_FIB_TRIE_STATS
    struct trie_use_stats __percpu *stats; /* 조회 통계 (per-CPU) */
    #endif
};

코드 설명

tb_hlist각 네트워크 네임스페이스(net)는 fib_table_hash[] 배열로 테이블을 관리합니다. tb_id를 해시 키로 사용해 O(1)로 테이블을 찾습니다.
tb_id254(main), 255(local), 253(default)는 커널 예약값입니다. 사용자 정의 테이블은 1~252 범위를 사용하며, ip rule이나 Policy Routing을 통해 참조됩니다.
tb_num_defaultdefault route 수를 빠르게 확인하기 위한 카운터입니다. fib_lookup()이 다음 테이블로 진행할지 결정할 때 참조합니다.
__data[]C99 플렉서블 배열 멤버입니다. fib_trie_table()에서 kzalloc(sizeof(fib_table) + sizeof(trie))로 한 번에 할당하므로, trie는 fib_table 바로 뒤에 메모리상 연속됩니다. 포인터 역참조(Dereference) 없이 캐시 친화적으로 접근 가능합니다.
trie.kv[0]trie 루트 key_vector입니다. fib_table_lookup()은 (struct trie *)tb->__data로 캐스팅 후 t->kv[0]를 루트로 사용합니다.
stats (per-CPU)CONFIG_IP_FIB_TRIE_STATS 활성화 시 조회 횟수, backtrack 횟수, null 포인터 도달 횟수를 per-CPU로 집계합니다. /proc/net/fib_triestat에서 확인 가능합니다.

구조체: rtable (dst_entry 확장)

struct rtable은 IPv4 라우팅 조회 결과를 캡슐화(Encapsulation)하는 구조체입니다. dst_entry를 첫 번째 멤버로 포함해 다형성을 구현하며, skb->_skb_refdst에 저장되어 패킷 생애 주기 동안 경로 정보를 제공합니다.

/* include/net/route.h — struct rtable 핵심 필드 */

struct rtable {
    struct dst_entry dst;          /* 반드시 첫 번째 멤버 — dst_entry 기반 다형성 */

    int              rt_genid;     /* 라우팅 테이블 변경 세대 번호 */
    unsigned int     rt_flags;     /* RTCF_LOCAL, RTCF_BROADCAST, RTCF_MULTICAST */
    __u16            rt_type;      /* RTN_UNICAST, RTN_LOCAL, RTN_BROADCAST 등 */
    __u8             rt_is_input;  /* 1 = 수신 경로(RX), 0 = 송신 경로(TX) */
    __u8             rt_uses_gateway; /* 1 = nexthop이 게이트웨이를 경유함 */

    int              rt_iif;       /* 원래 입력 인터페이스 인덱스 (수신 경로용) */
    u8               rt_gw_family; /* AF_INET 또는 AF_INET6 (이중 스택 nexthop) */

    union {
        __be32       rt_gw4;       /* IPv4 게이트웨이 주소 */
        struct in6_addr rt_gw6;  /* IPv6 게이트웨이 주소 (이중 스택) */
    };

    u32              rt_mtu_locked:1, /* PMTU 고정 여부 (TCP MSS clamp 관련) */
                     rt_pmtu:31;    /* Path MTU 값 (0이면 dev MTU 사용) */

    struct list_head rt_uncached;  /* 캐시되지 않은 rtable 전역 리스트 */
    struct inet_peer *peer;        /* 목적지 호스트별 상태 (PMTU, redirect 등) */
};

코드 설명

dst (첫 번째 멤버)dst_entry가 첫 번째 멤버임은 C 언어 다형성의 핵심입니다. (struct dst_entry *)rt 캐스팅이 안전하며, skb->_skb_refdst에 dst_entry *로 저장 후 필요 시 skb_rtable()로 rtable *로 복원합니다.
rt_genid라우팅 테이블이 변경될 때마다 네트워크 네임스페이스의 세대 번호가 증가합니다. rt_genid가 현재 세대와 다르면 캐시된 rtable이 무효화(stale)된 것으로 판단해 재조회합니다.
rt_flagsRTCF_LOCAL: 로컬 배달 패킷, RTCF_BROADCAST: 브로드캐스트, RTCF_MULTICAST: 멀티캐스트, RTCF_DNAT/RTCF_SNAT: NAT 변환됨. Netfilter와 상호작용 시 중요합니다.
rt_is_input수신 경로(ip_route_input())에서 생성된 경우 1입니다. __mkroute_input()과 __mkroute_output()이 각각 이 플래그를 다르게 설정합니다.
rt_gw4 / rt_gw6게이트웨이 주소입니다. rt_uses_gateway == 0이면 직접 연결(on-link)이므로 이 값은 무시됩니다. ip_finish_output2()에서 neighbour 조회 시 이 주소를 사용합니다.
rt_pmtuICMP Fragmentation Needed 수신 시 업데이트되는 Path MTU입니다. 0이면 출력 디바이스의 MTU를 사용합니다. TCP는 이 값을 기준으로 MSS를 조정합니다.
rt_uncached예외 캐시에 들어가지 않은 rtable은 이 리스트로 전역 관리됩니다. 주로 멀티캐스트, 브로드캐스트, PMTU 예외 경로가 여기에 해당합니다.

소스: ip_route_output_key() 진입점(Entry Point)

ip_route_output_key()는 소켓 레이어에서 라우팅 서브시스템으로 진입하는 공식 API입니다. 실제 조회 로직 대부분은 내부 함수에 위임하며, 이 함수는 주로 캐시 계층을 거치는 진입 래퍼(wrapper) 역할을 합니다.

/* net/ipv4/route.c — ip_route_output_key() 진입점 */

struct rtable *ip_route_output_key(struct net *net,
                                    struct flowi4 *flp)
{
    return ip_route_output_flow(net, flp, NULL);
}
EXPORT_SYMBOL(ip_route_output_key);

/* ip_route_output_flow(): 보안(xfrm) 정책 적용 후 실제 조회 */
struct rtable *ip_route_output_flow(struct net *net,
                                      struct flowi4 *flp4,
                                      const struct sock *sk)
{
    struct rtable *rt = __ip_route_output_key(net, flp4);

    if (IS_ERR(rt))
        return rt;

    /* IPsec: xfrm 정책이 있으면 보안 경로로 재라우팅 */
    if (flp4->flowi4_proto) {
        return (struct rtable *)xfrm_lookup_route(net,
                    &rt->dst, flowi4_to_flowi(flp4), sk, 0);
    }
    return rt;
}

/* __ip_route_output_key(): 실제 라우팅 조회 */
static inline struct rtable *__ip_route_output_key(struct net *net,
                                                      struct flowi4 *flp)
{
    return ip_route_output_key_hash(net, flp, NULL);
}

코드 설명

ip_route_output_key()외부 모듈(TCP, UDP, ICMP 등)에 공개된 공식 API입니다. EXPORT_SYMBOL로 내보내어 모듈에서도 사용 가능합니다. IPsec 없는 경우 사실상 ip_route_output_key_hash()의 래퍼입니다.
ip_route_output_flow()IPsec xfrm 정책이 활성화되어 있고 소켓에 L4 프로토콜이 지정된 경우, xfrm_lookup_route()를 통해 보안 터널(Tunnel) 경로로 재라우팅됩니다. VPN 환경에서 중요한 분기점입니다.
flp4->flowi4_protoL4 프로토콜 번호(IPPROTO_TCP, IPPROTO_UDP 등)입니다. 0이면 xfrm 검사를 건너뜁니다. 소켓 생성 시 설정되는 값으로, raw 소켓이 아닌 경우 항상 설정됩니다.
IS_ERR(rt)라우팅 실패 시 ERR_PTR(-ENETUNREACH) 같은 에러 포인터가 반환됩니다. 호출자는 반드시 IS_ERR()로 확인해야 합니다. 성공 시 유효한 rtable *이 반환됩니다.

소스: ip_route_input_slow() 수신 경로

수신 경로(RX)에서의 라우팅은 ip_route_input_noref() → ip_route_input_slow() 경로로 진행됩니다. 이 함수는 FIB 조회 결과에 따라 로컬 배달(RTN_LOCAL)인지 포워딩(RTN_UNICAST)인지를 결정하고 각기 다른 dst_entry를 생성합니다.

/* net/ipv4/route.c — ip_route_input_slow() 핵심 로직 (간략화) */

static int ip_route_input_slow(struct sk_buff *skb,
                               __be32 daddr, __be32 saddr,
                               u8 tos, struct net_device *dev,
                               struct fib_result *res)
{
    struct flowi4 fl4 = {
        .flowi4_iif   = dev->ifindex,   /* 입력 인터페이스 */
        .flowi4_mark  = skb->mark,       /* fwmark (Policy Routing 트리거) */
        .flowi4_tos   = tos,             /* IP 헤더 TOS 필드 */
        .flowi4_scope = RT_SCOPE_UNIVERSE,
        .daddr        = daddr,
        .saddr        = saddr,
    };
    struct net *net = dev_net(dev);
    int  err;

    /* 1. FIB 조회: RPDB → fib_table_lookup() */
    err = fib_lookup(net, &fl4, res, 0);
    if (err != 0) {
        if (!IN_DEV_FORWARD(in_dev_get(dev)))
            err = -EHOSTUNREACH;
        goto no_route;
    }

    /* 2. route type에 따른 분기 처리 */
    if (res->type == RTN_LOCAL) {
        err = fib_validate_source(skb, saddr, daddr,
                    tos, 0, dev, in_dev_get(dev), &itag);
        if (err < 0)
            goto martian_source;
        goto local_input;   /* 로컬 소켓으로 전달 */
    }

    if (!IN_DEV_FORWARD(in_dev_get(dev)))
        goto no_route;      /* ip_forward = 0이면 포워딩 불가 */

    if (res->type != RTN_UNICAST)
        goto no_route;

    /* 3. unicast 포워딩: __mkroute_input()으로 dst_entry 생성 */
    err = ip_mkroute_input(skb, res, &fl4, in_dev_get(dev), daddr, saddr, tos, flkeys);
    return err;

local_input:
    /* 4. 로컬 배달: dst.input = ip_local_deliver 로 설정 */
    rth = rt_dst_alloc(ip_rt_get_dev(net, res), flags | RTCF_LOCAL, ...);
    rth->dst.input  = ip_local_deliver;
    rth->dst.output = ip_rt_bug;        /* 로컬 패킷은 출력 불가 */
    return 0;
}

코드 설명

flowi4 구성수신 경로에서는 flowi4_iif(입력 인터페이스)가 핵심 selector입니다. ip rule iif eth0 같은 Policy Routing 규칙이 이 값으로 매칭됩니다. 또한 skb->mark가 그대로 flowi4_mark에 복사되어 ip rule fwmark 매칭에 사용됩니다.
fib_lookup() 호출수신/송신 경로 모두 동일한 fib_lookup()을 사용합니다. RPDB가 활성화된 경우 fib_rules_lookup()을 통해 우선순위 순서로 규칙을 검사하고, 매칭된 규칙이 가리키는 테이블에서 fib_table_lookup()을 수행합니다.
RTN_LOCAL 분기목적지가 이 호스트의 주소인 경우입니다. fib_validate_source()로 소스 주소의 유효성(Martian source 방지)을 검사한 후 local_input으로 점프합니다.
IN_DEV_FORWARD() 검사/proc/sys/net/ipv4/ip_forward 또는 /proc/sys/net/ipv4/conf/ethX/forwarding 값을 확인합니다. 0이면 포워딩이 비활성화된 것으로, unicast 패킷도 no_route로 처리됩니다.
ip_mkroute_input()포워딩 경로용 rtable을 생성합니다. dst.input = ip_forward, dst.output = ip_output으로 설정되어 패킷이 포워딩 큐를 거쳐 출력됩니다.
ip_rt_bug로컬 배달 경로의 dst.output에 설정되는 버그 탐지 함수입니다. 로컬 패킷이 실수로 dst->output()을 호출하면 커널 경고가 발생합니다.

소스: fib_select_multipath() ECMP 경로 선택

ECMP(Equal-Cost Multi-Path) 설정에서는 FIB 조회 후 여러 nexthop 중 하나를 선택해야 합니다. fib_select_multipath()는 흐름 해시(flow hash) 기반으로 nexthop을 결정하여, 동일 흐름의 패킷이 항상 같은 경로를 사용하도록 보장합니다.

/* net/ipv4/fib_semantics.c — fib_select_multipath() */

void fib_select_multipath(struct fib_result *res, int hash)
{
    struct fib_info *fi = res->fi;
    struct net *net = fi_net(fi);
    bool first = false;

    /* nexthop 객체(5.x+ 통합 API) 사용 시 별도 처리 */
    if (unlikely(fi->nh)) {
        nexthop_path_fib_result(res, hash);
        return;
    }

    /* 레거시 fib_nh 배열에서 해시 기반 nexthop 선택 */
    change_nexthops(fi) {
        if (nexthop_is_valid(nexthop_nh)) {
            if (!first) {
                res->nh_sel = nhsel;   /* 첫 번째 유효 nexthop 저장 */
                res->nhc = &nexthop_nh->nh_common;
                first = true;
            }
            /* 가중치 누적으로 해시 분배: weight 비율대로 선택 */
            if (hash > atomic_read(&nexthop_nh->fib_nh_upper_bound))
                continue;
            /* 이 nexthop 선택 */
            res->nh_sel = nhsel;
            res->nhc = &nexthop_nh->nh_common;
            return;
        }
    } endfor_nexthops(fi);
}

/* 호출 시점: __mkroute_output() / ip_mkroute_input() 직전 */
if (res.fi->fib_nhs > 1) {
    int h = fib_multipath_hash(net, &fl4, skb, NULL);
    fib_select_multipath(&res, h);
}

코드 설명

fi->nh (nexthop 객체)커널 5.x에서 추가된 통합 nexthop API입니다. ip nexthop add로 생성한 nexthop 객체를 참조합니다. nexthop_path_fib_result()가 그룹 내 경로를 선택합니다.
change_nexthops() / endfor_nexthops()fib_nh 배열을 순회하는 커널 매크로(Macro)입니다. nhsel은 현재 인덱스, nexthop_nh는 현재 fib_nh *입니다.
nexthop_is_valid()nexthop이 다운된 경우(RTNH_F_DEAD)나 Nexthop에 연결된 디바이스가 없는 경우를 제외합니다. 장애 감지(BFD, 라우팅 데몬)로 플래그가 설정된 nexthop은 선택에서 제외됩니다.
fib_nh_upper_bound각 nexthop의 가중치(fib_nh_weight)를 기반으로 계산된 해시 상한값입니다. 예: 가중치 1:2인 두 nexthop의 upper_bound가 INT_MAX/3과 INT_MAX로 설정되어 1:2 비율로 선택됩니다.
fib_multipath_hash()5-tuple(소스/목적지 주소, 소스/목적지 포트, 프로토콜) 기반 해시를 계산합니다. /proc/sys/net/ipv4/fib_multipath_hash_policy로 해시 입력을 조정할 수 있습니다(0=L3, 1=L4, 2=innerL3).
res->nh_sel / res->nhc선택된 nexthop의 인덱스와 공통 정보 포인터를 fib_result에 기록합니다. 이후 __mkroute_output()이 이 값으로 출력 디바이스와 게이트웨이를 확정합니다.

ECMP nexthop 선택: 5-tuple 해시 값을 각 nexthop의 upper_bound와 순서대로 비교하여 첫 번째로 해시 값보다 큰 upper_bound를 가진 nexthop을 선택합니다. 이로써 동일 흐름의 패킷은 항상 같은 nexthop을 사용합니다.

소스: ip_route_output_key_hash() — 출력 라우트 해결

ip_route_output_key_hash()는 로컬에서 생성한 패킷의 출력 라우트를 결정하는 핵심 함수입니다. 소스 주소 미지정 시 자동 선택, route exception 캐시 확인, FIB 조회, nexthop 선택, rtable 생성까지의 전체 과정을 수행합니다.

/* net/ipv4/route.c — ip_route_output_key_hash() 핵심 흐름 */

struct rtable *ip_route_output_key_hash(struct net *net,
                                         struct flowi4 *fl4,
                                         const struct sk_buff *skb)
{
    struct fib_result res = {};
    struct rtable *rth;
    int err;

    /* 1단계: 출력 인터페이스가 지정된 경우 검증 */
    if (fl4->flowi4_oif) {
        /* oif가 loopback이면 특수 처리 */
        if (fl4->flowi4_oif == LOOPBACK_IFINDEX)
            fl4->flowi4_flags |= FLOWI_FLAG_KNOWN_NH;
    }

    /* 2단계: FIB 조회 (RPDB → 테이블 선택 → LC-trie LPM) */
    err = fib_lookup(net, fl4, &res, 0);
    if (err) {
        res.fi = NULL;
        res.table = NULL;
        if (fl4->flowi4_oif) {
            /* oif 지정된 경우: FIB 실패해도 강제 출력 시도 */
            goto make_route;
        }
        goto out;
    }

    /* 3단계: route type에 따른 분기 */
    if (res.type == RTN_LOCAL) {
        /* 로컬 주소로의 출력: loopback 설정 */
        fl4->flowi4_oif = dev_net(net->loopback_dev)->ifindex;
        goto make_route;
    }
    if (res.type == RTN_BROADCAST || res.type == RTN_MULTICAST)
        goto make_route;

    /* 4단계: 소스 주소 미지정 시 자동 선택 */
    if (!fl4->saddr) {
        /* fib_result의 prefsrc 또는 inet_select_addr() 사용 */
        fl4->saddr = fib_result_prefsrc(net, &res);
        if (!fl4->saddr)
            fl4->saddr = inet_select_addr(
                fib_result_dev(&res),
                fl4->daddr, res.scope);
    }

    /* 5단계: ECMP multipath 선택 */
    if (res.fi->fib_nhs > 1 || res.fi->nh) {
        int h = fib_multipath_hash(net, fl4, skb, NULL);
        fib_select_multipath(&res, h);
    }

make_route:
    /* 6단계: rtable(dst_entry) 생성 */
    rth = __mkroute_output(&res, fl4, 0);
    /* rth->dst.output = ip_output
     * rth->dst.input  = ip_local_deliver (RTN_LOCAL 시)
     * rth->rt_gw4     = 게이트웨이 주소
     * rth->dst.dev    = 출력 디바이스 */

out:
    return rth;
}

코드 설명

fib_lookup() 단계: CONFIG_IP_MULTIPLE_TABLES 설정에 따라 RPDB를 사용하거나 local→main 테이블을 직접 조회합니다. 대부분의 배포판에서 RPDB가 활성화되어 있으므로 fib_rules_lookup()을 거칩니다.
소스 주소 자동 선택: fib_result_prefsrc()는 경로에 명시적 prefsrc가 있으면 그것을 반환합니다. 없으면 inet_select_addr()가 출력 디바이스에서 적절한 주소를 선택합니다 (이 페이지의 inet_select_addr() 상세 참조).
ECMP 선택 시점: multipath 경로인 경우 여기서 fib_multipath_hash()로 해시를 계산하고 fib_select_multipath()로 nexthop을 선택합니다. 이 결과가 res.nhc에 저장되어 __mkroute_output()에서 사용됩니다.
__mkroute_output(): fib_result를 기반으로 rtable(= dst_entry + IPv4 확장)을 생성합니다. output 콜백(ip_output), 게이트웨이 주소, PMTU 초기값, route exception 체크 등이 여기서 설정됩니다.
oif 강제 출력: 소켓에 SO_BINDTODEVICE가 설정되면 flowi4_oif가 지정됩니다. FIB에서 경로를 찾지 못해도 해당 디바이스로 강제 출력을 시도합니다.

소스: fib_lookup() — RPDB와 직접 조회 분기

fib_lookup()은 인라인 함수(Inline Function)로, CONFIG_IP_MULTIPLE_TABLES 설정에 따라 RPDB 경유와 직접 테이블 조회를 분기합니다. 모든 IPv4 라우팅 조회의 최상위 진입점입니다.

/* include/net/ip_fib.h — fib_lookup() 인라인 */

#ifdef CONFIG_IP_MULTIPLE_TABLES
/* RPDB 활성: fib_rules_lookup()을 통해 규칙 리스트 순회 */
static inline int fib_lookup(struct net *net,
                              struct flowi4 *flp,
                              struct fib_result *res,
                              unsigned int flags)
{
    struct fib_lookup_arg arg = {
        .result  = res,
        .flags   = flags,
    };
    int err;

    /* l3mdev (VRF) 변환: VRF 소속 인터페이스면 flowi4_oif 변경 */
    fib_l3mdev_lookup(net, flp);

    err = fib_rules_lookup(net->ipv4.rules_ops,
                            flowi4_to_flowi(flp),
                            0, &arg);
    if (err >= 0)
        res->r = arg.rule;  /* 매칭된 규칙 저장 */
    return err;
}

#else
/* RPDB 비활성: local → main 테이블 직접 조회 */
static inline int fib_lookup(struct net *net,
                              struct flowi4 *flp,
                              struct fib_result *res,
                              unsigned int flags)
{
    struct fib_table *tb;
    int err = -ENETUNREACH;

    rcu_read_lock();

    /* local 테이블 (255) 먼저 조회: 로컬 주소 확인 */
    tb = fib_get_table(net, RT_TABLE_LOCAL);
    if (tb) {
        err = fib_table_lookup(tb, flp, res, flags | FIB_LOOKUP_NOREF);
        if (!err)
            goto out;
    }

    /* main 테이블 (254) 조회: 일반 경로 */
    tb = fib_get_table(net, RT_TABLE_MAIN);
    if (tb)
        err = fib_table_lookup(tb, flp, res, flags | FIB_LOOKUP_NOREF);
out:
    rcu_read_unlock();
    return err;
}
#endif

코드 설명

CONFIG_IP_MULTIPLE_TABLES: 대부분의 배포판 커널에서 활성화되어 있습니다. 이 옵션이 켜지면 ip rule 명령과 Policy Routing이 사용 가능합니다. 비활성 시에도 local→main 순서의 2단계 조회는 동일합니다.
fib_l3mdev_lookup(): VRF 소속 인터페이스에서 패킷이 나가면 flowi4_oif를 VRF master 디바이스 인덱스로 변환합니다. 이 변환이 없으면 VRF 테이블 대신 main 테이블을 조회하게 됩니다.
FIB_LOOKUP_NOREF: RCU 읽기 잠금 안에서 조회하므로 fib_info의 참조 카운트를 증가시키지 않습니다. 호출자가 RCU 섹션 밖에서 결과를 사용하려면 별도로 참조를 잡아야 합니다.
local 테이블 우선 조회: local 테이블에는 호스트 자신의 주소(RTN_LOCAL)와 브로드캐스트 주소가 들어 있습니다. 이 테이블을 먼저 보는 이유는, 자신에게 도착한 패킷이 포워딩되지 않고 로컬에서 처리되도록 보장하기 위함입니다.

커널 소스 분석 요약

함수/구조체	위치	역할	핵심 포인트
`ip_route_output_key()`	`net/ipv4/route.c`	TX 라우팅 진입점	IPsec xfrm 래퍼, `EXPORT_SYMBOL`
`ip_route_input_slow()`	`net/ipv4/route.c`	RX 라우팅 핵심 로직	RTN_LOCAL/UNICAST 분기, ip_forward 검사
`fib_lookup()`	`include/net/ip_fib.h`	RPDB + FIB 통합 조회	인라인, RPDB ON/OFF 분기
`fib_table_lookup()`	`net/ipv4/fib_trie.c`	LC-trie LPM	RCU read lock만 사용, 3단계(하강/검증/backtrack)
`fib_select_multipath()`	`net/ipv4/fib_semantics.c`	ECMP nexthop 선택	흐름 해시 기반, upper_bound 비교
`struct fib_table`	`include/net/ip_fib.h`	라우팅 테이블 컨테이너	`__data[]`에 trie 인접, 네임스페이스별 해시
`struct trie`	`net/ipv4/fib_trie.c`	LC-trie 루트	`kv[0]`이 루트 key_vector, per-CPU 통계
`struct rtable`	`include/net/route.h`	IPv4 라우팅 결과	`dst_entry` 다형성, rt_genid 무효화, PMTU

소스: ip_forward() 포워딩 경로

ip_forward()는 목적지가 로컬이 아닌 패킷을 처리하는 IPv4 포워딩 진입점입니다(net/ipv4/ip_forward.c). ip_route_input_slow()에서 RTN_UNICAST이고 로컬 수신이 아님을 확인하면 dst_entry.input이 ip_forward로 설정되어, 이후 dst_input(skb) 호출 시 이 함수가 실행됩니다.

/* net/ipv4/ip_forward.c — ip_forward() 핵심 구조 */

int ip_forward(struct sk_buff *skb)
{
    struct iphdr     *iph;
    struct rtable    *rt;
    struct ip_options *opt  = &IPCB(skb)->opt;
    struct net       *net;
    u32 mtu;

    /* ① Netfilter FORWARD 훅 통과 여부는 ip_rcv()에서 이미 확인됨 */
    if (skb_warn_if_lro(skb))
        goto drop;

    if (!xfrm4_policy_check(NULL, XFRM_POLICY_FWD, skb))
        goto drop;

    iph = ip_hdr(skb);
    rt  = skb_rtable(skb);
    net = dev_net(rt->dst.dev);

    /* ② TTL 검사: 1 이하이면 ICMP Time Exceeded 전송 후 드롭 */
    if (iph->ttl <= 1)
        goto too_many_hops;

    if (!xfrm4_route_forward(skb))
        goto drop;

    rt = skb_rtable(skb);

    /* ③ ICMP Redirect 필요 여부 확인
     *    입력 dev == 출력 dev && rp_filter 조건 충족 시 redirect 생성 */
    if (rt_is_output_route(rt))
        goto sr_failed;

    if (opt->is_strictroute && rt->rt_uses_gateway)
        goto sr_failed;

    /* ④ TTL 감소: SKB를 쓰기 가능 상태로 만들고 TTL-- */
    if (skb_cow(skb, LL_RESERVED_SPACE(rt->dst.dev) + rt->dst.header_len))
        goto drop;
    iph = ip_hdr(skb);
    ip_decrease_ttl(iph);   /* TTL-- + 체크섬 증분 업데이트 */

    /* ⑤ MTU 검사: 패킷이 출력 MTU를 초과하면 ICMP Frag Needed 또는 단편화 */
    mtu = ip_dst_mtu_maybe_forward(&rt->dst, 1);
    if (ip_exceeds_mtu(skb, mtu)) {
        IP_INC_STATS(net, IPSTATS_MIB_FRAGFAILS);
        icmp_send(skb, ICMP_DEST_UNREACH, ICMP_FRAG_NEEDED,
                   htonl(mtu));
        goto drop;
    }

    return NF_HOOK(NFPROTO_IPV4, NF_INET_FORWARD,
                    net, NULL, skb, skb->dev, rt->dst.dev,
                    ip_forward_finish);   /* ⑥ FORWARD 훅 통과 후 ip_forward_finish() */

sr_failed:
    icmp_send(skb, ICMP_DEST_UNREACH, ICMP_SR_FAILED, 0);
    goto drop;
too_many_hops:
    IP_INC_STATS(net, IPSTATS_MIB_INHDRERRORS);
    icmp_send(skb, ICMP_TIME_EXCEEDED, ICMP_EXC_TTL, 0);
drop:
    kfree_skb(skb);
    return NET_RX_DROP;
}

/* ip_forward_finish() → dst_output() 전달 */
static int ip_forward_finish(struct net *net, struct sock *sk,
                               struct sk_buff *skb)
{
    struct ip_options *opt = &IPCB(skb)->opt;

    IP_INC_STATS(net, IPSTATS_MIB_OUTFORWDATAGRAMS);
    IP_ADD_STATS(net, IPSTATS_MIB_OUTOCTETS, skb->len);

    if (unlikely(opt->optlen))
        ip_forward_options(skb);    /* IP 옵션 처리 (Record Route, Timestamp 등) */

    skb_clear_tstamp(skb);
    return dst_output(net, sk, skb);  /* → ip_output() */
}

코드 설명

② TTL 검사TTL이 1 이하이면 즉시 ICMP_TIME_EXCEEDED를 원본 발신자에게 전송하고 패킷을 드롭합니다. TTL 감소는 ④에서 별도로 수행합니다.
③ ICMP Redirect입력과 출력 인터페이스가 같고 게이트웨이 없이 직접 연결된 경우, 발신자가 더 짧은 경로를 쓸 수 있도록 ICMP Redirect를 보내도록 마킹합니다. 실제 redirect 전송은 ip_rt_send_redirect()에서 이루어집니다.
④ ip_decrease_ttl()skb_cow()로 SKB를 쓰기 가능 상태(헤드룸 포함)로 복사한 뒤 TTL을 1 감소시킵니다. ip_decrease_ttl()은 TTL 변경에 따른 IP 헤더 체크섬(Checksum)을 증분(incremental) 방식으로 재계산합니다.
⑤ MTU 검사DF(Don't Fragment) 비트가 설정된 패킷이 출력 MTU를 초과하면 ICMP_FRAG_NEEDED를 발신자에게 전송(PMTU Discovery 지원)하고 패킷을 드롭합니다. DF가 없으면 이후 ip_output()에서 단편화(Fragmentation)가 수행됩니다.
⑥ NF_INET_FORWARDiptables/nftables FORWARD 체인이 통과되는 지점입니다. 패킷이 허용되면 ip_forward_finish()가 호출되고, 최종적으로 dst_output() → ip_output()으로 이어집니다.

포워딩 경로 전체를 정리하면 다음과 같습니다:

# 패킷 수신부터 포워딩 출력까지의 전체 호출 경로
ip_rcv()
  └─ NF_INET_PRE_ROUTING (iptables PREROUTING)
       └─ ip_rcv_finish()
            └─ ip_route_input_noref()          # 라우팅 결과: dst.input = ip_forward
                 └─ dst_input(skb)             # → ip_forward() 호출
                      └─ ip_forward()
                           ├─ TTL 검사/감소
                           ├─ MTU 검사
                           └─ NF_INET_FORWARD  (iptables FORWARD)
                                └─ ip_forward_finish()
                                     └─ dst_output()   # → ip_output()
                                          └─ NF_INET_POST_ROUTING
                                               └─ ip_finish_output()
                                                    └─ ip_finish_output2()
                                                         └─ neigh_output()  # L2 전송

소스: ip_output() → ip_finish_output2() 출력 체인

패킷이 로컬에서 생성되든 포워딩되든, 최종적으로 네트워크로 나가는 경로는 동일한 출력 체인을 통과합니다. ip_output()부터 ip_finish_output2()까지의 체인은 Netfilter 훅, 단편화 결정, 그리고 L2 이웃(Neighbor) 서브시스템과의 연결 지점을 포함합니다.

/* net/ipv4/ip_output.c */

/* ① ip_output(): POST_ROUTING 훅 진입점 */
int ip_output(struct net *net, struct sock *sk, struct sk_buff *skb)
{
    struct net_device *dev = skb_dst(skb)->dev;

    IP_INC_STATS(net, IPSTATS_MIB_OUTREQUESTS);

    skb->dev = dev;
    skb->protocol = htons(ETH_P_IP);

    return NF_HOOK_COND(NFPROTO_IPV4, NF_INET_POST_ROUTING,
                         net, sk, skb, NULL, dev,
                         ip_finish_output,        /* 훅 통과 시 호출되는 계속 함수 */
                         !(IPCB(skb)->flags & IPSKB_REROUTED));
}

/* ② ip_finish_output(): 단편화 여부 결정 */
static int ip_finish_output(struct net *net, struct sock *sk,
                               struct sk_buff *skb)
{
    unsigned int mtu;

#if defined(CONFIG_NETFILTER) && defined(CONFIG_XFRM)
    /* IPsec 정책에 의해 다시 라우팅된 패킷 처리 */
    if (skb_dst(skb)->xfrm) {
        IPCB(skb)->flags |= IPSKB_REROUTED;
        return dst_output(net, sk, skb);
    }
#endif
    mtu = ip_skb_dst_mtu(sk, skb);

    /* GSO(Generic Segmentation Offload) 패킷이면 분할 후 각각 finish2 호출 */
    if (skb_is_gso(skb))
        return ip_finish_output_gso(net, sk, skb, mtu);

    /* MTU 초과이면 ip_fragment()로 단편화 */
    if (skb->len > mtu || IPCB(skb)->frag_max_size)
        return ip_fragment(net, sk, skb, mtu, ip_finish_output2);

    return ip_finish_output2(net, sk, skb);  /* 단편화 불필요 → 직접 전달 */
}

/* ③ ip_finish_output2(): 이웃(L2) 서브시스템으로 패킷 전달 */
static int ip_finish_output2(struct net *net, struct sock *sk,
                                struct sk_buff *skb)
{
    struct dst_entry  *dst  = skb_dst(skb);
    struct rtable     *rt   = (struct rtable *)dst;
    struct net_device *dev  = dst->dev;
    unsigned int       hh_len = LL_RESERVED_SPACE(dev);
    struct neighbour  *neigh;
    bool               is_v6gw = false;

    /* L2 헤더 공간이 부족하면 SKB 확장 */
    if (unlikely(skb_headroom(skb) < hh_len && dev->header_ops)) {
        skb = skb_expand_head(skb, hh_len);
        if (!skb)
            return -ENOMEM;
    }

    rcu_read_lock();
    /* nexthop별 이웃 캐시 엔트리 조회 */
    neigh = ip_neigh_for_gw(rt, skb, &is_v6gw);
    if (likely(!IS_ERR(neigh))) {
        int res;
        sock_confirm_neigh(skb, neigh);
        /* ④ neigh_output(): ARP 해소 상태에 따라 직접 전송 또는 큐잉 */
        res = neigh_output(neigh, skb, is_v6gw);
        rcu_read_unlock();
        return res;
    }
    rcu_read_unlock();

    net_dbg_ratelimited("%s: No header cache and no neighbour!\n",
                         __func__);
    kfree_skb_reason(skb, SKB_DROP_REASON_NEIGH_CREATEFAIL);
    return -EINVAL;
}

코드 설명

① NF_HOOK_CONDIPSKB_REROUTED 플래그가 없을 때만 POST_ROUTING 훅을 실행합니다. IPsec 재라우팅 패킷은 POST_ROUTING을 건너뜁니다. iptables MASQUERADE, SNAT 등이 이 훅에서 동작합니다.
② ip_finish_output 단편화 결정GSO 패킷은 ip_finish_output_gso()가 분할을 처리합니다. 일반 패킷이 MTU를 초과하면 ip_fragment()가 IP 단편화를 수행하고, 각 단편에 대해 ip_finish_output2()를 콜백으로 호출합니다.
③ ip_finish_output2 헤드룸LL_RESERVED_SPACE(dev)는 이더넷 헤더(14바이트) + 하드웨어 헤더 패딩(Padding)을 포함한 L2 헤더 공간입니다. SKB에 공간이 부족하면 skb_expand_head()로 재할당합니다.
④ neigh_output()이웃(Neighbor) 엔트리가 REACHABLE 상태이면 neigh->output()이 즉시 L2 헤더를 붙여 드라이버 큐에 전달합니다. STALE/INCOMPLETE이면 ARP 요청을 보내고 패킷을 이웃 큐에 보류합니다. 여기서 IP 계층과 이더넷 계층이 연결됩니다.

IPv4 출력 체인: ip_output()이 POST_ROUTING Netfilter 훅을 통과하면 ip_finish_output()이 단편화 여부를 결정하고, 최종적으로 ip_finish_output2()에서 이웃(Neighbor) 캐시를 통해 L2 계층으로 패킷이 전달됩니다.

소스: fib_validate_source() — Reverse Path Filtering 내부

역방향 경로 필터링(Reverse Path Filtering, RPF)은 수신 패킷의 출발지 주소가 "라우팅 테이블상 해당 인터페이스로 도달 가능한" 주소인지 확인하는 스푸핑 방어 기법입니다. fib_validate_source()는 net/ipv4/fib_frontend.c에 위치하며, 수신 경로에서 ip_route_input_slow()가 호출합니다.

/* net/ipv4/fib_frontend.c */

int fib_validate_source(struct sk_buff *skb, __be32 src, __be32 dst,
                         u8 tos, int oif, struct net_device *dev,
                         struct in_device *idev, u32 *itag)
{
    int r = secpath_exists(skb) ? 0 :
            IN_DEV_RPFILTER(idev);   /* /proc/sys/net/ipv4/conf/eth0/rp_filter */
    int accept_local = IN_DEV_ACCEPT_LOCAL(idev);

    if (!r && !accept_local)   /* rp_filter=0 이고 accept_local=0: 검사 생략 */
        return 0;

    return __fib_validate_source(skb, src, dst, tos, oif, dev,
                                  r, accept_local, itag);
}

static int __fib_validate_source(struct sk_buff *skb, __be32 src,
                                    __be32 dst, u8 tos, int oif,
                                    struct net_device *dev, int rpf,
                                    int accept_local, u32 *itag)
{
    struct net        *net = dev_net(dev);
    struct flow_keys   flkeys;
    struct fib_result  res;
    struct flowi4      fl4;
    bool               dev_match;
    int                ret;

    /* ① 역방향 FIB 조회: 출발지 주소를 목적지로 놓고 역방향 경로 조회 */
    fl4.flowi4_oif   = 0;
    fl4.flowi4_iif   = l3mdev_master_ifindex_rcu(dev);
    fl4.daddr        = src;   /* 수신 패킷의 출발지 = 역방향 목적지 */
    fl4.saddr        = dst;
    fl4.flowi4_tos   = tos;
    fl4.flowi4_scope = RT_SCOPE_UNIVERSE;
    fl4.flowi4_tun_key.tun_id = 0;
    fib4_rules_early_flow_dissect(net, skb, &fl4, &flkeys);

    if (fib_lookup(net, &fl4, &res, FIB_LOOKUP_IGNORE_LINKSTATE))
        goto last_resort;   /* 역방향 경로 없음 → 마르시안 검사로 */

    if (res.type == RTN_PROHIBIT || res.type == RTN_UNREACHABLE)
        goto last_resort;

    if (res.type == RTN_LOCAL) {
        if (!accept_local)
            goto last_resort;   /* 로컬 주소가 출발지로 오면 드롭 */
        goto ok;
    }

    /* ② rp_filter 모드별 검사 */
    dev_match = fib_info_nh_uses_dev(res.fi, dev);

    if (rpf == 1) {
        /* Strict 모드: 역방향 최적 경로가 반드시 수신 인터페이스를 사용해야 함 */
        if (!dev_match)
            goto martian_source_keep_err;
    } else {
        /* Loose 모드(rpf=2): 어떤 인터페이스로든 역방향 경로만 존재하면 OK */
        if (res.type != RTN_UNICAST && res.type != RTN_LOCAL)
            goto last_resort;
    }

ok:
    fib_combine_itag(itag, &res);   /* FIB 태그 결합 (정책 라우팅용) */
    return 0;

last_resort:
    if (rpf)
        goto martian_source;
    return inet_addr_type_dev_table(net, dev, src) == RTN_BROADCAST ? -1 : 0;

martian_source_keep_err:
    __IP_INC_STATS(net, IPSTATS_MIB_INADDRERRORS);
martian_source:
    /* ③ 마르시안 소스 로깅: dmesg에 "martian source" 출력 */
    ip_handle_martian_source(dev, idev, skb, dst, src);
    return -EINVAL;   /* 패킷 드롭 */
}

코드 설명

① 역방향 FIB 조회핵심 아이디어는 "출발지 주소를 역방향 목적지로 놓고 FIB를 조회"하는 것입니다. "이 출발지 주소로 패킷을 보내려면 어느 인터페이스를 사용하겠는가?"를 라우팅 테이블에 물어봅니다. fl4.daddr = src로 설정하는 것이 핵심입니다.
② rp_filter=1 Strict 모드역방향 최적 경로의 nexthop이 현재 패킷이 수신된 인터페이스를 사용하지 않으면 스푸핑으로 간주하고 드롭합니다. 비대칭 라우팅 환경에서는 오탐이 발생할 수 있습니다.
② rp_filter=2 Loose 모드역방향 경로가 어딘가에 존재하기만 하면 허용합니다. ECMP나 비대칭 라우팅 환경에서 Strict 모드 대신 사용합니다. BGP 멀티패스 환경에서 흔히 필요합니다.
③ ip_handle_martian_source()/proc/sys/net/ipv4/conf/*/log_martians가 활성화된 경우 커널 로그에 출발지 IP, 목적지 IP, 수신 인터페이스를 출력합니다. 이 로그가 자주 보이면 스푸핑 시도 또는 라우팅 설정 오류를 의심해야 합니다.

RPF 관련 시스템 파라미터는 다음 명령으로 확인합니다:

# 인터페이스별 rp_filter 확인 (0=비활성, 1=strict, 2=loose)
sysctl net.ipv4.conf.eth0.rp_filter
sysctl net.ipv4.conf.all.rp_filter

# 마르시안 소스 로깅 활성화
sysctl -w net.ipv4.conf.eth0.log_martians=1

# 역방향 경로 수동 확인
ip route get 203.0.113.5   # 출발지 IP로 역방향 경로 조회

# rp_filter 드롭 통계 확인
nstat -az | grep InAddrErrors

소스: ip_route_me_harder() — Netfilter 재라우팅

ip_route_me_harder()는 net/ipv4/netfilter.c에 위치하며, Netfilter 훅 내에서 패킷의 목적지나 마킹이 변경된 경우 라우팅을 다시 수행합니다. 대표적인 호출 시점은 OUTPUT 훅에서의 mark 변경(정책 라우팅 트리거)이나 DNAT(목적지 주소 변경)입니다.

/* net/ipv4/netfilter.c */

int ip_route_me_harder(struct net *net, struct sock *sk,
                         struct sk_buff *skb, unsigned int addr_type)
{
    const struct iphdr *iph = ip_hdr(skb);
    struct rtable      *rt;
    struct flowi4       fl4 = {};
    unsigned int        hh_len;
    unsigned int        type;

    type = inet_addr_type_lookup_table(net, iph->saddr,
                                        sk ? sk->sk_bound_dev_if : 0);

    if (addr_type == RTN_UNSPEC)
        addr_type = type;

    /* ① 기존 dst 무효화: skb에 붙어있던 이전 라우팅 결과 해제 */
    skb_dst_drop(skb);

    if (addr_type == RTN_LOCAL) {
        /* 로컬 주소 발신 → OUTPUT 경로로 재조회 */
        fl4.daddr       = iph->daddr;
        fl4.saddr       = iph->saddr;
        fl4.flowi4_tos  = RT_TOS(iph->tos);
        fl4.flowi4_oif  = sk ? sk->sk_bound_dev_if : 0;
        fl4.flowi4_mark = skb->mark;     /* ② mark 변경이 정책 라우팅에 반영 */
        fl4.flowi4_flags = FLOWI_FLAG_ANYSRC;

        rt = ip_route_output_key(net, &fl4);
        if (IS_ERR(rt))
            return PTR_ERR(rt);
        skb_dst_set(skb, &rt->dst);
    } else {
        /* 비로컬(포워딩) → INPUT 경로로 재조회 (DNAT 후 새 목적지 적용) */
        fl4.daddr       = iph->daddr;    /* DNAT 후 변경된 목적지 */
        fl4.saddr       = iph->saddr;
        fl4.flowi4_tos  = RT_TOS(iph->tos);
        fl4.flowi4_iif  = skb->skb_iif;
        fl4.flowi4_mark = skb->mark;

        if (ip_route_input_noref(skb, fl4.daddr, fl4.saddr,
                                    fl4.flowi4_tos, skb->dev) != 0)
            return -EINVAL;
    }

    /* ③ xfrm(IPsec) 세션 디코딩: 재라우팅 후 IPsec 정책 재적용 */
    if (xfrm_decode_session(net, skb, flowi4_to_flowi(&fl4),
                             AF_INET) < 0)
        return -EINVAL;

    /* ④ 새 dst에 맞게 L2 헤드룸 재확보 */
    hh_len = skb_dst(skb)->dev ?
             LL_RESERVED_SPACE(skb_dst(skb)->dev) : 0;

    if (skb_headroom(skb) < hh_len) {
        struct sk_buff *skb2;
        skb2 = skb_realloc_headroom(skb, hh_len);
        if (!skb2)
            return -ENOMEM;
        if (skb->sk)
            skb_set_owner_w(skb2, skb->sk);
        consume_skb(skb);
        skb = skb2;
    }
    return 0;
}
EXPORT_SYMBOL(ip_route_me_harder);

코드 설명

① skb_dst_drop()이전에 설정된 dst_entry의 참조를 해제합니다. 이로써 이전 라우팅 결정이 완전히 무효화되고 이후 신규 라우팅 조회 결과가 skb에 붙습니다.
② fl4.flowi4_markiptables의 MARK 타겟이나 connmark로 변경된 skb->mark가 여기서 flowi4에 전달됩니다. 정책 라우팅 규칙(ip rule add fwmark)이 이 mark를 기반으로 다른 라우팅 테이블을 선택할 수 있습니다.
③ xfrm_decode_session()재라우팅 후 IPsec 정책을 다시 적용합니다. DNAT 등으로 목적지가 바뀐 경우 IPsec SA(Security Association) 선택도 달라질 수 있어 이 단계가 필요합니다.
④ 헤드룸 재확보새 출력 인터페이스가 기존과 다를 경우 L2 헤더 크기가 달라질 수 있습니다(예: 이더넷 14바이트 vs PPPoE 22바이트). skb_realloc_headroom()으로 충분한 헤드룸을 확보합니다.

ip_route_me_harder()가 호출되는 대표적인 상황:

# 1. OUTPUT 훅에서 mark 변경 → 정책 라우팅 재적용
iptables -t mangle -A OUTPUT -p tcp --dport 80 -j MARK --set-mark 10
ip rule add fwmark 10 table 100   # mark 10인 패킷은 table 100 사용

# 2. DNAT으로 목적지 변경 → 새 목적지로 재라우팅
iptables -t nat -A PREROUTING -p tcp --dport 8080 -j DNAT --to-destination 10.0.0.5:80

# 3. conntrack이 OUTPUT에서 DNAT 적용 (로컬 소켓 기반 NAT)
iptables -t nat -A OUTPUT -d 1.2.3.4 -j DNAT --to-destination 192.168.1.100
# → ip_route_me_harder() 가 LOCAL 경로로 재조회

소스: inet_select_addr() — 소스 주소 선택 알고리즘

IPv4 패킷의 출발지 주소 선택은 단순해 보이지만, 커널은 소켓 바인드 주소, 경로 우선 소스(preferred source), 인터페이스 주소 중 적절한 것을 선택하는 계층적 알고리즘을 사용합니다. 관련 함수들은 net/ipv4/devinet.c와 net/ipv4/fib_semantics.c에 분산되어 있습니다.

/* net/ipv4/devinet.c — inet_select_addr(): 최후 수단 주소 선택 */

__be32 inet_select_addr(const struct net_device *dev,
                          __be32 dst, int scope)
{
    __be32 addr = 0;
    const struct in_device    *in_dev;
    struct net                 *net = dev_net(dev);
    int                         master_idx;

    rcu_read_lock();
    in_dev = __in_dev_get_rcu(dev);
    if (!in_dev)
        goto no_in_dev;

    /* ① 인터페이스의 각 주소 중 scope가 맞고 목적지와 같은 서브넷이면 우선 선택 */
    in_dev_for_each_ifa_rcu(ifa, in_dev) {
        if (ifa->ifa_flags & IFA_F_SECONDARY)
            continue;
        if (ifa->ifa_scope > scope)
            continue;
        if (!addr)
            addr = ifa->ifa_local;   /* 일단 첫 번째 주소 저장 */
        if (dst) {
            /* 목적지와 같은 서브넷 주소를 발견하면 즉시 반환 */
            if (!((ifa->ifa_local ^ dst) & ifa->ifa_mask)) {
                addr = ifa->ifa_local;
                break;
            }
        }
    }
    if (addr)
        goto out_unlock;

no_in_dev:
    /* ② 인터페이스에 적합한 주소가 없으면 같은 네트워크 네임스페이스 전체 탐색 */
    master_idx = l3mdev_master_ifindex_rcu(dev);
    for_each_netdev_rcu(net, dev) {
        in_dev = __in_dev_get_rcu(dev);
        if (!in_dev)
            continue;
        in_dev_for_each_ifa_rcu(ifa, in_dev) {
            if (ifa->ifa_flags & IFA_F_SECONDARY)
                continue;
            if (ifa->ifa_scope != RT_SCOPE_LINK &&
                ifa->ifa_scope <= scope) {
                addr = ifa->ifa_local;
                goto out_unlock;
            }
        }
    }
out_unlock:
    rcu_read_unlock();
    return addr;   /* 적합한 주소가 없으면 0 (INADDR_ANY) 반환 */
}

/* net/ipv4/fib_semantics.c — fib_result_prefsrc(): 경로 우선 소스 */
__be32 fib_result_prefsrc(struct net *net, struct fib_result *res,
                            struct flowi4 *fl4)
{
    struct fib_nh_common *nhc = res->nhc;

    if (res->fi->fib_prefsrc) {
        /* 경로에 "src" 옵션이 있으면 그것을 우선 사용
         * 예: ip route add 10.0.0.0/24 via 192.168.1.1 src 192.168.1.5 */
        return res->fi->fib_prefsrc;
    }
    return inet_select_addr(nhc->nhc_dev, fl4->daddr, res->scope);
}

/* net/ipv4/fib_frontend.c — fib_compute_spec_dst(): ARP 응답용 소스 */
__be32 fib_compute_spec_dst(struct sk_buff *skb)
{
    struct net_device *dev = skb->dev;
    struct fib_result  res;

    /* 유니캐스트 ARP의 경우 역방향 FIB 조회로 최적 소스 주소 결정 */
    if (!fib_lookup_spec_dst(skb, &res)) {
        return fib_result_prefsrc(dev_net(dev), &res, NULL);
    }
    return inet_select_addr(dev, ip_hdr(skb)->saddr, RT_SCOPE_LINK);
}

코드 설명

① 서브넷 일치 우선목적지와 동일 서브넷에 있는 인터페이스 주소를 우선합니다. (ifa->ifa_local ^ dst) & ifa->ifa_mask == 0은 "목적지가 이 주소의 서브넷 안에 있습니다"는 XOR 마스크 검사입니다.
② 전체 네임스페이스 탐색요청된 인터페이스에 적합한 주소가 없으면 같은 네트워크 네임스페이스의 모든 인터페이스를 순회합니다. RT_SCOPE_LINK 주소(링크 로컬)는 제외하고 scope 이하의 주소를 찾습니다.
fib_result_prefsrc()ip route add ... src X.X.X.X로 지정된 경로 우선 소스(fib_prefsrc)가 있으면 그것을 반환합니다. 멀티홈 호스트에서 특정 경로 사용 시 일관된 소스 주소를 보장하는 데 사용됩니다.
fib_compute_spec_dst()ARP 요청에 대한 응답(ARP Reply) 생성 시 소스 주소를 결정합니다. 단순히 수신 인터페이스의 첫 번째 주소를 쓰는 것이 아니라 FIB 역방향 조회를 통해 최적 소스를 선택합니다.

IPv4 소스 주소 선택 우선순위: 소켓 바인드 주소가 최우선이며, 없으면 경로에 설정된 src 주소(fib_prefsrc), 그다음 inet_select_addr()의 서브넷 일치 알고리즘 순으로 적용됩니다.

소스: ip_error() — 에러 라우트 ICMP 처리

FIB 조회 결과가 RTN_UNREACHABLE, RTN_PROHIBIT, RTN_BLACKHOLE 등의 에러 라우트 타입이면 커널은 해당 dst_entry의 input/output 함수 포인터를 ip_error()로 설정합니다. 패킷이 이 경로를 통해 처리될 때 ip_error()가 호출되어 적절한 ICMP 메시지를 생성하거나 조용히 드롭합니다.

/* net/ipv4/route.c — ip_error() */

static int ip_error(struct sk_buff *skb)
{
    struct rtable  *rt  = skb_rtable(skb);
    struct net     *net;
    unsigned long   now;
    bool            send;
    int             code;

    /* dst.error에는 라우트 타입에 따라 미리 설정된 errno가 들어있음:
     *   RTN_UNREACHABLE → EHOSTUNREACH
     *   RTN_PROHIBIT    → EACCES
     *   RTN_THROW       → EAGAIN (다음 라우팅 테이블 시도)
     *   RTN_BLACKHOLE   → EINVAL                              */
    switch (rt->dst.error) {
    case EINVAL:
    default:
        /* ① RTN_BLACKHOLE: ICMP 없이 조용히 드롭 */
        goto out;

    case EHOSTUNREACH:
        code = ICMP_HOST_UNREACH;
        break;

    case ENETUNREACH:
        code = ICMP_NET_UNREACH;
        break;

    case EACCES:
        /* ② RTN_PROHIBIT: ICMP Admin Prohibited 전송 */
        code = ICMP_PKT_FILTERED;
        break;
    }

    net = dev_net(rt->dst.dev);

    /* ③ ICMP 전송 레이트 리밋
     *    /proc/sys/net/ipv4/icmp_ratelimit (기본 1000 ms당 제한) */
    now  = jiffies;
    send = ipv4_is_local_multicast(ip_hdr(skb)->daddr) ? false :
           icmp_global_allow(net);

    if (send) {
        u32 limit = net->ipv4.sysctl_icmp_ratelimit;
        if (!limit ||
            time_after_eq(now, rt->dst.rate_last +
                           msecs_to_jiffies(limit))) {
            /* ④ ICMP 전송: Destination Unreachable (type=3) */
            icmp_send(skb, ICMP_DEST_UNREACH, code, 0);
            rt->dst.rate_last = now;
        }
    }
out:
    IP_INC_STATS(net, IPSTATS_MIB_INNOROUTES);
    kfree_skb_reason(skb, SKB_DROP_REASON_IP_NOPROTO);
    return -EINVAL;
}

/* 에러 라우트 타입별 dst.error 매핑 (ip_route_input_slow() 내부) */
static const int ip_rt_type_error[RTN_MAX + 1] = {
    [RTN_UNSPEC]       = -EINVAL,
    [RTN_UNREACHABLE]  = -EHOSTUNREACH,   /* ICMP Host Unreachable */
    [RTN_PROHIBIT]     = -EACCES,         /* ICMP Admin Prohibited */
    [RTN_BLACKHOLE]    = -EINVAL,         /* ICMP 없는 조용한 드롭 */
    [RTN_THROW]        = -EAGAIN,         /* 다음 라우팅 테이블 재시도 */
};

코드 설명

① RTN_BLACKHOLE블랙홀 라우트는 패킷을 ICMP 응답 없이 조용히 버립니다. dst.error = EINVAL로 설정되며 ip_error()의 default 브랜치에서 goto out으로 바로 드롭됩니다. DDoS 완화, 특정 출발지 차단에 활용됩니다.
② RTN_PROHIBIT금지 라우트는 ICMP Destination Unreachable — Communication Administratively Prohibited(type=3, code=13)를 발신자에게 전송합니다. 방화벽(Firewall) 정책으로 명시적 거부 시 사용합니다(ip route add prohibit 10.0.0.0/8).
③ icmp_global_allow()/proc/sys/net/ipv4/icmp_ratelimit(기본 1000, 단위 ms)와 icmp_ratemask로 제어되는 토큰 버킷 레이트 리미터입니다. 동일 경로(dst)에 대한 ICMP 발송은 rate_last 타임스탬프와 비교하여 빈도를 제한합니다. 이로써 ICMP 플러드로 인한 CPU 소모를 방지합니다.
④ icmp_send()실제 ICMP 메시지를 구성하여 전송합니다. ICMP Destination Unreachable 패킷에는 원본 IP 헤더와 처음 8바이트의 페이로드(Payload)(TCP/UDP 포트 정보)가 포함되어 발신자가 어떤 연결의 오류인지 파악할 수 있습니다.
RTN_THROWEAGAIN을 반환하면 커널이 다음 우선순위의 라우팅 테이블을 시도합니다. 정책 라우팅에서 특정 규칙이 "이 테이블에는 없으니 계속 찾아라"라는 의미로 사용됩니다(ip route add throw 0.0.0.0/0 table 100).

에러 라우트를 직접 시험하려면 다음 명령을 사용합니다:

# 블랙홀 라우트: ICMP 없이 조용히 드롭
ip route add blackhole 203.0.113.0/24

# 프로히비트 라우트: ICMP Admin Prohibited 반환
ip route add prohibit 198.51.100.0/24

# 언리처블 라우트: ICMP Host Unreachable 반환
ip route add unreachable 192.0.2.0/24

# 드롭 통계 확인 (InNoRoutes 카운터)
nstat -az | grep InNoRoutes
cat /proc/net/snmp | grep -A1 Ip

# ICMP 레이트 리밋 설정 확인
sysctl net.ipv4.icmp_ratelimit      # 기본 1000 (ms)
sysctl net.ipv4.icmp_ratemask       # 어떤 타입/코드에 레이트리밋 적용할지 비트마스크

fib_result에서 dst_entry까지

FIB 조회가 완료되면 fib_result에 일치한 경로 정보가 담깁니다. 하지만 커널은 이 조회 결과만으로는 패킷을 보낼 수 없습니다 — 실제 전송에 사용할 dst_entry(패킷과 함께 이동하는 "경로 카드")를 생성해야 합니다. 이 변환이 FIB(경로 찾기)와 출력 경로(패킷 보내기)를 잇는 다리입니다.

fib_table_lookup()이 성공하면 fib_result에 일치한 경로 정보가 채워집니다. 이후 커널은 이 결과를 바탕으로 실제 패킷 전송에 사용할 dst_entry/rtable을 생성합니다.

FIB 조회 결과가 실제 패킷 전송에 사용되는 dst_entry로 변환되는 과정: nexthop 선택, 소스 주소 결정, rtable 할당이 순차적으로 수행됩니다.

/* net/ipv4/route.c — __mkroute_output() 핵심 로직 */

static struct rtable *__mkroute_output(
        const struct fib_result *res,
        const struct flowi4 *fl4,
        int orig_oif, struct net_device *dev_out,
        unsigned int flags) {

    struct fib_info *fi = res->fi;
    struct fib_nh_common *nhc = res->nhc;
    struct rtable *rth;

    /* nexthop exception cache 확인 (PMTU, redirect) */
    struct fib_nh_exception *fnhe =
        find_exception(nhc, fl4->daddr);
    if (fnhe) {
        /* 캐시된 PMTU/redirect 정보가 있으면 재사용 */
        rth = rcu_dereference(fnhe->fnhe_rth_output);
        if (rth && rt_cache_valid(rth))
            return rth;
    }

    /* 새 rtable 할당 */
    rth = rt_dst_alloc(dev_out, flags, res->type,
                        fi && (fi->fib_flags & RTNH_F_POLICY));

    rth->rt_gw_family = AF_INET;
    rth->rt_gw4 = nhc->nhc_gw.ipv4;   /* 게이트웨이 */
    rth->rt_type = res->type;
    rth->dst.dev = dev_out;
    rth->dst.output = ip_output;

    return rth;
}

dst_entry 구조체 상세

dst_entry는 패킷이 들고 다니는 "내비게이션 안내문"입니다. 네비게이션 앱이 "다음 교차로에서 우회전, 500m 직진"이라고 안내하듯, dst_entry는 커널에게 "이 패킷은 eth0으로 내보내고, ip_output()을 호출하고, 게이트웨이는 192.168.1.1"이라고 안내합니다. FIB 조회가 "지도 검색"이라면, dst_entry는 검색 결과로 생성된 "경로 안내 카드"입니다.

/* include/net/dst.h — dst_entry 핵심 필드 */

struct dst_entry {
    struct net_device   *dev;          /* 출력 네트워크 디바이스 */
    struct dst_ops      *ops;          /* 프로토콜별 콜백 함수 테이블 */

    unsigned long       _metrics;      /* dst_metrics 포인터 | DST_METRICS_READ_ONLY */
    unsigned long       expires;       /* 만료 시각 (jiffies) */

    void               *__pad1;
    int                (*input)(struct sk_buff *skb);   /* 수신 처리 함수 */
    int                (*output)(struct net *net,
                                  struct sock *sk,
                                  struct sk_buff *skb); /* 송신 처리 함수 */

    unsigned short      flags;         /* DST_HOST, DST_NOXFRM 등 */
    short               error;         /* 오류 코드 (EHOSTUNREACH 등) */
    short               obsolete;      /* DST_OBSOLETE_NONE / DEAD / FORCE_CHK */

    unsigned long       lastuse;       /* 마지막 사용 시각 (jiffies) */

    atomic_t            __refcnt;      /* 참조 카운트 */
    int                 __use;         /* 사용 횟수 (통계용) */

    struct dst_entry   *child;         /* IPsec/xfrm 번들 체인 */
    struct lwtunnel_state *lwtstate;  /* 경량 터널 상태 (MPLS, SRv6 등) */
};

dst_entry는 라우팅 결과의 베이스 구조체로, IPv4 rtable과 IPv6 rt6_info가 이를 확장합니다. 패킷(skb)은 skb_dst_set()으로 dst_entry를 연결받아 전송 경로를 참조합니다.

왜 dst_entry가 별도 구조체인가? FIB 테이블(fib_info)은 라우팅 정책의 "원본 데이터"이고, dst_entry는 특정 패킷 흐름에 맞게 인스턴스화된 결과물입니다. 같은 10.0.0.0/24 경로라도 소스 주소나 출력 인터페이스가 다르면 별도의 dst_entry가 생성됩니다. 이 분리 덕분에 FIB 변경(경로 추가/삭제)이 기존에 전송 중인 패킷에 즉시 영향을 주지 않습니다.

dst_ops 콜백과 라우트 타입별 동작

라우트 타입 = 패킷의 운명: FIB 조회 결과로 얻은 라우트 타입(RTN_UNICAST, RTN_LOCAL, RTN_BLACKHOLE 등)이 dst_entry의 input/output 콜백을 결정합니다. 즉, "이 패킷을 다른 호스트로 전달할 것인가, 로컬에서 수신할 것인가, 아니면 조용히 버릴 것인가"를 결정하는 핵심 메커니즘입니다.

dst_ops는 프로토콜 패밀리(IPv4/IPv6)별로 하나씩 존재하는 콜백 테이블입니다. C 언어의 함수 포인터로 구현된 일종의 "가상 함수 테이블(vtable)"로, dst_entry의 범용 인터페이스를 통해 프로토콜별 동작을 다형적으로 호출할 수 있게 합니다. C의 함수 포인터 개념이 익숙하지 않다면, "라우트 타입에 따라 자동으로 적절한 처리 함수가 선택됩니다"는 핵심만 이해하면 충분합니다.

/* include/net/dst_ops.h — dst_ops 핵심 콜백 */

struct dst_ops {
    unsigned short      family;           /* AF_INET 또는 AF_INET6 */

    struct dst_entry *  (*check)(struct dst_entry *, __u32 cookie);
    unsigned int        (*default_advmss)(const struct dst_entry *);
    unsigned int        (*mtu)(const struct dst_entry *);
    u32 *               (*cow_metrics)(struct dst_entry *, unsigned long);
    void                (*destroy)(struct dst_entry *);
    void                (*negative_advice)(struct dst_entry *);
    void                (*link_failure)(struct sk_buff *);
    void                (*update_pmtu)(struct dst_entry *,
                                       struct sock *, struct sk_buff *,
                                       u32 mtu, bool confirm);
    void                (*redirect)(struct dst_entry *,
                                    struct sock *, struct sk_buff *);
    struct neighbour *  (*neigh_lookup)(const struct dst_entry *,
                                        struct sk_buff *,
                                        const void *daddr);
};

패킷의 라우트 타입(rt_type)에 따라 dst_entry의 input/output 콜백이 다르게 설정됩니다. 이것이 패킷의 운명을 결정합니다:

라우트 타입에 따라 dst_entry의 input/output 콜백이 다르게 설정되며, 이것이 패킷의 처리 방식(전달, 수신, 폐기, 에러 응답)을 결정합니다.

"ping이 왜 Destination Host Unreachable을 반환하는가?" — ip route add unreachable 10.0.0.0/8을 설정하면 해당 대역의 FIB 조회 결과로 rt_type = RTN_UNREACHABLE인 rtable이 생성됩니다. 이 rtable의 dst.output에는 ip_error()가 설정되며, 패킷 송신 시 ip_error()가 ICMP Destination Unreachable 메시지를 생성하여 송신자에게 반환합니다. RTN_BLACKHOLE은 dst_discard()로 아무 응답 없이 폐기하는 반면, RTN_UNREACHABLE과 RTN_PROHIBIT은 ICMP 에러를 반환하는 차이가 있습니다.

/* net/ipv4/route.c — rt_dst_alloc()에서 라우트 타입별 콜백 설정 */

struct rtable *rt_dst_alloc(struct net_device *dev,
                            unsigned int flags, u16 type,
                            bool nopolicy) {
    struct rtable *rt = dst_alloc(&ipv4_dst_ops, dev,
                                     DST_OBSOLETE_FORCE_CHK, flags);
    rt->rt_type = type;

    if (type == RTN_UNICAST || type == RTN_LOCAL ||
        type == RTN_BROADCAST || type == RTN_MULTICAST) {
        rt->dst.input  = ip_forward;    /* 기본, 이후 오버라이드 가능 */
        rt->dst.output = ip_output;
    } else {
        /* RTN_BLACKHOLE, RTN_UNREACHABLE, RTN_PROHIBIT */
        rt->dst.input  = dst_discard;   /* 또는 ip_error */
        rt->dst.output = dst_discard;   /* 또는 ip_error */
    }
    return rt;
}

dst_entry 레퍼런스 카운팅과 생명주기

dst_entry의 레퍼런스 카운팅은 도서관 대출증과 같습니다. 책(dst_entry)을 빌리면 대출 카드에 +1을 기록하고, 반납하면 -1합니다. 대출 카드가 0이 되면 책장에서 빼서 폐기합니다. 커널에서는 dst_hold()가 빌리기, dst_release()가 반납, __refcnt == 0일 때 dst_destroy()가 폐기입니다.

dst_entry는 할당 시 refcnt=1로 시작하며, skb에 연결된 후 패킷 전송 완료 시 skb 해제와 함께 자동으로 참조가 반환됩니다.

/* include/net/dst.h — 핵심 레퍼런스 카운팅 함수 */

static inline void dst_hold(struct dst_entry *dst) {
    /* dst가 이미 파괴 예정이 아닌지 확인 */
    WARN_ON(atomic_inc_not_zero(&dst->__refcnt) == 0);
}

static inline void dst_release(struct dst_entry *dst) {
    if (dst) {
        int newrefcnt = atomic_dec_return(&dst->__refcnt);
        if (unlikely(newrefcnt < 0))
            net_warn_ratelimited("dst_release underflow");
    }
}

/* skb에 dst_entry를 연결 (참조를 skb로 이전) */
static inline void skb_dst_set(struct sk_buff *skb,
                                struct dst_entry *dst) {
    skb->_skb_refdst = (unsigned long)dst;
}

/* skb에서 dst_entry 참조 해제 */
static inline void skb_dst_drop(struct sk_buff *skb) {
    if (!(skb->_skb_refdst & SKB_DST_NOREF))
        dst_release(skb_dst(skb));
    skb->_skb_refdst = 0;
}

dst refcount leak 주의: dst_hold() 후 dst_release()를 빼먹으면 dst_entry가 영원히 해제되지 않아 메모리 누수가 발생합니다. 커널 로그에 "dst_cache_gc_timer: dst cache overflow" 또는 "Neighbour table overflow" 경고가 나타날 수 있습니다. SKB_DST_NOREF 플래그가 설정된 경우는 RCU 읽기 구간에서 참조 카운트(Reference Count) 없이 dst_entry를 사용하는 최적화 경로이며, 이 경우 skb_dst_drop()이 dst_release()를 호출하지 않습니다.

dst metrics 시스템 (RTAX_*)

dst_entry의 metrics 배열은 라우팅 경로에 연결된 성능 파라미터입니다. TCP/IP 스택이 MSS, 초기 congestion window, RTT 추정값 등을 이 metrics에서 가져와 전송 성능을 최적화합니다.

RTAX_* 상수	인덱스	의미	영향
`RTAX_MTU`	2	경로 MTU	IP 단편화(Fragmentation) 결정, TCP MSS 계산
`RTAX_ADVMSS`	8	Advertised MSS	TCP SYN의 MSS 옵션 값
`RTAX_RTT`	4	RTT 추정값 (μs)	TCP RTO 초기값
`RTAX_RTTVAR`	5	RTT 분산	TCP RTO 계산의 분산 항
`RTAX_CWND`	7	Congestion window	TCP 혼잡 윈도우 힌트
`RTAX_INITCWND`	11	초기 cwnd	TCP 연결 시작 시 cwnd (기본 10)
`RTAX_INITRWND`	14	초기 rwnd	TCP 수신 윈도우 초기값
`RTAX_HOPLIMIT`	10	Hop limit	IP TTL 기본값
`RTAX_FEATURES`	12	기능 플래그	ECN, SACK, TIMESTAMP 등

라우팅 경로에 설정된 metrics는 TCP가 연결을 수립하고 데이터를 전송할 때 MSS, 초기 congestion window, RTO 등에 직접 반영됩니다.

/* include/net/dst.h — metrics 접근 함수 */

static inline u32 dst_metric(const struct dst_entry *dst, int metric) {
    /* _metrics 하위 비트가 DST_METRICS_READ_ONLY 플래그 */
    return dst_metric_raw(dst, metric);
}

static inline void dst_metric_set(struct dst_entry *dst,
                                   int metric, u32 val) {
    u32 *p = dst_metrics_write_ptr(dst);
    if (p)
        p[metric - 1] = val;   /* RTAX_* 인덱스는 1부터 시작 */
}

cow_metrics (Copy-on-Write): FIB에서 생성된 dst_entry는 처음에 fib_info의 공유 metrics를 가리킵니다(DST_METRICS_READ_ONLY 플래그). PMTU 변경 등으로 metrics를 수정해야 할 때, dst_ops->cow_metrics()가 호출되어 metrics 배열의 개인 복사본을 만듭니다. 이는 같은 FIB 경로를 사용하는 다른 dst_entry에 영향을 주지 않기 위한 것입니다. COW 실패(메모리 부족) 시 metrics 수정이 무시되며, 이는 PMTU가 반영되지 않는 드문 원인이 될 수 있습니다.

IPv6 rt6_info 확장

IPv4가 struct rtable로 dst_entry를 확장하듯, IPv6는 struct rt6_info로 확장합니다. 구조는 유사하지만 IPv6의 주소 체계, 소스 주소 라우팅, FIB6 구조 차이로 인해 필드가 다릅니다.

항목	IPv4 (struct rtable)	IPv6 (struct rt6_info)
베이스 구조체	`dst_entry dst`	`dst_entry dst`
게이트웨이	`rt_gw4` (__be32)	`rt6i_gateway` (struct in6_addr)
목적지 프리픽스	FIB에서 참조 (fib_result)	`rt6i_dst` (prefix + plen)
소스 프리픽스	없음	`rt6i_src` (소스 라우팅용)
FIB 원본 참조	`fib_info` (간접)	`from` → fib6_info (직접 RCU 포인터)
입력 장치	없음 (dst.dev로 충분)	`rt6i_idev` (inet6_dev)
타입 플래그	`rt_type` (RTN_*)	`rt6i_flags` (RTF_GATEWAY, RTF_CACHE 등)
PMTU 처리	`rt_pmtu` 필드	`fib6_metrics` → RTAX_MTU
예외 캐시	`fib_nh_exception`	`rt6_exception`
nexthop	`fib_nh_common`	`fib6_nh` (fib6_info 내장)
dst_ops	`ipv4_dst_ops`	`ip6_dst_ops`

IPv4 rtable과 IPv6 rt6_info 모두 dst_entry를 베이스로 확장하지만, IPv6는 소스 라우팅(rt6i_src), 직접 FIB6 참조(from), 별도 입력 장치(rt6i_idev) 등 추가 필드를 가집니다.

/* include/net/ip6_fib.h — rt6_info 핵심 구조 */

struct rt6_info {
    struct dst_entry   dst;              /* 베이스 구조체 */

    struct rt6key      rt6i_dst;         /* 목적지 prefix */
    struct rt6key      rt6i_src;         /* 소스 prefix (소스 라우팅) */
    struct in6_addr    rt6i_gateway;     /* 게이트웨이 IPv6 주소 */

    struct inet6_dev  *rt6i_idev;       /* 입력 장치 정보 */
    u32                rt6i_flags;       /* RTF_GATEWAY, RTF_CACHE 등 */

    /* FIB6 원본 참조 — RCU 보호 */
    struct fib6_info __rcu *from;       /* FIB6 테이블의 원본 경로 */

    u16                rt6i_nfheader_len; /* netfilter 헤더 */
    bool               should_flush;     /* FIB6 변경 시 flush 필요 */
};

rt6_exception vs fib_nh_exception: 두 구조체 모두 PMTU 변경이나 ICMP redirect를 캐싱하는 역할을 합니다. IPv4의 fib_nh_exception은 nexthop별로 해시 테이블에 저장되며, IPv6의 rt6_exception도 유사하게 rt6_ex_bucket 해시(Hash)에 저장됩니다. 주요 차이점은 IPv6에서는 fib6_info가 rt6_info와 분리되어 있어, 예외 항목이 fib6_nh에 직접 연결되는 점입니다. 두 경우 모두 예외 항목에는 만료 시간이 있어 일정 시간 후 자동으로 제거됩니다.

FIB 이벤트 통지 체계

일상 비유 — 뉴스 구독: 경로가 추가되거나 삭제되면, 관심 있는 구독자(하드웨어 스위치, BPF 프로그램, 모니터링 데몬)에게 "새 경로가 생겼어요!"라고 알림을 보냅니다. 신문 구독처럼, 미리 등록한 구독자만 알림을 받으며 나머지는 영향을 받지 않습니다.

FIB 변경(경로 추가/삭제/교체)은 단순히 테이블만 바꾸는 것이 아니라, 다양한 구독자에게 통지됩니다. 이 통지 메커니즘은 switchdev HW offload, BPF 프로그램, 라우팅 모니터링에 핵심적입니다.

FIB 이벤트 통지 흐름: 경로 변경이 발생하면 notifier chain을 통해 switchdev(HW 동기화), TC/BPF, Netlink 구독자에게 전파됩니다.

/* net/core/fib_notifier.c — FIB 통지 등록/해제 */

/* 드라이버가 FIB 이벤트 구독 등록 */
struct notifier_block my_fib_nb = {
    .notifier_call = my_fib_event_handler,
};
register_fib_notifier(net, &my_fib_nb, my_fib_dump, NULL);

/* 이벤트 핸들러 예시 (switchdev 드라이버) */
static int my_fib_event_handler(struct notifier_block *nb,
                                 unsigned long event, void *ptr) {
    struct fib_notifier_info *info = ptr;

    switch (event) {
    case FIB_EVENT_ENTRY_ADD:
    case FIB_EVENT_ENTRY_REPLACE: {
        struct fib_entry_notifier_info *feni =
            container_of(info, struct fib_entry_notifier_info, info);
        /* feni->dst (접두사), feni->dst_len (길이) */
        /* feni->fi (fib_info), feni->tos, feni->type */
        /* → HW TCAM에 기록 */
        hw_fib_add(feni->dst, feni->dst_len, feni->fi);
        break;
    }
    case FIB_EVENT_ENTRY_DEL:
        /* HW TCAM에서 제거 */
        break;
    }
    return NOTIFY_DONE;
}

/* BPF에서 FIB 조회: XDP/TC 프로그램 내부 */
struct bpf_fib_lookup params = {
    .family  = AF_INET,
    .ifindex = ctx->ingress_ifindex,
};
params.ipv4_dst = iph->daddr;
params.ipv4_src = iph->saddr;

int rc = bpf_fib_lookup(ctx, ¶ms, sizeof(params), 0);
if (rc == BPF_FIB_LKUP_RET_SUCCESS) {
    /* params.dmac → 목적지 MAC (neighbour 해석 완료) */
    /* params.smac → 소스 MAC */
    /* params.ifindex → 출력 인터페이스 */
    /* → XDP_REDIRECT로 직접 전달 (커널 라우팅 스택 우회) */
}

Nexthop 객체 (커널 5.3+)

앞에서 FIB가 경로를 찾고, dst_entry가 생성되고, 변경이 통지되는 과정까지 살펴봤습니다. 전통적인 FIB에서는 nexthop 정보가 각 route 안에 내장되어 있었는데, 커널 5.3부터 이를 독립 객체로 분리했습니다. 이 설계 변경이 왜 필요했고 어떤 이점이 있는지 봅니다.

왜 nexthop을 route에서 분리하는가: 10만 개의 경로가 모두 같은 게이트웨이를 사용할 때, 게이트웨이 주소가 바뀌면 어떻게 될까요? 기존 방식에서는 10만 개의 route를 하나씩 수정해야 했습니다. Nexthop 객체를 사용하면 게이트웨이 정보를 별도 객체로 만들고 route가 그것을 참조하므로, 객체 하나만 수정하면 10만 개의 route에 즉시 반영됩니다.

전통적인 FIB에서는 각 route가 자체 nexthop 배열(fib_nh[])을 가졌습니다. 커널 5.3부터 도입된 nexthop 객체(struct nexthop)는 route와 nexthop을 완전히 분리하여, 여러 route가 동일한 nexthop 그룹을 참조하고 nexthop 변경 시 모든 참조 route가 즉시 업데이트되도록 합니다.

레거시 모델(좌)에서는 route마다 nexthop을 내장했으나, 새 모델(우)에서는 nexthop 객체를 분리하여 공유합니다. Resilient hashing은 버킷 기반으로 nexthop 변경 시 flow 영향을 최소화합니다.

# Nexthop 객체 관리 (iproute2 5.3+)

# 단일 nexthop 생성
ip nexthop add id 10 via 192.168.1.1 dev eth0
ip nexthop add id 20 via 192.168.2.1 dev eth1

# nexthop 그룹 생성 (ECMP)
ip nexthop add id 100 group 10/20

# 가중치 지정 그룹
ip nexthop add id 200 group 10,3/20,1  # 10번에 75%, 20번에 25%

# resilient nexthop 그룹 (5.12+)
ip nexthop add id 300 group 10/20 type resilient buckets 128 \
    idle_timer 120 unbalanced_timer 0

# route에서 nexthop 객체 참조
ip route add 10.0.0.0/24 nhid 100
ip route add 10.1.0.0/16 nhid 100   # 같은 nhid 공유

# nexthop 변경 → 참조하는 모든 route에 즉시 반영
ip nexthop replace id 10 via 192.168.1.2 dev eth0

# nexthop 상태 확인
ip nexthop show
ip nexthop show id 100
ip nexthop bucket show nhid 300    # resilient 버킷 상태

# nexthop 그룹 통계
ip -s nexthop show id 100

Nexthop 객체 내부 구조와 그룹 관계

nexthop 객체의 커널 내부 구조체 관계를 보여줍니다. 단일 nexthop(struct nh_info)과 nexthop 그룹(struct nh_group)이 struct nexthop을 공통 래퍼(Wrapper)로 공유하며, route(fib_info)가 nh 포인터로 참조합니다.

Nexthop 객체 구조: fib_info가 nexthop(id=100)을 참조하면, 이것이 nh_group → nh_grp_entry[] → 개별 nexthop(id=10,20) → nh_info(fib_nh_common) 순으로 연결됩니다. Resilient 그룹은 별도의 nh_res_table을 가집니다.

/* net/ipv4/nexthop.c — nexthop 핵심 구조체 */

struct nexthop {
    struct rb_node      rb_node;       /* ID 기반 전역 레드블랙 트리 */
    struct list_head    fi_list;       /* 이 nh를 참조하는 fib_info 리스트 */
    struct list_head    f6i_list;      /* 이 nh를 참조하는 fib6_info 리스트 */
    struct list_head    grp_list;      /* 이 nh를 포함하는 그룹 리스트 */
    u32                 id;            /* 사용자가 지정한 nexthop ID */
    u8                  protocol;      /* RTPROT_* */
    bool                is_group;      /* 그룹 여부 */
    refcount_t          refcnt;
    struct rcu_head     rcu;
    union {
        struct nh_info  *nh_info;  /* 단일 nh: gateway+dev 정보 */
        struct nh_group *nh_grp;   /* 그룹: 멤버 배열 + 가중치 */
    };
};

struct nh_info {
    struct nexthop      *nh_parent;    /* 소속 nexthop 객체 */
    u8                  family;        /* AF_INET / AF_INET6 */
    bool                reject_nh;     /* blackhole/reject 여부 */
    struct fib_nh_common fib_nhc;      /* 공통 nexthop: gw, dev, scope */
};

struct nh_group {
    struct nh_group     *spare;         /* RCU 교체용 예비 */
    u16                 num_nh;         /* 멤버 nexthop 수 */
    bool                is_multipath;
    bool                resilient;      /* resilient hashing 여부 */
    unsigned int        total_weight;   /* 가중치 합계 */
    struct nh_res_table *res_table;     /* resilient 버킷 테이블 */
    struct nh_grp_entry nh_entries[];   /* 가변 길이: 멤버 배열 */
};

struct nh_grp_entry {
    struct nexthop      *nh;            /* 멤버 nexthop 객체 */
    u8                  weight;         /* 가중치 (1~255) */
    atomic_t            upper_bound;    /* hash-threshold 상한 */
    struct list_head    nh_list;        /* 멤버 nh의 grp_list 연결 */
};

코드 설명

fi_list / f6i_list: 이 nexthop을 참조하는 모든 fib_info/fib6_info를 추적합니다. nexthop이 변경되면 이 리스트를 순회하며 모든 참조 경로에 변경을 통지합니다.
grp_list: 단일 nexthop이 여러 그룹의 멤버일 수 있으므로, 자신을 포함하는 그룹 리스트를 유지합니다. 단일 nexthop 삭제 시 모든 소속 그룹에서 자동 제거됩니다.
nh_info vs nh_grp: is_group 플래그에 따라 union으로 구분됩니다. 단일 nexthop은 nh_info를 통해 fib_nh_common(게이트웨이, 디바이스, scope)에 접근하고, 그룹은 nh_grp를 통해 멤버 배열과 가중치에 접근합니다.
nh_res_table: resilient 그룹만 가지는 별도 테이블입니다. num_nh_buckets개의 버킷에 nexthop을 가중치 비율로 분배하며, idle_timer는 유휴 버킷의 재할당 대기 시간(Latency)을 제어합니다.
upper_bound: hash-threshold 방식에서 각 멤버의 해시 범위 상한입니다. 원자적으로 업데이트되어 읽기 경로에서 잠금 없이 접근할 수 있습니다.

여기까지의 요약: FIB의 핵심 조회 경로(저장 → 검색 → 결과 변환 → 변경 통지 → nexthop 객체)를 모두 살펴봤습니다. 이어지는 섹션들은 FIB의 운영·관리 측면 — 메모리 사용량, IPv4/IPv6 비교, HW offload — 을 다룹니다. 핵심 흐름을 이해했다면 필요에 따라 선택적으로 읽어도 됩니다.

FIB 메모리 사용량과 확장성

대규모 라우팅 테이블(BGP full table 등)을 운용할 때 FIB의 메모리 사용량을 이해하는 것이 중요합니다. LC-trie의 메모리 효율은 접두사 분포에 크게 의존합니다.

구성 요소	구조체 크기 (64비트)	100K prefix 기준 예상 수	총 메모리
`key_vector` (leaf)	~48 바이트	~100K	~4.8 MB
`key_vector` (internal)	40 + 8×`2^bits` 바이트	~30K~50K	~2~5 MB
`fib_alias`	~56 바이트	~100K~120K	~5.6~6.7 MB
`fib_info`	~96 + `fib_nh` 배열	수백 (공유됨)	~0.1 MB
`fib_nh`	~128 바이트	수백~수천	~0.1 MB
합계			~15~20 MB

# FIB 메모리 사용량 측정 방법

# 1. fib_triestat — trie 크기 직접 확인
cat /proc/net/fib_triestat
# Basic info: size of leaf: 48, size of tnode: 40
# Main:
#   Aver depth:     3.12
#   Max depth:      8
#   Leaves:         847692      ← 약 85만 prefix
#   Prefixes:       952311      ← alias 포함 총 수
#   Internal nodes: 213847
#     1: 85241  2: 98212  3: 20104  4: 8290  5: 1500  6: 400  7: 100
#   Pointers:       1423890
#     Null ptrs:    547201
#   Total size:     42 MB        ← trie만의 크기

# 2. slab 캐시 확인
slabtop -o | grep -E 'fib|ip_dst|ip_fib'
# fib6_nodes       12800  12800    64   64    1
# ip_fib_alias     98400  98400    56   73    1
# ip_fib_trie      51200  51200    48   85    1

# 3. 라우팅 테이블 엔트리 수
ip route show table all | wc -l
ip -6 route show table all | wc -l

# 4. 메모리 증가 모니터링
watch -n1 'cat /proc/net/fib_triestat | head -20'

대규모 FIB 운영 주의사항:

BGP full table (대략 100만 prefix 안팎): IPv4 FIB에 약 50~80 MB, IPv6 포함 시 추가 ~100 MB 소요
메모리 부족 시: fib_table_insert()가 -ENOMEM을 반환하고 경로 추가 실패. 라우팅 데몬이 세션을 재설정할 수 있음
trie 깊이(Max depth): 8 이하가 정상. 15 이상이면 비정상적 접두사 분포(예: /32 host route 폭증) 의심
Null ptrs 비율: internal node의 빈 슬롯 비율이 높으면 level compression이 과도 → 메모리 낭비
gc_thresh: net.ipv4.neigh.default.gc_thresh3은 neighbour 테이블 한계. FIB가 크면 이 값도 함께 늘려야 함

IPv4 FIB vs IPv6 FIB 비교

IPv4와 IPv6는 모두 FIB prefix tree 기반 LPM을 수행하지만, 자료구조와 동작 특성이 크게 다릅니다.

IPv4 FIB는 LC-trie로 메모리 효율과 조회 속도를 최적화하고, IPv6 FIB는 radix tree로 128비트 주소와 source-specific route를 지원합니다.

비교 항목	IPv4 FIB (LC-trie)	IPv6 FIB (fib6 prefix tree)
소스 파일	`net/ipv4/fib_trie.c`	`net/ipv6/ip6_fib.c`
주소 크기	32비트	128비트
트리 구조	LC-trie (path + level compressed)	Binary radix tree (path compressed only)
노드 분기	다중비트 (`bits` 필드, 2~7비트 동시 검사)	1비트 (좌/우 자식)
리밸런싱	`inflate()`/`halve()` 자동	없음 (정적 구조)
route 구조체	`fib_alias` + `fib_info` (분리)	`fib6_info` (통합)
route 공유	`fib_info` 해시 기반 공유	공유 없음 (각 route가 자체 `fib6_info`)
TOS/DSCP 구분	`fib_alias.fa_dscp`로 같은 prefix에 다중 route	TOS 구분 없음
source route	지원 안 함 (RPDB로 대체)	`fib6_src` 필드로 source-specific route 지원
경로 만료	없음 (명시적 삭제만)	`expires` 필드 (RA 기반 자동 만료)
ECMP	`fib_info.fib_nh[]` 배열	`fib6_nsiblings` 연결 리스트(Linked List)
nexthop 객체	지원 (5.3+)	지원 (5.3+)
proc 인터페이스	`/proc/net/fib_trie`, `fib_triestat`	`/proc/net/ipv6_route`
BGP full table 메모리	~50~80 MB (90만 prefix)	~100~150 MB (20만 prefix)
최적화 포인트	Null ptr 비율, trie depth, slab 사용	gc_thresh, 만료 경로 정리 빈도

IPv6 FIB가 LC-trie를 쓰지 않는 이유:

128비트 주소에서 level compression의 이득이 32비트보다 상대적으로 적음 (접두사 분포가 희소)
source-specific route(from 필드)를 지원하려면 2차원 조회가 필요하여 LC-trie의 단순 key 매칭에 맞지 않음
IPv6 라우팅 테이블은 IPv4보다 규모가 작은 경우가 많아 binary radix tree로도 충분한 성능
역사적으로 IPv6 FIB는 FreeBSD에서 가져온 radix tree 구현 기반이며, 안정성이 검증되어 교체 동기가 약함

FIB HW Offload (switchdev)

switchdev 프레임워크를 지원하는 네트워크 ASIC(Mellanox Spectrum, Marvell Prestera 등)은 FIB 변경을 하드웨어 TCAM에 동기화하여 와이어 스피드 라우팅을 구현합니다.

# HW offload 상태 확인
ip route show
# 10.0.0.0/24 via 192.168.1.1 dev swp1 offload    ← HW에서 포워딩
# 10.0.1.0/24 via 192.168.2.1 dev swp2 trap       ← SW fallback
# 10.0.2.0/24 via 192.168.3.1 dev swp3             ← offload 미지원

# offload/trap 플래그 의미:
#   offload — HW TCAM에 성공적으로 기록됨. 패킷이 ASIC에서 직접 포워딩
#   trap    — HW에 기록됐으나 CPU로 트랩됨 (SW 처리 필요)
#   (없음)  — HW offload 미시도 또는 미지원 디바이스

# devlink를 통한 ASIC 리소스 사용량 확인
devlink resource show pci/0000:03:00.0
# name: IPv4 FIB  size: 40000  occ: 23456     ← TCAM 슬롯 사용률
# name: IPv6 FIB  size: 20000  occ: 5678

# HW TCAM 가득 차면:
# - 새 경로 offload 실패 → SW fallback (성능 저하)
# - 커널 로그: "Failed to offload FIB entry"
# - 해결: TCAM 크기 확인, 불필요 prefix 정리, 요약 경로 사용

offload 시나리오	패킷 경로	성능	CPU 부하
완전 offload	NIC → ASIC TCAM LPM → 출력 포트	와이어 스피드 (100Gbps+)	거의 0
trap (SW fallback)	NIC → ASIC → CPU → 커널 FIB → ASIC 출력	커널 라우팅 성능	높음
offload 없음	NIC → CPU → 커널 FIB → NIC 출력	커널 라우팅 성능	높음
부분 offload (ECMP)	ASIC에서 hash → 일부 nexthop만 offload	offloaded path만 와이어 스피드	fallback path만 CPU

여기부터는 FIB 특수 주제입니다. 아래 섹션들(flowi 상세, 예외 캐시, 멀티캐스트 FIB, MPLS FIB, 네임스페이스, 데몬 연동, 디버깅 시나리오, 성능 특성)은 FIB의·확장 주제입니다. 처음 읽을 때는 건너뛰고, 라우팅 테이블 관리 섹션으로 넘어가도 무방합니다. 이후 실무에서 특정 문제를 만났을 때 돌아와서 참조하세요.

flowi 구조체 — 조회 입력 키 상세

페이지 앞부분의 개요와 파이프라인에서 flowi를 "라우팅 조회의 검색어"로 소개했습니다. 이제 그 검색어의 각 필드가 무엇이고, 어떤 필드가 실제 조회 결과에 영향을 미치는지 상세히 봅니다. 이 이해가 있어야 Policy Routing 문제를 디버깅할 수 있습니다.

FIB 조회의 출발점은 flowi4/flowi6 구조체입니다. 커널은 패킷의 헤더나 소켓 상태에서 이 구조체를 채워 RPDB와 FIB에 전달합니다. 어떤 필드가 실제 조회에 영향을 미치는지 이해해야 policy routing 문제를 디버깅할 수 있습니다.

flowi4의 각 필드가 라우팅 파이프라인에서 어디에 사용되는지 한눈에 보여줍니다. 굵은 글씨와 두꺼운 화살표는 해당 단계에서 핵심 매칭 기준으로 사용됨을 뜻합니다.

flowi4 필드	설정 시점	RPDB 사용	FIB LPM 사용	ECMP 해시	운영 확인
`daddr`	패킷 목적지 / 소켓 connect	`to` selector	LPM 키 (핵심)	해시 입력	`ip route get <dst>`
`saddr`	소켓 bind 또는 커널 선택	`from` selector	—	해시 입력	`ip route get ... from <src>`
`flowi4_oif`	소켓 SO_BINDTODEVICE / route oif	`oif` selector	nexthop dev 필터	—	`ip route get ... oif <dev>`
`flowi4_iif`	수신 패킷의 dev->ifindex	`iif` selector	—	—	`ip route get ... iif <dev>`
`flowi4_mark`	Netfilter MARK, SO_MARK	`fwmark` selector	—	—	`ip route get ... mark <val>`
`flowi4_tos`	IP 헤더 TOS / 소켓 IP_TOS	`tos` selector	fib_alias TOS 매칭	—	`ip route get ... tos <val>`
`flowi4_scope`	커널 설정 (UNIVERSE/LINK/HOST)	—	scope 필터링	—	간접 (route scope와 비교)
`flowi4_proto`	L4 프로토콜 번호	`ipproto` selector	—	해시 입력 (policy별)	`ip rule ... ipproto tcp`
`fl4_sport/dport`	L4 포트 / 소켓	`sport/dport` selector	—	해시 입력 (L4 policy)	`ip rule ... sport 80`
`flowi4_uid`	소켓 소유자 UID	`uidrange` selector	—	—	`ip rule ... uidrange`

/* flowi4 채우기 — 송신 경로 예시 */

/* tcp_v4_connect() → ip_route_connect() 내부 */
struct flowi4 fl4;
flowi4_init_output(&fl4,
    sk->sk_bound_dev_if,        /* oif: SO_BINDTODEVICE */
    sk->sk_mark,                /* mark: SO_MARK 또는 Netfilter */
    RT_TOS(inet->tos),          /* tos: IP_TOS 소켓 옵션 */
    RT_SCOPE_UNIVERSE,          /* scope: 보통 UNIVERSE */
    sk->sk_protocol,            /* proto: IPPROTO_TCP(6) */
    0,                          /* flags */
    daddr,                      /* 목적지 주소 */
    saddr,                      /* 소스 주소 (bind 또는 자동) */
    dport,                      /* 목적지 포트 */
    sport);                     /* 소스 포트 */
fl4.flowi4_uid = sock_net_uid(net, sk);  /* UID */

struct rtable *rt = ip_route_output_flow(net, &fl4, sk);

/* 수신 경로: ip_rcv() → ip_rcv_finish() */
/* iph에서 daddr/saddr/tos를 추출하고,
 * skb->mark에서 mark를, skb->dev에서 iif를 채움 */
struct flowi4 fl4;
fl4.daddr = iph->daddr;
fl4.saddr = iph->saddr;
fl4.flowi4_tos = RT_TOS(iph->tos);
fl4.flowi4_iif = skb->dev->ifindex;
fl4.flowi4_mark = skb->mark;
fl4.flowi4_scope = RT_SCOPE_UNIVERSE;
/* → fib_lookup(net, &fl4, &res, 0) */

디버깅 핵심: ip route get에 from, iif, mark, tos 옵션을 조합하면 커널이 실제로 채우는 flowi4를 시뮬레이션할 수 있습니다. policy routing 문제의 80%는 "어떤 selector가 예상과 다른 값으로 채워지는가"로 귀결됩니다.

FIB Nexthop Exception Cache 상세

exception cache를 쉽게 이해하기: 택배 배송 경로는 보통 고정되어 있지만, 어느 날 도로가 공사 중(MTU 초과)이거나 더 빠른 우회로가 생겼다면(redirect)? 이 "예외 상황"을 따로 메모해 두고, 해당 목적지로 보낼 때만 메모를 참고합니다. 메모가 없는 목적지는 원래 경로 그대로 사용합니다. 이것이 exception cache의 역할입니다.

커널 3.6에서 전역 route cache가 제거된 후, nexthop exception이 그 역할의 일부를 대신합니다. ICMP "Fragmentation Needed" (PMTU) 또는 ICMP Redirect를 수신하면, 해당 목적지에 대한 예외를 nexthop별 해시 테이블에 기록합니다. 일반 조회는 매번 LC-trie를 직접 타지만, 예외가 있는 목적지는 캐시된 정보를 우선 사용합니다.

일반 FIB 조회는 매번 LC-trie를 직접 탐색하지만, PMTU나 Redirect 예외가 있는 목적지는 nexthop별 exception 해시 테이블에서 캐시된 정보를 우선 사용합니다.

/* net/ipv4/route.c — PMTU exception 생성 */

static void __ip_rt_update_pmtu(struct rtable *rt,
                                 struct flowi4 *fl4,
                                 u32 mtu) {
    struct fib_nh_common *nhc;
    struct fib_nh_exception *fnhe;

    nhc = rt_fib_nh_common(rt);

    /* nexthop의 exception 해시 테이블에서 이 목적지 검색 또는 생성 */
    fnhe = find_or_create_fnhe(nhc, fl4->daddr);

    /* PMTU 값 갱신 */
    fnhe->fnhe_pmtu = mtu;
    fnhe->fnhe_mtu_locked = false;
    fnhe->fnhe_stamp = jiffies;
    fnhe->fnhe_expires = jiffies + ip_rt_mtu_expires;
    /* ip_rt_mtu_expires: 기본 600초 (10분)
     * 만료 후 커널은 원래 MTU로 돌아가 PMTU 재탐지 시도 */
}

/* Redirect exception 생성 */
void ip_rt_redirect(__be32 old_gw, __be32 new_gw, ...) {
    /* 검증: new_gw가 on-link인지, 합리적인 redirect인지 확인 */
    fnhe = find_or_create_fnhe(nhc, daddr);
    fnhe->fnhe_gw = new_gw;
    fnhe->fnhe_expires = jiffies + ip_rt_redirect_silence;
}

/* mkroute 시 exception 적용 */
static struct rtable *__mkroute_output(...) {
    struct fib_nh_exception *fnhe;

    fnhe = find_exception(nhc, fl4->daddr);
    if (fnhe) {
        /* PMTU가 있으면 dst_entry에 반영 */
        if (fnhe->fnhe_pmtu)
            dst_metric_set(&rth->dst, RTAX_MTU, fnhe->fnhe_pmtu);

        /* redirect가 있으면 게이트웨이 교체 */
        if (fnhe->fnhe_gw)
            rth->rt_gw4 = fnhe->fnhe_gw;

        /* 캐시된 rtable이 있으면 재사용 */
        struct rtable *cached = rcu_dereference(fnhe->fnhe_rth_output);
        if (cached && rt_cache_valid(cached))
            return cached;
    }
    /* ... 새 rtable 할당 ... */
}

# Exception cache 운영 확인

# 1. PMTU 예외 확인
ip route get 203.0.113.50
# 203.0.113.50 via 192.168.1.1 dev eth0 src 192.168.1.100
#     cache  expires 542sec mtu 1400
#            ^^^^^^^^^^^^^^^^^^^^^^^^ PMTU exception 활성

# 2. Redirect 예외 확인
ip route get 10.0.0.50
# 10.0.0.50 via 192.168.1.2 dev eth0 src 192.168.1.100
#     cache  redirect
#                     ← 원래 gw(192.168.1.1)에서 redirect됨

# 3. Exception 강제 삭제 (route flush)
ip route flush cache
# 모든 nexthop exception과 cached rtable 제거
# PMTU/redirect 예외도 함께 사라짐 → 재탐지 필요

# 4. PMTU 관련 sysctl
sysctl net.ipv4.route.mtu_expires=600       # PMTU 예외 만료 시간(초)
sysctl net.ipv4.route.min_pmtu=552          # 최소 PMTU (이하로 설정 안됨)
sysctl net.ipv4.ip_forward_use_pmtu=0       # 포워딩 시 PMTU 적용 여부

# 5. Redirect 관련 sysctl
sysctl net.ipv4.conf.all.accept_redirects=0 # redirect ICMP 수신 여부
sysctl net.ipv4.conf.all.send_redirects=1   # redirect ICMP 발신 여부

# 6. Exception 통계 (perf/bpftrace)
bpftrace -e 'kprobe:find_or_create_fnhe {
    @create = count();
}'

Exception cache 주의사항:

PMTU black hole: ICMP가 방화벽(Firewall)에서 차단되면 PMTU discovery가 실패하여 큰 패킷이 무한히 드롭됩니다. ip route flush cache 후에도 재발하면 MSS clamping(iptables -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN -j TCPMSS --clamp-mss-to-pmtu)을 고려하세요
Redirect 남용: 공격자가 위조 ICMP Redirect를 보내 트래픽을 탈취할 수 있으므로, 라우터/서버에서는 accept_redirects=0이 일반적입니다
Exception 폭발: DDoS 환경에서 수백만 개의 고유 목적지가 각각 exception을 생성하면 메모리가 급격히 증가합니다. 커널은 fnhe_genid로 세대 관리하여 오래된 exception을 정리합니다
IPv6 차이: IPv6는 rt6_exception을 사용하며, ICMPv6 "Packet Too Big"으로 PMTU를 처리합니다. 구조는 유사하지만 별도 코드 경로(rt6_do_update_pmtu())를 탑니다

멀티캐스트 FIB (MFC)

여기서부터는 유니캐스트와 다른 별도의 FIB 변종들을 다룹니다. 유니캐스트 FIB의 핵심을 이해했다면, 이 섹션들은 같은 원리가 다른 도메인에 어떻게 적용되는지 보여주는 확장입니다.

유니캐스트 vs 멀티캐스트: 지금까지 살펴본 FIB는 "한 목적지에 하나의 경로"를 찾는 유니캐스트용입니다. 멀티캐스트는 "하나의 송신자가 여러 수신자에게 동시에 전달"하는 것이므로, 패킷을 여러 인터페이스로 복제해야 합니다. 이를 위해 별도의 테이블(MFC)이 존재합니다.

유니캐스트 FIB와 별도로 Linux는 멀티캐스트 포워딩을 위한 MFC(Multicast Forwarding Cache)를 운용합니다. PIM(Protocol Independent Multicast) 데몬이 설치한 MFC 엔트리에 따라 멀티캐스트 패킷이 여러 출력 인터페이스로 복제됩니다.

멀티캐스트 FIB: MFC 엔트리는 (S,G) 쌍으로 색인되며, RPF 검사 후 각 출력 VIF로 패킷을 복제합니다. cache miss 시 PIM 데몬에 upcall하여 엔트리를 생성합니다.

# 멀티캐스트 라우팅 활성화
sysctl net.ipv4.conf.all.mc_forwarding=1
# 또는 PIM 데몬(pimd, FRR)이 자동 설정

# MFC(Multicast Forwarding Cache) 확인
ip mroute show
# (10.0.0.1, 239.1.1.1)     Iif: eth0     Oifs: eth1 eth2 tun0
# (10.0.0.2, 239.2.2.2)     Iif: eth0     Oifs: eth1

# /proc 인터페이스 — 상세 통계 포함
cat /proc/net/ip_mr_cache
# Group    Origin   Iif  Pkts  Bytes  Wrong  Oifs
# EF010101 0A000001 0    12345 18518  0      1:1 2:1

# VIF(Virtual Interface) 매핑
cat /proc/net/ip_mr_vif
# Interface  Bytes In  Pkts In  Bytes Out  Pkts Out  Flags
# eth0       1234567   12345    0          0         0
# eth1       0         0        987654     9876      0

# IGMP 그룹 멤버십
cat /proc/net/igmp
ip maddr show

# 멀티캐스트 통계
cat /proc/net/snmp | grep -i 'Ip.*Mcast'

비교	유니캐스트 FIB	멀티캐스트 FIB (MFC)
키	목적지 주소 (LPM)	(소스, 그룹) 쌍 — (S,G) 또는 (*,G)
조회 방식	Longest Prefix Match	Exact match (해시 테이블)
출력	단일 nexthop (또는 ECMP)	여러 출력 인터페이스로 복제
설치 주체	ip route, BGP/OSPF	PIM 데몬 (pimd, FRR pimd)
소스 검증	rp_filter (선택)	RPF 검사 (필수)
cache miss	FIB에 없으면 조회 실패	PIM 데몬에 upcall → 동적 생성
자료구조	LC-trie / fib6_node	해시 테이블 (mfc_cache_array)
소스 파일	`net/ipv4/fib_trie.c`	`net/ipv4/ipmr.c`

MPLS FIB

Linux 커널 4.3+부터 MPLS(Multi-Protocol Label Switching) 포워딩을 지원합니다. MPLS FIB는 IP FIB와 완전히 별도의 테이블로, 라벨 번호를 키로 사용하여 다음 동작(swap, pop, push)을 결정합니다.

/* net/mpls/af_mpls.c — MPLS FIB 구조 */

/* MPLS 라우팅 테이블: 라벨 → 동작(nexthop) 매핑 */
struct mpls_route {
    struct net_device  *rt_dev;        /* 출력 디바이스 */
    u8                rt_protocol;    /* RTPROT_STATIC 등 */
    u8                rt_payload_type; /* MPT_IPV4, MPT_IPV6, MPT_UNSPEC */
    u8                rt_max_alen;    /* 최대 nexthop 주소 길이 */
    u8                rt_nhn;         /* nexthop 수 */
    u8                rt_nhn_alive;   /* 활성 nexthop 수 */
    u8                rt_nh_size;     /* nexthop 구조체 크기 */
    u8                rt_via_offset;
    u8                rt_via_alen;
    /* nexthop: via 주소, 출력 라벨(들), 동작 */
};

/* platform_label[]: 라벨 번호 → mpls_route 배열
 * 라벨은 0~1048575 (20비트), 0~15는 예약
 * 배열 인덱스로 직접 접근 → O(1) 조회 */

/* MPLS 포워딩 경로:
 * 1. 패킷 수신 → MPLS ethertype (0x8847) 확인
 * 2. mpls_forward() 호출
 * 3. top label → platform_label[label]로 mpls_route 조회
 * 4. 동작 수행: swap(라벨 교체), pop(라벨 제거), push(라벨 추가)
 * 5. 출력 디바이스로 전달
 */

# MPLS 활성화
modprobe mpls_router
modprobe mpls_iptunnel
sysctl net.mpls.platform_labels=1048575   # 최대 라벨 수 설정
sysctl net.mpls.conf.eth0.input=1         # 인터페이스별 MPLS 수신 허용

# MPLS 라우팅 테이블 설정
ip -f mpls route add 100 via inet 192.168.1.2 dev eth0
# 라벨 100 수신 → pop 후 192.168.1.2로 IPv4 포워딩

ip -f mpls route add 200 as 300 via inet 10.0.0.2 dev eth1
# 라벨 200 수신 → 라벨 300으로 swap 후 10.0.0.2로 전달

# IP → MPLS encap (ip route에서 MPLS 라벨 push)
ip route add 172.16.0.0/24 encap mpls 100/200 via 192.168.1.2 dev eth0
# 172.16.0.0/24 목적지 → MPLS 라벨 스택 [100, 200] push

# MPLS 라우팅 테이블 조회
ip -f mpls route show
# 100 via inet 192.168.1.2 dev eth0 proto static
# 200 as to 300 via inet 10.0.0.2 dev eth1 proto static

# MPLS 통계
cat /proc/net/mpls_stats
# Interface   InPkts    InBytes   InErrors  OutPkts   OutBytes

IP FIB와 MPLS FIB의 관계: IP 패킷이 MPLS 네트워크에 진입할 때는 IP FIB에서 encap mpls로 라벨을 push합니다. MPLS 네트워크 내부에서는 MPLS FIB(platform_label 배열)로 라벨 swap/pop을 수행합니다. 마지막 라벨이 pop되면 내부 IP 패킷이 노출되어 다시 IP FIB로 라우팅됩니다. 이 3단계(push → swap × N → pop)가 MPLS의 기본 동작입니다.

FIB와 네트워크 네임스페이스

네임스페이스를 쉽게 이해하기: 하나의 서버에 여러 개의 독립된 가상 네트워크를 만들 수 있습니다. 각 가상 네트워크는 자기만의 라우팅 테이블(FIB), ARP 테이블, 인터페이스를 가집니다. Docker 컨테이너(Container)가 각각 독립된 IP 주소와 라우팅을 가질 수 있는 것이 바로 이 네임스페이스 격리(Isolation) 덕분입니다.

Linux의 FIB는 네트워크 네임스페이스별로 완전히 격리됩니다. 각 네임스페이스는 독립된 FIB 테이블 세트, RPDB 규칙, nexthop 객체, neighbour 테이블을 가집니다. 이 격리가 컨테이너 네트워킹과 VRF의 기반입니다.

각 네트워크 네임스페이스는 완전히 독립된 FIB, RPDB, nexthop, neighbour를 가집니다. VRF는 같은 네임스페이스 안에서 테이블 수준의 격리를 제공합니다.

/* include/net/net_namespace.h — per-netns FIB 구조 */

struct net {
    /* ... */
    struct netns_ipv4 ipv4;
    struct netns_ipv6 ipv6;
    /* ... */
};

struct netns_ipv4 {
    struct fib_rules_ops *rules_ops;        /* per-ns RPDB */
    struct hlist_head    *fib_table_hash;    /* per-ns FIB 테이블 해시 */
    struct fib_table     *fib_main;          /* table 254 바로가기 */
    struct fib_table     *fib_default;       /* table 253 바로가기 */
    struct fib_table     *fib_local;         /* table 255 바로가기 */
    unsigned int        fib_rules_require_fldissect;
    bool                fib_has_custom_rules; /* policy routing 활성 여부 */
    struct hlist_head    fib_info_hash[...]; /* per-ns fib_info 해시 */
    /* sysctl: ip_forward, rp_filter, fib_multipath_* 등 per-ns */
};

/* 네임스페이스 격리의 의미:
 * - 같은 IP 주소(예: 10.0.0.1)가 서로 다른 네임스페이스에서 충돌 없이 사용 가능
 * - 한 네임스페이스의 route 변경이 다른 네임스페이스에 영향 없음
 * - 각 네임스페이스의 FIB notifier chain도 독립 (per-ns switchdev)
 * - sysctl (ip_forward, rp_filter 등)도 per-ns 독립 설정
 */

# 네임스페이스별 FIB 독립 확인

# 1. 새 네임스페이스 생성
ip netns add test_ns

# 2. 각 네임스페이스의 FIB는 완전히 독립
ip netns exec test_ns ip route show
# (비어 있음 — 새로 만든 네임스페이스)

# 3. veth pair로 네임스페이스 간 연결
ip link add veth-host type veth peer name veth-ns
ip link set veth-ns netns test_ns
ip addr add 192.168.100.1/24 dev veth-host
ip link set veth-host up
ip netns exec test_ns ip addr add 192.168.100.2/24 dev veth-ns
ip netns exec test_ns ip link set veth-ns up

# 4. 네임스페이스 안에서 FIB 확인
ip netns exec test_ns ip route show
# 192.168.100.0/24 dev veth-ns proto kernel scope link src 192.168.100.2

ip netns exec test_ns ip route add default via 192.168.100.1
ip netns exec test_ns ip route show
# default via 192.168.100.1 dev veth-ns
# 192.168.100.0/24 dev veth-ns proto kernel scope link src 192.168.100.2

# 5. 호스트 FIB에는 영향 없음
ip route show | grep 'default'
# default via 10.0.0.1 dev eth0 (호스트 기존 route 그대로)

# 6. 네임스페이스별 fib_triestat
ip netns exec test_ns cat /proc/net/fib_triestat
# Main:  Leaves: 3  Prefixes: 4 (호스트와 완전히 독립)

# 7. 컨테이너 실행 시 Docker/K8s가 자동으로 수행하는 과정과 동일

FIB와 동적 라우팅 데몬 연동

RIB와 FIB의 차이를 쉽게 이해하기: 라우팅 데몬(FRR, BIRD 등)은 이웃 라우터에서 "이 목적지는 나를 통해 갈 수 있어"라는 광고를 받아서 내부 메모장(RIB)에 모든 후보 경로를 기록합니다. 그 중 가장 좋은 경로만 골라서 커널의 실제 포워딩 테이블(FIB)에 설치합니다. RIB는 "후보 목록", FIB는 "실행 목록"인 셈입니다.

BGP, OSPF, IS-IS 등 동적 라우팅 프로토콜은 사용자 공간 데몬(FRR, BIRD, GoBGP 등)이 Netlink를 통해 커널 FIB에 경로를 설치합니다. 데몬의 RIB(Routing Information Base)와 커널의 FIB 사이의 동기화 모델을 이해하는 것이 운영에서 중요합니다.

라우팅 데몬(FRR 등)은 프로토콜별 RIB에서 best path를 선정한 후 Netlink를 통해 커널 FIB에 push합니다. RIB는 모든 학습 경로를 보관하고, FIB는 포워딩에 필요한 best 경로만 유지합니다.

# FRR(Free Range Routing) 설정 예시

# vtysh에서 BGP 경로 RIB 확인
vtysh -c "show bgp ipv4 unicast"
# 여러 peer에서 학습한 경로와 best path 표시
# * = valid, > = best, i = internal
# *> 10.0.0.0/24    192.168.1.2    0    100    200 i
# *  10.0.0.0/24    192.168.2.2    0    200    200 i  (backup)

# Zebra RIB (통합 RIB) — 여기서 커널 FIB로 push 결정
vtysh -c "show ip route"
# B>* 10.0.0.0/24 [20/0] via 192.168.1.2, eth0, weight 1, 00:05:12
# O>* 10.1.0.0/16 [110/20] via 192.168.1.3, eth1, weight 1, 00:10:30

# 커널 FIB에 설치된 경로 확인
ip route show proto bgp
# 10.0.0.0/24 via 192.168.1.2 dev eth0 proto bgp metric 20
ip route show proto ospf
# 10.1.0.0/16 via 192.168.1.3 dev eth1 proto ospf metric 20

# proto 값으로 경로 출처 구분:
#   proto kernel  — 커널 자동 생성 (인터페이스 주소)
#   proto boot    — 부팅 시 설정
#   proto static  — ip route add ... (관리자)
#   proto bgp     — BGP 데몬 (FRR/BIRD)
#   proto ospf    — OSPF 데몬
#   proto isis    — IS-IS 데몬
#   proto zebra   — FRR Zebra (레거시)

# FRR과 커널 FIB 동기화 문제 디버깅
vtysh -c "show ip route summary"
# Route Source  Routes  FIB   (installed count)
# bgp           85000   84998 ← 2개 FIB 설치 실패
# ospf           150     150
# connected       10      10
# static           5       5

# Netlink 에러 모니터링
ip monitor route 2>&1 | head -20
# 경로 추가/삭제가 실시간으로 표시됨

항목	RIB (데몬)	FIB (커널)
저장 위치	사용자 공간 프로세스(Process) 메모리	커널 메모리 (LC-trie)
경로 수	모든 학습 경로 (best + backup + withdrawn)	best 경로만
속성	AS-path, community, MED, local-pref, ...	gateway, dev, metric, proto만
조회 방식	프로토콜별 best path selection	LPM (Longest Prefix Match)
갱신 주체	프로토콜 메시지 (BGP UPDATE, OSPF LSA)	Netlink RTM_NEWROUTE
동기화	Zebra가 best path → FIB push	수동적 (데몬이 설치한 대로)
graceful restart	RIB에서 stale 경로 관리	FIB는 삭제 명령이 올 때까지 유지
메모리 (BGP full)	~2~4 GB (FRR)	~50~80 MB (커널)

RIB-FIB 불일치 문제: 라우팅 데몬이 경로를 설치하려 했으나 커널이 거부하는 경우가 있습니다.

ENOMEM: 커널 메모리 부족 → fib_table_insert() 실패. dmesg에 OOM 관련 메시지
EEXIST: 동일 경로가 이미 존재 (다른 proto). ip route replace로 해결
ENETUNREACH: nexthop이 도달 불가능한 인터페이스. 링크 다운 상태 확인
proto 충돌: BGP 경로가 static 경로와 충돌 시 커널은 먼저 설치된 경로 유지. FRR의 administrative distance는 데몬 내부 개념으로 커널에는 전달 안 됨
진단: vtysh -c "show ip route summary"에서 Routes ≠ FIB 수치 비교

FIB 진화 역사

Linux FIB는 20년 넘게 꾸준히 발전해왔습니다. 각 커널 버전의 핵심 변화를 이해하면 레거시 시스템과 현대 시스템의 차이를 파악하는 데 도움이 됩니다.

커널 버전	연도	핵심 변화	영향
2.6.13	2005	LC-trie 도입 (Robert Olsson)	기존 해시 테이블 대비 메모리 효율 3~10배 향상, LPM 성능 개선
3.6	2012	전역 route cache 제거	DoS 공격 표면 제거, GC 오버헤드(Overhead) 소멸. FIB를 매번 직접 조회
3.6	2012	nexthop exception cache 도입	PMTU/redirect만 per-nexthop 해시에 캐싱 — route cache의 최소 대체
4.3	2015	MPLS FIB 지원	label-based 포워딩 테이블, IP-MPLS encap/decap 통합
4.8	2016	FIB notifier 프레임워크	switchdev 드라이버가 FIB 변경을 구독하여 HW 동기화 가능
4.10	2017	fib_alias에서 TOS 분리 (DSCP)	같은 prefix에 DSCP별 다른 경로 지원 개선
4.14	2017	VRF l3mdev 규칙 자동화	per-VRF RPDB 규칙을 수동 관리할 필요 없이 l3mdev 규칙 하나로 통합
5.3	2019	nexthop 객체 도입 (`ip nexthop`)	route와 nexthop 분리, ECMP 그룹 공유, O(1) nexthop 교체
5.12	2021	resilient nexthop group	nexthop 추가/제거 시 기존 flow 영향 최소화 (consistent hashing)
5.15	2021	BPF FIB lookup 개선	`bpf_fib_lookup()`에 더 많은 정보 반환, XDP 고성능 포워딩 지원
6.1	2022	nexthop group HW stats	nexthop 그룹별 패킷/바이트 통계를 HW에서 수집 가능
6.6	2023	FIB trie 최적화 (slen 개선)	대규모 테이블에서 backtrack 성능 향상, 평균 조회 깊이 감소
6.8	2024	nexthop 객체 per-bucket counter	resilient group의 각 버킷 트래픽 통계, 부하 분산(Load Balancing) 모니터링 개선

실전 FIB 디버깅 시나리오

FIB 관련 라우팅 문제를 체계적으로 진단하는 워크플로우입니다. 각 시나리오는 실제 운영 환경에서 자주 발생하는 패턴입니다.

####################################################
# 시나리오 1: "패킷이 예상과 다른 인터페이스로 나감"
####################################################

# Step 1: 실제 FIB 조회 결과 확인
ip route get 10.0.5.1
# 10.0.5.1 via 192.168.1.1 dev eth0 src 192.168.1.100

# Step 2: 어떤 RPDB 규칙이 매칭됐는지 확인
ip rule show
# 0:     from all lookup local
# 100:   from 10.0.0.0/8 lookup 100    ← 이 규칙이 개입?
# 32766: from all lookup main

# Step 3: 해당 테이블의 FIB 내용 확인
ip route show table 100
# 10.0.0.0/8 via 192.168.2.1 dev eth1   ← 여기서 잡힘!

# Step 4: fibmatch로 어떤 FIB 엔트리가 일치했는지 직접 확인
ip route get fibmatch 10.0.5.1
# 10.0.0.0/8 table 100 dev eth1 proto static scope link

# Step 5: 의도대로 수정
ip route add 10.0.5.0/24 via 192.168.1.1 table 100
# 더 구체적인 /24 route가 LPM으로 우선 매칭됨

####################################################
# 시나리오 2: "특정 목적지만 연결 안 됨 (PMTU black hole)"
####################################################

# Step 1: 해당 목적지로 route get 확인
ip route get 203.0.113.50
# 203.0.113.50 via 10.0.0.1 dev eth0 src 10.0.0.100
#     cache  expires 123sec mtu 576    ← MTU가 비정상적으로 작음!

# Step 2: exception cache 확인
ip route show cache
# 203.0.113.50 via 10.0.0.1 dev eth0
#     cache  expires 123sec mtu 576    ← PMTU exception 확인

# Step 3: exception 삭제 (주의: 모든 exception 삭제)
ip route flush cache

# Step 4: MSS clamping 설정 (근본 해결)
iptables -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN \
    -j TCPMSS --clamp-mss-to-pmtu

####################################################
# 시나리오 3: "ECMP 부하가 불균형"
####################################################

# Step 1: ECMP 경로 확인
ip route show 10.0.0.0/24
# 10.0.0.0/24
#     nexthop via 192.168.1.1 dev eth0 weight 1
#     nexthop via 192.168.2.1 dev eth1 weight 1

# Step 2: ECMP 해시 정책 확인
sysctl net.ipv4.fib_multipath_hash_policy
# 0 = L3 (src+dst IP만), 1 = L4 (src+dst IP+port), 2 = L3+dev, 3 = custom

# Step 3: L4 해시 활성화 (더 균등한 분배)
sysctl -w net.ipv4.fib_multipath_hash_policy=1

# Step 4: resilient 그룹 사용 (nexthop 변경 시 flow 유지)
ip nexthop add id 10 via 192.168.1.1 dev eth0
ip nexthop add id 20 via 192.168.2.1 dev eth1
ip nexthop add id 100 group 10/20 type resilient buckets 128
ip route replace 10.0.0.0/24 nhid 100

# Step 5: 버킷 분포 확인
ip nexthop bucket show nhid 100

####################################################
# 시나리오 4: "BGP 경로가 커널에 설치 안 됨"
####################################################

# Step 1: 데몬 RIB에서 경로 확인
vtysh -c "show bgp ipv4 unicast 10.99.0.0/24"
# best path 있는지, 왜 best인지 확인

# Step 2: Zebra RIB에서 FIB 설치 상태 확인
vtysh -c "show ip route 10.99.0.0/24"
# 없으면: route-map에서 deny되었을 가능성

# Step 3: 커널 FIB에서 직접 확인
ip route show 10.99.0.0/24
ip route get 10.99.1.1

# Step 4: Netlink 에러 확인 (실시간 모니터링)
ip monitor route &
vtysh -c "clear bgp ipv4 unicast * soft in"
# 경로 재학습 → 설치 시도 → Netlink 에러 메시지 관찰

# Step 5: nexthop이 유효한지 확인
ip route get <nexthop-gateway>
ip neigh show <nexthop-gateway>
# nexthop gateway가 ARP 해결 안 되면 경로 설치 실패 가능

####################################################
# 시나리오 5: "FIB 조회 성능이 갑자기 저하"
####################################################

# Step 1: trie 상태 확인
cat /proc/net/fib_triestat
# Max depth가 15 이상이면 비정상적 prefix 분포
# Null ptrs 비율이 80% 이상이면 메모리 낭비

# Step 2: perf로 FIB 핫스팟 확인
perf top -e cycles -g -- sleep 10
# fib_table_lookup(), check_leaf()의 CPU 점유율 확인

# Step 3: /32 host route 폭증 확인
ip route show table all | grep '/32' | wc -l
# 수만 개의 /32 route → trie 깊이 증가 원인

# Step 4: bpftrace로 조회 지연 측정
bpftrace -e 'kprobe:fib_table_lookup { @start[tid] = nsecs; }
kretprobe:fib_table_lookup /@start[tid]/ {
    @latency_ns = hist(nsecs - @start[tid]);
    delete(@start[tid]);
}'

FIB 성능 특성과 벤치마크

FIB 조회 성능은 라우터/서버의 패킷 처리 능력에 직접적인 영향을 미칩니다. LC-trie의 이론적 복잡도와 실제 측정값을 이해하면 성능 병목(Bottleneck)을 예측할 수 있습니다.

측정 항목	일반 서버 (수십 route)	BGP 라우터 (90만 route)	비고
fib_table_lookup() 지연(Latency)	~50~100ns	~200~500ns	단일 코어, cache warm 상태
trie 평균 깊이	2~3	4~6	fib_triestat의 Aver depth
trie 최대 깊이	3~5	6~10	Max depth (15+ 이면 비정상)
초당 조회 수 (단일 코어)	~10~20 Mpps	~2~5 Mpps	RCU lock-free, cache 영향 큼
멀티코어 확장성	거의 선형	거의 선형	RCU read-side lock 사용, 경합 없음
경로 삽입 속도	—	~50K~100K routes/sec	rtnl_lock 직렬화(Serialization) 병목
FIB 메모리	~100 KB	~50~80 MB	fib_triestat의 Total size
L1/L2 cache 영향	대부분 cache hit	빈번한 cache miss	대규모 trie는 L3까지 사용

# FIB 성능 측정 도구

# 1. fib_table_lookup 호출 빈도와 지연
bpftrace -e '
kprobe:fib_table_lookup { @start[tid] = nsecs; }
kretprobe:fib_table_lookup /@start[tid]/ {
    @lookup_ns = hist(nsecs - @start[tid]);
    delete(@start[tid]);
    @total = count();
}
interval:s:5 { print(@lookup_ns); print(@total); clear(@lookup_ns); clear(@total); }
'

# 2. perf로 FIB 관련 함수 프로파일링
perf record -g -a -e cycles -- sleep 10
perf report --symbol-filter=fib
# fib_table_lookup, check_leaf, get_child_rcu 비율 확인

# 3. cache miss 분석 (L1/L2/L3)
perf stat -e cache-misses,cache-references,instructions \
    -a -- sleep 10
# cache miss 비율이 높으면 trie가 캐시보다 큰 상황

# 4. XDP/BPF FIB lookup 성능 (커널 스택 우회)
# XDP에서 bpf_fib_lookup()은 커널 라우팅 스택 전체를 우회하므로
# 단일 코어에서 ~20~40 Mpps 달성 가능 (64B 패킷 기준)

# 5. ECMP 해시 분포 확인
# nstat으로 인터페이스별 패킷 수 비교
nstat -z -a | grep -i 'Ip.*Forward'
# 또는 각 인터페이스의 RX/TX 카운터 비교
ip -s link show eth0 | grep -A1 TX
ip -s link show eth1 | grep -A1 TX

성능 최적화 체크리스트:

ECMP 해시 정책: fib_multipath_hash_policy=1(L4)이 L3보다 균등 분배. 더 세밀한 제어는 hash_policy=3(custom) + fib_multipath_hash_fields
nexthop 상태 반영: fib_multipath_use_neigh=1로 dead nexthop 자동 우회
linkdown 무시: ignore_routes_with_linkdown=1로 다운된 인터페이스 경로 제외
불필요 경로 정리: /32 host route가 과도하면 trie 깊이 증가 → 요약(summarization) 적용
XDP 가속: 고성능 포워딩이 필요하면 bpf_fib_lookup() + XDP_REDIRECT로 커널 스택 우회
HW offload: switchdev 지원 NIC에서 RTNH_F_OFFLOAD 확인, TCAM 용량 모니터링

FIB 핵심 정리 — 이 섹션에서 배운 것:

FIB는 커널이 라우팅 테이블을 내부적으로 저장하는 방식입니다. ip route로 보는 것과 같은 정보를 매우 빠르게 조회할 수 있도록 트리 자료구조로 관리합니다.
LC-trie는 IPv4 FIB가 사용하는 비트 단위 트리입니다. 목적지 IP의 비트를 따라 내려가며 가장 구체적인 접두사(Longest Prefix Match)를 찾습니다. path compression과 level compression으로 대부분 3~5단계만에 조회가 완료됩니다.
prefix와 route의 분리: fib_alias(경로 카드)와 fib_info(nexthop 정보)를 분리하여, 동일한 nexthop을 쓰는 수만 개의 경로가 하나의 fib_info를 공유합니다.
조회는 lock-free: RCU 덕분에 패킷 포워딩(조회)은 lock 없이 모든 코어에서 동시에 수행됩니다. 경로 추가/삭제만 rtnl_lock을 잡습니다.
Nexthop 객체(5.3+)로 route와 nexthop을 완전히 분리하여, nexthop 변경 시 모든 참조 route가 O(1)로 업데이트됩니다.
HW offload: switchdev 프레임워크로 FIB 변경을 하드웨어 TCAM에 동기화하면 와이어 스피드 포워딩이 가능합니다.
디버깅 핵심: ip route get [dst] from [src] iif [dev] mark [val]로 커널이 실제로 선택하는 경로를 정확히 확인할 수 있습니다.

라우팅 테이블 관리

일상 비유 — 건물 안내판: 1층 로비에 "2층: 사무실, 3층: 회의실, 4층: 식당" 안내판이 있듯이, 라우팅 테이블은 "10.0.0.0/8 → eth0, 192.168.1.0/24 → eth1" 같은 네트워크 안내판입니다. Linux는 이런 안내판을 여러 개(local, main, default) 가질 수 있어서, 상황에 따라 다른 안내판을 참조할 수 있습니다.

앞의 섹션들에서 커널 내부의 FIB 자료구조를 깊이 살펴봤습니다. 이제 사용자가 ip route 명령으로 이 테이블을 실제로 어떻게 조회하고 관리하는지 봅니다.

ip route 명령

# 현재 라우팅 테이블 조회
ip route show              # main 테이블
ip route show table local  # local 테이블
ip route show table all    # 모든 테이블

# 경로 추가
ip route add 10.0.0.0/24 via 192.168.1.1          # 게이트웨이 경유
ip route add 10.0.0.0/24 dev eth0                  # 직접 연결
ip route add 10.0.0.0/24 via 192.168.1.1 metric 100  # 메트릭 지정

# scope/type 이해
ip route add 10.0.0.0/24 via 192.168.1.1 scope global  # 기본: 전역
ip route add 10.0.0.0/24 dev eth0 scope link           # 직접 연결 네트워크
# scope: global > site > link > host > nowhere

# 라우팅 타입
ip route add unreachable 10.0.99.0/24      # ICMP unreachable 반환
ip route add blackhole 10.0.99.0/24        # 조용히 드롭
ip route add prohibit 10.0.99.0/24         # ICMP prohibited 반환
ip route add throw 10.0.99.0/24            # 다음 rule로 넘김

# 특정 소스 주소 지정
ip route add 10.0.0.0/24 via 192.168.1.1 src 192.168.1.100

# 경로 삭제/변경
ip route del 10.0.0.0/24
ip route change 10.0.0.0/24 via 192.168.1.2

라우팅 테이블 종류

테이블 ID	이름	용도	우선순위
255	`local`	로컬 주소, 브로드캐스트 주소 (커널 자동 관리)	rule 0 (최우선)
254	`main`	일반 라우팅 (`ip route` 기본 대상)	rule 32766
253	`default`	기본 경로 (거의 사용 안 함)	rule 32767
1~252	사용자 정의	Policy Routing용 커스텀 테이블	ip rule로 지정

기본 RPDB 규칙

ip-rule(8)가 설명하듯이, 커널은 부팅 직후 세 개의 기본 규칙을 자동으로 설치합니다. 이 기본 규칙을 이해하지 못하면 table local과 main의 우선순위를 자주 오해하게 됩니다.

priority	selector	action	실제 의미
0	`from all`	`lookup local`	내 호스트의 주소, broadcast, anycast 성격의 제어 엔트리를 가장 먼저 확인
32766	`from all`	`lookup main`	관리자가 일반적으로 추가한 라우트를 조회
32767	`from all`	`lookup default`	마지막 후처리용 예약 테이블. 보통 비어 있음

route type / scope / proto 의미

필드	대표 값	의미	운영 포인트
`type`	`unicast`	정상적인 전달 경로	직접 연결과 게이트웨이 경유 모두 포함
`type`	`local`	이 호스트 자신에게 배달	보통 `table local`에 자동 생성되며, 직접 지우는 작업은 위험
`type`	`throw`	현재 테이블 조회를 "실패한 것처럼" 종료	RPDB와 함께 쓸 때 다음 규칙으로 넘어가게 만드는 제어 route
`type`	`unreachable`	드롭 + ICMP unreachable	로컬 송신자는 `EHOSTUNREACH`를 받음
`type`	`prohibit`	드롭 + administratively prohibited	로컬 송신자는 `EACCES`를 받음
`type`	`blackhole`	조용히 드롭	로컬 송신자는 `EINVAL`을 받으므로 애플리케이션 관찰 결과가 다를 수 있음
`scope`	`global`	원격 네트워크까지 도달 가능	게이트웨이 경유 unicast route의 기본 scope
`scope`	`link`	해당 링크에서 직접 도달 가능	직접 연결 경로, on-link next hop 해석의 기준
`scope`	`host`	호스트 내부 로컬 주소	`local` route와 loopback 의미 해석에 중요
`proto`	`kernel`	커널 자동 생성	주소 부여, connected route, local route에서 자주 보임
`proto`	`static`	관리자 또는 정적 설정이 설치	동적 라우팅 데몬이 보통 덮어쓰지 않으므로 운영 의도 전달에 유용
`proto`	`boot`	부팅 시 초기 설정	라우팅 데몬이 시작되면 정리 대상으로 보는 경우가 많음
`proto`	`ra`	IPv6 Router Advertisement가 설치	`expires`가 붙을 수 있고, RA 갱신/만료를 함께 봐야 함

해석 주의: throw는 "드롭 route"가 아니라 "현재 테이블에서 답을 못 찾은 것처럼 만들고 RPDB 다음 규칙으로 진행"시키는 제어 route입니다. 반대로 unreachable, prohibit, blackhole은 lookup 자체를 종료하는 최종 결정입니다.

커널 FIB 조회 API

/* 커널 모듈에서 라우팅 테이블 조회 */
#include <net/ip_fib.h>

struct fib_result res;
struct flowi4 fl4 = {
    .daddr = htonl(0x0A000001),  /* 10.0.0.1 */
    .flowi4_oif = 0,
    .flowi4_scope = RT_SCOPE_UNIVERSE,
};

int err = fib_table_lookup(table, &fl4, &res, FIB_LOOKUP_NOREF);
if (!err) {
    /* res.fi → fib_info (nexthop 정보) */
    /* res.type → RTN_UNICAST, RTN_LOCAL 등 */
    /* res.prefixlen → 일치한 접두사 길이 */
}

/* 또는 전체 라우팅 조회 (rules + table + nexthop 해석) */
struct rtable *rt = ip_route_output_flow(net, &fl4, sk);
if (!IS_ERR(rt)) {
    /* rt->dst.dev → 출력 디바이스 */
    /* rt->rt_gw4 → 게이트웨이 주소 */
    ip_rt_put(rt);
}

API 선택 기준: fib_table_lookup()는 "지정된 테이블 내부 조회"만 수행하므로 RPDB를 건너뜁니다. 규칙, 소스 주소 선택, nexthop 해석까지 포함한 실제 결과가 필요하면 fib_rules_lookup() 또는 ip_route_output_flow() 계열을 봐야 합니다.

라우팅 상수 · 매크로 종합 레퍼런스

라우팅 관련 상수는 include/uapi/linux/rtnetlink.h와 include/linux/rtnetlink.h에 분산 정의됩니다. 각 상수 그룹의 의미와 커널 내부 동작을 한 곳에 정리합니다.

RTN_* — 경로 타입

/* include/uapi/linux/rtnetlink.h */
enum {
    RTN_UNSPEC,         /* 0: 미지정 */
    RTN_UNICAST,        /* 1: 일반 유니캐스트 포워딩 경로 */
    RTN_LOCAL,          /* 2: 로컬 호스트 자신의 주소 */
    RTN_BROADCAST,      /* 3: 브로드캐스트 주소 */
    RTN_ANYCAST,        /* 4: 애니캐스트 주소 */
    RTN_MULTICAST,      /* 5: 멀티캐스트 경로 */
    RTN_BLACKHOLE,      /* 6: 조용히 드롭, 로컬 송신자에게 EINVAL */
    RTN_UNREACHABLE,    /* 7: 드롭 + ICMP unreachable, EHOSTUNREACH */
    RTN_PROHIBIT,       /* 8: 드롭 + ICMP admin prohibited, EACCES */
    RTN_THROW,          /* 9: 현재 테이블 조회 포기 → 다음 RPDB 규칙으로 */
    RTN_NAT,            /* 10: NAT route (deprecated, 커널 2.6+ 미사용) */
    RTN_XRESOLVE,       /* 11: 외부 resolver에 위임 (미구현) */
    __RTN_MAX
};

상수	값	dst.input 콜백	dst.output 콜백	ICMP / errno
`RTN_UNICAST`	1	`ip_forward` 또는 `ip_local_deliver`	`ip_output`	—
`RTN_LOCAL`	2	`ip_local_deliver`	`ip_output`	—
`RTN_BROADCAST`	3	`ip_local_deliver`	`ip_output`	—
`RTN_ANYCAST`	4	`ip_local_deliver`	`ip_output`	—
`RTN_MULTICAST`	5	`ip_mr_input`	`ip_mc_output`	—
`RTN_BLACKHOLE`	6	`dst_discard`	`dst_discard_out`	`EINVAL` (로컬 송신자)
`RTN_UNREACHABLE`	7	`ip_error` (`ICMP_HOST_UNREACH`)	`ip_error`	`EHOSTUNREACH`
`RTN_PROHIBIT`	8	`ip_error` (`ICMP_PKT_FILTERED`)	`ip_error`	`EACCES`
`RTN_THROW`	9	조회 실패로 처리 → 다음 규칙 진행	—	`ENETUNREACH` (최종 실패 시)
`RTN_NAT`	10	deprecated	deprecated	—

코드 설명

RTN_BLACKHOLE: dst_discard는 패킷을 카운트 후 즉시 kfree_skb합니다. 로컬 소켓에는 EINVAL이 반환되므로, 애플리케이션이 "연결이 안 됩니다"가 아닌 "잘못된 인자" 오류를 볼 수 있습니다.
RTN_UNREACHABLE vs RTN_PROHIBIT: 둘 다 ip_error()를 호출하지만, 전달하는 ICMP 코드가 다릅니다. UNREACHABLE은 ICMP_HOST_UNREACH, PROHIBIT는 ICMP_PKT_FILTERED(관리상 금지)입니다.
RTN_THROW: 드롭이 아닙니다. FIB lookup이 "이 테이블에 경로 없음"을 반환하도록 만들고, RPDB가 다음 우선순위 규칙으로 계속 진행합니다. -EAGAIN이 신호입니다.
RTN_NAT: 커널 2.6 이전에 커널 내부 NAT 구현에 사용되었습니다. 현재는 Netfilter가 NAT를 전담하므로 완전히 deprecated 상태입니다.

RT_SCOPE_* — 경로 범위(Scope)

/* include/uapi/linux/rtnetlink.h */
enum rt_scope_t {
    RT_SCOPE_UNIVERSE = 0,   /* 전역 — 게이트웨이 경유 원격 목적지 */
    RT_SCOPE_SITE     = 200, /* 사이트 내부 (IPv6 deprecated) */
    RT_SCOPE_LINK     = 253, /* 링크 직접 도달 — 게이트웨이 불필요 */
    RT_SCOPE_HOST     = 254, /* 호스트 자신의 주소 (loopback 포함) */
    RT_SCOPE_NOWHERE  = 255, /* 도달 불가 */
};

상수	값	의미	게이트웨이 필요	전형적 사용처
`RT_SCOPE_UNIVERSE`	0	전역 원격 목적지	필요 (`via gw`)	기본 경로(`0.0.0.0/0`), 일반 unicast 경로
`RT_SCOPE_SITE`	200	사이트 내부 (거의 미사용)	선택적	IPv6 site-local 시절 유물, 현재 deprecated
`RT_SCOPE_LINK`	253	동일 링크 직접 도달	불필요	직접 연결 서브넷, on-link next hop 판정 기준
`RT_SCOPE_HOST`	254	호스트 자신의 주소	불필요	`local` 경로, loopback, 자신의 유니캐스트 주소
`RT_SCOPE_NOWHERE`	255	도달 불가	해당 없음	nexthop 상태 무효화 내부 표시용

Scope 계층 규칙: 게이트웨이(via)가 지정된 경로는 scope가 RT_SCOPE_LINK(253) 이상인 경로로 next hop 주소가 도달 가능한지 확인합니다. ip route add 10.0.0.0/24 via 192.168.1.1를 추가하면 커널은 192.168.1.1이 link scope 경로로 도달 가능한지 검사합니다. 이 검사에 실패하면 ENETUNREACH가 반환됩니다.

RTPROT_* — 경로 출처(Protocol)

/* include/uapi/linux/rtnetlink.h */
#define RTPROT_UNSPEC     0   /* 미지정 */
#define RTPROT_REDIRECT   1   /* ICMP Redirect (커널 자동) */
#define RTPROT_KERNEL     2   /* 커널 자동 생성 (주소 부여, local/connected) */
#define RTPROT_BOOT       3   /* 부팅 초기 설정 (ip-up 스크립트 등) */
#define RTPROT_STATIC     4   /* 관리자/정적 설정 */
#define RTPROT_GATED      8   /* GateD (레거시) */
#define RTPROT_RA         9   /* IPv6 Router Advertisement */
#define RTPROT_MRT        10  /* Merit MRT (레거시) */
#define RTPROT_ZEBRA      11  /* Zebra / Quagga / FRR */
#define RTPROT_BIRD       12  /* BIRD 라우팅 데몬 */
#define RTPROT_DNROUTED   13  /* DECnet 라우터 (레거시) */
#define RTPROT_XORP       14  /* XORP */
#define RTPROT_NTK        15  /* Netsukuku */
#define RTPROT_DHCP       16  /* DHCP 클라이언트 */
#define RTPROT_MROUTED    17  /* mrouted 멀티캐스트 데몬 */
#define RTPROT_KEEPALIVED 18  /* keepalived */
#define RTPROT_BABEL      42  /* Babel 라우팅 프로토콜 */
#define RTPROT_BGP        186 /* BGP (FRR 확장) */
#define RTPROT_ISIS       187 /* IS-IS */
#define RTPROT_OSPF       188 /* OSPF */
#define RTPROT_RIP        189 /* RIP */
#define RTPROT_EIGRP      192 /* EIGRP */

운영 포인트: proto 값은 커널이 경로 선택에 사용하지 않고, 관리·운영 용도의 출처 표시에만 쓰입니다. RTPROT_KERNEL(2)로 표시된 경로는 인터페이스 주소 할당 시 커널이 자동으로 추가하므로 직접 삭제하지 않는 것이 원칙입니다. RTPROT_BOOT(3) 경로는 FRR/Bird 같은 라우팅 데몬이 시작될 때 자체 경로로 교체하거나 무시하는 경우가 많습니다.

RTNH_F_* — Nexthop 플래그

/* include/uapi/linux/rtnetlink.h */
#define RTNH_F_DEAD        1   /* nexthop이 비활성 (인터페이스 down) */
#define RTNH_F_PERVASIVE   2   /* 서브트리 전체에 이 nexthop 적용 (multicast 내부) */
#define RTNH_F_ONLINK      4   /* nexthop을 on-link로 강제 처리 (scope link 검사 우회) */
#define RTNH_F_OFFLOAD     8   /* HW offload 완료 (switchdev/TC flower) */
#define RTNH_F_LINKDOWN    16  /* 인터페이스가 link-down 상태 */
#define RTNH_F_UNRESOLVED  32  /* nexthop 주소가 아직 ARP/NDP 미해결 */
#define RTNH_F_TRAP        64  /* HW에서 SW로 예외 trap */

플래그	의미	ECMP 동작	운영 포인트
`RTNH_F_DEAD`	nexthop 완전 비활성	ECMP 풀에서 제거	인터페이스 down 이벤트 시 자동 설정. `ip nexthop show`에서 `dead`로 표시
`RTNH_F_LINKDOWN`	링크만 down, 인터페이스 오브젝트는 유지	`fib_multipath_use_neigh=1` 시 제외	Carrier loss 감지. `RTNH_F_DEAD`와 함께 세트로 붙는 경우가 많음
`RTNH_F_ONLINK`	scope 검사 없이 on-link 강제	해당 없음	가상화(Virtualization)/터널 환경에서 게이트웨이가 directly connected가 아닐 때 사용
`RTNH_F_OFFLOAD`	HW 오프로드 완료	HW가 직접 처리	switchdev 드라이버가 FIB notifier를 통해 설정. SW 경로는 bypass
`RTNH_F_UNRESOLVED`	ARP/NDP 미해결	일시적 제외	nexthop 추가 직후 neigh resolution 전까지의 과도 상태
`RTNH_F_TRAP`	HW에서 SW로 예외 trap	SW 처리 경로 활성화	ICMP 생성, TTL expired 등 예외 패킷을 커널로 올릴 때

FIB_LOOKUP_* — fib_table_lookup() 플래그

/* include/net/ip_fib.h */
#define FIB_LOOKUP_NOREF           1  /* fib_info 참조 카운트 증가 생략 (RCU 내부) */
#define FIB_LOOKUP_IGNORE_LINKSTATE  2  /* LINKDOWN nexthop도 결과에 포함 */

/* 사용 예 — net/ipv4/fib_trie.c */
int fib_table_lookup(struct fib_table *tb,
                     const struct flowi4 *flp,
                     struct fib_result *res,
                     int fib_flags)
{
    /* FIB_LOOKUP_NOREF: res->fi의 refcount를 올리지 않음 */
    /* → RCU read lock 내부에서 단기 조회 시 성능 최적화 */
    /* FIB_LOOKUP_IGNORE_LINKSTATE: */
    /*   RTNH_F_LINKDOWN 설정된 nexthop도 후보에 포함 */
    /*   suppress_prefixlength 검사 우회 시 함께 사용 */
}

RTCF_* — rtable 캐시 플래그

/* include/uapi/linux/in_route.h */
#define RTCF_DEAD        0x00000010  /* 무효화된 캐시 엔트리 */
#define RTCF_ONLINK      0x00000020  /* next hop이 on-link */
#define RTCF_NOTIFY      0x00010000  /* Netlink NEWROUTE 이벤트 생성 */
#define RTCF_DIRECTDST   0x00020000  /* 목적지가 직접 연결 */
#define RTCF_REDIRECTED  0x00040000  /* ICMP Redirect로 재지정됨 */
#define RTCF_TPROXY      0x00080000  /* Transparent proxy 경로 */
#define RTCF_LOCAL       0x00200000  /* 로컬 배달 경로 */
#define RTCF_BROADCAST   0x00400000  /* 브로드캐스트 */
#define RTCF_MULTICAST   0x00800000  /* 멀티캐스트 */
#define RTCF_DNAT        0x01000000  /* Destination NAT 적용됨 */
#define RTCF_SNAT        0x02000000  /* Source NAT 적용됨 */
#define RTCF_DOREDIRECT  0x04000000  /* ICMP Redirect 전송 예정 */
#define RTCF_DIRECTSRC   0x08000000  /* 소스가 직접 연결 */
#define RTCF_NAT         (RTCF_DNAT|RTCF_SNAT)
#define RTCF_VALVE       0x10000000  /* 단방향 밸브 (브로드캐스트 억제) */

/* struct rtable에서의 위치 */
struct rtable {
    struct dst_entry  dst;            /* 공통 dst_entry */
    int               rt_genid;       /* FIB 변경 세대 번호 (무효화 감지) */
    __be32            rt_dst;         /* 목적지 주소 */
    __be32            rt_src;         /* 소스 주소 */
    __be32            rt_gw4;         /* IPv4 게이트웨이 주소 */
    u8                rt_tos;
    u8                rt_type;        /* RTN_UNICAST, RTN_LOCAL 등 */
    u8                rt_uses_gateway; /* 게이트웨이 경유 여부 */
    u32               rt_flags;       /* RTCF_* 비트 조합 */
};

코드 설명

RTCF_DEAD: fib_validate_source()나 nexthop 갱신 시 기존 rtable 엔트리를 무효화할 때 설정합니다. dst_check()가 이 플래그를 확인하여 새 경로 조회를 강제합니다.
RTCF_DOREDIRECT: 패킷이 들어온 인터페이스와 나가는 인터페이스가 동일하고 소스가 동일 링크일 때, ip_rt_send_redirect()가 이 플래그를 보고 ICMP Redirect를 전송합니다.
RTCF_LOCAL: ip_local_deliver() 경로임을 나타냅니다. rt_type == RTN_LOCAL일 때 설정됩니다.
RTCF_TPROXY: Netfilter의 TPROXY 타겟이 설정한 플래그입니다. SO_TRANSPARENT 소켓으로 트래픽을 리디렉션하는 경우에 사용됩니다.
rt_genid: FIB 경로 변경 시 전역 세대 번호가 증가합니다. rtable의 rt_genid가 현재 세대 번호와 다르면 캐시 엔트리가 무효화됩니다. 이로써 경로 변경이 즉각 반영됩니다.

Policy Routing

일상 비유 — VIP 전용 엘리베이터: 일반 고객은 1층 로비에서 안내판을 따르지만, VIP 카드를 가진 고객은 전용 엘리베이터로 다른 층에 갑니다. Policy Routing도 마찬가지로, 소스 주소나 fwmark 같은 "자격 조건"에 따라 다른 라우팅 테이블을 선택합니다. 목적지만으로 경로를 결정하는 기본 라우팅의 한계를 넘어서는 방법입니다.

Policy Routing은 목적지 주소뿐 아니라 소스 주소, fwmark, 입력 인터페이스 등 다양한 조건에 따라 다른 라우팅 테이블을 선택합니다.

ip rule 규칙

# 현재 규칙 조회
ip rule show
# 0:     from all lookup local
# 32766: from all lookup main
# 32767: from all lookup default

# 규칙 추가: 소스 주소 기반
ip rule add from 10.0.0.0/24 table 100 priority 1000

# fwmark 기반 (netfilter와 연동)
iptables -t mangle -A OUTPUT -p tcp --dport 80 -j MARK --set-mark 1
ip rule add fwmark 1 table 200 priority 2000

# 입력 인터페이스 기반
ip rule add iif eth1 table 300 priority 3000

# 목적지 주소 기반
ip rule add to 203.0.113.0/24 table 400

# uidrange 기반 (특정 사용자의 트래픽)
ip rule add uidrange 1000-1000 table 500

# 복합 조건
ip rule add from 10.0.0.0/24 to 172.16.0.0/12 fwmark 0x10/0xff table 600

# 규칙 삭제
ip rule del priority 1000

커널 내부: fib_rules_ops

/* net/core/fib_rules.c */
/* fib_rules_ops: 프로토콜별 라우팅 규칙 구현 */

struct fib_rules_ops {
    int  family;  /* AF_INET, AF_INET6, AF_DECnet */
    int  (*action)(struct fib_rule *, struct flowi *, int,
                   struct fib_lookup_arg *);
    int  (*match)(struct fib_rule *, struct flowi *, int);
    /* ... */
};

/* 라우팅 조회 과정:
 * 1. fib_rules_lookup() → 규칙 리스트를 priority 오름차순으로 순회
 * 2. 각 규칙에 대해 match() 호출 (from/to/mark/iif 검사)
 * 3. 매칭 시 action() 호출 → 해당 테이블에서 fib_table_lookup()
 * 4. 결과 없으면 (throw) 다음 규칙으로 계속
 */

자주 쓰는 selector 와 action

항목	예시	의미	실무 포인트
`from` / `to`	`ip rule add from 10.0.0.0/24 table 100`	소스/목적지 접두사 기준 분기	멀티홈, source-based routing, VRF 외부 누수 방지에 자주 사용
`fwmark`	`ip rule add fwmark 0x10/0xff table 200`	Netfilter/nftables가 찍은 mark 기준	VPN split tunnel, transparent proxy, 서비스 체이닝에 적합
`iif` / `oif`	`ip rule add iif eth1 table 300`	입력/출력 인터페이스 기준	로컬 생성 트래픽과 포워딩 트래픽을 분리할 때 유용
`uidrange`	`ip rule add uidrange 1000-1999 table 500`	프로세스 소유자 기준	호스트 기반 멀티테넌시, 빌드/배포 경로 분리
`l3mdev`	`ip rule show \| grep l3mdev`	VRF master 디바이스와 연계된 조회	현대 VRF 구현의 핵심. per-VRF rule 다발 대신 공통 규칙 하나로 동작
`goto`	`ip rule add pref 100 goto 1000`	RPDB를 다른 priority 지점으로 점프	규칙 블록을 계층화할 때 유용하지만, 과도하면 운영 가독성이 급격히 나빠짐
`suppress_prefixlength`	`ip rule add table main suppress_prefixlength 0`	특정 길이 이하 접두사 결과를 무시	기본 경로 누수를 막고, policy table 우선 적용을 강제할 때 사용

💡

Policy Routing 활용 예:

멀티홈(dual ISP): 소스 주소에 따라 다른 ISP 게이트웨이 사용
VPN split tunneling: fwmark로 VPN/직접 경로 분리
QoS 기반 라우팅: TOS/DSCP 값에 따라 경로 분리
컨테이너 네트워킹: veth 입력에 따라 별도 라우팅 테이블

소스: fib_rules_lookup() — RPDB 내부 구현

fib_rules_lookup()은 Policy Routing Database(RPDB) 순회의 핵심 함수입니다. net/core/fib_rules.c에 구현되며, 프로토콜별 콜백(fib_rules_ops)을 통해 IPv4/IPv6/MPLS 모두에서 공통으로 사용됩니다.

struct fib_rule — 규칙 필드 구조

/* include/net/fib_rules.h */
struct fib_rule {
    struct list_head    list;          /* 우선순위 오름차순 연결 리스트 */
    int                 iifindex;      /* 입력 인터페이스 인덱스 (0 = 무관) */
    int                 oifindex;      /* 출력 인터페이스 인덱스 */
    u32                 mark;          /* fwmark 값 */
    u32                 mark_mask;     /* fwmark 마스크 */
    u32                 flags;         /* FIB_RULE_PERMANENT, FIB_RULE_INVERT 등 */
    u32                 table;         /* 조회할 라우팅 테이블 번호 */
    u8                  action;        /* FR_ACT_* 액션 코드 */
    u8                  l3mdev;        /* L3 master device 기반 규칙 여부 */
    u32                 target;        /* FR_ACT_GOTO의 목표 priority */
    __be64              tun_id;        /* 터널 ID (VRF/overlay 연동) */
    struct fib_rule    *ctarget;       /* goto 목표 규칙 포인터 (캐시됨) */
    struct net         *fr_net;        /* network namespace */
    atomic_t            refcnt;
    int                 suppress_ifgroup;      /* 특정 인터페이스 그룹 결과 억제 */
    int                 suppress_prefixlength; /* 이 길이 이하 prefix 결과 억제 */
    char                iifname[IFNAMSIZ];
    char                oifname[IFNAMSIZ];
    struct rcu_head     rcu;
    struct net_addr     src;           /* 소스 주소 선택자 */
    u8                  src_len;
    struct net_addr     dst;           /* 목적지 주소 선택자 */
    u8                  dst_len;
    u8                  tos;           /* IPv4 TOS/DSCP 기반 선택 */
    u8                  ip_proto;      /* IP 프로토콜 번호 선택자 */
    __be16              sport_range[2]; /* 소스 포트 범위 */
    __be16              dport_range[2]; /* 목적지 포트 범위 */
    struct uid_range    uid_range;     /* 프로세스 UID 범위 선택자 */
};

fib_rules_lookup() — 우선순위 순회

/* net/core/fib_rules.c */
int fib_rules_lookup(struct fib_rules_ops *ops,
                     struct flowi *fl,
                     int flags,
                     struct fib_lookup_arg *arg)
{
    struct fib_rule *rule;
    int err;

    rcu_read_lock();

    /* priority 오름차순으로 정렬된 연결 리스트를 선형 순회 */
    list_for_each_entry_rcu(rule, &ops->rules_list, list) {
jumped:
        /* 1단계: 선택자 매칭 */
        if (!fib_rule_match(rule, ops, fl, flags, arg))
            continue;

        /* 2단계: GOTO 처리 */
        if (rule->action == FR_ACT_GOTO) {
            struct fib_rule *target = rule->ctarget;
            if (target == NULL) {
                err = -EAGAIN;
                goto out;
            }
            rule = target;
            goto jumped;  /* 목표 priority 지점부터 재개 */
        } else if (rule->action == FR_ACT_NOP) {
            continue;     /* 다음 규칙으로 */
        }

        /* 3단계: action 콜백 — 실제 테이블 조회 수행 */
        err = ops->action(rule, fl, flags, arg);

        /* 4단계: suppress 검사 — prefixlength/ifgroup 억제 */
        if (!err && ops->suppress &&
            ops->suppress(rule, flags, arg))
            continue;  /* 결과 버리고 다음 규칙으로 */

        if (err != -EAGAIN)
            break;     /* 결과 확정 또는 치명적 오류 */
        /* -EAGAIN: 이 테이블에서 경로 없음 → 계속 순회 */
    }
out:
    rcu_read_unlock();
    return err;
}

fib_rule_match() — 선택자 매칭

/* net/core/fib_rules.c */
static int fib_rule_match(struct fib_rule *rule,
                          struct fib_rules_ops *ops,
                          struct flowi *fl,
                          int flags,
                          struct fib_lookup_arg *arg)
{
    int ret = 0;

    /* 입력 인터페이스 검사 */
    if (rule->iifindex && (rule->iifindex != fl->flowi_iif))
        goto out;

    /* 출력 인터페이스 검사 */
    if (rule->oifindex && (rule->oifindex != fl->flowi_oif))
        goto out;

    /* fwmark 검사: (패킷 mark XOR 규칙 mark) AND mask == 0이어야 매칭 */
    if ((rule->mark ^ fl->flowi_mark) & rule->mark_mask)
        goto out;

    /* UID 범위 검사 (로컬 생성 패킷만 해당) */
    if (rule->uid_range.start || rule->uid_range.end) {
        if (!fib_rule_uid_range_match(rule, fl->flowi_uid))
            goto out;
    }

    /* L3mdev (VRF master device) 검사 */
    if (rule->l3mdev && !l3mdev_fib_rule_match(rule->fr_net, fl, arg))
        goto out;

    /* 프로토콜별 주소 선택자 매칭 (IPv4: from/to prefix) */
    ret = ops->match(rule, fl, flags);
out:
    /* FIB_RULE_INVERT 플래그: 매칭 결과 반전 */
    return (rule->flags & FIB_RULE_INVERT) ? !ret : ret;
}

fib4_rule_action() — 테이블 조회 수행

/* net/ipv4/fib_rules.c */
static int fib4_rule_action(struct fib_rule *rule,
                            struct flowi *flp,
                            int flags,
                            struct fib_lookup_arg *arg)
{
    int err = -EAGAIN;
    struct fib_table *tbl;
    int tb_flags = 0;

    switch (rule->action) {
    case FR_ACT_TO_TBL:       /* 지정된 테이블 조회 (가장 일반적) */
        break;

    case FR_ACT_UNREACHABLE:  /* 즉시 ENETUNREACH 반환 */
        return -ENETUNREACH;

    case FR_ACT_PROHIBIT:     /* 즉시 EACCES 반환 */
        return -EACCES;

    case FR_ACT_BLACKHOLE:    /* 즉시 EINVAL 반환 */
    default:
        return -EINVAL;
    }

    if (flags & FIB_LOOKUP_IGNORE_LINKSTATE)
        tb_flags |= FIB_LOOKUP_IGNORE_LINKSTATE;

    tbl = fib_get_table(rule_net(rule), rule->table);
    if (tbl)
        err = fib_table_lookup(tbl, &flp->u.ip4,
                               (struct fib_result *)arg->result,
                               tb_flags | FIB_LOOKUP_NOREF);

    if (err == -EAGAIN)
        return err;  /* 테이블에 경로 없음 → 다음 규칙 계속 */

    arg->table = rule->table;
    return err;  /* 0(성공) 또는 오류 코드 */
}

suppress_prefixlength / suppress_ifgroup 동작

/* net/ipv4/fib_rules.c — fib4_rule_suppress() */
static int fib4_rule_suppress(struct fib_rule *rule,
                               int flags,
                               struct fib_lookup_arg *arg)
{
    struct fib_result *result = (struct fib_result *)arg->result;
    struct net_device *dev = NULL;

    if (result->fi) {
        struct fib_nhc *nhc = fib_info_nhc(result->fi, 0);
        dev = nhc ? nhc->nhc_dev : NULL;
    }

    /* suppress_prefixlength: 결과 prefix 길이가 이 값보다 짧거나 같으면 억제 */
    /* 예: suppress_prefixlength 0 → default route (prefixlen==0) 무시 */
    if (rule->suppress_prefixlength >= 0 &&
        result->prefixlen <= (u32)rule->suppress_prefixlength)
        goto suppress;

    /* suppress_ifgroup: 결과 인터페이스 그룹이 일치하면 억제 */
    if (rule->suppress_ifgroup != -1 && dev &&
        dev->group == (u32)rule->suppress_ifgroup)
        goto suppress;

    return 0;

suppress:
    /* 억제 — 이 테이블의 조회 결과를 버리고 다음 규칙으로 계속 */
    fib_result_reset(result);
    return 1;
}

FR_ACT_* 액션	값	동작	ip rule 명령
`FR_ACT_TO_TBL`	1	지정 테이블 조회 후 결과 반환	`ip rule add table N`
`FR_ACT_GOTO`	2	다른 priority 지점으로 점프	`ip rule add goto 1000`
`FR_ACT_NOP`	3	아무것도 안 하고 다음 규칙으로	`ip rule add nop`
`FR_ACT_BLACKHOLE`	6	즉시 EINVAL 반환	`ip rule add blackhole`
`FR_ACT_UNREACHABLE`	7	즉시 ENETUNREACH 반환	`ip rule add unreachable`
`FR_ACT_PROHIBIT`	8	즉시 EACCES 반환	`ip rule add prohibit`

코드 설명

선형 순회 성능: 규칙 리스트는 priority 오름차순 연결 리스트입니다. 규칙 수가 많아지면 패킷당 탐색 비용이 선형으로 증가합니다. 현대 VRF는 l3mdev 규칙 하나로 전체 VRF를 처리해 규칙 수를 최소화합니다.
FR_ACT_GOTO 점프: 목표 규칙 포인터(ctarget)는 규칙 추가 시점에 검색·캐시됩니다. 목표 규칙이 삭제되면 ctarget이 NULL이 되고 EAGAIN을 반환합니다.
-EAGAIN의 의미: FIB 조회에서 "경로 없음"을 나타내는 신호입니다. 이 값을 받으면 fib_rules_lookup()은 다음 규칙으로 계속 진행합니다. 모든 규칙이 소진되면 최종적으로 ENETUNREACH를 반환합니다.
suppress_prefixlength 실용 사례: VPN 클라이언트에서 ip rule add table vpn_table suppress_prefixlength 0을 쓰면, vpn_table에서 기본 경로(prefix 길이 0)를 찾아도 무시하고 main table로 넘어갑니다. 의도치 않은 기본 경로 선택을 방지합니다.
RCU 보호: 규칙 리스트는 RCU로 보호됩니다. 읽기는 rcu_read_lock() 안에서 수행되므로 패킷 처리 경로에서 잠금 없이 규칙을 순회할 수 있습니다.

RPDB 조회 흐름 다이어그램

Policy Routing은 규칙(Rule) 리스트를 선형으로 순회하면서 각 규칙의 selector가 매칭되면 해당 테이블을 조회합니다. 아래 다이어그램은 패킷이 RPDB를 통과하는 전체 흐름을 보여줍니다.

RPDB는 priority 오름차순으로 규칙을 순회하며, 각 규칙의 selector가 flowi와 매칭되면 지정 테이블에서 FIB 조회를 수행합니다. 결과가 없거나 throw이면 다음 규칙으로 계속 진행합니다.

실전 구성: 다중 ISP (Dual-Homing) Policy-Based Routing

가장 흔한 Policy Routing 사용 사례는 두 개 이상의 ISP를 사용하는 환경에서 소스 주소에 따라 다른 게이트웨이를 선택하는 것입니다. 이 구성에서는 각 ISP에서 할당받은 IP 대역의 트래픽이 해당 ISP 게이트웨이를 통해 나가도록 보장합니다.

### 다중 ISP Policy-Based Routing 실전 구성 ###
# 시나리오: ISP_A (eth0, 203.0.113.0/24, gw 203.0.113.1)
#           ISP_B (eth1, 198.51.100.0/24, gw 198.51.100.1)
#           내부망 (eth2, 10.0.0.0/24)

# 1. 커스텀 테이블 이름 등록
echo "100 isp_a" >> /etc/iproute2/rt_tables
echo "200 isp_b" >> /etc/iproute2/rt_tables

# 2. 각 ISP 테이블에 기본 경로 설정
ip route add default via 203.0.113.1 dev eth0 table isp_a
ip route add 203.0.113.0/24 dev eth0 scope link table isp_a
ip route add 10.0.0.0/24 dev eth2 scope link table isp_a

ip route add default via 198.51.100.1 dev eth1 table isp_b
ip route add 198.51.100.0/24 dev eth1 scope link table isp_b
ip route add 10.0.0.0/24 dev eth2 scope link table isp_b

# 3. RPDB 규칙: 소스 주소 기반 라우팅
ip rule add from 203.0.113.0/24 table isp_a priority 100
ip rule add from 198.51.100.0/24 table isp_b priority 200

# 4. main 테이블에 기본 경로 (내부 생성 트래픽 폴백)
ip route add default via 203.0.113.1 dev eth0 metric 100
ip route add default via 198.51.100.1 dev eth1 metric 200

# 5. fwmark 기반: 특정 서비스 트래픽을 ISP_B로 강제
iptables -t mangle -A OUTPUT -p tcp --dport 443 -m owner --uid-owner 1001 \
  -j MARK --set-mark 0x2
ip rule add fwmark 0x2 table isp_b priority 50

# 6. suppress_prefixlength 활용: 기본 경로 누수 방지
# ISP 테이블에서 기본 경로만 매칭되면 무시하고 main으로 넘어감
ip rule add from 203.0.113.0/24 table isp_a suppress_prefixlength 0 priority 100
# → 기본 경로(prefix /0)는 억제, /1 이상만 유효

# 7. 검증
ip route get 8.8.8.8 from 203.0.113.10     # ISP_A 경로 확인
ip route get 8.8.8.8 from 198.51.100.10    # ISP_B 경로 확인
ip route get 8.8.8.8 mark 0x2              # fwmark 기반 확인

VRF 연동 Policy Routing

현대 Linux 커널(4.8+)에서는 VRF를 사용하면 per-VRF 규칙을 개별로 추가할 필요 없이 l3mdev 규칙 하나로 모든 VRF를 처리할 수 있습니다.

### VRF 기반 멀티 테넌트 라우팅 구성 ###

# 1. VRF 디바이스 생성
ip link add vrf-red type vrf table 100
ip link add vrf-blue type vrf table 200
ip link set vrf-red up
ip link set vrf-blue up

# 2. 인터페이스를 VRF에 할당
ip link set eth1 master vrf-red
ip link set eth2 master vrf-blue

# 3. l3mdev 규칙 확인 (커널이 자동 생성)
ip rule show
# 0:     from all lookup local
# 1000:  from all lookup [l3mdev-table]  ← l3mdev 규칙
# 32766: from all lookup main
# 32767: from all lookup default

# 4. VRF별 라우팅 테이블에 경로 설정
ip route add default via 192.168.1.1 dev eth1 table 100
ip route add default via 192.168.2.1 dev eth2 table 200

# 5. VRF exec: VRF 컨텍스트에서 명령 실행
ip vrf exec vrf-red ping 8.8.8.8
ip vrf exec vrf-red ip route show
ip vrf exec vrf-blue curl https://example.com

# 6. BGP/FRR 연동: VRF-aware 라우팅 데몬
# /etc/frr/frr.conf 예시:
# router bgp 65001 vrf vrf-red
#   neighbor 192.168.1.1 remote-as 65000
#   address-family ipv4 unicast
#     redistribute connected
#   exit-address-family

BGP/OSPF와 커널 FIB 동기화 (FRR 연동)

FRRouting(FRR)은 Zebra 데몬을 통해 프로토콜 데몬(bgpd, ospfd)이 계산한 경로를 커널 FIB에 Netlink로 설치합니다. 커널 관점에서 FRR이 설치한 경로는 proto zebra(또는 proto bgp/proto ospf)로 표시됩니다.

/* FRR → 커널 FIB 동기화 경로 (Zebra 데몬 내부) */

/* 1. bgpd/ospfd가 최적 경로를 계산하면 Zebra에 통보 */
/*    bgpd → ZAPI (Zebra API) 메시지 → zebra 데몬 */

/* 2. Zebra는 커널에 Netlink RTM_NEWROUTE 전송 */
/* net/ipv4/fib_frontend.c — inet_rtm_newroute() */
static int inet_rtm_newroute(struct sk_buff *skb,
                              struct nlmsghdr *nlh,
                              struct netlink_ext_ack *extack)
{
    struct fib_config cfg;

    /* Netlink 메시지를 fib_config로 파싱 */
    err = rtm_to_fib_config(skb, nlh, &cfg, extack);
    /* cfg.fc_protocol = RTPROT_BGP 또는 RTPROT_OSPF */

    /* FIB 테이블에 경로 추가 */
    err = fib_table_insert(net, tb, &cfg, extack);

    /* FIB notifier 호출 → switchdev, BPF 통지 */
    return err;
}

/* 3. 경로 프로토콜 상수 (include/uapi/linux/rtnetlink.h) */
#define RTPROT_KERNEL   2   /* 커널 자동 생성 경로 */
#define RTPROT_BOOT     3   /* 부팅 시 설정 */
#define RTPROT_STATIC   4   /* 관리자 수동 설정 */
#define RTPROT_ZEBRA   11   /* Zebra/FRR 설치 */
#define RTPROT_BGP    186   /* BGP 경로 */
#define RTPROT_OSPF   188   /* OSPF 경로 */

### FRR + 커널 FIB 운영 검증 ###

# FRR이 설치한 경로 확인
ip route show proto bgp
ip route show proto ospf
ip route show proto zebra

# 모든 프로토콜별 경로 수 확인
ip route show table all | awk '{print $NF}' | sort | uniq -c | sort -rn

# FRR Zebra와 커널 FIB 동기화 상태 확인
vtysh -c "show ip route summary"
vtysh -c "show ip route"

# 커널 FIB와 FRR RIB 불일치 감지
# (FRR RIB에는 있지만 커널 FIB에 없는 경로)
diff <(vtysh -c "show ip route json" | jq -r '.[].prefix') \
     <(ip route show | awk '{print $1}') | head -20

# Netlink 경로 변경 실시간 모니터링
ip -ts monitor route
# [2026-04-04 10:30:15] 10.1.0.0/24 via 192.168.1.2 dev eth0 proto bgp

# FRR에서 nexthop 객체 사용 (FRR 8.4+)
vtysh -c "show nexthop-group rib"

# BFD (Bidirectional Forwarding Detection) 상태 확인
vtysh -c "show bfd peers"

FRR과 커널 FIB 동기화 주의점:

RTPROT 분리: FRR은 RTPROT_BGP(186), RTPROT_OSPF(188) 등 프로토콜별 상수를 사용합니다. 이를 통해 관리자 경로(proto static)와 데몬 경로를 구분할 수 있습니다.
NLM_F_REPLACE: FRR은 경로 업데이트 시 NLM_F_REPLACE 플래그를 사용하여 원자적으로 교체합니다. 삭제 후 추가 방식보다 안전합니다.
nexthop 객체 연동: FRR 8.4+는 커널 nexthop 객체를 직접 관리할 수 있어, BGP best path 변경 시 nexthop만 교체하면 모든 참조 경로가 즉시 업데이트됩니다.
graceful restart: FRR 재시작(Reboot) 시 기존 경로는 커널 FIB에 유지됩니다. FRR이 재수렴하면서 불필요한 경로만 정리합니다.

IPv6 라우팅

IPv4를 이해했다면 80%는 같습니다. IPv6 라우팅의 기본 원리(FIB 조회 → dst_entry 생성 → 패킷 전달)는 IPv4와 동일합니다. 핵심 차이는 세 가지입니다: ① 128비트 주소로 인해 trie 구조가 더 깊어지고, ② Router Advertisement(RA)로 경로가 자동 설치되며, ③ 소스 주소 기반 라우팅이 네이티브로 지원됩니다. 이 세 가지만 이해하면 나머지는 자연스럽게 따라옵니다.

IPv6 라우팅은 IPv4와 같은 "destination lookup" 원칙을 따르지만, 128비트 주소, RA(Router Advertisement)로 설치되는 경로, source-specific route, RFC 6724 기반 소스 주소 선택 때문에 운영 체감이 더 복잡합니다.

FIB6 구조

/* net/ipv6/ip6_fib.c */
/* IPv6는 fib6_table / fib6_node 기반 prefix tree를 사용 */
/* IPv4 LC-trie 구현을 그대로 재사용하지는 않음 */

struct fib6_info {
    struct fib6_table   *fib6_table;
    struct fib6_info    *fib6_nsiblings; /* ECMP siblings */
    struct fib6_nh      *fib6_nh;        /* nexthop */
    struct rt6_key      fib6_dst;        /* 목적지 접두사 */
    struct rt6_key      fib6_src;        /* 소스 접두사 (optional) */
    u32                fib6_metric;     /* 경로 메트릭 */
    u32                fib6_flags;      /* RTF_GATEWAY, RTF_REJECT, ... */
    unsigned long      expires;         /* RA 기반 경로 만료 시간 */
};

IPv6 라우팅 특성

# IPv6 라우팅 테이블
ip -6 route show
# ::1 dev lo proto kernel metric 256
# 2001:db8:1::/64 dev eth0 proto kernel metric 256 expires 86400sec
# fe80::/64 dev eth0 proto kernel metric 256
# default via fe80::1 dev eth0 proto ra metric 1024 expires 1800sec

# RA(Router Advertisement)에 의한 자동 경로
# proto ra = 라우터 광고로 설치된 경로 (expires 있음)
# proto kernel = 인터페이스 설정 시 자동 생성

# IPv6 경로 추가
ip -6 route add 2001:db8:2::/48 via 2001:db8:1::1
ip -6 route add 2001:db8:2::/48 dev eth0  # on-link

# link-local 게이트웨이 (일반적 구성)
ip -6 route add default via fe80::1 dev eth0

# IPv6 NDP (Neighbor Discovery) — ARP 대체
ip -6 neigh show
# fe80::1 dev eth0 lladdr 00:11:22:33:44:55 router REACHABLE

# RA 수신 제어
sysctl net.ipv6.conf.eth0.accept_ra=2    # 포워딩 활성 시에도 RA 수신
sysctl net.ipv6.conf.eth0.autoconf=1     # SLAAC 주소 자동 구성

ℹ️

IPv6 vs IPv4 라우팅 차이점:

NDP vs ARP: IPv6는 ICMPv6 기반 NDP 사용 (더 효율적, 보안 확장 가능)
RA 기반 자동 구성: IPv6는 라우터가 접두사와 게이트웨이를 광고
소스 주소 선택: IPv6 인터페이스에 여러 주소 존재 — 소스 주소 선택 알고리즘(RFC 6724) 중요
FIB 구조: IPv6는 fib6_node 기반 prefix tree, IPv4는 LC-trie (자료구조와 튜닝 포인트가 다름)
경로 만료: RA 경로는 expires 타이머(Timer)로 자동 만료/갱신

소스: fib6_table_lookup() — IPv6 FIB 조회 내부

IPv6 FIB 조회는 IPv4 LC-trie를 그대로 사용하지 않습니다. net/ipv6/ip6_fib.c에 구현된 fib6_node 기반 라딕스 트리(Radix Tree)를 사용하며, 소스 주소 기반 라우팅(Source-Specific Routing)을 네이티브로 지원합니다.

진입점: ip6_route_output() / ip6_route_input()

/* net/ipv6/route.c */

/* 로컬 생성 패킷 (SOCK_DGRAM, SOCK_STREAM 송신) */
struct dst_entry *ip6_route_output(struct net *net,
                                   const struct sock *sk,
                                   struct flowi6 *fl6)
{
    struct dst_entry *dst;

    rcu_read_lock();
    /* fib6_rule_lookup() → RPDB 순회 → ip6_pol_route_output() 콜백 */
    dst = fib6_rule_lookup(net, fl6,
                           NULL,
                           RT6_LOOKUP_F_HAS_SADDR,
                           ip6_pol_route_output);
    rcu_read_unlock();
    return dst;
}

/* 포워딩 패킷 (외부에서 수신) */
int ip6_route_input(struct sk_buff *skb)
{
    const struct ipv6hdr *iph = ipv6_hdr(skb);
    struct net *net = dev_net(skb->dev);
    struct flowi6 fl6 = {
        .flowi6_iif   = skb->dev->ifindex,
        .daddr        = iph->daddr,
        .saddr        = iph->saddr,
        .flowlabel    = ip6_flowinfo(iph),
        .flowi6_mark  = skb->mark,
        .flowi6_proto = iph->nexthdr,
    };
    return fib6_rule_lookup(net, &fl6, skb,
                             RT6_LOOKUP_F_HAS_SADDR,
                             ip6_pol_route_input);
}

fib6_node 트리 구조 — IPv4 LC-trie와의 차이

/* include/net/ip6_fib.h */

/* IPv6 FIB 노드: 라딕스 트리의 내부/잎 노드 */
struct fib6_node {
    struct fib6_node   *parent;
    struct fib6_node   *left;     /* 비트 0 자식 */
    struct fib6_node   *right;    /* 비트 1 자식 */
    struct fib6_info   *leaf;     /* 이 노드에 설치된 경로 체인 */
    __u16               fn_bit;   /* 이 노드가 검사하는 비트 위치 (0..127) */
    __u16               fn_flags; /* RTN_ROOT, RTN_RTINFO 등 */
    struct fib6_node   *subtree;  /* 소스 주소 기반 라우팅 서브트리 */
};

/* IPv4 LC-trie vs IPv6 fib6_node 핵심 차이:
 *
 * IPv4 LC-trie (net/ipv4/fib_trie.c):
 *   - Level Compressed trie: 여러 비트를 한 노드에서 처리
 *   - 메모리 사용↑, 조회 속도↑ (캐시 친화적)
 *   - 노드 타입: tnode(내부) + leaf(잎)
 *
 * IPv6 fib6_node (net/ipv6/ip6_fib.c):
 *   - 표준 바이너리 라딕스 트리 (1비트 per 노드)
 *   - subtree 포인터로 소스 주소 기반 서브트리 지원 (IPv4 없음)
 *   - fib6_info 체인: 동일 prefix 여러 경로를 linked list로 연결
 *   - ECMP: fib6_info->fib6_nsiblings 체인으로 구현
 */

fib6_lookup_1() — 라딕스 트리 탐색

/* net/ipv6/ip6_fib.c */
static struct fib6_node *fib6_lookup_1(struct fib6_node *root,
                                        struct rt6key *args,
                                        int nargs)
{
    struct fib6_node *fn;
    int dir;

    /* 루트에서 시작해 비트 값에 따라 left/right 이동 (하향) */
    fn = root;
    for (;;) {
        struct fib6_node *next;

        dir = addr_bit_set(&args[0].addr, fn->fn_bit);
        next = dir ? fn->right : fn->left;
        if (next) {
            fn = next;
            continue;
        }
        break;
    }

    /* LPM 역방향 탐색: 올라가면서 가장 긴 매칭 prefix 찾기 */
    while (fn) {
        if (fib6_node_match(fn, args, nargs))
            return fn;  /* 매칭된 노드 반환 */
        fn = fn->parent;
    }
    return NULL;
}

/* subtree가 있는 경우 소스 주소로 추가 매칭 (소스 특화 경로) */
static struct fib6_info *fib6_find_prefix(struct net *net,
                                            struct fib6_table *table,
                                            struct fib6_node *fn,
                                            struct rt6key *src_key)
{
    /* fn->subtree가 존재하면: 소스 주소로 서브트리에서 추가 LPM */
    if (fn->subtree && src_key) {
        struct fib6_node *st;
        st = fib6_lookup_1(fn->subtree, src_key, 1);
        if (st && st->leaf)
            return st->leaf;  /* 소스 기반 경로가 우선 */
    }
    return fn->leaf;  /* 목적지 기반 경로 폴백 */
}

rt6_info / fib6_info 관계

/* include/net/ip6_fib.h */

/* fib6_info: FIB의 영속적 경로 정보 (라우팅 테이블에 저장) */
struct fib6_info {
    struct fib6_table   *fib6_table;
    struct fib6_info    *fib6_nsiblings;  /* ECMP 동일 비용 경로 체인 */
    struct fib6_nh      *fib6_nh;         /* nexthop 정보 */
    struct rt6key        fib6_dst;         /* 목적지 IPv6 주소/prefix 길이 */
    struct rt6key        fib6_src;         /* 소스 IPv6 주소/prefix 길이 */
    u32                  fib6_metric;      /* 경로 메트릭 */
    u32                  fib6_flags;       /* RTF_GATEWAY, RTF_REJECT 등 */
    unsigned long        expires;          /* RA 기반 경로 만료 시간 */
    u8                   fib6_protocol;    /* RTPROT_* */
    u8                   fib6_type;        /* RTN_* */
};

/* rt6_info: 패킷 처리 경로의 캐시 표현 (per-packet, RCU 수명) */
struct rt6_info {
    struct dst_entry    dst;          /* 공통 dst_entry (input/output 콜백) */
    struct fib6_info    *from;         /* 원본 fib6_info 참조 (RCU 보호) */
    struct in6_addr     rt6i_dst;      /* 목적지 주소 */
    struct in6_addr     rt6i_src;      /* 소스 주소 */
    struct in6_addr     rt6i_gateway;  /* 게이트웨이 주소 */
    u32                 rt6i_flags;    /* RTF_* 플래그 */
};

항목	IPv4 (fib_table_lookup)	IPv6 (fib6_table_lookup)
자료구조	LC-trie (Level Compressed)	바이너리 라딕스 트리
영속 경로 구조체	`fib_info`	`fib6_info`
패킷 경로 구조체	`rtable`	`rt6_info`
ECMP 구현	nexthop 그룹 객체	`fib6_nsiblings` 체인
소스 기반 라우팅	미지원 (RPDB로 우회)	네이티브 (`subtree` 포인터)
경로 만료	없음	`expires` (RA 기반 타이머)
RPDB 연동	`fib4_rule_action()`	`fib6_rule_action()`
경로 없음 표현	`ERR_PTR(-ENETUNREACH)`	`net->ipv6.ip6_null_entry`

코드 설명

IPv4 LC-trie vs IPv6 라딕스 트리: IPv4는 Level-Compressed trie로 여러 비트를 한 노드에서 처리해 조회 속도가 빠르지만 메모리를 더 씁니다. IPv6는 단순 바이너리 라딕스 트리를 사용합니다. 128비트 주소에 LC-trie를 적용하면 메모리 폭발이 발생할 수 있고, 실제 IPv6 경로는 대부분 /64 prefix에 집중되기 때문입니다.
fib6_null_entry: 경로를 찾지 못했을 때 반환하는 특수 엔트리입니다. dst.input = ip6_pkt_discard로 설정되어 있어 해당 패킷은 드롭됩니다. IPv4와 달리 NULL 포인터 대신 유효한 구조체를 반환하므로 NULL 검사 없이 안전하게 사용할 수 있습니다.
fib6_info → rt6_info 변환: ip6_create_rt_rcu()가 FIB의 영속 경로(fib6_info)를 패킷 처리용 캐시 구조(rt6_info)로 변환합니다. rt6_info->from으로 원본을 참조하므로 FIB 변경 시 dst_check()로 무효화가 가능합니다.
소스 특화 라우팅 고유성: IPv4에는 없는 기능입니다. 멀티홈 IPv6 환경에서 소스 주소에 따라 다른 게이트웨이를 사용해 라우팅 비대칭 문제를 해결합니다. subtree는 목적지 prefix 노드에 붙어 소스 주소 서브트리를 가리킵니다.
ECMP (fib6_nsiblings): IPv4의 nexthop 그룹 객체와 달리 IPv6는 fib6_info->fib6_nsiblings로 동일 비용 경로를 체인으로 연결합니다. 각 패킷은 플로우 해시로 체인 내 경로 중 하나를 선택합니다.

IPv6 fib6_node 트리 구조 시각화

IPv4 LC-trie와 달리, IPv6는 단순한 바이너리 라딕스 트리(Radix Tree)를 사용합니다. 각 노드는 하나의 비트 위치(fn_bit)를 검사하여 left(0) 또는 right(1) 자식으로 분기합니다. 소스 주소 기반 라우팅을 위한 subtree 포인터가 IPv6만의 고유 기능입니다.

IPv6 fib6_node 트리는 바이너리 라딕스 구조로, 각 노드에서 1비트를 검사합니다. subtree 포인터로 소스 주소 기반 서브트리를 연결하는 것이 IPv4와의 가장 큰 구조적 차이입니다.

IPv6-only 네트워크 라우팅 구성

IPv6-only 환경에서는 IPv4 레거시 없이 라우팅을 구성합니다. NAT가 없고 글로벌 유니캐스트(Global Unicast) 주소를 직접 사용하므로 라우팅이 단순하지만, RA(Router Advertisement) 동작과 소스 주소 선택(RFC 6724)을 정확히 이해해야 합니다.

### IPv6-only 네트워크 라우팅 구성 ###

# 1. IPv6 포워딩 활성화
sysctl -w net.ipv6.conf.all.forwarding=1

# 2. RA 기반 자동 구성 (클라이언트)
sysctl -w net.ipv6.conf.eth0.accept_ra=2  # 포워딩 ON 상태에서도 RA 수신
sysctl -w net.ipv6.conf.eth0.autoconf=1   # SLAAC 자동 주소 구성

# 3. 정적 라우팅 (link-local 게이트웨이 사용 — 권장)
ip -6 route add 2001:db8:2::/48 via fe80::1 dev eth0
# link-local 게이트웨이는 인터페이스 주소 변경에 영향받지 않음

# 4. 소스 주소 기반 라우팅 (IPv6 네이티브)
# 멀티홈 환경: ISP_A 주소로 나가는 패킷은 ISP_A 게이트웨이 사용
ip -6 route add default via fe80::gw1 dev eth0 \
  src 2001:db8:a::1 metric 100
ip -6 route add default via fe80::gw2 dev eth1 \
  src 2001:db8:b::1 metric 200

# 5. RFC 6724 소스 주소 선택 확인
ip -6 route get 2001:4860:4860::8888
# 2001:4860:4860::8888 from :: via fe80::1 dev eth0
#     src 2001:db8:a::1 metric 100  ← 자동 선택된 소스 주소

# 6. IPv6 라우팅 테이블 상세 확인
ip -6 route show table all
ip -6 route show proto ra    # RA로 설치된 경로만
ip -6 route show proto kernel # 커널 자동 생성 경로만

# 7. NAT64/DNS64 환경에서의 라우팅
# NAT64 프리픽스(예: 64:ff9b::/96)로 향하는 트래픽을 NAT64 게이트웨이로
ip -6 route add 64:ff9b::/96 via 2001:db8:1::nat64 dev eth0

Multipath / ECMP

앞에서 IPv4와 IPv6의 단일 경로 라우팅을 살펴봤습니다. 하지만 실제 네트워크에서는 동일 목적지로 가는 경로가 여러 개 있을 때 트래픽을 분산하고 싶은 경우가 많습니다. ECMP가 바로 그 방법이며, 앞에서 배운 nexthop 객체의 실전 활용 사례이기도 합니다.

일상 비유 — 고속도로 차선: 서울에서 부산으로 가는 고속도로가 1차선뿐이면 정체가 심하지만, 4차선이면 차량을 분산할 수 있습니다. ECMP는 동일 비용 경로가 여러 개일 때 트래픽을 나눠 보내는 "다차선 고속도로"입니다. 같은 출발지-목적지 쌍의 패킷은 항상 같은 차선(경로)을 사용하여 패킷 순서가 뒤바뀌는 것을 방지합니다.

ECMP(Equal-Cost Multi-Path)는 동일 비용의 여러 경로로 트래픽을 분산합니다. Linux는 flow 해시 기반 부하 분산을 사용하여 동일 플로우의 패킷이 같은 경로로 전송되도록 보장합니다.

ECMP 설정

# 레거시 multipath 경로
ip route add 10.0.0.0/24 \
  nexthop via 192.168.1.1 dev eth0 weight 1 \
  nexthop via 192.168.2.1 dev eth1 weight 1

# nexthop 객체 사용 (5.x+, 권장)
ip nexthop add id 1 via 192.168.1.1 dev eth0
ip nexthop add id 2 via 192.168.2.1 dev eth1
ip nexthop add id 10 group 1/2     # nexthop 그룹
ip route add 10.0.0.0/24 nhid 10

# 가중치 기반 분산 (비균등 분배)
ip nexthop add id 10 group 1,3/2,1  # nh1:weight3, nh2:weight1 → 3:1 분배

# ECMP 해시 알고리즘 선택
sysctl net.ipv4.fib_multipath_hash_policy=0  # L3 only (src/dst IP)
sysctl net.ipv4.fib_multipath_hash_policy=1  # L4 (src/dst IP + port)
sysctl net.ipv4.fib_multipath_hash_policy=2  # L3+inner (터널용)
sysctl net.ipv4.fib_multipath_hash_policy=3  # custom (hash field bitmask 사용)
sysctl net.ipv4.fib_multipath_hash_fields=$((0x0001|0x0002|0x0004|0x0010|0x0020))
sysctl net.ipv4.fib_multipath_use_neigh=1    # neighbour 상태를 고려해 다음 홉 선택

ip-nexthop(8) 기준으로 modern Linux는 route 엔트리가 직접 게이트웨이 배열을 들고 있기보다, nhid로 독립적인 nexthop object 또는 group을 참조할 수 있습니다. 이 구조 덕분에 여러 route가 동일 ECMP 세트를 재사용하고, 라우팅 데몬(FRR/BGP)도 변경 전파를 더 효율적으로 처리할 수 있습니다.

Resilient Hashing

기존 ECMP는 nexthop 변경 시 모든 플로우의 경로가 재분배되어 대규모 환경에서 문제가 됩니다. Resilient hashing은 변경 영향을 최소화합니다:

# resilient nexthop 그룹 (consistent hashing)
ip nexthop add id 10 group 1/2 type resilient buckets 128 idle_timer 120

# buckets: 해시 버킷 수 (많을수록 정밀한 가중치 분배)
# idle_timer: 유휴 버킷 재할당 대기 시간(초)

# nexthop 삭제/추가 시:
# 기존 ECMP: 모든 플로우 재분배 (기존 연결 끊김 가능)
# resilient: 삭제된 nexthop의 버킷만 재할당 (영향 최소화)

# 버킷 상태 확인
ip nexthop bucket show id 10

⚠️

ECMP 주의사항:

비대칭 라우팅: ECMP에서 요청/응답이 다른 경로를 사용할 수 있음. rp_filter=2 (loose) 설정 필요
conntrack 상호작용: DNAT + ECMP에서 conntrack이 경로를 고정하므로 의도한 분배가 안 될 수 있음
해시 편향: 특정 플로우 패턴에서 해시 충돌로 불균등 분배 발생. L4 해시 정책 사용 권장
nexthop 장애 감지: fib_multipath_use_neigh=1은 기존 neighbour 상태를 참고하지만, BFD 같은 제어 평면 장애 검출을 완전히 대체하지는 못함

소스: fib_multipath_hash() — ECMP 해시 계산 상세

ECMP에서 nexthop 선택의 일관성은 해시 함수의 품질에 달려 있습니다. fib_multipath_hash()는 정책에 따라 L3, L3+L4, 내부 헤더, 또는 커스텀 필드를 조합하여 해시를 계산합니다.

/* net/ipv4/fib_semantics.c — fib_multipath_hash() */

int fib_multipath_hash(const struct net *net,
                       const struct flowi4 *fl4,
                       const struct sk_buff *skb,
                       struct flow_keys_digest *flkeys)
{
    struct flow_keys hash_keys;
    u32 mhash;

    switch (READ_ONCE(net->ipv4.sysctl_fib_multipath_hash_policy)) {

    case 0:  /* L3 only: 소스/목적지 주소 + 프로토콜 */
        if (skb) {
            skb_flow_dissect_flow_keys(skb, &hash_keys,
                FLOW_DISSECTOR_F_STOP_AT_L3);
        } else {
            hash_keys.addrs.v4addrs.src = fl4->saddr;
            hash_keys.addrs.v4addrs.dst = fl4->daddr;
            hash_keys.basic.ip_proto    = fl4->flowi4_proto;
        }
        break;

    case 1:  /* L4 (5-tuple): L3 + 소스/목적지 포트 */
        if (skb)
            skb_flow_dissect_flow_keys(skb, &hash_keys, 0);
        else {
            hash_keys.addrs.v4addrs.src = fl4->saddr;
            hash_keys.addrs.v4addrs.dst = fl4->daddr;
            hash_keys.ports.src         = fl4->fl4_sport;
            hash_keys.ports.dst         = fl4->fl4_dport;
        }
        break;

    case 2:  /* inner L3: GRE/IPIP 터널 내부 주소 */
        if (skb)
            skb_flow_dissect_flow_keys(skb, &hash_keys,
                FLOW_DISSECTOR_F_STOP_AT_ENCAP);
        break;

    case 3:  /* 커스텀: sysctl_fib_multipath_hash_fields 비트마스크 */
        fib_multipath_hash_from_keys(net, fl4, skb, &hash_keys);
        break;
    }

    mhash = flow_hash_from_keys(&hash_keys);  /* jhash2 */
    return mhash;
}

코드 설명

policy 0 (L3)소스 IP + 목적지 IP + 프로토콜만 사용합니다. 포트가 없는 ICMP나 단편화된 패킷에서도 동작하지만 같은 주소쌍의 여러 연결이 같은 nexthop에 집중됩니다.
policy 1 (L4)5-tuple(소스/목적지 IP + 포트 + 프로토콜)을 사용합니다. 일반 TCP/UDP 환경에서 최적의 분산을 제공합니다.
policy 2 (inner)GRE/IPIP 터널 내부 헤더 주소를 사용합니다. 외부 헤더가 동일한 터널 환경에서 내부 흐름별 분산이 가능합니다.
policy 3 (custom)fib_multipath_hash_fields sysctl 비트마스크로 포함할 필드를 자유롭게 선택합니다.
flow_hash_from_keys()Jenkins hash(jhash2) 기반으로 균일 분포의 32비트 해시를 계산합니다.

ECMP 해시 정책 선택 가이드:

policy=0 (L3): 분산이 덜 세밀하지만 모든 프로토콜에 적용됨
policy=1 (L4): TCP/UDP 환경에서 최적. 동일 주소쌍의 여러 연결을 다른 nexthop으로 분산
policy=2 (inner L3): 터널 엔드포인트 ECMP. 외부 헤더가 동일하여 policy=0/1로 분산 불가한 경우
policy=3 (커스텀): 세밀한 제어 필요 시. DSCP/TOS 포함 여부 등 특수 요구사항

ECMP 해시 기반 경로 선택 흐름

ECMP에서 패킷이 어떤 nexthop을 선택하는지는 해시 계산 결과에 달려 있습니다. 아래 다이어그램은 패킷 헤더에서 해시 키를 추출하고, 해시 값을 nexthop 그룹의 가중치에 따라 분배하는 전체 과정을 보여줍니다.

ECMP 경로 선택은 패킷 헤더에서 추출한 flow 키를 jhash2로 해시하고, 결과를 가중치 범위에 매핑하여 nexthop을 결정합니다. Resilient hashing은 버킷 기반으로 nexthop 변경 시 영향을 최소화합니다.

소스: nexthop_select_path() — ECMP nexthop 선택 내부

nexthop_select_path()는 nexthop 그룹에서 해시 값을 기반으로 실제 nexthop을 선택하는 함수입니다. 그룹 타입에 따라 hash-threshold 방식 또는 resilient bucket 방식을 사용합니다.

/* net/ipv4/nexthop.c — nexthop_select_path() */

int nexthop_select_path(struct nexthop *nh,
                        int hash)
{
    struct nh_group *nhg;

    if (!nh->is_group)
        return 0;  /* 단일 nexthop: 선택 불필요 */

    nhg = rcu_dereference(nh->nh_grp);

    if (nhg->resilient) {
        /* Resilient hashing: 버킷 테이블에서 직접 조회 */
        struct nh_res_table *res_table = rcu_dereference(nhg->res_table);
        struct nh_res_bucket *bucket;
        u32 bucket_index;

        /* hash를 버킷 수로 나눈 나머지 → 버킷 인덱스 */
        bucket_index = hash % res_table->num_nh_buckets;
        bucket = &res_table->nh_buckets[bucket_index];

        /* 버킷이 가리키는 nexthop 사용 */
        return bucket->nh_idx;
    }

    /* Hash-threshold 방식: 가중치 누적합에서 위치 탐색 */
    {
        struct nh_grp_entry *nhge;
        u32 w = hash % nhg->total_weight;
        u32 upper_bound = 0;
        int i;

        for_each_nexthop_grp_entry(nhge, nhg, i) {
            upper_bound += nhge->weight;
            if (w < upper_bound)
                return i;  /* 이 nexthop 선택 */
        }
    }
    return 0;
}

/* fib_select_multipath() — FIB 조회 결과에서 multipath 선택 */
void fib_select_multipath(struct fib_result *res, int hash)
{
    struct fib_info *fi = res->fi;

    if (fi->nh) {
        /* 새 nexthop 객체 모델: nexthop_select_path() 사용 */
        res->nh_sel = nexthop_select_path(fi->nh, hash);
    } else {
        /* 레거시 모델: fib_nh 배열에서 가중치 기반 선택 */
        struct fib_nh *nh;
        u32 w = hash % fi->fib_weight_sum;
        u32 upper = 0;

        for_nexthop(nh, fi) {
            if (nh->fib_nh_flags & RTNH_F_DEAD)
                continue;  /* 죽은 nexthop 건너뜀 */
            upper += nh->fib_nh_weight;
            if (w < upper) {
                res->nh_sel = nh - fi->fib_nh;
                break;
            }
        }
    }
    res->nhc = fib_info_nhc(fi, res->nh_sel);
}

코드 설명

nexthop_select_path(): nexthop 그룹 타입에 따라 두 가지 경로 선택 전략을 사용합니다. resilient 그룹은 버킷 배열에서 O(1) 조회, 일반 그룹은 가중치 누적합에서 O(N) 선형 탐색을 수행합니다. N은 nexthop 수로 보통 2~8이므로 실질적으로 차이가 없습니다.
hash-threshold 방식: 각 nexthop의 가중치를 누적하여 범위를 만듭니다. 해시값을 total_weight로 나눈 나머지가 어느 범위에 속하는지로 nexthop을 선택합니다. 단순하지만 nexthop 추가/제거 시 모든 범위가 재계산됩니다.
resilient bucket 방식: 고정 크기 버킷 배열에 nexthop을 가중치 비율로 분배합니다. nexthop 삭제 시 해당 버킷만 다른 nexthop으로 재할당하므로 기존 flow의 대부분이 경로를 유지합니다. idle_timer는 유휴 버킷만 재할당하여 활성 flow 영향을 더 줄입니다.
RTNH_F_DEAD: 인터페이스 다운 등으로 사용 불가능한 nexthop은 RTNH_F_DEAD 플래그가 설정됩니다. fib_multipath_use_neigh=1일 때 neighbour 상태가 FAILED인 nexthop도 건너뜁니다.

Multipath 라우팅 페일오버 시퀀스

ECMP 환경에서 nexthop 중 하나가 실패할 때, 커널이 어떻게 이를 감지하고 나머지 nexthop으로 트래픽을 전환하는지 보여줍니다.

ECMP 페일오버는 링크 다운 → RTNH_F_LINKDOWN, ARP 실패 → RTNH_F_DEAD 순서로 nexthop을 비활성화하고 나머지로 재분배합니다. Resilient hashing은 버킷 단위로 점진적 마이그레이션을 수행합니다.

### ECMP 페일오버 관련 sysctl 및 모니터링 ###

# 필수 sysctl 설정
sysctl -w net.ipv4.conf.all.ignore_routes_with_linkdown=1
sysctl -w net.ipv4.fib_multipath_use_neigh=1
sysctl -w net.ipv6.conf.all.ignore_routes_with_linkdown=1

# resilient nexthop 그룹 버킷 상태 모니터링
ip nexthop bucket show id 100
# id 100 index 0 idle_time 45.2 nhid 1
# id 100 index 1 idle_time 12.8 nhid 2
# id 100 index 2 idle_time 67.1 nhid 1

# nexthop 상태 실시간 모니터링
ip -ts monitor nexthop
# [timestamp] id 2 via 192.168.2.1 dev eth1 dead linkdown

# nexthop 그룹 통계 확인
ip -s nexthop show id 100

# BPF로 nexthop 선택 추적
bpftrace -e 'kprobe:fib_select_multipath {
    @select[arg1] = count();
}'

BPF 기반 라우팅: bpf_fib_lookup() 헬퍼

XDP 또는 TC BPF 프로그램에서 bpf_fib_lookup() 헬퍼를 사용하면 커널 FIB를 직접 조회하여 패킷 포워딩을 가속할 수 있습니다. 이 헬퍼는 FIB 조회, nexthop 선택, neighbour MAC 해석까지 한 번에 수행합니다.

/* BPF 프로그램에서 bpf_fib_lookup() 사용 예시 */

/* include/uapi/linux/bpf.h — bpf_fib_lookup 매개변수 */
struct bpf_fib_lookup {
    __u8    family;       /* AF_INET 또는 AF_INET6 */
    __u8    l4_protocol;  /* IPPROTO_TCP 등 */
    __be16  sport;        /* L4 소스 포트 */
    __be16  dport;        /* L4 목적지 포트 */
    __u16   tot_len;      /* IP 총 길이 */
    __u32   ifindex;      /* 입력/출력 인터페이스 */
    union {
        __be32  ipv4_src;
        __u32   ipv6_src[4];
    };
    union {
        __be32  ipv4_dst;
        __u32   ipv6_dst[4];
    };
    __u8    smac[6];     /* 출력 시 채워짐: 소스 MAC */
    __u8    dmac[6];     /* 출력 시 채워짐: 목적지 MAC */
};

/* XDP 프로그램: FIB lookup으로 L3 포워딩 가속 */
SEC("xdp")
int xdp_fib_forward(struct xdp_md *ctx)
{
    struct bpf_fib_lookup params = {};
    struct ethhdr *eth;
    struct iphdr *iph;
    int rc;

    eth = (void *)(long)ctx->data;
    iph = (void *)(eth + 1);

    /* FIB 조회 매개변수 설정 */
    params.family    = AF_INET;
    params.ifindex   = ctx->ingress_ifindex;
    params.ipv4_src  = iph->saddr;
    params.ipv4_dst  = iph->daddr;
    params.tot_len   = bpf_ntohs(iph->tot_len);

    /* bpf_fib_lookup(): FIB 조회 + nexthop + neighbour MAC 해석 */
    rc = bpf_fib_lookup(ctx, &params, sizeof(params),
                        BPF_FIB_LOOKUP_DIRECT | BPF_FIB_LOOKUP_OUTPUT);

    if (rc == BPF_FIB_LKUP_RET_SUCCESS) {
        /* MAC 주소 교체하고 XDP_TX로 즉시 전송 */
        __builtin_memcpy(eth->h_dest, params.dmac, ETH_ALEN);
        __builtin_memcpy(eth->h_source, params.smac, ETH_ALEN);
        return bpf_redirect(params.ifindex, 0);
    }

    if (rc == BPF_FIB_LKUP_RET_NO_NEIGH)
        return XDP_PASS;  /* ARP 미해석 → 커널 스택으로 */

    return XDP_PASS;  /* 폴백: 정상 커널 경로 */
}

/* bpf_fib_lookup 반환 코드 */
/* BPF_FIB_LKUP_RET_SUCCESS   = 0: 조회 성공, MAC 채워짐 */
/* BPF_FIB_LKUP_RET_BLACKHOLE = 1: 블랙홀 경로 */
/* BPF_FIB_LKUP_RET_UNREACHABLE = 2: 도달 불가 */
/* BPF_FIB_LKUP_RET_PROHIBIT  = 3: 금지 경로 */
/* BPF_FIB_LKUP_RET_NOT_FWDED = 4: 포워딩 비활성 */
/* BPF_FIB_LKUP_RET_FWD_DISABLED = 5: 인터페이스 포워딩 비활성 */
/* BPF_FIB_LKUP_RET_NO_NEIGH  = 7: neighbour 미해석 */

코드 설명

bpf_fib_lookup(): 커널 FIB를 BPF 프로그램에서 직접 호출합니다. BPF_FIB_LOOKUP_DIRECT는 RPDB를 건너뛰고 main 테이블만 조회하여 성능을 높입니다. BPF_FIB_LOOKUP_OUTPUT는 출력 경로 관점에서 조회합니다.
MAC 자동 해석: FIB 조회 성공 시 params.smac과 params.dmac에 소스/목적지 MAC 주소가 자동으로 채워집니다. XDP 프로그램은 이 값으로 이더넷 헤더를 교체하고 bpf_redirect()로 즉시 전송할 수 있습니다.
XDP 포워딩 가속: 이 방식은 커널 네트워크 스택을 완전히 우회하므로 일반 IP 포워딩 대비 5~10배 높은 처리량(Throughput)을 달성할 수 있습니다. 단, Netfilter, conntrack 등의 기능이 적용되지 않으므로 단순 포워딩 환경에서만 적합합니다.
BPF_FIB_LKUP_RET_NO_NEIGH: neighbour 테이블에 대상 MAC이 없으면 이 코드를 반환합니다. 이 경우 XDP_PASS로 커널 스택에 넘겨 ARP/NDP 프로세스가 MAC을 해석하도록 합니다.

neighbour 해석과 실제 전송

페이지 상단의 파이프라인 다이어그램에서 1~3단계(selector → RPDB → FIB 조회)와 dst_entry 생성까지 다뤘습니다. 이제 4단계 — 결정된 nexthop IP 주소를 실제 MAC 주소로 변환하여 패킷을 물리 회선에 올리는 "Last Mile"을 살펴봅니다.

라우팅 조회(FIB lookup)가 "이 패킷은 192.168.1.1을 거쳐 eth0으로 보내라"라고 결정해도, 실제로 패킷이 wire 위를 타려면 한 단계가 더 남아 있습니다. Ethernet 프레임을 만들려면 게이트웨이(또는 on-link 목적지)의 MAC 주소를 알아야 합니다. 이 "IP → MAC 변환"을 담당하는 것이 neighbour 서브시스템이며, IPv4에서는 ARP, IPv6에서는 NDP(Neighbor Discovery Protocol)를 사용합니다.

일상 비유 — neighbour는 택배 기사의 마지막 단계: FIB가 "서울 강남구 XX동"이라는 큰 방향을 정했다면, neighbour는 실제 아파트 현관문의 호수(MAC 주소)를 찾는 것입니다. 택배 기사가 배송지 주소(IP)를 알아도 현관 비밀번호(MAC)를 모르면 물건을 전달할 수 없듯이, neighbour 해석이 실패하면 패킷은 전송되지 않습니다.

neighbour 서브시스템 전체 흐름: FIB가 "어디로"를 결정하면, neighbour가 "어떤 MAC으로"를 해석합니다. 캐시 hit이면 즉시 전송, miss이면 ARP/NDP 질의 후 응답이 오면 전송, 응답이 없으면 패킷 드롭.

neighbour의 역할과 위치

핵심 개념: 네트워크에서 IP 주소는 "논리적 주소"이고, MAC 주소는 "물리적 주소"입니다. 같은 L2 세그먼트(같은 스위치/VLAN)에 있는 장비끼리 통신하려면 상대방의 MAC 주소를 알아야 합니다. neighbour 서브시스템은 이 IP→MAC 매핑을 관리하는 커널의 캐시 테이블입니다.

역할	설명	관련 함수/구조체
주소 해석	IP 주소를 L2 주소(MAC)로 변환. IPv4는 ARP, IPv6는 NDP 사용	`neigh_resolve_output()`, `arp_solicit()`, `ndisc_solicit()`
캐시 관리	해석된 IP→MAC 매핑을 해시 테이블에 캐싱하여 매번 ARP/NDP를 보내지 않아도 됨	`struct neighbour`, `neigh_lookup()`
도달성 추적	이웃이 여전히 살아있는지 주기적으로 확인 (NUD 상태 머신)	`neigh_timer_handler()`, NUD states
L2 헤더 생성	확인된 MAC으로 Ethernet 프레임 헤더를 만들어 패킷 전송	`neigh_hh_output()`, `dev_hard_header()`
대기 큐(Wait Queue)	ARP/NDP 응답을 기다리는 동안 패킷을 임시 보관	`neigh->arp_queue` (최대 `app_probes`개)

neighbour 핵심 자료구조

코드를 읽기 전에: neighbour 자료구조의 부품 목록입니다:

neigh_table = ARP 테이블 또는 NDP 테이블 전체 (IPv4용과 IPv6용이 별도)
neighbour = 개별 이웃 엔트리 하나 (IP + MAC + 상태)
neigh_hash_table = IP 주소로 빠르게 검색하기 위한 해시 테이블
neigh_ops = 프로토콜별 동작 함수 (ARP 보내기, NDP 보내기 등)
hh_cache = L2 헤더 캐시 (매번 헤더를 새로 만들지 않도록)

/* include/net/neighbour.h — neighbour 핵심 구조체 */

/* neigh_table: 프로토콜별 이웃 테이블 (ARP=arp_tbl, NDP=nd_tbl) */
struct neigh_table {
    int                  family;        /* AF_INET 또는 AF_INET6 */
    unsigned int         entry_size;    /* sizeof(struct neighbour) */
    int                  key_len;       /* 4(IPv4) 또는 16(IPv6) */
    __be16               protocol;      /* ETH_P_IP 또는 ETH_P_IPV6 */
    struct neigh_hash_table nht;   /* 해시 테이블 */
    struct neigh_statistics *stats; /* per-CPU 통계 */
    struct neigh_parms  parms;     /* 기본 타이머/임계값 파라미터 */
    int                  gc_thresh1;   /* GC 시작 임계값 */
    int                  gc_thresh2;   /* GC 적극 수행 임계값 */
    int                  gc_thresh3;   /* 최대 엔트리 수 (hard limit) */
    struct timer_list   gc_timer;     /* 주기적 GC 타이머 */
    /* 전역: arp_tbl(IPv4), nd_tbl(IPv6) */
};

/* neighbour: 개별 이웃 엔트리 하나 */
struct neighbour {
    struct neighbour    *next;          /* 해시 버킷 체인 */
    struct neigh_table  *tbl;           /* 소속 테이블 */
    struct neigh_parms  *parms;         /* 파라미터 (타이머 등) */
    unsigned long       used;           /* 마지막 사용 시각 */
    unsigned long       confirmed;      /* 마지막 도달성 확인 시각 */
    unsigned long       updated;        /* 마지막 갱신 시각 */
    rwlock_t            lock;
    refcount_t          refcnt;
    unsigned int        arp_queue_len_bytes; /* 대기 큐 바이트 수 */
    struct sk_buff_head arp_queue;      /* ARP 응답 대기 중인 패킷 큐 */
    struct timer_list  timer;          /* NUD 상태 전이 타이머 */
    __u8                nud_state;      /* NUD 상태 (REACHABLE, STALE, ...) */
    __u8                type;           /* 유형 */
    __u8                dead;           /* 삭제 예정 플래그 */
    u8                  protocol;       /* 학습 프로토콜 (ARP, NDP, ...) */
    u8                  ha[ALIGN(MAX_ADDR_LEN, sizeof(unsigned long))];
                                        /* hardware address (MAC) */
    struct hh_cache    hh;             /* L2 헤더 캐시 */
    int               (*output)(struct neighbour *, struct sk_buff *);
                                        /* 출력 함수 포인터 */
    const struct neigh_ops *ops;     /* 프로토콜별 동작 */
    struct net_device  *dev;           /* 연결된 디바이스 */
    u8                  primary_key[];  /* IP 주소 (가변 길이 키) */
};

/* hh_cache: L2 헤더 캐시 — 성능 최적화의 핵심 */
struct hh_cache {
    unsigned int  hh_len;    /* 헤더 길이 (Ethernet=14바이트) */
    u16           hh_type;   /* 프로토콜 타입 (ETH_P_IP 등) */
    seqlock_t     hh_lock;
    unsigned long hh_data[HH_DATA_ALIGN / sizeof(long)];
                              /* 미리 생성된 L2 헤더 데이터 */
    /* REACHABLE 상태에서 이 캐시를 직접 복사하여
     * dev_hard_header() 호출을 건너뛸 수 있음 → fast path */
};

자료구조 관계 요약:

neigh_table → 프로토콜별 전역 테이블. IPv4는 arp_tbl, IPv6는 nd_tbl이라는 전역 변수
neigh_hash_table → IP 주소를 키로 neighbour를 빠르게 찾는 해시 테이블. 동적 리사이즈
neighbour → 개별 이웃 하나. IP 주소, MAC 주소, NUD 상태, 출력 디바이스를 보유
hh_cache → REACHABLE 상태의 neighbour에 붙는 L2 헤더 캐시. 패킷마다 헤더를 새로 만들지 않고 memcpy로 복사
arp_queue → ARP/NDP 응답을 기다리는 동안 패킷을 보관하는 큐 (기본 최대 3개)

NUD 상태 머신 상세

neighbour의 핵심은 NUD(Neighbor Unreachability Detection) 상태 머신입니다. 각 이웃 엔트리는 아래 상태 중 하나에 있으며, 이벤트(ARP 응답, 타이머 만료, 상위 프로토콜 확인 등)에 따라 상태가 전이됩니다.

NUD 상태 전이: 새 이웃은 INCOMPLETE에서 시작하여 ARP 응답을 받으면 REACHABLE로 전이합니다. 시간이 지나면 STALE → DELAY → PROBE를 거치며, 응답이 없으면 FAILED로 전이되어 패킷이 드롭됩니다. PERMANENT은 관리자가 수동으로 설정한 영구 엔트리입니다.

상태	의미	패킷 처리	다음 상태 전이	운영 해석
`NONE`	엔트리 없음	—	→ INCOMPLETE (패킷 전송 시도 시)	아직 이 IP로 통신한 적 없음
`INCOMPLETE`	ARP/NDP 요청 보냄, 응답 대기	arp_queue에 대기 (최대 3개)	→ REACHABLE (응답 수신) / → FAILED (timeout)	첫 패킷 지연. route 맞아도 전송 멈춤
`REACHABLE`	도달성 확인됨	즉시 전송 (hh_cache fast path)	→ STALE (reachable_time 만료)	정상. 가장 좋은 상태
`STALE`	캐시 있으나 확인 안 됨	일단 보냄 (기존 MAC 사용)	→ DELAY (패킷 전송 시)	오래 안 쓰인 이웃. 곧 재검증
`DELAY`	상위 프로토콜 확인 대기	보냄 (기존 MAC 사용)	→ REACHABLE (TCP ACK 등) / → PROBE	5초간 TCP ACK 등으로 확인 시도
`PROBE`	유니캐스트 ARP/NDP 재질의 중	보냄 (기존 MAC 사용)	→ REACHABLE (응답) / → FAILED	직접 ARP로 확인 시도 (최대 3회)
`FAILED`	도달 불가	드롭	→ INCOMPLETE (새 패킷 시도 시)	게이트웨이 단절, VLAN/VRF 오류, 방화벽 차단
`PERMANENT`	관리자 수동 설정	즉시 전송	만료 없음	`ip neigh add ... nud permanent`
`NOARP`	ARP 불필요 디바이스	즉시 전송	만료 없음	loopback, point-to-point 인터페이스

DELAY 상태의 영리한 최적화: STALE 상태에서 패킷을 보낼 때, 바로 ARP를 보내지 않고 먼저 5초간 "상위 프로토콜 확인"을 기다립니다. TCP 연결이 활성이면 상대방에서 ACK가 돌아오고, 이 ACK의 도착 자체가 "이웃이 살아있습니다"는 증거가 됩니다. 이렇게 하면 불필요한 ARP 브로드캐스트를 줄일 수 있습니다. 5초 내에 확인이 안 되면 그때 PROBE로 가서 유니캐스트 ARP를 보냅니다.

neighbour 조회와 패킷 전송 상세 경로

패킷이 FIB 조회를 마치고 dst_entry를 얻으면, dst->output()을 통해 neighbour 해석 단계로 진입합니다. 이 과정의 함수 호출 체인을 정확히 이해하면 "route는 맞는데 패킷이 안 나가는" 문제를 체계적으로 디버깅할 수 있습니다.

패킷 전송 시 neighbour 해석 경로: REACHABLE이면 hh_cache에서 L2 헤더를 직접 복사하는 fast path, STALE/DELAY/PROBE이면 dev_hard_header()를 호출하는 slow path, INCOMPLETE이면 ARP 요청 후 대기.

/* net/ipv4/ip_output.c — neighbour 해석 진입점 */

static int ip_finish_output2(struct net *net,
                             struct sock *sk,
                             struct sk_buff *skb) {
    struct dst_entry *dst = skb_dst(skb);
    struct rtable *rt = (struct rtable *)dst;
    struct net_device *dev = dst->dev;
    struct neighbour *neigh;
    u32 nexthop;

    /* 1. nexthop IP 결정: 게이트웨이가 있으면 게이트웨이, 없으면 목적지 자체 */
    nexthop = rt->rt_gw4 ? rt->rt_gw4 : ip_hdr(skb)->daddr;

    /* 2. neighbour 테이블에서 nexthop IP로 검색 */
    neigh = __ipv4_neigh_lookup_noref(dev, nexthop);
    if (unlikely(!neigh))
        neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);

    if (!IS_ERR(neigh)) {
        /* 3. neighbour를 통해 L2 헤더 만들고 전송 */
        return neigh_output(neigh, skb, is_connected);
    }

    kfree_skb(skb);
    return -EINVAL;
}

/* include/net/neighbour.h — neigh_output() 분기 */
static inline int neigh_output(struct neighbour *n,
                                struct sk_buff *skb,
                                int skip_cache) {
    const struct hh_cache *hh = &n->hh;

    /* Fast path: hh_cache가 유효하면 memcpy로 L2 헤더 복사 */
    if (!skip_cache && (n->nud_state & NUD_CONNECTED) && hh->hh_len)
        return neigh_hh_output(hh, skb);

    /* Slow path: ARP 해석이 필요하거나 hh_cache가 없는 경우 */
    return n->output(n, skb);
    /* → neigh_resolve_output() 또는 neigh_connected_output() */
}

ARP 프로토콜 상세 (IPv4)

ARP를 쉽게 이해하기: 같은 방에 10명이 있을 때 "홍길동씨 손 들어주세요!"라고 외치는 것이 ARP Request(broadcast)입니다. 홍길동이 "저요!"라고 응답하는 것이 ARP Reply(unicast)입니다. 이후에는 홍길동의 얼굴(MAC)을 기억하고, 다시 물어볼 필요 없이 직접 건넵니다.

ARP 동작 과정: Host A가 게이트웨이의 MAC을 모를 때, broadcast로 ARP Request를 보내고 게이트웨이가 unicast로 ARP Reply를 보냅니다. 이후 MAC이 neighbour 테이블에 캐싱됩니다.

/* net/ipv4/arp.c — ARP 요청/응답 처리 핵심 */

/* ARP 요청 전송 (INCOMPLETE 상태에서 호출) */
static void arp_solicit(struct neighbour *neigh,
                         struct sk_buff *skb) {
    __be32 target = *(__be32 *)neigh->primary_key;
    struct net_device *dev = neigh->dev;
    __be32 saddr;

    /* 소스 주소 선택: 출력 디바이스의 주소 중 target과 같은 서브넷 */
    saddr = inet_select_addr(dev, target, RT_SCOPE_LINK);

    /* ARP Request 패킷 생성 및 전송 */
    arp_send(ARPOP_REQUEST,     /* 요청 */
             ETH_P_ARP,          /* ARP 프로토콜 */
             target,              /* 대상 IP (누구의 MAC을 알고 싶은가) */
             dev,                 /* 출력 디바이스 */
             saddr,               /* 내 IP */
             NULL,                /* 대상 MAC (모르니까 NULL → broadcast) */
             dev->dev_addr,       /* 내 MAC */
             NULL);               /* 대상 MAC (NULL → ff:ff:ff:ff:ff:ff) */
}

/* ARP 응답 수신 처리 */
static int arp_rcv(struct sk_buff *skb,
                    struct net_device *dev,
                    struct packet_type *pt, ...) {
    /* → arp_process() 호출 */
}

static int arp_process(struct net *net,
                        struct sock *sk,
                        struct sk_buff *skb) {
    struct arphdr *arp = arp_hdr(skb);

    if (arp->ar_op == htons(ARPOP_REPLY)) {
        /* ARP Reply 처리:
         * 1. neighbour 테이블에서 sender IP로 검색
         * 2. 찾으면 MAC 주소 갱신 + NUD 상태 → REACHABLE
         * 3. arp_queue에 대기 중이던 패킷 전송
         */
        neigh_update(n, sha,    /* sender의 MAC 주소 */
                     NUD_REACHABLE,
                     NEIGH_UPDATE_F_OVERRIDE);
    }

    if (arp->ar_op == htons(ARPOP_REQUEST)) {
        /* ARP Request 처리:
         * 1. target IP가 내 주소인지 확인
         * 2. 맞으면 ARP Reply 전송
         * 3. 동시에 sender의 MAC을 테이블에 기록 (학습)
         */
        if (addr_type == RTN_LOCAL) {
            arp_send_dst(ARPOP_REPLY, ETH_P_ARP,
                         sip, dev, tip, sha,
                         dev->dev_addr, sha, reply_dst);
        }
    }
}

NDP 프로토콜 상세 (IPv6)

IPv6는 ARP 대신 NDP(Neighbor Discovery Protocol)를 사용합니다. NDP는 ICMPv6 위에서 동작하며, ARP보다 더 많은 기능(라우터 발견, 주소 자동 설정, DAD)을 제공합니다.

비교 항목	ARP (IPv4)	NDP (IPv6)
프로토콜	독립 프로토콜 (EtherType 0x0806)	ICMPv6 위에서 동작 (type 135/136)
주소 해석 요청	ARP Request (broadcast)	Neighbor Solicitation (solicited-node multicast)
주소 해석 응답	ARP Reply (unicast)	Neighbor Advertisement (unicast 또는 multicast)
브로드캐스트 범위	전체 L2 세그먼트 (모든 장비가 처리)	solicited-node multicast (해당 IP 장비만 처리)
라우터 발견	별도 (DHCP 또는 수동)	내장 (Router Solicitation/Advertisement)
주소 충돌 감지	Gratuitous ARP (선택)	DAD — Duplicate Address Detection (필수)
보안	ARP spoofing에 취약	SEND(Secure NDP) 확장 가능
커널 소스	`net/ipv4/arp.c`	`net/ipv6/ndisc.c`
커널 테이블	`arp_tbl`	`nd_tbl`

# IPv6 neighbour 확인
ip -6 neigh show
# fe80::1 dev eth0 lladdr aa:bb:cc:dd:ee:ff REACHABLE
# 2001:db8::1 dev eth0 lladdr 11:22:33:44:55:66 STALE

# NDP 메시지 모니터링
tcpdump -i eth0 -n 'icmp6 and (ip6[40]==135 or ip6[40]==136)'
# 135 = Neighbor Solicitation, 136 = Neighbor Advertisement

# DAD (Duplicate Address Detection) 상태 확인
ip -6 addr show dev eth0
# "tentative" 플래그가 있으면 DAD 진행 중

NDP의 multicast 장점: ARP는 "192.168.1.1의 MAC은?"이라고 broadcast하면 같은 VLAN의 모든 장비가 이 패킷을 처리해야 합니다 (대부분 무시하지만 CPU 인터럽트(Interrupt) 발생). IPv6 NDP는 solicited-node multicast 주소(ff02::1:ff00:0/104 + 하위 24비트)를 사용하여 해당 IP의 장비만 패킷을 수신합니다. 10,000대 규모 L2 네트워크에서 ARP broadcast storm은 심각한 문제지만, NDP는 이 문제가 크게 줄어듭니다.

neighbour GC(Garbage Collection)와 테이블 관리

neighbour 테이블은 무한히 커질 수 없습니다. 커널은 3단계 임계값(gc_thresh1/2/3)으로 테이블 크기를 관리하며, 주기적으로 오래되거나 FAILED 상태의 엔트리를 정리합니다.

neighbour 테이블의 3단계 GC 임계값: gc_thresh1 이하면 GC 없음, thresh2까지는 온건한 GC, thresh3에 도달하면 새 엔트리 생성이 거부됩니다.

# neighbour 테이블 크기 관련 sysctl

# IPv4 ARP 테이블
sysctl net.ipv4.neigh.default.gc_thresh1=128    # 이하: GC 안 함
sysctl net.ipv4.neigh.default.gc_thresh2=512    # 이상: 온건한 GC
sysctl net.ipv4.neigh.default.gc_thresh3=1024   # 이상: 새 엔트리 거부!
sysctl net.ipv4.neigh.default.gc_stale_time=60  # STALE 엔트리 GC 대상 시간(초)
sysctl net.ipv4.neigh.default.gc_interval=30    # GC 주기(초)

# IPv6 NDP 테이블 (동일 구조)
sysctl net.ipv6.neigh.default.gc_thresh1=128
sysctl net.ipv6.neigh.default.gc_thresh2=512
sysctl net.ipv6.neigh.default.gc_thresh3=1024

# NUD 상태 관련 타이머
sysctl net.ipv4.neigh.default.base_reachable_time_ms=30000  # REACHABLE 유지 시간
sysctl net.ipv4.neigh.default.delay_first_probe_time=5      # DELAY 대기 시간
sysctl net.ipv4.neigh.default.retrans_time_ms=1000          # 재전송 간격
sysctl net.ipv4.neigh.default.ucast_solicit=3               # 유니캐스트 재시도 횟수
sysctl net.ipv4.neigh.default.mcast_solicit=3               # 브로드캐스트 재시도 횟수
sysctl net.ipv4.neigh.default.unres_qlen=31                 # arp_queue 최대 패킷 수

# 현재 테이블 크기 확인
ip neigh show | wc -l              # 전체 엔트리 수
ip neigh show nud reachable | wc -l # REACHABLE 상태만
ip neigh show nud stale | wc -l     # STALE 상태만
ip neigh show nud failed | wc -l    # FAILED 상태만

# per-인터페이스 설정 (전역과 별도)
sysctl net.ipv4.neigh.eth0.base_reachable_time_ms=15000  # eth0만 15초

gc_thresh3 초과 시 발생하는 문제:

커널 로그에 "Neighbour table overflow" 메시지 출력
새로운 이웃 엔트리 생성 실패 → 새 목적지/게이트웨이로의 패킷이 드롭됨
기존 REACHABLE 엔트리는 유지되므로 기존 연결은 동작하지만, 새 연결 수립 불가
Docker/Kubernetes 환경에서 특히 문제: 수천 개의 Pod가 각각 veth 인터페이스를 가지며, 호스트의 neighbour 테이블이 빠르게 포화
해결: gc_thresh1/2/3를 환경에 맞게 상향 조정

Proxy ARP와 ARP 관련 보안

Proxy ARP는 라우터가 다른 서브넷의 호스트를 대신하여 ARP 응답을 보내는 기능입니다. 또한 ARP는 인증이 없으므로 다양한 보안 위협에 노출됩니다.

# Proxy ARP — 라우터가 다른 서브넷을 대신하여 ARP 응답
sysctl net.ipv4.conf.eth0.proxy_arp=1
# 사용 사례: VLAN 간 라우팅 없이 통신, 컨테이너 네트워킹

# Proxy ARP (pvlan) — 같은 서브넷 내 호스트 간 proxy
sysctl net.ipv4.conf.eth0.proxy_arp_pvlan=1

# ARP announce/ignore — 소스 주소 선택 정책
sysctl net.ipv4.conf.all.arp_announce=2   # best local addr only
sysctl net.ipv4.conf.all.arp_ignore=1     # target IP가 이 dev에 있을 때만 응답
# VRRP, keepalived, LVS 환경에서 ARP 충돌 방지에 중요

# Gratuitous ARP — IP 충돌 감지/알림
arping -U -I eth0 192.168.1.100   # Gratuitous ARP 발송
arping -D -I eth0 192.168.1.100   # DAD (Duplicate Address Detection)

# ARP spoofing 방어
# 1. 정적 ARP 엔트리 (소규모)
ip neigh add 192.168.1.1 lladdr aa:bb:cc:dd:ee:ff nud permanent dev eth0

# 2. arpwatch — ARP 변경 모니터링
arpwatch -i eth0

# 3. DAI (Dynamic ARP Inspection) — 스위치 레벨 방어

ARP 보안 위협	원리	방어 방법
ARP Spoofing	위조 ARP Reply로 피해자의 neighbour 테이블 오염	정적 ARP, DAI, arpwatch, 802.1X
ARP Flooding	대량 ARP Request로 스위치 CAM 테이블 포화	스위치 ARP rate-limiting, storm control
Gratuitous ARP 남용	위조 Gratuitous ARP로 다른 장비의 IP 탈취	arp_accept=0, DAI, DHCP snooping
ARP Cache Poisoning	MITM: 게이트웨이와 피해자 양쪽 ARP 테이블 조작	정적 ARP, 암호화(Encryption)(TLS/IPsec), VPN

neighbour 디버깅 실전 가이드

####################################################
# 시나리오 1: "route는 맞는데 패킷이 안 나감"
####################################################

# Step 1: route 확인 (정상)
ip route get 10.0.0.5
# 10.0.0.5 via 192.168.1.1 dev eth0 src 192.168.1.100

# Step 2: neighbour 확인 → 문제 발견!
ip neigh show 192.168.1.1 dev eth0
# 192.168.1.1 dev eth0  INCOMPLETE    ← MAC을 모른다!
# 또는
# 192.168.1.1 dev eth0  FAILED        ← ARP 응답 없음

# Step 3: 원인 진단
# a) 게이트웨이가 물리적으로 연결되어 있는가?
ethtool eth0 | grep 'Link detected'
# b) 같은 VLAN에 있는가?
bridge vlan show dev eth0
# c) 방화벽이 ARP를 차단하고 있는가?
ebtables -L | grep arp
# d) 수동으로 ARP 보내보기
arping -I eth0 192.168.1.1

# Step 4: 임시 해결 — 정적 neighbour 설정
ip neigh replace 192.168.1.1 lladdr aa:bb:cc:dd:ee:ff nud permanent dev eth0

####################################################
# 시나리오 2: "간헐적으로 첫 패킷이 느림" (ARP 지연)
####################################################

# 증상: 통신이 잘 되다가 잠시 안 쓰면 첫 패킷 지연
# 원인: REACHABLE → STALE → DELAY → PROBE 전이 중 지연

# 확인: neighbour 상태 모니터링
ip monitor neigh
# 192.168.1.1 dev eth0 lladdr aa:bb:cc:dd:ee:ff REACHABLE
# (30초 후)
# 192.168.1.1 dev eth0 lladdr aa:bb:cc:dd:ee:ff STALE

# 해결: reachable_time 늘리기 (환경에 따라)
sysctl -w net.ipv4.neigh.eth0.base_reachable_time_ms=120000  # 2분

####################################################
# 시나리오 3: "Neighbour table overflow" 커널 메시지
####################################################

# 확인: 현재 엔트리 수
ip neigh show | wc -l
# 1025    ← gc_thresh3(1024) 초과!

# 확인: 어떤 상태가 많은가?
ip neigh show | awk '{print $NF}' | sort | uniq -c | sort -rn
#  800 STALE    ← 대부분 STALE (오래된 캐시)
#  150 REACHABLE
#   75 FAILED

# 해결 1: 임계값 상향
sysctl -w net.ipv4.neigh.default.gc_thresh1=4096
sysctl -w net.ipv4.neigh.default.gc_thresh2=8192
sysctl -w net.ipv4.neigh.default.gc_thresh3=16384

# 해결 2: STALE/FAILED 엔트리 정리
ip neigh flush nud failed
ip neigh flush nud stale dev eth0

####################################################
# 시나리오 4: "MAC 주소가 잘못 캐싱됨" (ARP 오염)
####################################################

# 증상: 특정 IP로 ping이 안 가지만 다른 곳에서는 감
# 확인
ip neigh show 192.168.1.1 dev eth0
# 192.168.1.1 dev eth0 lladdr 00:00:00:00:00:00 REACHABLE
#                       ^^^^^^^^^^^^^^^^^^^^^^^ 잘못된 MAC!

# 해결: 해당 엔트리 삭제 후 재학습
ip neigh del 192.168.1.1 dev eth0
# 다음 패킷 전송 시 새 ARP Request 자동 발생

# 또는: 모든 캐시 플러시
ip neigh flush all

####################################################
# 유용한 모니터링 명령어
####################################################

# 실시간 neighbour 변경 모니터링
ip monitor neigh

# neighbour 통계
ip -s neigh show dev eth0
# 192.168.1.1 dev eth0 lladdr aa:bb:cc:dd:ee:ff ref 2 used 5/3/1 ...
#                                                    used/confirmed/updated

# /proc 통계 (per-CPU)
cat /proc/net/stat/arp_cache
# entries  allocs  destroys  hash_grows  lookups  hits  ...

# bpftrace로 ARP 지연 측정
bpftrace -e 'kprobe:arp_solicit { @arp_req = count(); }
kprobe:arp_process { @arp_resp = count(); }
interval:s:5 { print(@arp_req); print(@arp_resp);
               clear(@arp_req); clear(@arp_resp); }'

neighbour 핵심 정리:

neighbour는 FIB 조회 다음 단계로, IP→MAC 변환을 담당합니다. 이것이 실패하면 route가 맞아도 패킷이 나가지 않습니다.
NUD 상태 머신이 이웃의 도달성을 추적합니다: INCOMPLETE → REACHABLE → STALE → DELAY → PROBE → FAILED (또는 REACHABLE로 복귀)
hh_cache는 REACHABLE 상태에서 L2 헤더를 미리 캐시하여 fast path를 제공합니다. 이것이 패킷당 ~10ns의 성능을 가능하게 합니다.
gc_thresh3은 hard limit입니다. 이를 초과하면 새 연결이 실패하므로, 대규모 환경에서는 반드시 상향 조정해야 합니다.
디버깅 핵심: ip neigh show로 NUD 상태를 확인하고, ip monitor neigh로 실시간(Real-time) 변화를 추적하세요.

VRF (Virtual Routing and Forwarding)

앞에서 라우팅 테이블이 여러 개 존재할 수 있고, Policy Routing으로 테이블을 선택할 수 있음을 배웠습니다. VRF는 이 개념을 한 단계 더 발전시켜, 인터페이스 그룹 단위로 라우팅 도메인을 완전히 격리합니다. 앞의 FIB 네임스페이스 섹션과 함께 읽으면 격리 수준의 차이를 이해할 수 있습니다.

VRF는 단일 호스트 안에서 여러 개의 독립된 L3 라우팅 도메인을 제공합니다. 핵심은 "VRF 디바이스가 특정 FIB table을 대표하고, 인터페이스를 그 VRF에 enslave하면 그 인터페이스의 local/connected route가 해당 table로 이동합니다"는 점입니다. VRF는 netns처럼 전체 네트워크 스택을 복제하지 않으며, 인터페이스 하나는 한 시점에 하나의 VRF에만 속할 수 있습니다.

# VRF 디바이스 생성
ip link add vrf-red type vrf table 100
ip link set vrf-red up

# 인터페이스를 VRF에 할당
ip link set eth1 master vrf-red
ip link set eth2 master vrf-red

# VRF별 라우팅 테이블 (자동으로 table 100 사용)
ip route add 10.0.0.0/24 via 192.168.1.1 vrf vrf-red
ip route show vrf vrf-red

# VRF 컨텍스트에서 명령 실행
ip vrf exec vrf-red ping 10.0.0.1
ip vrf exec vrf-red ss -tlnp

# VRF에 바인딩된 소켓 (SO_BINDTODEVICE)
# 전역 소켓이 VRF 패킷을 받게 하려면 l3mdev sysctl을 명시
sysctl net.ipv4.tcp_l3mdev_accept=1
sysctl net.ipv4.udp_l3mdev_accept=1

# VRF 목록 확인
ip vrf show
# Name         Table
# vrf-red      100
# vrf-blue     200

l3mdev 규칙과 라우팅 흐름

커널 문서 Documentation/networking/vrf.rst 기준으로, 현대 VRF 구현의 핵심은 l3mdev 규칙입니다. 첫 번째 VRF를 만들면 IPv4/IPv6용 공통 l3mdev FIB rule이 자동 추가되며, 이 규칙이 "이 패킷이 어느 VRF table을 봐야 하는가"를 결정합니다.

# 첫 VRF 생성 후 보통 보이게 되는 규칙
ip rule show
# ...
# 1000:  from all lookup [l3mdev-table]

# 인터페이스를 VRF에 편입하면 local/connected route가 해당 table로 이동
ip link set dev eth1 master vrf-red
ip route show table 100

# VRF에서 수신하는 서버가 아니더라도 전역 listen 소켓으로 받게 할 수 있음
sysctl net.ipv4.tcp_l3mdev_accept=1
sysctl net.ipv4.raw_l3mdev_accept=0

VRF 주의: 인터페이스를 VRF에 붙이는 순간 그 인터페이스에 의존하던 추가 route는 drop될 수 있으므로 재삽입이 필요합니다. 또한 tcp_l3mdev_accept=1을 켜면 VRF-bound listener와 unbound listener 중 어느 소켓이 연결을 받을지 모호해질 수 있으므로, VRF-aware 서버에서는 명시적 SO_BINDTODEVICE가 더 안전합니다.

VRF 활용 시나리오

시나리오	구성	장점
멀티테넌트 라우터	테넌트별 VRF + 라우팅 테이블	테넌트 간 IP 충돌 허용, 격리
관리 네트워크 분리	관리 인터페이스를 별도 VRF에	데이터 플레인과 관리 트래픽 격리
BGP/MPLS VPN PE	VRF + FRR(BGP)	L3VPN PE 라우터 구현
컨테이너 네트워킹	Pod별 VRF (netns 대신)	netns보다 가벼운 L3 격리

💡

VRF vs Network Namespace: VRF는 FIB와 L3 라우팅 문맥을 분리하지만, netns처럼 neighbour 테이블, conntrack, netfilter 전체를 별도 인스턴스로 복제하지는 않습니다. 완전한 네트워크 격리가 필요하면 netns, 같은 호스트 내부에서 여러 라우팅 도메인만 분리하려면 VRF가 더 적합합니다.

참고: VRF의 l3mdev 커널 인터페이스, l3mdev_ops 구현, FIB 규칙 설정, 소켓 바인딩 상세는 L3 Master Device (VRF) 문서를 참조하세요.

Routing Cache와 최적화

지금까지 FIB 조회, neighbour 해석, 경로 관리를 모두 살펴봤습니다. 여기서 자연스러운 질문이 하나 떠오릅니다: "매 패킷마다 FIB trie를 순회하면 느리지 않을까?" 과거 커널은 이 문제를 전역 캐시로 해결하려 했지만, 오히려 더 큰 문제를 만들었습니다.

일상 비유 — 즐겨찾기 vs 매번 검색: 자주 가는 식당을 즐겨찾기에 저장하면 빠르게 찾을 수 있지만, 즐겨찾기가 수백만 개가 되면 오히려 즐겨찾기 목록을 검색하는 것이 더 느려집니다. Linux 3.5까지의 route cache가 바로 이 문제를 겪었고, 3.6에서 제거되었습니다. 현재는 FIB를 직접 조회하되 PMTU나 redirect 같은 예외 정보만 별도로 캐싱하는 방식을 사용합니다.

Route Cache 제거 역사 (3.6+)

커널 3.6 이전에는 IPv4 route lookup 결과를 공격 표면이 큰 전역 cache에 적극적으로 올렸습니다. 이 구조는 랜덤 목적지 트래픽으로 cache를 오염시키는 DoS에 취약했고, GC 비용도 컸습니다. 현재는 "일반 route 결과를 전역 cache에서 찾습니다"기보다, FIB를 직접 조회하고 PMTU/redirect 같은 예외만 별도 자료구조에 유지하는 방향으로 바뀌었습니다.

/* 커널 3.6 이전: route cache (제거됨)
 * - 해시 테이블에 (src, dst, tos, iif) → rtable 캐싱
 * - 문제: 랜덤 목적지 트래픽으로 캐시 크기 폭발 (DoS)
 * - 문제: 캐시 GC(Garbage Collection) 비용이 높음
 * - commit 89aef8921b ("ipv4: Remove rt cache")
 */

/* 커널 3.6+: FIB nexthop exception cache
 * - PMTU, 리다이렉트 등 예외만 캐싱
 * - 일반 조회는 매번 FIB trie를 직접 조회 (충분히 빠름)
 */
struct fib_nh_exception {
    struct fib_nh_exception *fnhe_next;
    int              fnhe_genid;
    __be32           fnhe_daddr;      /* 목적지 */
    u32              fnhe_pmtu;       /* Path MTU */
    bool             fnhe_mtu_locked;
    __be32           fnhe_gw;         /* redirect 게이트웨이 */
    unsigned long    fnhe_expires;    /* 만료 시간 */
    struct rtable   *fnhe_rth_input;
    struct rtable   *fnhe_rth_output;
    unsigned long    fnhe_stamp;
    struct rcu_head rcu;
};

현재 의미: /proc/net/rt_cache 또는 route 관련 통계가 남아 있어도, 그것을 예전 의미의 "전역 destination route cache"로 이해하면 안 됩니다. 현대 커널에서 핵심은 FIB direct lookup, dst_entry 재사용, nexthop exception cache입니다.

FIB 조회 최적화

최적화 기법	핵심 아이디어	효과
LC-trie / fib6 prefix tree	주소 계열별로 최적화된 prefix 자료구조 사용	대규모 FIB에서도 예측 가능한 LPM lookup
RCU 기반 읽기 경로	lookup hot path에서 lock 경합 최소화	멀티코어 라우터/호스트에서 읽기 확장성 확보
`dst_entry` 재사용	완전히 별도 route cache 대신 결과 객체와 output ops를 재사용	출력 경로 메모리 재활용(Recycling)과 PMTU/redirect 반영
nexthop object / group	route와 nexthop 세트를 분리해 공유	ECMP, offload, 라우팅 데몬 연동 단순화
FIB notifier / offload sync	FIB 변경을 switchdev/HW offload에 전달	소프트웨어와 하드웨어 forwarding state 일치 유지

라우팅과 Netfilter 상호작용

일상 비유 — 세관 검사: 국제 택배가 세관을 통과할 때 내용물 검사, 세금 부과, 때로는 반송이 결정됩니다. Netfilter도 패킷이 라우팅되기 전후에 검사(필터링), 변환(NAT), 표시(mark)를 수행합니다. 중요한 점은, 이 세관 검사가 패킷의 목적지를 바꿀 수 있어서 라우팅 결과 자체가 달라질 수 있는 것입니다.

앞에서 배운 flowi의 mark 필드와 Policy Routing의 fwmark 규칙이 바로 여기서 Netfilter와 만납니다. Netfilter의 mark/NAT 처리는 라우팅 결정에 직접적인 영향을 미칩니다. 핵심은 "변경이 route lookup 이전에 일어났는지, 이후에 일어나서 기존 dst를 무효화해야 하는지"를 구분하는 것입니다.

DNAT와 라우팅 재조회

ingress IPv4: PREROUTING 뒤에 첫 route lookup이 수행됩니다:

NIC → ip_rcv()
NF_INET_PRE_ROUTING — mangle/raw/nat PREROUTING이 mark / daddr를 바꿀 수 있습니다
ip_rcv_finish() → ip_route_input_noref() — 변경된 daddr/mark 기준으로 첫 lookup을 수행합니다

local output: 먼저 route를 잡고, OUTPUT에서 바뀌면 재평가가 필요합니다:

socket send → ip_route_output_flow()
NF_INET_LOCAL_OUT — nat OUTPUT DNAT, mark 변경이 dst를 무효화할 수 있으며, 이 경우 ip_route_me_harder() 계열 재조회가 개입합니다
NF_INET_POST_ROUTING → dev_queue_xmit()

conntrack과 라우팅의 상호작용:

NAT은 conntrack state를 기반으로 동작합니다
첫 패킷이 NAT 결정을 만들고, 이후 패킷은 conntrack tuple을 재사용합니다
NOTRACK된 패킷은 NAT 대상이 아닙니다

정확한 해석: PREROUTING DNAT는 보통 "재조회"보다 "변경된 목적지 기준 최초 조회"에 가깝고, OUTPUT DNAT는 "이미 잡힌 route를 다시 계산해야 하는 경우"에 가깝습니다.

Netfilter 훅과 라우팅 시점

# 패킷 흐름에서 라우팅과 Netfilter의 순서:
#
# 수신 경로:
#   NIC → [PREROUTING] → 라우팅 결정 → [INPUT] → 로컬 프로세스
#                        ↓ (forward)
#                     [FORWARD] → [POSTROUTING] → NIC
#
# 송신 경로:
#   로컬 프로세스 → 라우팅 결정 → [OUTPUT] → [POSTROUTING] → NIC
#
# PREROUTING mark/DNAT는 첫 ingress lookup에 반영
# OUTPUT mark/DNAT는 기존 dst를 무효화해 재조회가 필요할 수 있음
# SNAT는 일반적으로 POSTROUTING에서 적용 → route 선택 이후
# REDIRECT는 로컬 주소로 destination을 바꾸는 DNAT 계열

# ingress DNAT 예시: 변경된 목적지 기준으로 lookup
iptables -t nat -A PREROUTING -d 1.2.3.4 -p tcp --dport 80 \
  -j DNAT --to-destination 192.168.1.100:80
# → 1.2.3.4:80 목적지가 192.168.1.100:80으로 변경
# → 이후 ingress route lookup은 192.168.1.100 기준으로 수행

라우팅과 네임스페이스

바로 앞의 VRF가 "같은 커널 안에서 L3 테이블만 분리"하는 방식이라면, 네트워크 네임스페이스는 라우팅 테이블뿐 아니라 전체 네트워크 스택(인터페이스, ARP, conntrack, iptables)을 완전히 복제하는 더 강력한 격리입니다. Docker 컨테이너의 네트워크가 바로 이 방식으로 동작합니다.

각 네트워크 네임스페이스는 독립된 라우팅 테이블, RPDB 규칙, nexthop, neighbour, conntrack 문맥을 가집니다. VRF가 "같은 netns 안에서 L3 table만 분리"한다면, netns는 아예 별도 네트워크 스택 인스턴스를 만드는 방식입니다.

네트워크 네임스페이스별 라우팅 격리

# 네임스페이스 생성 및 veth 쌍 연결
ip netns add ns1
ip link add veth0 type veth peer name veth1
ip link set veth1 netns ns1

# 호스트 측
ip addr add 10.0.0.1/24 dev veth0
ip link set veth0 up

# 네임스페이스 측
ip netns exec ns1 ip addr add 10.0.0.2/24 dev veth1
ip netns exec ns1 ip link set veth1 up
ip netns exec ns1 ip route add default via 10.0.0.1

# 네임스페이스의 라우팅 테이블은 완전히 독립
ip netns exec ns1 ip route show
# 10.0.0.0/24 dev veth1 proto kernel scope link src 10.0.0.2
# default via 10.0.0.1 dev veth1

# 호스트에서 네임스페이스로의 포워딩 (호스트에서 설정)
sysctl net.ipv4.ip_forward=1
iptables -t nat -A POSTROUTING -s 10.0.0.0/24 -o eth0 -j MASQUERADE

Bridge + Routing

# 브리지는 L2, 라우팅은 L3 — 상호작용 주의

# 브리지 인터페이스에 IP 할당 → L3 라우팅 가능
ip link add br0 type bridge
ip link set eth1 master br0
ip link set eth2 master br0
ip addr add 10.0.0.1/24 dev br0
ip link set br0 up

# 브리지 내 패킷의 netfilter 통과 제어
sysctl net.bridge.bridge-nf-call-iptables=1   # 브리지 패킷이 iptables 통과
sysctl net.bridge.bridge-nf-call-iptables=0   # 성능 우선: iptables 바이패스

# 주의: bridge-nf-call-iptables=1이면
# L2 포워딩 패킷도 iptables FORWARD 체인 통과
# → 예상치 못한 드롭 발생 가능
# → Docker/Kubernetes 환경에서 자주 문제가 됨

성능 튜닝과 주의사항

앞의 섹션들에서 라우팅의 내부 구조를 살펴봤습니다. 이 섹션에서는 실무에서 만나는 성능 문제와 그 해결책을 다룹니다. FIB 메모리 사용량이나 neighbour 테이블 크기 같은 앞의 개념들이 실제 운영에서 어떻게 나타나는지 연결됩니다.

언제 튜닝이 필요한가? 대부분의 환경에서 커널 기본값으로 충분합니다. 다음 증상이 보일 때만 이 섹션의 파라미터를 조정하세요: ARP 테이블 오버플로(Neighbour table overflow 메시지), ECMP 트래픽 불균형, 대규모 FIB(10만+ 경로)에서의 메모리 부족이나 조회 지연, rp_filter에 의한 정상 패킷 드롭.

ARP/Neighbor 테이블 크기

# 대규모 L2 네트워크에서 ARP 테이블 오버플로 방지
sysctl net.ipv4.neigh.default.gc_thresh1=1024   # GC 시작 임계값
sysctl net.ipv4.neigh.default.gc_thresh2=2048   # soft limit (5초 후 GC)
sysctl net.ipv4.neigh.default.gc_thresh3=4096   # hard limit (즉시 GC)

# IPv6 neighbor 테이블
sysctl net.ipv6.neigh.default.gc_thresh3=4096

# 증상: "Neighbour table overflow" 커널 메시지
# → gc_thresh3 증가 필요

# ARP 캐시 타임아웃
sysctl net.ipv4.neigh.default.gc_stale_time=120  # stale 엔트리 GC 주기(초)
sysctl net.ipv4.neigh.default.base_reachable_time_ms=30000  # REACHABLE 유지 시간

rp_filter (Reverse Path Filtering)

# rp_filter: 소스 주소 기반 패킷 검증 (스푸핑 방지)

sysctl net.ipv4.conf.all.rp_filter=1     # strict mode
# → 소스 주소로의 역경로가 수신 인터페이스와 동일해야 통과
# → 비대칭 라우팅 환경에서 정상 패킷 드롭!

sysctl net.ipv4.conf.all.rp_filter=2     # loose mode
# → 소스 주소로의 역경로가 어떤 인터페이스든 존재하면 통과
# → ECMP, VPN, 멀티홈 환경에서 권장

sysctl net.ipv4.conf.all.rp_filter=0     # disabled
# → 소스 주소 검증 없음 (보안 위험)

# 주의: 인터페이스별 설정과 all의 관계
# 실제 적용값 = max(conf.all.rp_filter, conf.IFNAME.rp_filter)
# → all=1이면 인터페이스별로 0으로 해도 strict 적용됨

ip_forward와 관련 설정

# IP 포워딩 활성화
sysctl net.ipv4.ip_forward=1
sysctl net.ipv6.conf.all.forwarding=1

# 주의: IPv6 forwarding=1 시 RA 수신이 비활성화됨
# 해결: accept_ra=2 설정
sysctl net.ipv6.conf.eth0.accept_ra=2

# 포워딩 관련 성능 파라미터
sysctl net.ipv4.ip_forward_use_pmtu=0  # 0: 인터페이스 MTU 사용 (권장)
sysctl net.ipv4.ip_forward_update_priority=1  # TOS → priority 변환
sysctl net.ipv4.fib_multipath_use_neigh=1    # nexthop 상태 기반 분배

링크 다운과 죽은 경로 회피

# 링크가 down 된 인터페이스의 route를 lookup에서 무시
sysctl net.ipv4.conf.all.ignore_routes_with_linkdown=1
sysctl net.ipv6.conf.all.ignore_routes_with_linkdown=1

# VRF/ECMP 환경에서는 link-down 무시 정책과 neighbour 상태를 함께 봐야 함
sysctl net.ipv4.fib_multipath_use_neigh=1

대규모 라우팅 테이블

⚠️

대규모 라우팅 테이블(BGP full table ~100만 경로) 주의사항:

메모리: full BGP table은 ~500MB~1GB 메모리 사용. fib_info와 fib_alias 구조체가 대부분
수렴 시간: 대량 경로 추가/삭제 시 LC-trie 리밸런싱 비용 증가
조회 성능: LC-trie 깊이 증가로 조회 시간 약간 증가 (여전히 O(W=32) 보장)
gc_thresh: ARP/neigh 테이블도 충분히 크게 설정
모니터링: /proc/net/fib_triestat으로 trie 깊이, 노드 수, 메모리 사용량 확인

BIG TCP per-route: gso_max_size · gro_max_size 경로별 전파

BIG TCP(IPv6: Linux 5.19, IPv4: Linux 6.3 GA)는 전송 가능한 TSO/GRO 슈퍼패킷 크기를 기존 64 KB 한도에서 수백 KB 이상으로 확장하는 기능입니다. 라우팅 서브시스템은 경로(route)와 nexthop 단계에서 이 크기를 전달·클램프하여, 출력 디바이스와 중간 홉의 능력에 맞춰 실제로 사용할 세그먼트 크기를 결정합니다.

# 1) 디바이스 레벨 BIG TCP 활성화 (송수신 모두)
ip link set dev eth0 gso_max_size 185000 gro_max_size 185000
ip link set dev eth0 gso_ipv4_max_size 185000 gro_ipv4_max_size 185000

# 2) 라우트별 한도 — 특정 목적지 네트워크로만 낮추거나 올림
#    IPv6 예: 데이터센터 내부 경로만 185000B 허용, 외부는 기본값(65536)
ip route add 2001:db8:dc::/48 via 2001:db8:1::1 dev eth0 advmss 8940 \
    rto_min 10ms quickack 1
#    (gso_max_size는 FIB 속성으로 저장되어 nexthop 선택 시 dst_entry에 복사됨)

# 3) 현재 적용값 확인
ip -d link show eth0 | grep -E "gso_max_size|gro_max_size"
ip route get 2001:db8:dc::1                   # cache 항목에 GSO 관련 metric 확인

# 4) dst_entry가 보유한 한도 — 드라이버 TSO 경로에서 사용
cat /proc/net/dev_mcast                       # 일반 조회는 `ss -i` 등으로 확인
ss -i -6 dst 2001:db8:dc::1 | grep -E "mss|cwnd"

커널 내부 경로: BIG TCP 한도는 net_device::gso_max_size에 저장되고, sk_setup_caps() → sk->sk_gso_max_size로 전달됩니다. 라우트별 오버라이드는 dst_entry에 metrics로 전달되어, ipv4/ipv6_sk_rx_cache_update()나 tcp_select_size() 계산 시 실제 세그먼트 크기를 결정합니다. bpf_fib_lookup()도 nh->fib_nh_dev->gso_max_size를 함께 반환하여 XDP/TC-BPF 경로에서 같은 한도를 적용할 수 있습니다.

주의 — 중간 홉의 MTU/세그먼트 능력: BIG TCP 슈퍼패킷은 IPv6 Hop-by-Hop Jumbogram TLV(RFC 2675, IPv4의 경우 커널 내부 메타데이터)로 전달됩니다. 중간 라우터/스위치가 이를 처리하지 못하면 드롭되거나 MTU 초과로 fragmentation이 발생합니다. 데이터센터 내부(모든 홉이 BIG TCP 인지) 경로에서만 큰 값을 적용하고, 인터넷 방향 경로는 기본값을 유지하세요. NIC 능력은 ethtool -k eth0 | grep -E "tx-tcp6-segmentation|tx-gso-partial"으로 확인합니다.

TC 계층의 qdisc·shaper 튜닝은 TC 문서의 BIG TCP 상호작용 섹션을 참고하세요. NAT·conntrack과의 상호작용은 NAT 문서의 BIG TCP/NAT 상호작용 섹션을 참고합니다.

디버깅

이 페이지에서 배운 모든 개념 — FIB 조회, Policy Routing, neighbour 해석, Netfilter 상호작용 — 이 실전에서 문제가 될 때 어떻게 원인을 추적하는지 봅니다.

패킷이 목적지에 도달하지 못할 때: 라우팅 문제를 디버깅하는 첫 단계는 항상 같습니다. ① ip route get으로 커널이 어떤 경로를 선택하는지 확인 → ② ip rule show로 어떤 테이블을 보는지 확인 → ③ 해당 테이블에 경로가 있는지 확인. 이 세 단계로 대부분의 라우팅 문제 원인을 좁힐 수 있습니다.

ip route get — 경로 조회 시뮬레이션

# 특정 목적지로의 경로 확인 (실제 커널 FIB 조회 수행)
ip route get 8.8.8.8
# 8.8.8.8 via 192.168.1.1 dev eth0 src 192.168.1.100 uid 0
#     cache

# 소스 주소 지정
ip route get 8.8.8.8 from 10.0.0.1

# mark 지정 (policy routing 테스트)
ip route get 8.8.8.8 mark 0x1

# 입력 인터페이스 지정
ip route get 8.8.8.8 iif eth1

# IPv6
ip -6 route get 2001:4860:4860::8888

# fibmatch: FIB 엔트리 직접 조회 (경로 정보 상세)
ip route get fibmatch 10.0.0.1
# 10.0.0.0/24 dev eth0 proto kernel scope link src 10.0.0.100

# route와 rule 변경을 실시간 감시
ip -ts monitor route rule nexthop neigh

FIB 관련 /proc 파일

# FIB trie 구조 (IPv4)
cat /proc/net/fib_trie

# FIB 통계
cat /proc/net/fib_triestat
# Basic info: size of leaf: 56 bytes, size of tnode: 40 bytes.
# Main:
#   Aver depth:     2.35
#   Max depth:      5
#   Leaves:         15
#   Prefixes:       18
#   Internal nodes: 6
#     1: 3  2: 2  3: 1
#   Pointers: 24
#     Null ptrs:   12
#   Total size: 2  kB

# 기존 형식 라우팅 테이블
cat /proc/net/route
# Iface  Destination  Gateway  Flags  RefCnt  Use  Metric  Mask  ...

# IPv6 라우팅
cat /proc/net/ipv6_route

FIB 조회 성능 추적

# ftrace로 FIB 조회 함수 추적
echo fib_table_lookup > /sys/kernel/tracing/set_ftrace_filter
echo function > /sys/kernel/tracing/current_tracer
echo 1 > /sys/kernel/tracing/tracing_on
# ... 트래픽 발생 ...
cat /sys/kernel/tracing/trace

# perf로 FIB 조회 비용 측정
perf record -e 'fib:*' -a sleep 10
perf script

# dropwatch로 라우팅 드롭 추적
dropwatch -l kas
# → ip_error, ip_forward 등에서 드롭 위치 확인

# BPF 기반 FIB 조회 추적
bpftrace -e 'kretprobe:fib_table_lookup /retval != 0/ {
    @fail[retval] = count();
}'

# skb mark 확인 (policy routing 디버깅)
bpftrace -e 'kprobe:ip_route_input_slow {
    printf("mark=%x daddr=%x\n",
        ((struct sk_buff *)arg0)->mark,
        ((struct iphdr *)(((struct sk_buff *)arg0)->head +
         ((struct sk_buff *)arg0)->network_header))->daddr);
}'

라우팅 성능 측정: perf, ftrace, bpftrace 실전

라우팅 성능 문제를 정량적으로 진단하려면 FIB 조회 지연(Latency)과 호출 빈도를 측정해야 합니다. 아래는 실전에서 사용하는 측정 기법입니다.

### FIB 조회 지연 측정 (bpftrace) ###

# fib_table_lookup() 실행 시간 히스토그램 (나노초)
bpftrace -e '
kprobe:fib_table_lookup { @start[tid] = nsecs; }
kretprobe:fib_table_lookup /@start[tid]/ {
    @lookup_ns = hist(nsecs - @start[tid]);
    delete(@start[tid]);
}
interval:s:10 { exit(); }
'
# 출력 예시:
# @lookup_ns:
# [64, 128)     15234  |@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@|
# [128, 256)     3421  |@@@@@@@@@@@                                       |
# [256, 512)      187  |                                                  |
# → 대부분 64~128ns 내 완료 (L1/L2 캐시 히트)

# ip_route_output_key_hash() 전체 경로 지연 측정
bpftrace -e '
kprobe:ip_route_output_key_hash { @start[tid] = nsecs; }
kretprobe:ip_route_output_key_hash /@start[tid]/ {
    @route_ns = hist(nsecs - @start[tid]);
    delete(@start[tid]);
}
interval:s:10 { exit(); }
'

# RPDB 규칙 수에 따른 오버헤드 측정
bpftrace -e '
kprobe:fib_rules_lookup { @start[tid] = nsecs; }
kretprobe:fib_rules_lookup /@start[tid]/ {
    @rpdb_ns = hist(nsecs - @start[tid]);
    delete(@start[tid]);
}
interval:s:10 { exit(); }
'

### perf stat으로 FIB 핫스팟 분석 ###

# 캐시 미스 비율 측정 (FIB trie가 L3 캐시에 맞는지 확인)
perf stat -e cache-misses,cache-references,instructions \
  -p $(pgrep softirq) -- sleep 10

# FIB 관련 함수별 CPU 시간 비율
perf top -g --no-children -e cycles -p $(pgrep softirq) \
  --call-graph dwarf

# FIB tracepoint 이벤트 카운트
perf stat -e 'fib:fib_table_lookup' -a -- sleep 60
# → 초당 FIB 조회 횟수 산출

### ftrace function_graph로 콜 체인 지연 분석 ###

# fib_lookup 관련 함수 그래프 추적
echo fib_lookup > /sys/kernel/tracing/set_graph_function
echo function_graph > /sys/kernel/tracing/current_tracer
echo funcgraph-duration > /sys/kernel/tracing/trace_options
echo 1 > /sys/kernel/tracing/tracing_on
# ... 트래픽 발생 ...
cat /sys/kernel/tracing/trace
# 출력 예시:
# 3) + 0.247 us | fib_table_lookup();
# 3) + 0.103 us | fib_rules_lookup();
# 3) + 1.842 us | fib_lookup();

# 정리
echo nop > /sys/kernel/tracing/current_tracer

성능 측정 해석 가이드:

fib_table_lookup() < 200ns: 정상. LC-trie가 L2 캐시에 대부분 맞는 상태
fib_table_lookup() 500ns~1us: 대규모 테이블(100K+ prefix)에서 L3 캐시 미스 발생. /proc/net/fib_triestat의 depth와 null pointer 비율 확인
fib_rules_lookup() 오버헤드: RPDB 규칙이 많을수록 선형 증가. 규칙이 50개를 넘으면 l3mdev 통합이나 규칙 정리를 검토
cache-miss/cache-reference 비율: 5% 이하면 정상. 높으면 trie 노드가 메모리에 흩어져 있으므로 gc_thresh나 NUMA 바인딩 확인

Lightweight Tunnels (lwtunnel) 연동

Lightweight Tunnels(lwtunnel)은 별도의 터널 디바이스 없이 일반 라우팅 엔트리에 캡슐화/디캡슐화 동작을 부착하는 메커니즘입니다. SRv6, MPLS, BPF, SEG6 등이 모두 lwtunnel 인프라를 사용합니다.

### Lightweight Tunnel 유형과 설정 예시 ###

# MPLS push (lwtunnel encap mpls)
ip route add 10.0.0.0/24 encap mpls 100/200 via 192.168.1.1 dev eth0

# BPF encap (lwtunnel encap bpf)
# 커스텀 BPF 프로그램으로 패킷 캡슐화
ip route add 10.0.0.0/24 encap bpf xmit obj tunnel_encap.o sec encap \
  via 192.168.1.1 dev eth0

# SEG6 (SRv6): 이 페이지의 SRv6 섹션 참조
ip route add 10.0.0.0/24 encap seg6 mode encap \
  segs fc00:1::100,fc00:2::100 dev eth0

# IP-in-IP encap (lwtunnel encap ip)
ip route add 10.0.0.0/24 encap ip id 100 dst 203.0.113.1 \
  via 192.168.1.1 dev eth0

# lwtunnel 상태 확인
ip route show | grep encap
ip -d route show table all | grep -A2 encap

/* net/core/lwtunnel.c — lwtunnel 인프라 핵심 */

/* lwtunnel 유형 등록: 각 프로토콜이 자체 encap 구현 등록 */
static const struct lwtunnel_encap_ops *lwtun_encaps[LWTUNNEL_ENCAP_MAX + 1];

/* 지원 유형:
 * LWTUNNEL_ENCAP_MPLS  — MPLS label push
 * LWTUNNEL_ENCAP_IP    — IP-in-IP
 * LWTUNNEL_ENCAP_IP6   — IPv6 캡슐화
 * LWTUNNEL_ENCAP_SEG6  — SRv6 (seg6_do_srh_encap)
 * LWTUNNEL_ENCAP_BPF   — BPF 프로그램
 * LWTUNNEL_ENCAP_SEG6_LOCAL — SRv6 local SID
 * LWTUNNEL_ENCAP_RPL   — RPL (IoT 라우팅)
 * LWTUNNEL_ENCAP_IOAM6 — IPv6 IOAM (In-situ OAM)
 */

struct lwtunnel_encap_ops {
    int  (*build_state)(struct net *net, struct nlattr *encap,
                        struct lwtunnel_state **ts, ...);
    void (*destroy_state)(struct lwtunnel_state *lws);
    int  (*output)(struct net *net, struct sock *sk,
                   struct sk_buff *skb);
    int  (*input)(struct sk_buff *skb);
    int  (*fill_encap)(struct sk_buff *skb,
                       struct lwtunnel_state *lws);
};

/* dst_entry에서 lwtunnel 호출 경로:
 * ip_output() → dst->lwtstate 존재 시
 *   → lwtunnel_output() → ops->output()
 *   → SRv6: seg6_output(), BPF: bpf_output()
 */

lwtunnel과 라우팅의 관계: lwtunnel은 dst_entry->lwtstate에 캡슐화 상태를 저장합니다. ip_output()이나 ip6_output() 경로에서 lwtstate가 존재하면 일반 출력 대신 lwtunnel_output()을 호출하여 등록된 encap 연산을 수행합니다. 이 방식은 터널 디바이스 생성/관리 오버헤드 없이 per-route 단위로 캡슐화를 적용할 수 있어, 대규모 SRv6/MPLS 환경에서 특히 유리합니다.

Segment Routing (SRv6)

지금까지의 라우팅은 "목적지 주소 → 다음 홉"이라는 hop-by-hop 결정이었습니다. SRv6는 이를 넘어서, 패킷이 통과할 경유지 목록 전체를 출발지에서 미리 지정하는 소스 라우팅 기술입니다. 앞에서 배운 FIB6 위에 구축되며, VRF와 결합하여 End.DT4/DT6 같은 액션으로 테이블 간 연계도 가능합니다.

SRv6(Segment Routing over IPv6)는 RFC 8986이 정의한 IPv6 Segment Routing 동작을 Linux route encap에 매핑한 기술입니다. 일반 라우팅이 "현재 목적지까지의 다음 홉"을 고르는 반면, SRv6는 SRH(Segment Routing Header)에 담긴 SID 목록에 따라 중간 노드에서 수행할 동작까지 경로 자체에 포함시킵니다.

SRv6 개념

설명 요약:

SRv6 기본 개념:
Segment: 네트워크 노드의 IPv6 주소 (또는 함수)
Segment List: 패킷이 통과할 노드의 순서 리스트
SRH (Segment Routing Header): IPv6 확장 헤더에 세그먼트 리스트 포함
SID (Segment Identifier): 128비트 IPv6 주소 형태
형식: [Locator (네트워크 접두사)] + [Function (동작)]
패킷 형태:
[IPv6 Header (DA=현재 세그먼트)] [SRH: 세그먼트 리스트] [원본 패킷]
각 노드에서: Segments Left-- → DA를 다음 세그먼트로 변경 → 포워딩

Linux SRv6 설정

# SRv6 캡슐화 (Encapsulation)
ip route add 10.0.0.0/24 encap seg6 mode encap \
  segs fc00:1::1,fc00:2::1 dev eth0
# → 10.0.0.0/24 향 패킷을 SRv6로 캡슐화

# SRv6 인라인 모드 (원본이 이미 IPv6인 경우)
ip route add 2001:db8:2::/48 encap seg6 mode inline \
  segs fc00:1::1,fc00:2::1 dev eth0

# SRv6 로컬 SID 액션 (수신 측)
ip -6 route add fc00:1::100 encap seg6local action End count dev eth0
# End: 세그먼트 처리 후 다음 세그먼트로 포워딩

sysctl net.vrf.strict_mode=1
ip -6 route add fc00:1::200 encap seg6local action End.DT4 vrftable 100
# End.DT4: SRH 제거 후 IPv4 패킷을 VRF table 100에서 라우팅

ip -6 route add fc00:1::300 encap seg6local action End.DT6 vrftable 200
# End.DT6: SRH 제거 후 IPv6 패킷을 VRF table 200에서 라우팅

ip -6 route add fc00:1::400 encap seg6local action End.DX4 nh4 10.0.0.1 dev eth1
# End.DX4: SRH 제거 후 특정 IPv4 nexthop으로 전달

주요 SRv6 액션

액션	설명	사용 시나리오
`End`	세그먼트 처리, 다음 SID로 포워딩	중간 경유 노드 (transit)
`End.X`	End + L3 cross-connect (특정 nexthop으로)	특정 이웃으로 직접 전달
`End.DT4`	캡슐화(Encapsulation) 해제 → IPv4 라우팅 테이블 조회	VPN PE에서 IPv4 VRF lookup
`End.DT6`	캡슐화 해제 → IPv6 라우팅 테이블 조회	VPN PE에서 IPv6 VRF lookup
`End.DX4`	캡슐화 해제 → 특정 IPv4 nexthop	1:1 VPN 터널(Tunnel) 종단
`End.DX6`	캡슐화 해제 → 특정 IPv6 nexthop	1:1 VPN 터널 종단
`End.B6.Encaps`	SRv6 재캡슐화 (SRH 추가/수정)	중간 노드에서 경로 변경

⚠️

SRv6 주의사항:

MTU 오버헤드: SRH 헤더 추가로 패킷 크기 증가. 세그먼트 1개당 16바이트(IPv6 주소). 4-세그먼트 → +64바이트+SRH 고정 8바이트
CONFIG_IPV6_SEG6: 커널 설정에서 SRv6 지원 활성화 필요
vrftable 제약: End.DT4/End.DT6를 VRF table에 연결할 때는 net.vrf.strict_mode=1이 필요
Segments Left 의미: 일부 local action은 Segments Left가 0이거나 0이 아니어야만 동작하므로, 캡슐화와 종단 동작을 혼동하면 드롭 원인을 찾기 어려움
보안: SRH를 통한 경로 조작 가능. 경계 라우터에서 외부 SRH 패킷 필터링 권장
성능: 소프트웨어 SRv6 처리는 CPU 집약적. SmartNIC offload 또는 DPDK/VPP 활용 고려

# SRv6 상태 확인
ip -6 route show table all | grep seg6
ip -s -6 route show table all | grep -A2 seg6local

# HMAC 키와 상태
cat /proc/net/seg6_hmac

# tcpdump로 SRH 확인
tcpdump -vvv -i eth0 ip6 and 'ip6[40] == 43'
# Routing Header Type 4 (SRH)
# Segments Left: 2
# [0] fc00:2::1
# [1] fc00:1::1

소스: seg6_do_srh_encap() — SRv6 캡슐화 내부

SRv6는 lwtunnel(Lightweight Tunnel) 인프라 위에 구축됩니다. ip route add ... encap seg6 ... 명령은 라우팅 엔트리에 lwtunnel 상태를 붙이며, 패킷이 해당 경로로 나갈 때 lwtunnel_output()이 SRv6 캡슐화 훅을 호출합니다.

lwtunnel 인프라와 SRv6 연결

/* net/ipv6/seg6.c — SRv6 lwtunnel 연산자 등록 */
static const struct lwtunnel_encap_ops seg6_iptun_ops = {
    .build_state       = seg6_build_state,    /* 경로 추가 시 상태 구성 */
    .destroy_state     = seg6_destroy_state,
    .output            = seg6_output,          /* 송신 경로 훅 */
    .input             = seg6_input,           /* 수신 경로 훅 */
    .get_encap_size    = seg6_encap_nlsize,
    .fill_encap        = seg6_fill_encap_info,
};

/* 모듈 초기화 시 lwtunnel에 LWTUNNEL_ENCAP_SEG6으로 등록 */
int seg6_init(void)
{
    lwtunnel_encap_add_ops(&seg6_iptun_ops, LWTUNNEL_ENCAP_SEG6);
    lwtunnel_encap_add_ops(&seg6_local_ops, LWTUNNEL_ENCAP_SEG6LOCAL);
    /* ... */
}

seg6_output() → seg6_do_srh_encap/inline 분기

/* net/ipv6/seg6_iptunnel.c */
static int seg6_output(struct net *net,
                       struct sock *sk,
                       struct sk_buff *skb)
{
    struct dst_entry *orig_dst = skb_dst(skb);
    struct seg6_iptunnel_encap *tinfo;
    int err = -EINVAL;

    tinfo = seg6_encap_lwtstate(orig_dst->lwtstate);

    switch (tinfo->mode) {
    case SEG6_IPTUN_MODE_INLINE:
        /* 원본이 이미 IPv6: SRH를 IPv6 헤더 직후에 삽입 */
        if (skb->protocol != htons(ETH_P_IPV6))
            goto drop;
        err = seg6_do_srh_inline(skb, tinfo->srh);
        break;

    case SEG6_IPTUN_MODE_ENCAP:
        /* 원본 패킷(IPv4/IPv6)을 IPv6+SRH로 완전 캡슐화 */
        err = seg6_do_srh_encap(skb, tinfo->srh, IPPROTO_IPV6);
        break;

    case SEG6_IPTUN_MODE_ENCAP_RED:
        /* Reduced Encap: SL==0 시 SRH 생략하여 오버헤드 감소 */
        err = seg6_do_srh_encap_red(skb, tinfo->srh, IPPROTO_IPV6);
        break;

    case SEG6_IPTUN_MODE_L2ENCAP:
        /* L2 프레임(이더넷) 전체를 SRv6로 캡슐화 */
        err = seg6_do_srh_encap(skb, tinfo->srh, IPPROTO_ETHERNET);
        break;
    }
    if (err)
        goto drop;

    /* 캡슐화 후 새 IPv6 DA(SID[0])로 재라우팅 */
    ipv6_hdr(skb)->payload_len =
        htons(skb->len - sizeof(struct ipv6hdr));
    skb_set_transport_header(skb, sizeof(struct ipv6hdr));

    return dst_output(net, sk, skb);
drop:
    kfree_skb(skb);
    return err;
}

seg6_do_srh_encap() — SRH 구성 상세

/* net/ipv6/seg6_iptunnel.c */
static int seg6_do_srh_encap(struct sk_buff *skb,
                              struct ipv6_sr_hdr *osrh,
                              int proto)
{
    struct ipv6hdr *hdr, *inner_hdr;
    struct ipv6_sr_hdr *isrh;
    int hdrlen, tot_len, err;

    hdrlen = (osrh->hdrlen + 1) << 3;         /* SRH 전체 길이 (바이트) */
    tot_len = hdrlen + sizeof(struct ipv6hdr); /* outer IPv6 + SRH */

    /* headroom 확보: skb 앞에 outer 헤더 공간 할당 */
    err = skb_cow_head(skb, tot_len + skb->dev->needed_headroom);
    if (unlikely(err))
        return err;

    inner_hdr = ipv6_hdr(skb);

    /* skb data pointer를 tot_len만큼 앞으로 이동 */
    skb_push(skb, tot_len);
    skb_reset_network_header(skb);
    skb_mac_header_rebuild(skb);

    /* outer IPv6 헤더 설정 */
    hdr = ipv6_hdr(skb);
    hdr->version     = 6;
    hdr->priority    = 0;
    memset(hdr->flow_lbl, 0, sizeof(hdr->flow_lbl));
    hdr->payload_len = htons(skb->len - sizeof(struct ipv6hdr));
    hdr->nexthdr     = NEXTHDR_ROUTING;    /* 다음 헤더 = Routing Header (43) */
    hdr->hop_limit   = ip6_dst_hoplimit(skb_dst(skb));

    /* 소스: 로컬 SRv6 주소, 목적지: SID[first_segment] (첫 경유지) */
    seg6_get_srh_saddr(skb, &hdr->saddr);
    hdr->daddr = osrh->segments[osrh->first_segment];

    /* SRH 복사: outer IPv6 헤더 바로 뒤에 위치 */
    isrh = (struct ipv6_sr_hdr *)(hdr + 1);
    memcpy(isrh, osrh, hdrlen);
    isrh->nexthdr      = proto;                     /* SRH 다음 = 원본 프로토콜 */
    isrh->segments_left = isrh->first_segment;      /* 남은 세그먼트 수 초기화 */

    /* 원본 IP 헤더의 Traffic Class를 outer로 복사 */
    if (proto == IPPROTO_IPV6)
        hdr->priority = inner_hdr->priority;

    return 0;
}

SRH(Segment Routing Header) 구조

/* include/linux/ipv6.h */
struct ipv6_sr_hdr {
    __u8            nexthdr;         /* 다음 헤더 타입 */
    __u8            hdrlen;          /* 헤더 길이 (8바이트 단위, 첫 8바이트 제외) */
    __u8            type;            /* = 4 (Segment Routing) */
    __u8            segments_left;   /* 남은 세그먼트 수 (처리마다 감소) */
    __u8            first_segment;   /* SID 배열의 마지막 유효 인덱스 */
    __u8            flags;
    __u16           tag;             /* 패킷 그룹 태그 */
    struct in6_addr segments[];    /* SID 목록 (역순 저장) */
};

/* SID 목록 역순 저장 규칙:
 *   segments[0]         = 마지막 SID (최종 목적지/End.DT 노드)
 *   segments[1..n-1]    = 중간 경유지 (역순)
 *   segments[first_segment] = 첫 번째 SID (현재 outer DA)
 *
 * 패킷 처리 흐름 (각 SRv6 노드에서):
 *   1. IPv6 DA == 자신의 SID인지 확인
 *   2. 해당 SID의 액션 수행 (End, End.DT4, ...)
 *   3. segments_left-- 후 IPv6 DA = segments[segments_left]로 갱신
 *   4. segments_left == 0이면 최종 노드 액션 (캡슐화 해제 등)
 */

seg6_local_input() — 로컬 SID 처리 분기

/* net/ipv6/seg6_local.c */
static int seg6_local_input_core(struct net *net,
                                  struct sock *sk,
                                  struct sk_buff *skb)
{
    struct dst_entry *orig_dst = skb_dst(skb);
    struct seg6_local_lwt *slwt;

    slwt = seg6_local_lwtstate(orig_dst->lwtstate);

    /* SRH 유효성 검사 (HMAC 포함, CONFIG_IPV6_SEG6_HMAC 시) */
    if (!seg6_validate_srh(slwt->srh, skb, false))
        goto drop;

    /* 액션 함수 포인터 직접 호출 (End, End.DT4, End.DT6, End.X 등) */
    return slwt->desc->input(skb, slwt);
drop:
    kfree_skb(skb);
    return -EINVAL;
}

/* End.DT4: SRv6 캡슐화 해제 → IPv4 VRF 테이블 조회 */
static int input_action_end_dt4(struct sk_buff *skb,
                                 struct seg6_local_lwt *slwt)
{
    struct iphdr *iph;
    int err;

    /* 1. Segments Left == 0 검사 (최종 노드만 처리) */
    if (srh_get_seg_left(skb) != 0)
        goto drop;

    /* 2. outer IPv6+SRH 제거, inner IPv4 노출 */
    skb_pull(skb, sizeof(struct ipv6hdr) + srh_len(skb));
    skb_reset_network_header(skb);
    skb->protocol = htons(ETH_P_IP);

    iph = ip_hdr(skb);
    if (!pskb_may_pull(skb, iph->ihl * 4))
        goto drop;

    /* 3. VRF 인터페이스(slwt->vrf_ifindex)로 IPv4 라우팅 조회 */
    skb->dev = dev_get_by_index_rcu(slwt->net, slwt->vrf_ifindex);
    if (!skb->dev)
        goto drop;

    skb_dst_drop(skb);
    err = ip_route_input_noref(skb, iph->daddr, iph->saddr,
                               iph->tos, skb->dev);
    if (err)
        goto drop;

    return dst_input(skb);  /* IPv4 포워딩 경로로 진입 */
drop:
    kfree_skb(skb);
    return -EINVAL;
}

코드 설명

lwtunnel 인프라 역할: SRv6는 별도의 터널 디바이스 없이 일반 라우팅 엔트리에 lwtstate를 붙여 동작합니다. dst_entry->lwtstate에 SRH 설정이 저장되고, dst.output/dst.input 경로에서 해당 훅이 호출됩니다. MPLS, GENEVE 등도 동일한 lwtunnel 인프라를 사용합니다.
skb_cow_head() 비용: SRv6 캡슐화는 패킷 앞에 outer IPv6 헤더(40바이트)와 SRH(8 + 16×세그먼트 수 바이트)를 추가합니다. 원본 skb의 헤드룸이 부족하면 복사본을 만들어야 합니다. 이 복사 비용이 소프트웨어 SRv6 성능의 주요 병목입니다. SmartNIC offload나 XDP pre-allocation으로 완화할 수 있습니다.
SID 목록 역순 저장: segments[]는 역순으로 저장됩니다. segments[0]이 마지막 SID(최종 목적지), segments[first_segment]가 첫 번째 SID입니다. outer IPv6 DA는 항상 segments[segments_left]로 설정됩니다.
End.DT4 vs End.DT6: End.DT4는 IPv4 내부 패킷을 decapsulate하여 slwt->vrf_ifindex로 지정된 VRF의 IPv4 테이블에서 조회합니다. End.DT6는 동일한 방식으로 IPv6 내부 패킷을 처리합니다. 두 액션 모두 Segments Left == 0을 강제합니다.
ENCAP_RED 모드: RFC 9252에서 도입. Segments Left가 0이면 SRH를 삽입하지 않아 헤더 오버헤드를 줄입니다. 중간 노드가 SRv6를 이해하지 못해도 최종 목적지만 SID를 처리할 수 있는 환경에 적합합니다.
net.vrf.strict_mode=1 필수: End.DT4/End.DT6를 VRF table에 연결할 때 이 설정이 없으면 패킷이 VRF 바깥 테이블로 누출될 수 있습니다. strict mode는 VRF 소속 인터페이스로 수신한 패킷이 해당 VRF 테이블만 조회하도록 강제합니다.

# SRv6 encap 경로 설정 — ingress PE 노드 (IPv4 over SRv6)
ip route add 10.0.0.0/24 \
  encap seg6 mode encap \
  segs fc00:1::100,fc00:2::100,fc00:3::100 \
  dev eth0

# SRv6 local SID 설정 — 중간 transit 노드 (End 액션)
ip -6 route add fc00:2::100 \
  encap seg6local action End count \
  dev lo

# SRv6 local SID 설정 — egress PE 노드 (End.DT4)
# fc00:3::100 SID 수신 시 SRv6 해제 후 VRF 100 IPv4 lookup
ip -6 route add fc00:3::100 \
  encap seg6local action End.DT4 vrftable 100 \
  dev lo

# SRv6 + VRF 필수 설정
sysctl -w net.vrf.strict_mode=1
sysctl -w net.ipv6.conf.all.seg6_enabled=1
sysctl -w net.ipv6.conf.eth0.seg6_enabled=1

# SRv6 카운터 확인 (count 옵션 활성화 시)
ip -s -6 route show table all | grep -A4 seg6local

# SRv6 패킷 캡처: Routing Header (next header = 43) 확인
tcpdump -vvvni eth0 'ip6 and ip6[40] == 43'
# Routing Header Type 4 = SRH
# Segments Left: 2  → 아직 2개 경유지 남음
# [0] fc00:3::100   (최종 End.DT4 노드)
# [1] fc00:2::100   (중간 End 노드)
# [2] fc00:1::100   (현재 DA, 첫 번째 경유지)

# HMAC 키 상태 확인 (CONFIG_IPV6_SEG6_HMAC 활성화 시)
cat /proc/net/seg6_hmac

가상 네트워크 디바이스

Linux Bridge, Bonding/Team, VLAN, VXLAN, MACVLAN/IPVLAN 등의 가상 네트워크 디바이스는 아래 전문 문서에서 다룹니다.

관련 전문 문서:

Linux Bridge — 소프트웨어 L2 스위치, FDB, STP/RSTP, IGMP Snooping, br_netfilter, TC flower 오프로드
802.1Q VLAN, VXLAN/GENEVE 오버레이, eSwitch — VLAN 태깅, Bridge VLAN Filtering, VXLAN 오버레이(Overlay), switchdev HW 오프로드
Bonding / Team — NIC 이중화(Bonding/Team), LACP, SR-IOV
가상 네트워크 인터페이스 — MACVLAN/IPVLAN, veth pair, TUN/TAP

공식 문서 기준 최신 운영 포인트

2026년 4월 21일 기준 최신 안정 커널은 6.19.13(2026년 4월 16일 게시)이며, 메인라인은 7.0(2026년 4월 12일 공개)입니다. 라우팅 문서를 실무에 적용할 때는 "기능이 있느냐"보다 "사용자 공간이 새 nexthop UAPI를 정확히 이해하느냐"를 먼저 확인해야 합니다.

nexthop API는 가능하면 호환 모드 해제를 전제로 보세요

ip-sysctl 문서 기준으로 nexthop_compat_mode는 기본값이 켜져 있습니다. 이 모드에서는 route dump와 알림에 새 nexthop 속성과 함께 예전 확장 형식도 같이 포함되지만, 최신 기능 표현이 불완전하거나 잘못 보일 수 있습니다. 공식 문서도 resilient group이 일반 nexthop 목록처럼 보일 수 있고, 8비트를 넘는 가중치가 부정확하게 보일 수 있다고 명시합니다.

공식 문서 기준: modern nexthop UAPI를 제대로 해석할 수 있는 사용자 공간을 이미 갖췄다면 nexthop_compat_mode를 끄는 편이 좋습니다. route 알림 확장과 불필요한 nexthop 전개를 줄여 성능상 이점이 있습니다.

# 최신 nexthop UAPI 해석 가능 여부를 먼저 확인합니다.
sysctl net.ipv4.nexthop_compat_mode

# 호환 모드를 끄기 전/후로 route dump 차이를 비교합니다.
ip -details nexthop show
ip -details route show table main

resilient 그룹은 "버킷 상태"까지 봐야 운영이 됩니다

Resilient nexthop group 문서는 그룹 자체보다 버킷 테이블을 관찰해야 변경 영향 범위를 이해할 수 있다고 사실상 전제합니다. RTM_GETNEXTHOP로 그룹을 조회할 때 NHA_ID, NHA_OIF, NHA_MASTER, NHA_RES_BUCKET를 이용해 특정 디바이스나 VRF에 속한 버킷만 제한 조회할 수 있습니다. 따라서 ECMP 페일오버를 분석할 때는 "그룹이 존재한다"보다 "어떤 버킷이 어느 nhid로 이동했는가"를 확인해야 합니다.

# 문서 예시와 같은 resilient 그룹 생성
ip nexthop add id 1 via 192.0.2.2 dev eth0
ip nexthop add id 2 via 192.0.2.3 dev eth0
ip nexthop add id 10 group 1/2 type resilient buckets 64 idle_timer 60 unbalanced_timer 300

# 버킷 단위 상태 확인
ip nexthop bucket show id 10

VRF 환경에서는 버킷 조회에도 master 범위를 의식해야 합니다. 공식 문서상 NHA_MASTER는 특정 VRF ifindex에 속한 디바이스만 대상으로 버킷을 제한할 수 있으므로, 멀티테넌트 환경에서는 버킷 이동과 경로 이동을 같은 VRF 범위 안에서 함께 읽어야 합니다.

VRF 편입은 연결 라우트 이동과 종속 라우트 삭제를 동시에 일으킵니다

VRF 공식 문서는 인터페이스를 VRF device에 enslave하면 local route와 connected route는 해당 VRF 테이블로 자동 이동하지만, 그 디바이스에 의존하던 추가 라우트는 삭제되며 다시 넣어야 한다고 분명히 적고 있습니다. 운영 중 장애가 잦은 이유는 이 지점을 간과하고 기본 경로만 다시 넣기 때문입니다.

# VRF에 인터페이스를 편입하기 전후 라우트를 비교합니다.
ip route show table main
ip link set dev eth1 master vrf-blue
ip route show vrf vrf-blue
ip neigh show vrf vrf-blue

공식 문서 기준: VRF 재편입 직후에는 ip route show vrf NAME만 보지 말고 ip neigh show vrf NAME까지 함께 확인해야 합니다. 라우트는 이동했지만 neighbour가 재학습되지 않아 실제 전송이 막히는 경우가 있습니다.

1차 자료와 외부 레퍼런스

라우팅과 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.

라우팅 (Routing Subsystem)

핵심 요약

단계별 이해

라우팅 서브시스템 개요

패킷 흐름에서 라우팅의 위치

RPDB에서 출력 디바이스까지

FIB 내부 구조

FIB의 역할과 위치

FIB 자료구조 계층

핵심 자료구조

fib_alias와 fib_info 공유 메커니즘

LC-trie 자료구조

LC-trie 삽입, 삭제, 리밸런싱

소스: fib_table_insert() — 경로 추가 내부 경로

소스: fib_table_delete() — 경로 삭제 내부 경로

소스: fib_check_nh() — nexthop 검증

소스: fib_get_table() / fib_new_table() — 테이블 관리

FIB 조회 상세 경로

커널 소스 분석: 콜 체인과 핵심 구조체

구조체: fib_table과 trie

구조체: rtable (dst_entry 확장)

소스: ip_route_output_key() 진입점(Entry Point)

소스: ip_route_input_slow() 수신 경로

소스: fib_select_multipath() ECMP 경로 선택

소스: ip_route_output_key_hash() — 출력 라우트 해결

소스: fib_lookup() — RPDB와 직접 조회 분기

커널 소스 분석 요약

소스: ip_forward() 포워딩 경로

소스: ip_output() → ip_finish_output2() 출력 체인

소스: fib_validate_source() — Reverse Path Filtering 내부

소스: ip_route_me_harder() — Netfilter 재라우팅

소스: inet_select_addr() — 소스 주소 선택 알고리즘

소스: ip_error() — 에러 라우트 ICMP 처리

fib_result에서 dst_entry까지

dst_entry 구조체 상세

dst_ops 콜백과 라우트 타입별 동작

dst_entry 레퍼런스 카운팅과 생명주기

dst metrics 시스템 (RTAX_*)

IPv6 rt6_info 확장

FIB 이벤트 통지 체계

Nexthop 객체 (커널 5.3+)

Nexthop 객체 내부 구조와 그룹 관계

FIB 메모리 사용량과 확장성

IPv4 FIB vs IPv6 FIB 비교

FIB HW Offload (switchdev)

flowi 구조체 — 조회 입력 키 상세

FIB Nexthop Exception Cache 상세

멀티캐스트 FIB (MFC)

MPLS FIB

FIB와 네트워크 네임스페이스

FIB와 동적 라우팅 데몬 연동

FIB 진화 역사

실전 FIB 디버깅 시나리오

FIB 성능 특성과 벤치마크

라우팅 테이블 관리

ip route 명령

라우팅 테이블 종류

기본 RPDB 규칙

route type / scope / proto 의미

커널 FIB 조회 API

라우팅 상수 · 매크로 종합 레퍼런스

RTN_* — 경로 타입

RT_SCOPE_* — 경로 범위(Scope)

RTPROT_* — 경로 출처(Protocol)

RTNH_F_* — Nexthop 플래그

FIB_LOOKUP_* — fib_table_lookup() 플래그

RTCF_* — rtable 캐시 플래그

Policy Routing

ip rule 규칙

커널 내부: fib_rules_ops

자주 쓰는 selector 와 action

소스: fib_rules_lookup() — RPDB 내부 구현

struct fib_rule — 규칙 필드 구조

fib_rules_lookup() — 우선순위 순회

fib_rule_match() — 선택자 매칭

fib4_rule_action() — 테이블 조회 수행

suppress_prefixlength / suppress_ifgroup 동작

RPDB 조회 흐름 다이어그램

실전 구성: 다중 ISP (Dual-Homing) Policy-Based Routing

VRF 연동 Policy Routing