Linked List

Linux 커널의 핵심 자료구조인 struct list_head 기반 원형 이중 연결 리스트(Linked List)의 설계 철학, 사용법, 다양한 변형(hlist, llist), RCU 보호 리스트, 주의사항과 디버깅(Debugging)까지 종합적으로 다룹니다.

전제 조건: 동기화 기법과 메모리 배리어(Memory Barrier) 문서를 먼저 읽으세요. 커널 자료구조는 연산 복잡도뿐 아니라 동시 접근 안전성까지 함께 설계되므로, 성능과 동기화 관점을 동시에 봐야 합니다.

일상 비유: 커널의 연결 리스트는 기차 객차 연결과 비슷합니다. 각 객차(구조체(Struct))에는 앞뒤 연결고리(list_head)가 달려 있고, 어떤 위치에서든 객차를 빼거나 끼울 수 있습니다. 원형으로 연결되어 마지막 객차 다음이 첫 객차이며, 연결고리만 조작하면 되므로 객차 내용물(데이터)은 건드리지 않습니다.

핵심 요약

침투적(intrusive) 설계 — list_head를 데이터 구조체에 임베딩하고 list_entry()/container_of()로 역참조(Dereference)합니다.
원형 이중 연결 — 헤드와 테일 구분 없이 양방향 순회가 O(1) 삽입/삭제와 함께 가능합니다.
list_for_each_entry_safe — 순회 중 삭제가 안전한 _safe 변형 매크로(Macro)를 반드시 사용합니다.
hlist/llist 변형 — 해시(Hash) 버킷용 hlist(단방향), lock-free용 llist(lockless) 변형이 있습니다.
RCU 보호 — list_add_rcu()/list_del_rcu()로 읽기 경로를 lock-free로 보호합니다.

단계별 이해

list_head 임베딩 패턴
LIST_HEAD로 리스트 헤드를 선언하고, 데이터 구조체 안에 struct list_head 멤버를 넣어 list_add()/list_del()로 연결하는 기본 흐름을 익힙니다.
순회 매크로 선택
list_for_each_entry(읽기 전용(Read-Only)), list_for_each_entry_safe(삭제 가능), list_for_each_entry_rcu(RCU 보호) 중 상황에 맞는 매크로를 선택합니다.
동시성 보호 설계
리스트 자체에는 잠금(Lock)이 없으므로, spinlock(삽입/삭제) + RCU(읽기 순회) 조합이나 mutex 보호 전략을 설계합니다.
변형 선택
해시 버킷에는 hlist(헤드 포인터 1개), 인터럽트(Interrupt) 컨텍스트 큐잉에는 llist(lockless), 일반 용도에는 list_head를 사용합니다.

예제 읽기 가이드: 이 문서는 개념 설명용 의사코드를 중심으로 구성하되, 일부 섹션은 실행 절차를 바로 점검할 수 있는 실습 예제를 함께 제공합니다. 코드 주석의 개념 예시는 구조 이해 목적, 실습 예제는 검증 절차 재현 목적입니다.

관련 표준: (자료구조 구현, 외부 표준 없음) 커널 내부 자료구조 설계 패턴을 다룹니다. 종합 목록은 참고자료 — 표준 & 규격 섹션을 참고하세요.

개요 (Overview)

C 언어에는 표준 컨테이너(Container) 라이브러리가 없습니다. 사용자 공간(User Space)에서는 glib, uthash 등 외부 라이브러리를 사용하지만, 커널은 자체적인 침입형(intrusive) 연결 리스트를 <linux/list.h>에 구현합니다. 이 구현은 1996년부터 사용되어 온 커널에서 가장 널리 쓰이는 자료구조입니다.

커널이 자체 연결 리스트를 사용하는 이유:

침입형 설계 — 리스트 노드(list_head)를 데이터 구조체에 직접 임베드합니다. 별도의 래퍼 할당이 필요 없어 메모리 오버헤드(Overhead)가 최소화됩니다.
타입 독립적 — list_head는 어떤 구조체에든 포함될 수 있으며, container_of 매크로로 원본 구조체를 복원합니다.
원형 이중 연결 — head와 tail의 구분 없이 O(1)으로 양쪽 끝에 삽입/삭제가 가능합니다.
침입형 오버헤드 최소화 — 리스트 노드를 위한 별도 래퍼 할당은 필요 없습니다. 다만 엔트리 구조체 자체를 동적으로 생성하는 경우 kmalloc()은 여전히 필요할 수 있습니다.
다중 리스트 참여 — 하나의 구조체에 여러 list_head 필드를 두면 동시에 여러 리스트에 참여할 수 있습니다.

반대로 다음 조건에서는 list_head가 적합하지 않을 수 있습니다:

키 기반 점 조회가 핵심이면 hlist + hashtable이 일반적으로 더 낫습니다.
정렬 상태 유지나 범위 검색이 필요하면 rbtree가 유리합니다.
인덱스 접근이 많고 키가 정수라면 XArray가 더 단순하고 빠를 수 있습니다.

ℹ️

struct list_head는 커널 전체에서 수만 번 사용됩니다. task_struct만 해도 10개 이상의 list_head 필드를 가지며, 스케줄러(Scheduler) 런큐(Runqueue), 타이머(Timer) 리스트, VFS dentry 캐시(Cache) 등 거의 모든 서브시스템이 이 자료구조에 의존합니다.

list_head 구조와 container_of

struct list_head의 정의는 놀라울 정도로 단순합니다:

/* 개념 예시: include/linux/types.h list_head 정의 */
/* include/linux/types.h */
struct list_head {
    struct list_head *next, *prev;
};

이 구조체는 데이터를 포함하지 않습니다. 대신, 데이터를 담은 구조체 안에 임베드됩니다:

struct my_item {
    int                 id;
    char                name[64];
    struct list_head    list;   /* 리스트 노드 임베드 */
    struct list_head    other;  /* 다른 리스트에도 참여 가능 */
};

원형 이중 연결 리스트의 구조를 다이어그램으로 살펴보겠습니다:

원형 이중 연결 리스트: head ↔ node A ↔ node B ↔ head (순환)

container_of 매크로 (container_of Macro)

리스트를 순회하면 list_head 포인터를 얻게 됩니다. 이 포인터로부터 실제 데이터 구조체를 복원하는 것이 container_of 매크로입니다:

/* include/linux/container_of.h */
#define container_of(ptr, type, member) ({               \
    void *__mptr = (void *)(ptr);                        \
    static_assert(__same_type(*(ptr), ((type *)0)->member) || \
                  __same_type(*(ptr), void),              \
                  "pointer type mismatch in container_of()"); \
    ((type *)(__mptr - offsetof(type, member))); })

동작 원리는 간단합니다: list_head 멤버의 주소에서 해당 멤버의 구조체 내 오프셋(Offset)을 빼면 구조체의 시작 주소가 됩니다.

container_of: list_head 포인터에서 offsetof를 빼서 원본 구조체 주소를 계산

ℹ️

offsetof(struct my_item, list) 값은 CPU 아키텍처, 정렬 규칙, 컴파일러 옵션에 따라 달라질 수 있습니다. 고정 상수로 가정하지 말고 실제 빌드 결과를 기준으로 해석하세요.

/* 사용 예: list_head 포인터에서 my_item 구조체 복원 */
struct list_head *pos;
struct my_item *item;

item = container_of(pos, struct my_item, list);
pr_info("item id=%d, name=%s\\n", item->id, item->name);

offsetof 매크로 (offsetof Macro)

container_of의 핵심은 offsetof입니다. 구조체 시작 주소로부터 특정 멤버까지의 바이트 오프셋을 컴파일 타임에 계산합니다:

/* include/linux/stddef.h */
#define offsetof(TYPE, MEMBER) __builtin_offsetof(TYPE, MEMBER)

/* GCC 내장 함수가 없을 경우의 전통적 구현 */
#define offsetof(TYPE, MEMBER) ((size_t)&((TYPE *)0)->MEMBER)

💡

container_of는 리스트뿐 아니라 커널 전체에서 광범위하게 사용됩니다. work_struct에서 원본 구조체 복원, kobject에서 디바이스 구조체 복원, rb_node에서 데이터 복원 등이 모두 같은 패턴입니다.

기본 연산 (Basic Operations)

초기화 (Initialization)

리스트 사용 전 반드시 초기화해야 합니다. 초기화된 리스트는 next와 prev가 자기 자신을 가리키는 "빈 원형 리스트"입니다:

/* 컴파일 타임 초기화 (전역/정적 변수) */
static LIST_HEAD(my_list);
/* 다음과 동일:
 * static struct list_head my_list = { &my_list, &my_list };
 */

/* 런타임 초기화 (함수 내) */
struct list_head dynamic_list;
INIT_LIST_HEAD(&dynamic_list);

/* 구조체 멤버 초기화 */
struct my_item *item = kmalloc(sizeof(*item), GFP_KERNEL);
INIT_LIST_HEAD(&item->list);

추가와 삭제 (Add & Delete)

/* 리스트 head 바로 뒤에 삽입 (스택 동작: LIFO) */
list_add(&item->list, &my_list);

/* 리스트 head 바로 앞에 삽입 (큐 동작: FIFO) */
list_add_tail(&item->list, &my_list);

/* 리스트에서 삭제 (next/prev를 LIST_POISON으로 설정) */
list_del(&item->list);

/* 삭제 후 재초기화 (다시 list_add 가능) */
list_del_init(&item->list);

/* 노드 교체: old 자리에 new를 삽입 */
list_replace(&old->list, &new->list);

/* 교체 + old 재초기화 */
list_replace_init(&old->list, &new->list);

⚠️

list_del() 후의 노드에 list_del()을 다시 호출하면 정의되지 않은 동작으로 이어질 수 있습니다. next/prev가 LIST_POISON1/LIST_POISON2로 설정되어 이후 접근 시 OOPS나 메모리 손상이 발생할 수 있습니다. 삭제 후 재사용이 필요하면 list_del_init()을 사용하세요.

이동과 합치기 (Move & Splice)

/* 노드를 다른 리스트의 head 뒤로 이동 */
list_move(&item->list, &other_list);

/* 노드를 다른 리스트의 tail로 이동 */
list_move_tail(&item->list, &other_list);

/* 리스트 전체를 다른 리스트 head 뒤에 합치기 */
list_splice(&source_list, &dest_list);

/* 합치기 + source 리스트 재초기화 */
list_splice_init(&source_list, &dest_list);

/* 합치기 (tail 쪽에) + source 재초기화 */
list_splice_tail_init(&source_list, &dest_list);

상태 확인 (Query)

/* 리스트가 비어있는가? */
if (list_empty(&my_list))
    pr_info("list is empty\\n");

/* 노드가 하나뿐인가? */
if (list_is_singular(&my_list))
    pr_info("only one element\\n");

/* 이 노드가 리스트의 마지막인가? */
if (list_is_last(&item->list, &my_list))
    pr_info("this is the last node\\n");

/* 첫 번째 / 마지막 엔트리 가져오기 */
struct my_item *first = list_first_entry(&my_list, struct my_item, list);
struct my_item *last  = list_last_entry(&my_list, struct my_item, list);

/* 빈 리스트일 수 있을 때 (NULL 반환) */
struct my_item *f = list_first_entry_or_null(&my_list, struct my_item, list);

/* 이 노드가 리스트의 첫 번째인가? */
if (list_is_first(&item->list, &my_list))
    pr_info("this is the first node\\n");

/* 순회 종료 조건: 엔트리가 head인지 확인 */
if (list_entry_is_head(item, &my_list, list))
    break;  /* 원형 리스트에서 head로 돌아온 경우 */

/* 리스트 노드 개수 세기 (O(n) — 디버깅/통계용) */
size_t count = list_count_nodes(&my_list);

권장 수명주기 패턴

실무에서 리스트 버그의 대부분은 API 자체보다 수명주기 순서에서 발생합니다. 아래 순서를 습관화하면 use-after-free와 이중 삭제를 크게 줄일 수 있습니다.

할당/초기화: kmalloc() 후 payload를 채우고 INIT_LIST_HEAD(&obj->list) 실행
공개(publish): lock 보호 하에 list_add() 또는 list_add_tail() 호출
사용: 순회 시 컨텍스트 규칙(잠금 또는 RCU)을 엄격히 지킴
제거(unlink): list_del_init() 또는 list_del_rcu()로 연결 해제
해제(free): 일반 리스트는 즉시 kfree(), RCU 리스트는 grace period 뒤 해제

/* 실무 패턴: 수명주기와 에러 경로를 한 함수에서 정리 */
int my_item_publish(struct list_head *head, int id)
{
    struct my_item *obj;

    obj = kmalloc(sizeof(*obj), GFP_KERNEL);
    if (!obj)
        return -ENOMEM;

    obj->id = id;
    INIT_LIST_HEAD(&obj->list);

    spin_lock(&list_lock);
    list_add_tail(&obj->list, head);
    spin_unlock(&list_lock);
    return 0;
}

고급 리스트 연산 (Advanced List Operations)

기본 추가/삭제 외에 커널은 노드 치환, 교환, 회전, 리스트 분할 등의 고급 연산을 제공합니다. 이 함수들은 스케줄러(Scheduler), LRU 캐시, 워크큐(Workqueue) 등 커널 전반에서 활용됩니다.

노드 치환 (Replace)

list_replace()는 리스트에서 기존 노드를 새 노드로 교체합니다. 기존 노드의 이웃 포인터를 새 노드로 재연결하므로, 기존 노드는 리스트에서 분리됩니다.

/* include/linux/list.h */
static inline void list_replace(struct list_head *old,
                                struct list_head *new)
{
    new->next       = old->next;        /* new가 old의 다음 노드를 가리킴 */
    new->next->prev = new;              /* 다음 노드의 prev를 new로 갱신 */
    new->prev       = old->prev;        /* new가 old의 이전 노드를 가리킴 */
    new->prev->next = new;              /* 이전 노드의 next를 new로 갱신 */
}

/* list_replace_init: 치환 후 old를 빈 리스트로 재초기화 */
static inline void list_replace_init(struct list_head *old,
                                     struct list_head *new)
{
    list_replace(old, new);
    INIT_LIST_HEAD(old);  /* old를 자기 자신을 가리키는 빈 상태로 */
}

사용 예시 — 구조체를 업그레이드할 때 리스트 위치를 유지하면서 교체:

/* 기존 엔트리의 리스트 위치를 새 엔트리로 이전 */
struct my_item *new_item = kmalloc(sizeof(*new_item), GFP_KERNEL);
new_item->id = old_item->id;
new_item->version = 2;  /* 업그레이드된 필드 */

list_replace_init(&old_item->list, &new_item->list);
kfree(old_item);  /* old는 리스트에서 안전하게 분리됨 */

노드 교환 (Swap)

list_swap()은 리스트 내에서 두 노드의 위치를 서로 바꿉니다. 내부적으로 list_replace()를 두 번 호출합니다.

/* include/linux/list.h */
static inline void list_swap(struct list_head *entry1,
                              struct list_head *entry2)
{
    struct list_head *pos = entry2->prev;

    list_del(entry2);                /* entry2를 리스트에서 제거 */
    list_replace(entry1, entry2);    /* entry1 자리에 entry2를 넣음 */
    if (pos == entry1)
        pos = entry2;               /* 인접 노드인 경우 보정 */
    list_add(entry1, pos);           /* entry2가 있던 자리에 entry1 삽입 */
}

💡

list_swap()은 정렬 알고리즘이나 우선순위(Priority) 재배치(Relocation)에서 두 엔트리의 순서를 바꿀 때 유용합니다. 인접 노드와 비인접 노드 모두 안전하게 처리합니다.

리스트 회전 (Rotate)

회전 연산은 리스트의 head 위치를 기준으로 노드들을 이동시킵니다. LRU 정책이나 라운드 로빈(Round-Robin) 구현에서 활용됩니다.

/* list_rotate_left: 첫 번째 노드를 마지막으로 이동 */
static inline void list_rotate_left(struct list_head *head)
{
    struct list_head *first;
    if (!list_empty(head)) {
        first = head->next;
        list_move_tail(first, head);  /* head→next를 tail로 이동 */
    }
}

/* list_rotate_to_front: 특정 노드를 리스트 맨 앞으로 이동 */
static inline void list_rotate_to_front(struct list_head *list,
                                        struct list_head *head)
{
    list_move(list, head);  /* 대상 노드를 head 바로 뒤로 이동 */
}

/* 사용 예시: 라운드 로빈 스케줄링 */
struct task_entry *next_task;

/* 현재 첫 번째 태스크를 실행하고 뒤로 보냄 */
next_task = list_first_entry(&runqueue, struct task_entry, list);
execute_task(next_task);
list_rotate_left(&runqueue);  /* 실행한 태스크를 맨 뒤로 */

/* 캐시 히트: 최근 접근한 항목을 맨 앞으로 (MRU 정책) */
list_rotate_to_front(&hit_item->list, &cache_list);

리스트 분할 (Cut / Split)

list_cut_position()과 list_cut_before()는 하나의 리스트를 특정 노드를 기준으로 두 개로 분할합니다. 배치 처리나 워크 분배에서 리스트의 일부를 떼어낼 때 사용합니다.

list_cut_position은 기준 노드를 포함하여 분할, list_cut_before는 기준 노드 직전까지 분할

/* include/linux/list.h */
/**
 * list_cut_position - head부터 entry까지를 list로 이동
 * @list: 잘린 노드들을 받을 새 리스트 헤드 (비어 있어야 함)
 * @head: 원본 리스트 헤드
 * @entry: 잘리는 마지막 노드 (이 노드를 포함하여 분리)
 */
static inline void list_cut_position(struct list_head *list,
                                      struct list_head *head,
                                      struct list_head *entry)
{
    if (list_empty(head))
        return;
    if (list_is_singular(head) && head->next != entry && head != entry)
        return;
    if (entry == head)
        INIT_LIST_HEAD(list);
    else
        __list_cut_position(list, head, entry);
}

/**
 * list_cut_before - entry 직전까지를 list로 이동 (entry는 head에 남음)
 * @list: 잘린 노드들을 받을 새 리스트 헤드
 * @head: 원본 리스트 헤드
 * @entry: 이 노드 직전까지 분리 (entry 자체는 head에 남음)
 */
static inline void list_cut_before(struct list_head *list,
                                    struct list_head *head,
                                    struct list_head *entry)
{
    if (head->next == entry) {
        INIT_LIST_HEAD(list);  /* entry가 첫 노드면 잘라낼 것이 없음 */
        return;
    }
    list->next       = head->next;
    list->next->prev = list;
    list->prev       = entry->prev;
    list->prev->next = list;
    head->next       = entry;
    entry->prev      = head;
}

/* 사용 예시: 배치 처리를 위해 리스트에서 최대 N개를 떼어냄 */
LIST_HEAD(batch);
struct work_item *pos;
int count = 0;

list_for_each_entry(pos, &pending_list, list) {
    if (++count >= batch_size)
        break;
}
if (count > 0)
    list_cut_position(&batch, &pending_list, &pos->list);

/* batch에서 떼어낸 항목들을 처리 */
list_for_each_entry_safe(pos, tmp, &batch, list) {
    process_item(pos);
    list_del(&pos->list);
    kfree(pos);
}

⚠️

list_cut_position()의 list 파라미터는 비어 있는 상태여야 합니다. 기존에 노드가 연결된 리스트를 전달하면 해당 노드들이 유실됩니다. 또한 entry가 head의 리스트에 속하지 않으면 정의되지 않은 동작이 발생합니다.

순회 매크로 (Traversal Macros)

커널의 리스트 순회 매크로는 for 루프를 감싸는 편의 매크로입니다. 가장 자주 사용되는 것은 list_for_each_entry입니다:

/* list_head 포인터 순회 (거의 사용 안 함) */
struct list_head *pos;
list_for_each(pos, &my_list) {
    struct my_item *item = container_of(pos, struct my_item, list);
    pr_info("id=%d\\n", item->id);
}

/* 엔트리(구조체) 직접 순회 (가장 권장) */
struct my_item *item;
list_for_each_entry(item, &my_list, list) {
    pr_info("id=%d, name=%s\\n", item->id, item->name);
}

/* 역순 순회 */
list_for_each_entry_reverse(item, &my_list, list) {
    pr_info("reverse: id=%d\\n", item->id);
}

엔트리 접근 매크로들:

/* 현재 엔트리로부터 리스트 포인터를 추출 */
struct my_item *entry = list_entry(pos, struct my_item, list);
/* list_entry는 container_of와 동일 */

/* 다음/이전 엔트리 */
struct my_item *next_item = list_next_entry(item, list);
struct my_item *prev_item = list_prev_entry(item, list);

💡

list_for_each_entry 매크로의 확장을 이해하면 디버깅이 쉬워집니다:

#define list_for_each_entry(pos, head, member)                  \
    for (pos = list_first_entry(head, typeof(*pos), member); \
         &pos->member != (head);                                \
         pos = list_next_entry(pos, member))

종료 조건은 &pos->member != head입니다. 원형 리스트이므로 head로 돌아오면 순회가 끝납니다.

안전한 순회 (Safe Traversal)

순회 중에 현재 노드를 삭제하면 next 포인터가 파괴되어 순회를 계속할 수 없습니다. 이 문제를 해결하기 위해 _safe 버전의 매크로가 제공됩니다:

/* 순회 중 안전하게 삭제 가능 (tmp에 next를 미리 저장) */
struct my_item *item, *tmp;
list_for_each_entry_safe(item, tmp, &my_list, list) {
    if (item->id == target_id) {
        list_del(&item->list);
        kfree(item);
        /* tmp 덕분에 순회가 안전하게 계속됨 */
    }
}

/* 역순 안전 순회 */
list_for_each_entry_safe_reverse(item, tmp, &my_list, list) {
    list_del(&item->list);
    kfree(item);
}

순회 패턴 선택 기준

상황	권장 매크로	핵심 주의점
읽기 전용 순회	`list_for_each_entry`	동시 수정 가능성이 있으면 잠금 또는 RCU 필요
순회 중 현재 노드 삭제	`list_for_each_entry_safe`	`safe`는 동시성 안전이 아니라 iterator 안전
RCU 읽기 순회	`list_for_each_entry_rcu`	`rcu_read_lock()` 구간 안에서만 사용
역순 정리	`list_for_each_entry_safe_reverse`	tail 근처 삭제 정책에 유리

⚠️

list_for_each_entry_safe의 "safe"는 동시성 안전이 아닙니다. 다른 CPU나 인터럽트 핸들러(Handler)가 동시에 리스트를 수정하면 여전히 위험합니다. 동시성 보호에는 별도의 lock(spinlock, mutex)이나 RCU가 필요합니다. "safe"는 오직 "현재 순회 컨텍스트에서 삭제해도 순회가 깨지지 않습니다"는 의미입니다.

중간부터 순회 (Continue & From Variants)

리스트 순회를 처음부터 시작하지 않고 특정 위치부터 계속하거나, 중단했다가 다시 재개하는 매크로들입니다. 대규모 리스트를 여러 단계에 걸쳐 처리하거나, 검색 후 후속 처리를 할 때 사용합니다.

/* list_prepare_entry: continue 순회의 시작점을 준비
 * 리스트가 비어있을 수 있을 때 안전한 시작점을 제공 */
#define list_prepare_entry(pos, head, member) \
    ((pos) ? : list_entry(head, typeof(*pos), member))

/* list_for_each_entry_continue: pos의 다음 노드부터 순회 시작
 * pos 자체는 건너뛰고 pos→next부터 head 직전까지 순회 */
#define list_for_each_entry_continue(pos, head, member)          \
    for (pos = list_next_entry(pos, member);                    \
         !list_entry_is_head(pos, head, member);                \
         pos = list_next_entry(pos, member))

/* list_for_each_entry_continue_reverse: pos의 이전 노드부터 역순 순회 */
#define list_for_each_entry_continue_reverse(pos, head, member)  \
    for (pos = list_prev_entry(pos, member);                    \
         !list_entry_is_head(pos, head, member);                \
         pos = list_prev_entry(pos, member))

/* list_for_each_entry_from: pos 자체부터 순회 시작 (pos를 포함) */
#define list_for_each_entry_from(pos, head, member)               \
    for (; !list_entry_is_head(pos, head, member);               \
         pos = list_next_entry(pos, member))

/* list_for_each_entry_from_reverse: pos부터 역순으로 head까지 순회 */
#define list_for_each_entry_from_reverse(pos, head, member)      \
    for (; !list_entry_is_head(pos, head, member);               \
         pos = list_prev_entry(pos, member))

핵심 차이는 시작 위치입니다:

매크로	시작 위치	방향	pos 포함 여부
`list_for_each_entry`	head→next (첫 번째)	순방향	—
`list_for_each_entry_continue`	pos→next	순방향	미포함
`list_for_each_entry_from`	pos 자체	순방향	포함
`list_for_each_entry_continue_reverse`	pos→prev	역방향	미포함
`list_for_each_entry_from_reverse`	pos 자체	역방향	포함

/* 사용 예시 1: 검색 후 해당 위치부터 후속 처리 */
struct my_item *pos;
list_for_each_entry(pos, &my_list, list) {
    if (pos->id == target_id)
        break;
}
/* pos가 target을 가리킴 — 그 다음부터 계속 순회 */
if (!list_entry_is_head(pos, &my_list, list)) {
    list_for_each_entry_continue(pos, &my_list, list) {
        pr_info("after target: id=%d\\n", pos->id);
    }
}

/* 사용 예시 2: prepare_entry로 안전한 continue 시작점 설정 */
struct my_item *pos = list_prepare_entry(saved_pos, &my_list, list);
list_for_each_entry_continue(pos, &my_list, list) {
    /* saved_pos가 NULL이면 처음부터, 아니면 saved_pos 다음부터 */
    process(pos);
}

/* 사용 예시 3: 특정 노드부터 역방향으로 이전 노드들 처리 */
pos = found_entry;
list_for_each_entry_continue_reverse(pos, &my_list, list) {
    pr_info("before found: id=%d\\n", pos->id);
}

안전한 변형 (Safe From & Reset)

삭제와 중간 시작을 동시에 필요로 하는 경우를 위한 매크로입니다:

/* list_for_each_entry_safe_from: pos부터 순회하며 삭제 허용 */
#define list_for_each_entry_safe_from(pos, n, head, member)      \
    for (n = list_next_entry(pos, member);                       \
         !list_entry_is_head(pos, head, member);                  \
         pos = n, n = list_next_entry(n, member))

/* list_safe_reset_next: 현재 노드 삭제 후 다음 순회 위치를 재설정
 * _safe 순회에서 현재 노드를 삭제한 뒤 다음 노드를 재지정할 때 사용 */
#define list_safe_reset_next(pos, n, member) \
    n = list_next_entry(pos, member)

/* 사용 예시: 조건부 범위 삭제 (중간부터 시작) */
struct my_item *pos = start_entry, *n;

list_for_each_entry_safe_from(pos, n, &my_list, list) {
    if (pos->expired) {
        list_del(&pos->list);
        kfree(pos);
    }
}

/* list_safe_reset_next 사용 예시:
 * _safe 순회 중 현재 노드를 다른 리스트로 이동한 뒤
 * 다음 순회 위치를 재설정 */
struct my_item *pos, *n;
list_for_each_entry_safe(pos, n, &src_list, list) {
    if (should_move(pos)) {
        list_move_tail(&pos->list, &dst_list);
        /* pos를 이동했으므로 n이 여전히 유효한지 재확인 불필요
         * (list_move는 pos만 분리하므로 n은 여전히 유효) */
    }
    if (need_restart) {
        pos = restart_entry;
        list_safe_reset_next(pos, n, list);
        /* n을 pos의 다음으로 재설정 — 다음 반복부터 순회 재개 */
    }
}

역방향 list_head 순회 (list_for_each_prev)

/* list_for_each_prev: list_head 포인터를 역순으로 순회 */
#define list_for_each_prev(pos, head) \
    for (pos = (head)->prev; pos != (head); pos = pos->prev)

/* list_for_each_prev_safe: 역순 순회 중 삭제 허용 */
#define list_for_each_prev_safe(pos, n, head) \
    for (pos = (head)->prev, n = pos->prev; \
         pos != (head);                       \
         pos = n, n = pos->prev)

/* 사용 예시: 가장 최근 삽입 노드부터 역순 탐색 */
struct list_head *pos;
list_for_each_prev(pos, &my_list) {
    struct my_item *item = container_of(pos, struct my_item, list);
    pr_info("reverse: id=%d\\n", item->id);
}

💡

list_for_each_prev는 list_head 포인터를 순회하므로 container_of() 호출이 필요합니다. 구조체를 직접 역순 순회하려면 list_for_each_entry_reverse를 사용하세요. continue/from 변형은 대규모 리스트의 부분 처리, 검색 재개, 범위 삭제 등에서 불필요한 처음부터의 재순회를 피할 수 있어 성능에 유리합니다.

RCU 보호 리스트 (RCU-Protected Lists)

RCU(Read-Copy-Update)를 사용하면 읽기 측에서 lock 없이 리스트를 순회할 수 있습니다. 쓰기 측만 lock을 잡으면 되므로, 읽기가 압도적으로 많은 경우 최적의 성능을 제공합니다.

/* RCU 보호 리스트 추가 (publish-subscribe 패턴) */
list_add_rcu(&item->list, &my_list);
/* 내부적으로 rcu_assign_pointer()를 사용하여 메모리 배리어 보장 */

/* RCU 보호 리스트 삭제 */
list_del_rcu(&item->list);
/* next 포인터를 유지하여 진행 중인 reader가 계속 순회 가능 */
synchronize_rcu();  /* 모든 reader가 빠져나올 때까지 대기 */
kfree(item);         /* grace period 후에 안전하게 해제 */

/* 또는 콜백 기반 비동기 해제 */
list_del_rcu(&item->list);
kfree_rcu(item, rcu);  /* struct에 rcu_head 멤버 필요 */

/* RCU 읽기 측: lock 없이 순회 */
rcu_read_lock();
list_for_each_entry_rcu(item, &my_list, list) {
    pr_info("id=%d\\n", item->id);
    /* 이 구간에서는 preemption 비활성화 (PREEMPT_RCU 제외) */
}
rcu_read_unlock();

/* lockless 순회 (KCSAN 경고 억제) */
list_for_each_entry_lockless(item, &my_list, list) {
    /* lock도 rcu_read_lock도 없이 순회할 때 사용 */
}

ℹ️

RCU 리스트의 핵심 규칙:

읽기 측: rcu_read_lock() / rcu_read_unlock() 사이에서 list_for_each_entry_rcu()로 순회합니다.
쓰기 측: spinlock 등으로 writer간 동기화 후, list_add_rcu() / list_del_rcu()를 사용합니다.
해제: list_del_rcu() 후 즉시 kfree()하면 안 됩니다. synchronize_rcu() 또는 kfree_rcu()를 거쳐야 합니다.

RCU 쓰기 측 권장 패턴

RCU는 "읽기 lock-free"가 핵심이지만, 쓰기 측은 보통 spinlock으로 직렬화(Serialization)합니다. 아래 패턴은 커널 서브시스템에서 가장 흔히 쓰이는 형태입니다.

/* writer: 갱신은 락으로 직렬화, 읽기는 RCU로 병렬화 */
void my_table_insert(struct my_item *new)
{
    spin_lock(&table_lock);
    list_add_rcu(&new->list, &my_list);
    spin_unlock(&table_lock);
}

void my_table_remove(struct my_item *obj)
{
    spin_lock(&table_lock);
    list_del_rcu(&obj->list);
    spin_unlock(&table_lock);

    /* reader 종료 이후 해제 */
    kfree_rcu(obj, rcu);
}

⚠️

RCU 리스트에서도 쓰기 측 잠금을 생략하면 writer-writer 경합(Contention)으로 리스트 연결이 깨질 수 있습니다. RCU는 reader-writer 충돌 비용을 줄이는 기법이지, writer 동기화를 없애는 기법이 아닙니다.

RCU hlist 연산

해시 테이블(Hash Table)은 대부분 RCU로 보호됩니다. hlist에도 RCU 전용 삽입/삭제/순회 API가 있습니다:

/* hlist_add_head_rcu: RCU 읽기 측과 공존하는 head 삽입 */
static inline void hlist_add_head_rcu(struct hlist_node *n,
                                       struct hlist_head *h)
{
    struct hlist_node *first = h->first;

    n->next = first;
    WRITE_ONCE(n->pprev, &h->first);
    rcu_assign_pointer(h->first, n);  /* 메모리 배리어 포함 게시 */
    if (first)
        WRITE_ONCE(first->pprev, &n->next);
}

/* hlist_add_before_rcu / hlist_add_behind_rcu:
 * 특정 위치에 RCU-safe 삽입 */
static inline void hlist_add_before_rcu(struct hlist_node *n,
                                         struct hlist_node *next)
{
    n->pprev = next->pprev;
    n->next  = next;
    rcu_assign_pointer(*(n->pprev), n);  /* 배리어 후 이전→next를 n으로 */
    next->pprev = &n->next;
}

/* hlist_del_rcu: RCU 읽기 측이 순회 중이어도 안전한 삭제 */
static inline void hlist_del_rcu(struct hlist_node *n)
{
    __hlist_del(n);
    n->pprev = LIST_POISON2;  /* next는 건드리지 않음 — 읽기 측이 참조 중일 수 있음 */
}

/* hlist_del_init_rcu: RCU 삭제 + 재초기화 */
static inline void hlist_del_init_rcu(struct hlist_node *n)
{
    if (!hlist_unhashed(n)) {
        __hlist_del(n);
        WRITE_ONCE(n->pprev, NULL);  /* unhashed 상태로 */
    }
}

/* hlist_replace_rcu: RCU-safe 노드 치환 */
static inline void hlist_replace_rcu(struct hlist_node *old,
                                      struct hlist_node *new)
{
    struct hlist_node *next = old->next;

    new->next = next;
    new->pprev = old->pprev;
    rcu_assign_pointer(*(new->pprev), new);
    if (next)
        WRITE_ONCE(new->next->pprev, &new->next);
    old->pprev = LIST_POISON2;
}

/* hlist_for_each_entry_rcu: RCU 보호 하에 hlist 순회 */
#define hlist_for_each_entry_rcu(pos, head, member) \
    for (pos = hlist_entry_safe(rcu_dereference_raw(hlist_first_rcu(head)), \
                                typeof(*(pos)), member);                    \
         pos;                                                                    \
         pos = hlist_entry_safe(rcu_dereference_raw(hlist_next_rcu(           \
                &(pos)->member)), typeof(*(pos)), member))

/* 사용 예시: RCU 보호 해시 테이블 조회 */
struct my_entry *entry;
unsigned int key = 42;
struct hlist_head *head = &htable[hash_min(key, HASH_BITS(htable))];

rcu_read_lock();
hlist_for_each_entry_rcu(entry, head, node) {
    if (entry->key == key) {
        pr_info("found: %s\\n", entry->value);
        break;
    }
}
rcu_read_unlock();

/* 쓰기 측: 뮤텍스 보호 하에 삽입/삭제 */
mutex_lock(&htable_lock);
hlist_add_head_rcu(&new_entry->node, head);
mutex_unlock(&htable_lock);

/* 삭제 시 grace period 대기 후 해제 */
mutex_lock(&htable_lock);
hlist_del_rcu(&old_entry->node);
mutex_unlock(&htable_lock);
synchronize_rcu();  /* 또는 call_rcu()로 비동기 해제 */
kfree(old_entry);

⚠️

hlist_del_rcu()는 next 포인터를 건드리지 않습니다 — RCU 읽기 측이 해당 노드를 순회 중일 수 있기 때문입니다. 따라서 삭제된 노드의 메모리는 반드시 synchronize_rcu() 또는 call_rcu() 이후에만 해제해야 합니다. 일반 hlist_del()을 RCU 컨텍스트에서 사용하면 읽기 측이 포이즌 값을 역참조하여 커널 패닉(Kernel Panic)이 발생합니다.

hlist (해시 리스트)

struct hlist_head는 해시 테이블(Hash Table)의 버킷으로 최적화된 단방향 리스트입니다. list_head는 next와 prev 두 포인터(16바이트)를 사용하지만, hlist_head는 first 하나(8바이트)만 사용하여 해시 테이블의 메모리를 절반으로 줄입니다.

struct hlist_head {
    struct hlist_node *first;
};

struct hlist_node {
    struct hlist_node *next;
    struct hlist_node **pprev;  /* prev 노드의 next 포인터의 주소 */
};

hlist은 head 크기를 8B로 줄여 대규모 해시 테이블에서 메모리를 절반으로 절약

pprev는 이전 노드의 next 포인터(또는 head의 first 포인터)를 가리키는 이중 포인터입니다. 이를 통해 O(1) 삭제를 구현합니다:

/* hlist 기본 사용 */
DEFINE_HASHTABLE(my_htable, 10);  /* 2^10 = 1024 buckets */

struct my_entry {
    int                  key;
    char                 value[32];
    struct hlist_node    node;
};

/* 삽입 */
struct my_entry *entry = kmalloc(sizeof(*entry), GFP_KERNEL);
entry->key = 42;
hash_add(my_htable, &entry->node, entry->key);

/* 검색 */
struct my_entry *cur;
hash_for_each_possible(my_htable, cur, node, 42) {
    if (cur->key == 42) {
        pr_info("found: %s\\n", cur->value);
        break;
    }
}

/* 삭제 */
hash_del(&entry->node);
kfree(entry);

hlist 핵심 API

위의 예제는 해시 테이블 래퍼를 사용했지만, 내부적으로는 hlist_* 함수들을 호출합니다. 직접 사용하는 경우의 API입니다:

/* 초기화 */
HLIST_HEAD(my_hlist);                  /* 정적 초기화: .first = NULL */
INIT_HLIST_HEAD(&my_hlist);             /* 런타임 초기화 */
INIT_HLIST_NODE(&node);                /* 노드 초기화: .next = NULL, .pprev = NULL */

/* 비어있는지 확인 */
if (hlist_empty(&my_hlist))
    pr_info("bucket is empty\\n");

/* 노드가 해시에 연결되어 있는지 확인 */
if (hlist_unhashed(&entry->node))
    pr_info("node is not in any hlist\\n");

hlist 삽입 연산

/* hlist_add_head: 버킷의 맨 앞에 삽입 (가장 기본적인 삽입) */
static inline void hlist_add_head(struct hlist_node *n,
                                   struct hlist_head *h)
{
    struct hlist_node *first = h->first;
    WRITE_ONCE(n->next, first);  /* n→next = 기존 첫 노드 */
    if (first)
        WRITE_ONCE(first->pprev, &n->next);  /* 기존 첫 노드의 pprev 갱신 */
    WRITE_ONCE(h->first, n);    /* head→first = n */
    WRITE_ONCE(n->pprev, &h->first);  /* n→pprev = &head→first의 주소 */
}

/* hlist_add_before: 특정 노드 앞에 삽입 */
static inline void hlist_add_before(struct hlist_node *n,
                                     struct hlist_node *next)
{
    WRITE_ONCE(n->pprev, next->pprev);     /* n→pprev = next의 이전 포인터 */
    WRITE_ONCE(n->next, next);              /* n→next = next */
    WRITE_ONCE(next->pprev, &n->next);     /* next→pprev = &n→next */
    WRITE_ONCE(*(n->pprev), n);             /* 이전 노드의 next = n */
}

/* hlist_add_behind: 특정 노드 뒤에 삽입 */
static inline void hlist_add_behind(struct hlist_node *n,
                                     struct hlist_node *prev)
{
    WRITE_ONCE(n->next, prev->next);       /* n→next = prev의 다음 노드 */
    WRITE_ONCE(n->pprev, &prev->next);     /* n→pprev = &prev→next */
    WRITE_ONCE(prev->next, n);              /* prev→next = n */
    if (n->next)
        WRITE_ONCE(n->next->pprev, &n->next); /* 다음 노드의 pprev 갱신 */
}

hlist 삭제 연산

/* hlist_del: O(1) 삭제 — pprev 이중 포인터 트릭 */
static inline void __hlist_del(struct hlist_node *n)
{
    struct hlist_node *next = n->next;
    struct hlist_node **pprev = n->pprev;

    WRITE_ONCE(*pprev, next);  /* 이전 노드의 next(또는 head→first) = n의 next */
    if (next)
        WRITE_ONCE(next->pprev, pprev);  /* 다음 노드의 pprev 갱신 */
}

static inline void hlist_del(struct hlist_node *n)
{
    __hlist_del(n);
    n->next  = (struct hlist_node *)LIST_POISON1;   /* 포이즌 값으로 설정 */
    n->pprev = (struct hlist_node **)LIST_POISON2;
}

/* hlist_del_init: 삭제 후 재초기화 (안전한 재삽입 가능) */
static inline void hlist_del_init(struct hlist_node *n)
{
    if (!hlist_unhashed(n)) {
        __hlist_del(n);
        INIT_HLIST_NODE(n);   /* pprev = NULL으로 초기화 */
    }
}

💡

hlist_del()은 삭제 후 포이즌 값을 설정하여 이중 삭제를 감지합니다. 노드를 삭제 후 다시 삽입할 가능성이 있다면 hlist_del_init()을 사용하세요. hlist_unhashed()로 노드가 어떤 리스트에도 연결되지 않은 상태인지 확인할 수 있습니다.

hlist 순회 매크로

/* hlist_for_each: hlist_node 포인터 순회 */
#define hlist_for_each(pos, head) \
    for (pos = (head)->first; pos; pos = pos->next)

/* hlist_for_each_safe: 순회 중 삭제 허용 */
#define hlist_for_each_safe(pos, n, head) \
    for (pos = (head)->first; pos && ({ n = pos->next; 1; }); \
         pos = n)

/* hlist_for_each_entry: 구조체 엔트리 직접 순회 (가장 자주 사용) */
#define hlist_for_each_entry(pos, head, member) \
    for (pos = hlist_entry_safe((head)->first, typeof(*(pos)), member); \
         pos;                                                               \
         pos = hlist_entry_safe((pos)->member.next, typeof(*(pos)), member))

/* hlist_for_each_entry_safe: 구조체 엔트리 순회 + 삭제 허용 */
#define hlist_for_each_entry_safe(pos, n, head, member) \
    for (pos = hlist_entry_safe((head)->first, typeof(*pos), member); \
         pos && ({ n = pos->member.next; 1; });                         \
         pos = hlist_entry_safe(n, typeof(*pos), member))

/* hlist_for_each_entry_continue: 현재 pos의 다음부터 순회 계속 */
#define hlist_for_each_entry_continue(pos, member) \
    for (pos = hlist_entry_safe((pos)->member.next, typeof(*(pos)), member); \
         pos;                                                                    \
         pos = hlist_entry_safe((pos)->member.next, typeof(*(pos)), member))

/* hlist_for_each_entry_from: 현재 pos부터 순회 (pos 포함) */
#define hlist_for_each_entry_from(pos, member) \
    for (; pos;                                                              \
         pos = hlist_entry_safe((pos)->member.next, typeof(*(pos)), member))

/* 사용 예시: hlist 직접 사용한 해시 테이블 조회/삭제 */
HLIST_HEAD(bucket);
struct my_entry *pos;
struct hlist_node *tmp;

/* 순회하며 특정 키 삭제 */
hlist_for_each_entry_safe(pos, tmp, &bucket, node) {
    if (pos->key == target_key) {
        hlist_del_init(&pos->node);
        kfree(pos);
    }
}

/* 정렬된 위치에 삽입 */
struct my_entry *cur;
struct my_entry *new_entry = kmalloc(sizeof(*new_entry), GFP_KERNEL);
new_entry->key = 15;

hlist_for_each_entry(cur, &bucket, node) {
    if (cur->key > new_entry->key) {
        hlist_add_before(&new_entry->node, &cur->node);
        goto done;
    }
}
/* 모든 기존 노드보다 크면 마지막에 삽입 */
if (hlist_empty(&bucket))
    hlist_add_head(&new_entry->node, &bucket);
else
    hlist_add_behind(&new_entry->node, &cur->node);
done:;

hlist 특수 함수

/* hlist_add_fake: 노드를 "가짜 연결" 상태로 설정
 * pprev를 자기 자신의 next 주소로 설정하여
 * hlist_unhashed()가 false를 반환하게 함 */
static inline void hlist_add_fake(struct hlist_node *n)
{
    n->pprev = &n->next;  /* 실제 리스트에 연결되지 않지만 unhashed=false */
}

/* hlist_fake: 노드가 fake 상태인지 확인 */
static inline bool hlist_fake(struct hlist_node *h)
{
    return h->pprev == &h->next;
}

/* hlist_is_singular_node: 버킷에 노드가 하나뿐인지 확인 */
static inline bool hlist_is_singular_node(struct hlist_node *n,
                                           struct hlist_head *h)
{
    return !n->next && n->pprev == &h->first;
}

💡

hlist_add_fake()은 네트워킹 코드에서 소켓(Socket)을 해시 테이블에 연결하기 전 "연결된 척"하는 상태로 만들 때 사용됩니다. hlist_unhashed()가 false를 반환하므로, 조건부 삭제 로직에서 이미 연결된 것으로 처리됩니다. hlist_is_singular_node()는 RCU 해시 테이블에서 버킷에 노드가 하나뿐인지 확인하여 최적화 경로를 선택할 때 유용합니다.

llist (Lock-less 리스트)

llist (Lock-less Linked List)는 cmpxchg(Compare-And-Swap) 기반의 lock-free 스택입니다. 여러 CPU에서 동시에 lock 없이 노드를 추가할 수 있으며, 하나의 소비자가 전체 리스트를 원자적(Atomic)으로 꺼내갑니다.

여러 producer는 lock-free로 push, single consumer가 llist_del_all()로 배치 처리

struct llist_head {
    struct llist_node *first;
};

struct llist_node {
    struct llist_node *next;
};

/* 초기화 */
static LLIST_HEAD(my_llist);

/* Lock-free 추가 (여러 CPU에서 동시 호출 가능) */
struct my_work {
    struct llist_node node;
    int data;
};

struct my_work *w = kmalloc(sizeof(*w), GFP_ATOMIC);
w->data = 42;
llist_add(&w->node, &my_llist);

/* 전체 리스트를 원자적으로 꺼내기 (단일 소비자) */
struct llist_node *batch = llist_del_all(&my_llist);

/* 꺼낸 리스트 순회 */
struct llist_node *pos;
llist_for_each(pos, batch) {
    struct my_work *w = container_of(pos, struct my_work, node);
    process_work(w);
    kfree(w);
}

llist의 대표적인 사용 시나리오:

IRQ → 스레드(Thread) 워크 전달: 인터럽트 핸들러에서 lock 없이 작업을 큐잉하고, 워커 스레드가 일괄 처리합니다.
RCU 콜백(Callback) 큐잉: call_rcu() 내부에서 사용됩니다.
per-CPU → 글로벌 집계: 각 CPU에서 로컬 리스트에 추가하고, 하나의 스레드가 수집합니다.

⚠️

llist는 MPSC(Multiple Producer, Single Consumer) 패턴만 지원합니다. 여러 소비자가 llist_del_all()을 동시에 호출하면 경합(race) 조건이 발생할 수 있습니다. 소비자가 여러 개 필요하면 spinlock과 일반 list_head를 사용하세요.

llist 엔트리 순회 매크로

기본 llist_for_each()는 llist_node 포인터를 순회하므로 container_of()가 필요합니다. 엔트리 매크로는 구조체를 직접 순회합니다:

/* llist_entry: container_of 래퍼 */
#define llist_entry(ptr, type, member) \
    container_of(ptr, type, member)

/* llist_for_each_entry: 구조체 엔트리 직접 순회 */
#define llist_for_each_entry(pos, node, member)                  \
    for ((pos) = llist_entry((node), typeof(*(pos)), member);    \
         &(pos)->member != NULL;                                  \
         (pos) = llist_entry((pos)->member.next, typeof(*(pos)), member))

/* llist_for_each_entry_safe: 엔트리 순회 + 삭제 허용 */
#define llist_for_each_entry_safe(pos, n, node, member)          \
    for (pos = llist_entry((node), typeof(*pos), member);        \
         member_address_is_nonnull(pos, member) &&               \
            (n = llist_entry(pos->member.next,                    \
                            typeof(*n), member), true);          \
         pos = n)

/* llist_next: 다음 노드 접근 (NULL 가능) */
static inline struct llist_node *llist_next(struct llist_node *node)
{
    return node->next;
}

/* llist_del_first: 첫 번째 노드만 원자적으로 제거 (cmpxchg 기반) */
struct llist_node *llist_del_first(struct llist_head *head)
{
    struct llist_node *entry, *next;

    entry = smp_load_acquire(&head->first);
    do {
        if (entry == NULL)
            return NULL;
        next = READ_ONCE(entry->next);
    } while (cmpxchg(&head->first, entry, next) != entry);

    return entry;
}

/* 사용 예시: llist_for_each_entry_safe로 배치 처리 후 해제 */
struct llist_node *batch = llist_del_all(&my_llist);
struct my_work *pos, *n;

llist_for_each_entry_safe(pos, n, batch, node) {
    process_work(pos);
    kfree(pos);  /* _safe 덕분에 현재 pos 해제 가능 */
}

/* llist_del_first: 단일 노드만 꺼내기 (MPSC에서 1개씩 처리 시) */
struct llist_node *node = llist_del_first(&my_llist);
if (node) {
    struct my_work *w = llist_entry(node, struct my_work, node);
    process_work(w);
    kfree(w);
}

⚠️

llist_del_first()는 llist_del_all()과 달리 CAS 루프를 사용하므로 경합이 많은 환경에서는 성능이 저하될 수 있습니다. 대량의 노드를 처리할 때는 llist_del_all()로 일괄 회수 후 순회하는 것이 효율적입니다. llist_for_each_entry()의 종료 조건은 NULL 체크이므로, 반드시 llist_del_all()이나 llist_del_first()로 꺼낸 체인에 대해서만 사용해야 합니다.

설계 체크리스트 (Design Checklist)

아래 체크리스트를 먼저 채우고 구현에 들어가면 자료구조 재작업 비용을 크게 줄일 수 있습니다.

질문	판단 기준	권장 선택
검색이 잦은가?	요청당 선형 탐색이 허용되는지	아니오: `list_head`, 예: `hlist/rbtree/xarray`
정렬 순서가 필요한가?	삽입 후 즉시 정렬 상태를 유지해야 하는지	필요: `rbtree`
읽기 비중이 압도적인가?	reader 수가 writer보다 훨씬 많은지	그렇다면 RCU 리스트 고려
컨텍스트가 IRQ인가?	sleep 불가 컨텍스트 여부	spinlock/RCU/llist, `GFP_ATOMIC` 고려
엔트리 수 상한이 작은가?	최대 수가 수십~수백 수준인지	작다면 단순한 `list_head` 유지

💡

구조를 빠르게 고르는 실전 규칙: 삭제가 많고 검색이 적다면 list_head, 키 검색이 많습니다면 hlist/hashtable, 정렬/범위 질의가 필요하면 rbtree를 기본 선택으로 두고 시작하세요.

커널 내 실제 사용 사례 (Real-World Usage in Kernel)

커널의 핵심 자료구조에서 list_head가 어떻게 사용되는지 살펴봅니다:

/* include/linux/sched.h - task_struct의 리스트들 */
struct task_struct {
    /* ... */
    struct list_head    tasks;       /* 모든 프로세스 리스트 (init_task.tasks가 head) */
    struct list_head    children;    /* 자식 프로세스 리스트 head */
    struct list_head    sibling;     /* 형제 프로세스 리스트 (parent->children에 연결) */
    struct list_head    thread_group;/* 같은 스레드 그룹 */
    /* ... */
};

서브시스템	자료구조	list_head 필드	용도
스케줄러	`sched_entity`	`group_node`	CFS 그룹 스케줄링 엔티티 리스트
VFS	`dentry`	`d_lru`, `d_child`, `d_subdirs`	LRU 캐시, 디렉터리 계층 구조
메모리	`page`	`lru`	active/inactive LRU 리스트, buddy free list
네트워크	`sock`	`sk_node` (hlist)	소켓(Socket) 해시 테이블 (established, listen)
블록 I/O	`request`	`queuelist`	I/O 스케줄러 요청 큐
모듈	`module`	`list`	로드된 모듈 목록 (`/proc/modules`)
타이머	`timer_list`	`entry` (hlist)	타이머 wheel 버킷

/* 모든 프로세스 순회 예: init_task에서 시작 */
struct task_struct *task;
for_each_process(task) {
    pr_info("PID %d: %s\\n", task->pid, task->comm);
}
/* for_each_process는 list_for_each_entry의 래퍼:
 * #define for_each_process(p) \
 *     list_for_each_entry(p, &init_task.tasks, tasks)
 */

주의사항과 함정 (Pitfalls & Common Mistakes)

1. 초기화 누락

/* 잘못된 코드: 초기화 없이 사용 */
struct list_head my_list;
list_add(&item->list, &my_list);  /* BUG! next/prev가 쓰레기 값 */

/* 올바른 코드 */
struct list_head my_list;
INIT_LIST_HEAD(&my_list);
list_add(&item->list, &my_list);  /* OK */

2. 이중 삭제

/* BUG: list_del 후 다시 list_del */
list_del(&item->list);
/* ... 나중에 ... */
list_del(&item->list);  /* LIST_POISON 접근 → OOPS */

/* 해결: list_del_init 사용 */
list_del_init(&item->list);
/* 이제 list_empty(&item->list)로 삭제 여부 확인 가능 */

3. 동시성 보호 누락

/* 위험: lock 없이 공유 리스트 접근 */
list_add(&item->list, &shared_list);  /* 경합! */

/* 올바른 패턴 */
spin_lock(&list_lock);
list_add(&item->list, &shared_list);
spin_unlock(&list_lock);

/* 또는 RCU 패턴 */
spin_lock(&list_lock);
list_add_rcu(&item->list, &shared_list);
spin_unlock(&list_lock);

4. list_for_each_entry_safe의 한계

/* list_for_each_entry_safe는 다음 노드(tmp)를 미리 저장하지만,
 * 만약 다른 CPU가 tmp 노드를 삭제하면 여전히 위험합니다.
 *
 * safe 버전은 "나 자신을 삭제해도 순회가 안전하다"는 뜻이지,
 * "다른 CPU의 수정으로부터 안전하다"는 뜻이 아닙니다!
 */

/* 동시 수정이 있을 때의 올바른 패턴 */
spin_lock(&list_lock);
list_for_each_entry_safe(item, tmp, &my_list, list) {
    list_del(&item->list);
    kfree(item);
}
spin_unlock(&list_lock);

5. Iterator 변수 스코프 (커널 6.x 변경)

/* 커널 6.x부터: 순회 매크로의 iterator 변수가
 * 루프 종료 후 유효한 엔트리를 가리키지 않을 수 있습니다.
 *
 * 기존 잘못된 패턴: */
struct my_item *item;
list_for_each_entry(item, &my_list, list) {
    if (item->id == target)
        break;
}
/* item을 루프 밖에서 사용 → 6.x에서 위험! */

/* 올바른 패턴: 별도 변수에 저장 */
struct my_item *item, *found = NULL;
list_for_each_entry(item, &my_list, list) {
    if (item->id == target) {
        found = item;
        break;
    }
}
if (found)
    pr_info("found id=%d\\n", found->id);

성능 고려사항 (Performance Considerations)

list_head는 만능 자료구조가 아닙니다. 사용 패턴에 따라 더 적합한 자료구조를 선택해야 합니다:

자료구조	삽입	삭제	검색	적합한 경우
`list_head`	O(1)	O(1)	O(n)	순차 접근, FIFO/LIFO, 작은 리스트
`hlist`	O(1)	O(1)	O(1) 평균	해시 테이블 버킷
`rbtree`	O(log n)	O(log n)	O(log n)	정렬된 대규모 데이터, 범위 검색
`xarray`	O(log n)	O(log n)	O(log n)	정수 키 기반 매핑(Mapping), 페이지 캐시(Page Cache)
`llist`	O(1) lock-free	전체 꺼내기	N/A	IRQ→스레드 전달, MPSC

캐시 성능 관련 고려사항:

list_head 배치: 자주 순회하는 리스트의 list_head는 구조체 앞쪽에 배치하면 캐시 라인(Cache Line) 활용이 좋아집니다.
연결 리스트의 약점: 노드가 메모리에 흩어져 있으면 캐시 미스가 빈번합니다. 대량 순차 접근이 필요하면 배열 기반 자료구조를 고려하세요.
리스트 길이: O(n) 검색이 병목(Bottleneck)이 되면 rbtree나 hashtable로 전환하세요. 커널에서는 수십~수백 개 이하의 리스트에 list_head를 사용하는 것이 일반적입니다.

💡

SLAB_HWCACHE_ALIGN 플래그로 slab 캐시를 생성하면 각 오브젝트가 캐시 라인 경계에 정렬되어, 리스트 노드 접근 시 false sharing을 방지할 수 있습니다.

성능 수치 예시

아래 표는 자료구조 선택 감각을 잡기 위한 예시 수치입니다. 절대값은 하드웨어, 잠금 경합(Lock Contention), 키 분포, 버킷 수, NUMA 배치에 따라 크게 달라집니다.

작업	list_head (순차)	hlist (1024 버킷)	rbtree	xarray
10만 개 삽입	2.1 ms	3.8 ms	12.5 ms	15.3 ms
특정 키 검색 (1회)	850 μs	1.2 μs	0.8 μs	0.6 μs
전체 순회	420 μs	680 μs	520 μs	480 μs
범위 검색 (1000개)	8.5 ms	N/A	95 μs	110 μs
무작위 삭제 (1만 개)	850 ms	12 ms	1.8 ms	2.1 ms

ℹ️

측정 조건(예시): Intel Xeon E5-2680 v4 @ 2.4GHz, 64GB RAM, Linux 6.1, CONFIG_PREEMPT_NONE, 단일 소켓, 캐시 워밍 후 30회 반복 평균

핵심 인사이트:

list_head는 순차 삽입이 가장 빠르지만, 검색과 무작위 삭제는 O(n) 특성으로 느립니다.
hlist는 적절한 버킷 수(엔트리 수의 1~2%)를 사용하면 검색과 삭제가 O(1)에 근접합니다.
rbtree는 균형잡힌 성능을 제공하며, 범위 검색이 필요하면 최선의 선택입니다.
xarray는 정수 키 기반 점 조회에 최적화되어 있습니다.

캐시 미스율 비교 (perf stat 측정):

자료구조	L1 캐시 미스율	LLC 캐시 미스율	비고
`list_head` (순회)	3.2%	0.8%	순차 접근으로 prefetcher 효과
`list_head` (무작위)	28.5%	12.3%	노드 분산으로 캐시 비효율
`hlist`	15.7%	6.2%	버킷 head 접근 비용
`rbtree`	18.9%	7.1%	트리 탐색 경로 분산
배열 (참고)	1.1%	0.2%	연속 메모리, 최고 캐시 효율

⚠️

실무 선택 가이드: 벤치마크 수치보다 실제 접근 패턴이 중요합니다. 리스트 길이가 100개 미만이고 검색이 드물면 list_head의 단순함이 오히려 유리할 수 있습니다. 측정 없이 최적화하지 마세요.

디버깅 (Debugging)

리스트 corruption은 커널에서 가장 흔한 버그 중 하나입니다. 다행히 커널은 강력한 디버깅 도구를 제공합니다.

CONFIG_DEBUG_LIST

이 옵션을 활성화하면 모든 리스트 연산에 무결성(Integrity) 검사가 추가됩니다:

CONFIG_DEBUG_LIST 활성화 시 list_add()가 다음을 검증합니다.

next->prev == head (리스트 연결 무결성)
prev->next == head (리스트 연결 무결성)
new != LIST_POISON1 (이미 삭제된 노드 재삽입 방지)

위반 시 다음과 같은 커널 경고 메시지가 출력됩니다.

list_add corruption. next->prev should be <addr1>, but was <addr2>.
list_del corruption. prev->next should be <addr1>, but was <addr2>.

# .config에서 활성화
CONFIG_DEBUG_LIST=y

# 또는 menuconfig에서
# Kernel hacking → Memory Debugging → Debug linked list manipulation

LIST_POISON 탐지

/* include/linux/poison.h */
#define LIST_POISON1  ((void *) 0x100 + POISON_POINTER_DELTA)
#define LIST_POISON2  ((void *) 0x122 + POISON_POINTER_DELTA)

/* list_del()은 next를 LIST_POISON1로, prev를 LIST_POISON2로 설정합니다.
 * 이 값에 접근하면 즉시 page fault가 발생하여 버그를 빨리 발견할 수 있습니다. */

KASAN과의 연계

# KASAN (Kernel Address Sanitizer) 활성화
CONFIG_KASAN=y

# Use-after-free 탐지: kfree 후 list 접근 시
# BUG: KASAN: use-after-free in list_del+0x20/0x50
# Read of size 8 at addr ffff888012345678
# Freed by task xyz at: kfree+0x...

실전 디버깅 체크리스트:

CONFIG_DEBUG_LIST=y로 빌드하여 리스트 corruption 조기 탐지
CONFIG_KASAN=y로 use-after-free, out-of-bounds 접근 탐지
list_del() 후 즉시 kfree()하기 전에 모든 참조가 제거되었는지 확인
list_empty()로 빈 리스트에서 list_first_entry() 호출을 방지
순회 중 삭제는 반드시 _safe 버전 사용
공유 리스트에는 항상 적절한 lock 사용

ℹ️

crash 도구로 코어 덤프(Core Dump)를 분석할 때 list 명령으로 연결 리스트를 순회하면서 corruption 지점을 찾을 수 있습니다:

crash> list task_struct.tasks -s task_struct.comm,pid -H init_task.tasks

실습 예제 (Hands-On Example)

이론을 넘어 실제 동작하는 커널 모듈(Kernel Module)을 통해 list_head 사용법을 익혀봅니다. 아래 예제는 간단한 학생 정보 관리 시스템으로, 삽입/순회/삭제/검색을 모두 다룹니다.

완전한 커널 모듈 예제

/* student_list.c - 실습용 list_head 모듈 */
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/list.h>
#include <linux/slab.h>

/* 학생 정보 구조체 */
struct student {
    unsigned int        id;
    char                name[32];
    unsigned int        score;
    struct list_head    list;    /* 리스트 노드 */
};

/* 학생 리스트 head (전역) */
static LIST_HEAD(student_list);

/* 학생 추가 함수 */
static struct student *add_student(unsigned int id, const char *name, unsigned int score)
{
    struct student *s;

    s = kmalloc(sizeof(*s), GFP_KERNEL);
    if (!s)
        return NULL;

    s->id = id;
    strncpy(s->name, name, sizeof(s->name) - 1);
    s->name[sizeof(s->name) - 1] = '\0';
    s->score = score;

    /* 리스트 끝에 추가 (FIFO) */
    list_add_tail(&s->list, &student_list);

    pr_info("Added: ID=%u, Name=%s, Score=%u\n", id, name, score);
    return s;
}

/* ID로 학생 검색 */
static struct student *find_student(unsigned int id)
{
    struct student *s;

    list_for_each_entry(s, &student_list, list) {
        if (s->id == id)
            return s;
    }
    return NULL;
}

/* 학생 삭제 (ID 기준) */
static bool remove_student(unsigned int id)
{
    struct student *s;

    s = find_student(id);
    if (!s) {
        pr_warn("Student ID=%u not found\n", id);
        return false;
    }

    pr_info("Removing: ID=%u, Name=%s\n", s->id, s->name);
    list_del(&s->list);
    kfree(s);
    return true;
}

/* 전체 학생 목록 출력 */
static void print_all_students(void)
{
    struct student *s;
    int count = 0;

    pr_info("=== Student List ===\n");
    list_for_each_entry(s, &student_list, list) {
        pr_info("  [%d] ID=%u, Name=%-20s, Score=%u\n",
                ++count, s->id, s->name, s->score);
    }
    pr_info("Total: %d students\n", count);
}

/* 조건부 삭제: 점수가 60 미만인 학생 제거 */
static void remove_failing_students(void)
{
    struct student *s, *tmp;
    int removed = 0;

    /* 순회 중 삭제: _safe 버전 필수 */
    list_for_each_entry_safe(s, tmp, &student_list, list) {
        if (s->score < 60) {
            pr_info("Removing failing student: %s (score=%u)\n",
                    s->name, s->score);
            list_del(&s->list);
            kfree(s);
            removed++;
        }
    }
    pr_info("Removed %d failing students\n", removed);
}

/* 모듈 초기화 */
static int __init student_list_init(void)
{
    pr_info("Student List Module: Initializing\n");

    /* 테스트 데이터 추가 */
    add_student(1001, "Alice", 95);
    add_student(1002, "Bob", 58);
    add_student(1003, "Charlie", 72);
    add_student(1004, "Diana", 88);
    add_student(1005, "Eve", 45);

    /* 초기 목록 출력 */
    print_all_students();

    /* 특정 학생 검색 */
    struct student *found = find_student(1003);
    if (found)
        pr_info("Found student: %s (score=%u)\n", found->name, found->score);

    /* 낙제생 제거 */
    remove_failing_students();

    /* 최종 목록 출력 */
    print_all_students();

    return 0;
}

/* 모듈 종료 - 메모리 정리 */
static void __exit student_list_exit(void)
{
    struct student *s, *tmp;

    pr_info("Student List Module: Cleaning up\n");

    /* 남은 모든 학생 제거 */
    list_for_each_entry_safe(s, tmp, &student_list, list) {
        pr_info("Freeing: %s\n", s->name);
        list_del(&s->list);
        kfree(s);
    }

    pr_info("All students freed\n");
}

module_init(student_list_init);
module_exit(student_list_exit);

MODULE_LICENSE("GPL");
MODULE_AUTHOR("MINZKN");
MODULE_DESCRIPTION("list_head practice module");

Makefile

# Makefile for student_list module
obj-m += student_list.o

KDIR := /lib/modules/$(shell uname -r)/build
PWD := $(shell pwd)

all:
	$(MAKE) -C $(KDIR) M=$(PWD) modules

clean:
	$(MAKE) -C $(KDIR) M=$(PWD) clean

빌드 및 실행

# 모듈 빌드
make

# 모듈 로드
sudo insmod student_list.ko

# 커널 로그 확인
dmesg | tail -30

# 예상 출력:
# [ 1234.567890] Student List Module: Initializing
# [ 1234.567891] Added: ID=1001, Name=Alice, Score=95
# [ 1234.567892] Added: ID=1002, Name=Bob, Score=58
# [ 1234.567893] Added: ID=1003, Name=Charlie, Score=72
# [ 1234.567894] Added: ID=1004, Name=Diana, Score=88
# [ 1234.567895] Added: ID=1005, Name=Eve, Score=45
# [ 1234.567896] === Student List ===
# [ 1234.567897]   [1] ID=1001, Name=Alice               , Score=95
# [ 1234.567898]   [2] ID=1002, Name=Bob                 , Score=58
# [ 1234.567899]   [3] ID=1003, Name=Charlie            , Score=72
# [ 1234.567900]   [4] ID=1004, Name=Diana              , Score=88
# [ 1234.567901]   [5] ID=1005, Name=Eve                , Score=45
# [ 1234.567902] Total: 5 students
# [ 1234.567903] Found student: Charlie (score=72)
# [ 1234.567904] Removing failing student: Bob (score=58)
# [ 1234.567905] Removing failing student: Eve (score=45)
# [ 1234.567906] Removed 2 failing students
# [ 1234.567907] === Student List ===
# [ 1234.567908]   [1] ID=1001, Name=Alice               , Score=95
# [ 1234.567909]   [2] ID=1003, Name=Charlie            , Score=72
# [ 1234.567910]   [3] ID=1004, Name=Diana              , Score=88
# [ 1234.567911] Total: 3 students

# 모듈 언로드
sudo rmmod student_list

# 정리 확인
dmesg | tail -5
# [ 1245.678901] Student List Module: Cleaning up
# [ 1245.678902] Freeing: Alice
# [ 1245.678903] Freeing: Charlie
# [ 1245.678904] Freeing: Diana
# [ 1245.678905] All students freed

연습 과제

💡

직접 시도해보기: 위 모듈을 기반으로 다음 기능을 추가해보세요.

정렬 삽입: ID 순서를 유지하며 삽입하는 add_student_sorted() 구현 (힌트: list_for_each_entry로 삽입 위치 찾기 + list_add)
평균 계산: 전체 학생의 평균 점수를 계산하는 get_average_score() 구현
RCU 버전: 읽기 측을 rcu_read_lock() + list_for_each_entry_rcu()로 변경하고, 쓰기 측에 spinlock 추가
proc 파일 인터페이스: /proc/students를 통해 학생 목록을 cat으로 읽을 수 있도록 구현 (힌트: proc_create(), seq_file)

⚠️

메모리 누수 방지: 모듈 종료 시(__exit) 반드시 list_for_each_entry_safe로 모든 엔트리를 순회하며 kfree()해야 합니다. CONFIG_KMEMLEAK을 활성화하면 메모리 누수를 자동 탐지할 수 있습니다.

부록: 인접 자료구조 선택 가이드

Linked List 문서의 핵심은 list_head, hlist, llist, RCU 리스트의 동작입니다. 아래 내용은 본문 흐름을 보조하는 빠른 선택 가이드이며, 상세 구현은 각 전용 문서에서 다룹니다.

ℹ️

읽기 순서 권장: 이 문서의 Linked List 핵심 섹션을 먼저 완료한 뒤, 필요 시 아래 자료구조를 확장 학습하세요.

자료구조 선택 요약

자료구조	검색	삽입/삭제	강점	상세 문서
list_head	O(n)	O(1)	빈번한 삽입/삭제, 단순 연결	현재 문서
hlist	O(n/k)	O(1)	해시 버킷 체인에 최적화	현재 문서의 hlist 섹션
rbtree	O(log n)	O(log n)	정렬 유지, 범위 탐색	Red-Black Tree
Hash Table	평균 O(1)	평균 O(1)	키 기반 점 조회	Hash Table
XArray	O(log n)	O(log n)	정수 키 기반 인덱싱	XArray

💡

실무 기준: 순서 보존+빈번한 삭제는 list_head, 해시 버킷 체인은 hlist, 정렬/범위 질의는 rbtree, 정수 인덱스 매핑은 XArray가 일반적으로 유리합니다.

실무 운영 체크리스트

연결 리스트 코드는 단순해 보여도 수명주기와 동시성에서 문제가 자주 발생합니다. 아래 항목을 릴리스 전 점검하면 장애 확률을 크게 줄일 수 있습니다.

점검 항목	확인 질문	권장 조치
초기화	모든 head/노드가 초기화됐는가?	`INIT_LIST_HEAD` 누락 여부 코드 검색
삭제 경로	순회 중 삭제가 안전한가?	`list_for_each_entry_safe` 사용
동시성	공유 리스트에 잠금/RCU 규칙이 있는가?	writer 잠금 + reader 규칙 문서화
해제 타이밍	unlink 후 참조가 남아있지 않은가?	일반 free 또는 `kfree_rcu` 구분 적용

hlist 레이아웃

앞서 hlist 섹션에서 기본 구조를 살펴보았습니다. 이 섹션에서는 hlist_node의 pprev가 왜 이중 포인터(**pprev)인지, 그리고 이 설계가 해시 테이블 버킷에서 어떤 이점을 제공하는지 깊이 분석합니다.

hlist 메모리 레이아웃 상세

hlist의 pprev 이중 포인터는 head의 first와 노드의 next를 통일된 방식으로 가리켜 O(1) 삭제를 가능하게 합니다

pprev가 이중 포인터인 이유를 코드로 확인해보겠습니다:

/* include/linux/list.h — hlist_del() 핵심 로직 */
static inline void __hlist_del(struct hlist_node *n)
{
    struct hlist_node *next = n->next;
    struct hlist_node **pprev = n->pprev;

    /* pprev가 가리키는 곳(이전 노드의 next 또는 head의 first)을
     * 현재 노드의 next로 덮어씁니다 */
    WRITE_ONCE(*pprev, next);

    /* 다음 노드가 있으면 그 pprev를 현재 노드의 pprev로 업데이트 */
    if (next)
        WRITE_ONCE(next->pprev, pprev);
}

/* 만약 pprev 대신 단순 prev 포인터였다면:
 * - 첫 번째 노드 삭제 시 head->first를 수정해야 함
 * - head 포인터를 별도로 전달받아야 함
 * - pprev 이중 포인터 덕분에 head와 node의 구분 없이 통일된 삭제 가능 */

해시 테이블 버킷에서의 hlist 활용

커널의 DEFINE_HASHTABLE 매크로는 내부적으로 hlist_head 배열을 생성합니다. 1024개 버킷이면 list_head 사용 시 16KB이지만, hlist_head는 8KB만 사용합니다.

/* include/linux/hashtable.h */
#define DEFINE_HASHTABLE(name, bits) \
    struct hlist_head name[1 << (bits)] = \
        { [0 ... ((1 << (bits)) - 1)] = HLIST_HEAD_INIT }

/* 실제 사용 예: PID 해시 테이블 */
static struct hlist_head *pid_hash;
static unsigned int pidhash_shift;

/* kernel/pid.c — PID 검색 */
struct pid *find_pid_ns(int nr, struct pid_namespace *ns)
{
    struct hlist_node *node;
    struct upid *pnr;

    hlist_for_each_entry_rcu(pnr, &pid_hash[pid_hashfn(nr, ns)], pid_chain) {
        if (pnr->nr == nr && pnr->ns == ns)
            return container_of(pnr, struct pid,
                                numbers[ns->level]);
    }
    return NULL;
}

/* hlist RCU 버전 — 해시 테이블에서 RCU 보호 검색 */
rcu_read_lock();
hlist_for_each_entry_rcu(entry, &my_htable[bucket], node) {
    if (entry->key == search_key) {
        result = entry;
        break;
    }
}
rcu_read_unlock();

/* hlist RCU 삽입 */
spin_lock(&htable_lock);
hlist_add_head_rcu(&new_entry->node, &my_htable[bucket]);
spin_unlock(&htable_lock);

/* hlist RCU 삭제 */
spin_lock(&htable_lock);
hlist_del_rcu(&entry->node);
spin_unlock(&htable_lock);
kfree_rcu(entry, rcu);

💡

hlist vs list_head 선택 기준: 해시 테이블처럼 수백~수천 개의 빈 버킷이 존재하는 구조에서는 hlist가 메모리 절약 면에서 압도적입니다. 반면, 양방향 순회가 필요하거나 원형 리스트의 특성이 필요하면 list_head를 사용하세요.

RCU 리스트 순회 상태 머신

RCU 보호 리스트 섹션에서 기본 API를 살펴보았습니다. 이 섹션에서는 RCU 리스트의 읽기/쓰기 경로가 어떤 상태를 거치며 동작하는지 상태 머신 관점에서 분석합니다.

RCU 리스트의 Reader는 lock-free로 순회하고, Writer는 grace period 이후에만 메모리를 해제합니다

list_for_each_entry_rcu vs list_for_each_entry 비교

/* 일반 리스트 순회 — 락 보호 필요 */
spin_lock(&my_lock);
list_for_each_entry(item, &my_list, list) {
    /* next 포인터를 직접 역참조 */
    process(item);
}
spin_unlock(&my_lock);

/* RCU 리스트 순회 — lock-free */
rcu_read_lock();
list_for_each_entry_rcu(item, &my_list, list) {
    /* rcu_dereference()로 next를 읽음
     * → 컴파일러 최적화 방지 + 메모리 배리어 */
    process(item);
}
rcu_read_unlock();

/* 핵심 차이: list_for_each_entry_rcu 매크로 내부 */
#define list_for_each_entry_rcu(pos, head, member)         \
    for (pos = list_entry_rcu((head)->next,               \
                    typeof(*pos), member);                \
         &pos->member != (head);                              \
         pos = list_entry_rcu(pos->member.next,              \
                    typeof(*pos), member))

/* list_entry_rcu는 rcu_dereference_raw()를 사용하여
 * DATA_RACE 어노테이션과 READ_ONCE 시맨틱을 보장 */

list_add_rcu/list_del_rcu의 메모리 순서

/* list_add_rcu — rcu_assign_pointer()로 publish */
static inline void list_add_rcu(struct list_head *new,
                                  struct list_head *head)
{
    __list_add_rcu(new, head, head->next);
}

static inline void __list_add_rcu(struct list_head *new,
                                     struct list_head *prev,
                                     struct list_head *next)
{
    /* 신규 노드의 포인터를 먼저 설정 */
    new->next = next;
    new->prev = prev;

    /* rcu_assign_pointer: store-release 시맨틱
     * → 신규 노드의 내용이 reader에게 보이기 전에
     *   포인터 연결이 완료되도록 보장 */
    rcu_assign_pointer(list_next_rcu(prev), new);
    next->prev = new;
}

/* list_del_rcu — next 포인터 유지 */
static inline void list_del_rcu(struct list_head *entry)
{
    __list_del_entry(entry);
    /* 일반 list_del()은 next를 LIST_POISON1로 설정하지만,
     * list_del_rcu()는 next를 그대로 유지!
     * → 진행 중인 reader가 계속 다음 노드로 순회 가능 */
    entry->prev = LIST_POISON2;
}

올바른 Reader/Writer 패턴

/* 올바른 RCU 리스트 사용 패턴 (전체 구조) */
struct my_data {
    int                 value;
    struct list_head    list;
    struct rcu_head     rcu;   /* kfree_rcu 사용 시 필요 */
};

static LIST_HEAD(data_list);
static DEFINE_SPINLOCK(data_lock);

/* Reader: lock 없이 순회 */
int find_value(int target)
{
    struct my_data *d;
    int ret = -ENOENT;

    rcu_read_lock();
    list_for_each_entry_rcu(d, &data_list, list) {
        if (d->value == target) {
            ret = 0;
            break;
        }
    }
    rcu_read_unlock();
    return ret;
}

/* Writer: 삽입 */
int add_data(int value)
{
    struct my_data *d = kmalloc(sizeof(*d), GFP_KERNEL);
    if (!d)
        return -ENOMEM;
    d->value = value;

    spin_lock(&data_lock);
    list_add_rcu(&d->list, &data_list);
    spin_unlock(&data_lock);
    return 0;
}

/* Writer: 삭제 */
void remove_data(struct my_data *d)
{
    spin_lock(&data_lock);
    list_del_rcu(&d->list);
    spin_unlock(&data_lock);

    /* grace period 이후 자동 해제 */
    kfree_rcu(d, rcu);
}

/* Writer: 요소 갱신 (copy-and-replace 패턴) */
void update_data(struct my_data *old, int new_value)
{
    struct my_data *new = kmalloc(sizeof(*new), GFP_KERNEL);
    if (!new)
        return;
    new->value = new_value;

    spin_lock(&data_lock);
    list_replace_rcu(&old->list, &new->list);
    spin_unlock(&data_lock);

    kfree_rcu(old, rcu);
}

⚠️

흔한 실수: list_del_rcu() 후 list_add_rcu()를 즉시 호출하는 것은 안전하지 않습니다. list_del_rcu()는 prev를 LIST_POISON2로 설정하므로, 재삽입하려면 먼저 INIT_LIST_HEAD()로 초기화하거나 list_del_init_rcu()(최신 커널)를 사용해야 합니다.

list_lru 프레임워크

list_lru는 커널의 메모리 회수(reclaim) 경로에서 사용되는 LRU 리스트 프레임워크입니다. dentry 캐시와 inode 캐시의 축소(shrinking)를 효율적으로 처리하기 위해 설계되었으며, NUMA 노드별/memcg별로 분리된 리스트를 관리합니다.

list_lru는 NUMA 노드별/memcg별로 분리된 LRU 리스트를 관리하며 shrinker와 연동하여 메모리를 회수합니다

list_lru 핵심 API

/* include/linux/list_lru.h */

/* LRU 리스트 초기화 */
int list_lru_init(struct list_lru *lru);
int list_lru_init_memcg(struct list_lru *lru, struct shrinker *shrinker);

/* 항목 추가: LRU tail에 추가 (가장 오래된 위치) */
bool list_lru_add(struct list_lru *lru, struct list_head *item);

/* 항목 삭제 */
bool list_lru_del(struct list_lru *lru, struct list_head *item);

/* 항목 수 조회 (NUMA 노드별) */
unsigned long list_lru_count_node(struct list_lru *lru, int nid);

/* LRU 순회 + 콜백으로 항목 처리 */
unsigned long list_lru_walk_node(
    struct list_lru *lru, int nid,
    list_lru_walk_cb isolate,   /* 콜백 함수 */
    void *cb_arg,
    unsigned long *nr_to_walk);

/* 콜백 반환값 */
enum lru_status {
    LRU_REMOVED,      /* 항목을 리스트에서 제거함 */
    LRU_REMOVED_RETRY,/* 제거 + 락 재획득 후 재시도 */
    LRU_ROTATE,       /* 항목을 tail로 이동 (유지) */
    LRU_SKIP,         /* 건너뜀 */
    LRU_RETRY,        /* 락 재획득 후 재시도 */
};

dentry 캐시에서의 list_lru 사용

/* fs/dcache.c — dentry LRU 리스트 사용 */
static struct list_lru dentry_lru;

/* dentry가 참조 카운트 0이 되면 LRU에 추가 */
static void d_lru_add(struct dentry *dentry)
{
    list_lru_add(&dentry->d_sb->s_dentry_lru, &dentry->d_lru);
    dentry->d_flags |= DCACHE_LRU_LIST;
}

/* shrinker 콜백: 메모리 압박 시 호출 */
static enum lru_status dentry_lru_isolate(
    struct list_head *item,
    struct list_lru_one *lru,
    spinlock_t *lru_lock,
    void *arg)
{
    struct dentry *dentry = container_of(item, struct dentry, d_lru);

    /* 참조 카운트 확인 */
    if (dentry->d_lockref.count) {
        /* 사용 중 → LRU에서 제거만 */
        d_lru_shrink_move(lru, dentry);
        return LRU_REMOVED;
    }

    /* 최근 사용됨 → 한 번 더 기회를 줌 (rotate) */
    if (dentry->d_flags & DCACHE_REFERENCED) {
        dentry->d_flags &= ~DCACHE_REFERENCED;
        return LRU_ROTATE;
    }

    /* 회수 대상 → 격리 */
    return LRU_REMOVED;
}

ℹ️

list_lru는 Linux 3.12부터 도입되었으며, 이전에는 각 서브시스템이 자체 LRU 리스트를 관리했습니다. 통합 프레임워크 덕분에 NUMA 인식과 memcg 인식이 일관되게 적용되어 메모리 회수의 공정성(Fairness)이 크게 개선되었습니다.

리스트 정렬 (list_sort)

커널은 lib/list_sort.c에 연결 리스트 전용 정렬 함수 list_sort()를 제공합니다. 이 구현은 bottom-up 합병 정렬(merge sort)을 사용하며, 안정 정렬(stable sort)이고 O(n log n) 시간 복잡도를 보장합니다.

list_sort()는 bottom-up 합병 정렬을 사용하여 O(n log n)으로 연결 리스트를 정렬합니다

list_sort API와 사용법

/* include/linux/list_sort.h */
typedef int (*list_cmp_func_t)(void *priv,
    const struct list_head *a,
    const struct list_head *b);

void list_sort(void *priv, struct list_head *head,
              list_cmp_func_t cmp);

/* 사용 예: 학생 점수순 정렬 */
static int student_cmp(void *priv,
    const struct list_head *a,
    const struct list_head *b)
{
    struct student *sa = list_entry(a, struct student, list);
    struct student *sb = list_entry(b, struct student, list);

    /* 오름차순: sa < sb이면 음수 반환 */
    if (sa->score < sb->score)
        return -1;
    if (sa->score > sb->score)
        return 1;
    return 0;
}

/* 정렬 실행 */
list_sort(NULL, &student_list, student_cmp);

list_sort 내부 구현 핵심

/* lib/list_sort.c — 핵심 알고리즘 (단순화) */

/* merge: 두 정렬된 리스트를 하나로 합병 */
static struct list_head *merge(
    void *priv, list_cmp_func_t cmp,
    struct list_head *a, struct list_head *b)
{
    struct list_head *head, **tail = &head;

    for (;;) {
        /* cmp <= 0 이면 a를 선택 (안정 정렬 보장) */
        if (cmp(priv, a, b) <= 0) {
            *tail = a;
            tail = &a->next;
            a = a->next;
            if (!a) { *tail = b; break; }
        } else {
            *tail = b;
            tail = &b->next;
            b = b->next;
            if (!b) { *tail = a; break; }
        }
    }
    return head;
}

/* list_sort 본체:
 * 1. 원형 리스트를 단방향으로 변환
 * 2. bottom-up으로 점점 큰 블록을 합병
 *    - pending 리스트에 2의 거듭제곱 크기로 누적
 *    - 같은 크기의 블록이 2개 모이면 합병
 * 3. 최종 합병 후 다시 원형 이중 연결 리스트로 복원 */

💡

커널 사용 사례: list_sort()는 ext4의 extent 정렬, btrfs의 chunk 정렬, 네트워크 필터 규칙 정렬 등 다양한 서브시스템에서 활용됩니다. 배열과 달리 연결 리스트는 합병 정렬이 가장 효율적인데, 노드 이동이 포인터 재배치(Relocation)만으로 O(1)이기 때문입니다.

Lockless 리스트 패턴

앞서 llist 섹션에서 기본 개념을 다루었습니다. 이 섹션에서는 llist_add()의 cmpxchg 기반 구현과, 실제 커널에서의 활용 패턴을 심층적으로 분석합니다.

llist_add()는 cmpxchg로 head->first를 원자적으로 교체하여 lock 없이 노드를 추가합니다

llist_add 구현 분석

/* include/linux/llist.h */
static inline bool llist_add(struct llist_node *new,
                               struct llist_head *head)
{
    return llist_add_batch(new, new, head);
}

static inline bool llist_add_batch(
    struct llist_node *new_first,
    struct llist_node *new_last,
    struct llist_head *head)
{
    struct llist_node *first;

    do {
        new_last->next = first = READ_ONCE(head->first);
    } while (cmpxchg(&head->first, first, new_first) != first);
    /* cmpxchg 실패 = 다른 CPU가 head->first를 변경함
     * → first를 다시 읽고 new_last->next를 갱신 후 재시도 */

    return !first; /* 이전에 비어있었으면 true */
}

/* 전체 리스트 원자적 회수 */
static inline struct llist_node *llist_del_all(
    struct llist_head *head)
{
    return xchg(&head->first, NULL);
    /* xchg: head->first를 NULL로 설정하고 이전 값 반환
     * → 전체 체인을 한 번에 분리 */
}

커널 내 llist 활용 패턴

/* 패턴 1: IRQ → 스레드 워크 전달 */
struct irq_work {
    struct llist_node    llnode;
    void                (*func)(struct irq_work *);
};

/* IRQ 핸들러 내부 (lock 불가 컨텍스트) */
void irq_work_queue(struct irq_work *work)
{
    /* lock 없이 per-CPU llist에 추가 */
    if (llist_add(&work->llnode, this_cpu_ptr(&raised_list)))
        arch_irq_work_raise();  /* IPI로 워커 깨우기 */
}

/* 패턴 2: per-CPU 객체 해제 일괄 처리 */
static DEFINE_PER_CPU(struct llist_head, dead_objects);

void defer_free(struct my_object *obj)
{
    /* 인터럽트 컨텍스트에서도 안전 */
    llist_add(&obj->lnode, this_cpu_ptr(&dead_objects));
}

void flush_dead_objects(void)
{
    struct llist_node *batch, *pos, *next;

    batch = llist_del_all(this_cpu_ptr(&dead_objects));
    llist_for_each_safe(pos, next, batch) {
        struct my_object *obj = llist_entry(pos,
                                    struct my_object, lnode);
        kfree(obj);
    }
}

/* 패턴 3: RCU 콜백 큐잉 (kernel/rcu/tree.c) */
/* call_rcu() 내부에서 llist를 사용하여
 * grace period 이후 실행할 콜백을 lock-free로 큐잉 */

⚠️

llist 사용 시 주의점:

llist_del_all()은 LIFO 순서로 반환합니다. FIFO가 필요하면 회수 후 llist_reverse_order()로 뒤집어야 합니다.
단일 노드 삭제(llist_del_first())는 단일 소비자만 호출해야 합니다. 다중 소비자가 호출하면 ABA 문제가 발생할 수 있습니다.
llist_empty()는 정확한 스냅샷이 아닐 수 있습니다(다른 CPU가 동시에 추가 중). 비어있음을 확인하는 용도로만 사용하세요.

리스트 접합 연산

리스트 접합(splice)은 두 개의 리스트를 효율적으로 합치는 O(1) 연산입니다. 개별 노드를 하나씩 옮기는 대신, 포인터 4개만 수정하여 전체 리스트를 즉시 연결합니다. 배치 처리, 큐 드레인(drain), 작업 분배 등에서 핵심적으로 사용됩니다.

list_splice는 포인터 4개만 수정하여 O(1)으로 두 리스트를 합칩니다

접합 연산 구현과 사용 패턴

/* include/linux/list.h — list_splice 핵심 구현 */
static inline void __list_splice(
    const struct list_head *list,
    struct list_head *prev,
    struct list_head *next)
{
    struct list_head *first = list->next;
    struct list_head *last = list->prev;

    /* 포인터 4개만 수정 → O(1) */
    first->prev = prev;
    prev->next = first;
    last->next = next;
    next->prev = last;
}

/* 안전한 버전: 빈 리스트 체크 + source 재초기화 */
static inline void list_splice_init(
    struct list_head *list,
    struct list_head *head)
{
    if (!list_empty(list)) {
        __list_splice(list, head, head->next);
        INIT_LIST_HEAD(list);
    }
}

/* 배치 처리 패턴: 락 구간 최소화 */
void process_pending_work(void)
{
    LIST_HEAD(local_list);

    /* 락을 짧게 잡고 전체 리스트를 로컬로 이동 */
    spin_lock(&work_lock);
    list_splice_init(&pending_work, &local_list);
    spin_unlock(&work_lock);

    /* 락 없이 로컬에서 처리 */
    struct work_item *item, *tmp;
    list_for_each_entry_safe(item, tmp, &local_list, list) {
        do_work(item);
        list_del(&item->list);
        kfree(item);
    }
}

/* RCU 안전 접합 패턴 */
void rcu_safe_splice(struct list_head *src,
                      struct list_head *dst)
{
    /* list_splice_init_rcu는 synchronize_rcu 콜백을 받아
     * reader가 src를 순회 중이 아님을 보장한 후 합침 */
    list_splice_init_rcu(src, dst, synchronize_rcu);
}

ℹ️

배치 처리 패턴이 중요한 이유: list_splice_init()으로 공유 리스트를 로컬로 이동하면, 이후 처리는 잠금 없이 수행할 수 있습니다. 이 패턴은 네트워크 스택(Network Stack)의 패킷(Packet) 배치 처리, 블록 I/O의 요청 배치 처리, workqueue의 작업 배치 처리 등에서 광범위하게 사용됩니다.

리스트 디버깅

기본 디버깅 섹션에서 CONFIG_DEBUG_LIST와 KASAN을 소개했습니다. 이 섹션에서는 list_del() vs list_del_init()의 안전성 차이, POISON 값의 작동 원리, 그리고 ftrace/bpftrace를 활용한 실시간(Real-time) 리스트 연산 추적 방법을 다룹니다.

list_del() vs list_del_init() 안전성 비교

/* list_del(): next/prev를 POISON 값으로 설정 */
static inline void list_del(struct list_head *entry)
{
    __list_del_entry(entry);
    entry->next = LIST_POISON1;  /* 0x100 + delta */
    entry->prev = LIST_POISON2;  /* 0x122 + delta */
}
/* → 이후 접근 시 page fault 발생 → 즉시 버그 감지
 * → 하지만 list_empty() 체크 불가 (자기 자신을 가리키지 않으므로)
 * → 재삽입 시도 시 CONFIG_DEBUG_LIST가 경고 */

/* list_del_init(): next/prev를 자기 자신으로 재초기화 */
static inline void list_del_init(struct list_head *entry)
{
    __list_del_entry(entry);
    INIT_LIST_HEAD(entry);
}
/* → list_empty() = true (안전한 상태 확인 가능)
 * → 즉시 list_add()로 다른 리스트에 재삽입 가능
 * → 이중 삭제에도 안전 (빈 리스트에서 삭제는 무해) */

특성	`list_del()`	`list_del_init()`
삭제 후 next/prev	LIST_POISON1/2	자기 자신 (빈 리스트)
list_empty() 체크	불가 (정의되지 않은 동작)	가능 (true 반환)
재삽입 안전성	위험 (INIT 필요)	즉시 재삽입 가능
이중 삭제	크래시 (POISON 접근)	무해 (빈 리스트에서 삭제)
버그 발견 용이성	높음 (즉시 크래시)	낮음 (조용히 무시)
권장 용도	최종 삭제 + 즉시 kfree	임시 제거, 상태 추적 필요

LIST_POISON 값의 동작 원리

/* include/linux/poison.h */
#ifdef CONFIG_ILLEGAL_POINTER_VALUE
#define POISON_POINTER_DELTA _AC(CONFIG_ILLEGAL_POINTER_VALUE, UL)
#else
#define POISON_POINTER_DELTA 0
#endif

#define LIST_POISON1  ((void *) 0x100 + POISON_POINTER_DELTA)
#define LIST_POISON2  ((void *) 0x122 + POISON_POINTER_DELTA)

/* x86_64에서 POISON_POINTER_DELTA = 0
 * → LIST_POISON1 = 0x100, LIST_POISON2 = 0x122
 * → 사용자 공간 주소 범위의 유효하지 않은 주소
 * → 접근 시 즉시 page fault (OOPS/BUG) 발생
 *
 * 디버깅 메시지 예:
 * BUG: unable to handle page fault for address: 0x0000000000000100
 * → 주소가 0x100이면 list_del() 후 next 접근 → LIST_POISON1
 * → 주소가 0x122이면 list_del() 후 prev 접근 → LIST_POISON2 */

ftrace/bpftrace로 리스트 연산 추적

# ftrace: list 관련 함수 추적
# CONFIG_DEBUG_LIST=y 시 list 연산이 outline 함수로 노출됨

# 1. list corruption 이벤트 모니터링
echo 1 > /sys/kernel/tracing/events/list/list_add_corruption/enable
echo 1 > /sys/kernel/tracing/events/list/list_del_corruption/enable
cat /sys/kernel/tracing/trace_pipe

# 2. kprobe로 특정 리스트 연산 추적
echo 'p:my_list_add __list_add new=%di prev=%si next=%dx' > \
    /sys/kernel/tracing/kprobe_events
echo 1 > /sys/kernel/tracing/events/kprobes/my_list_add/enable

# bpftrace: list_del 호출 추적 (호출 스택 포함)
bpftrace -e '
kprobe:__list_del_entry {
    printf("list_del from %s (pid=%d)\n",
           comm, pid);
    print(kstack(5));
}'

# bpftrace: list corruption 감지 시 상세 정보
bpftrace -e '
kprobe:__list_add_valid {
    $next = (struct list_head *)arg1;
    $prev = (struct list_head *)arg2;

    if ($next->prev != $prev) {
        printf("CORRUPTION: next->prev mismatch!\n");
        printf("  next=%p, prev=%p, next->prev=%p\n",
               $next, $prev, $next->prev);
        print(kstack);
    }
}'

💡

실전 디버깅 전략:

개발 초기: CONFIG_DEBUG_LIST=y + CONFIG_KASAN=y로 빌드하여 corruption을 조기에 발견
재현이 어려운 버그: bpftrace로 특정 리스트의 add/del 패턴을 실시간 추적
crash dump 분석: crash 도구의 list 명령으로 corruption 지점 탐색
운영 환경: list_del_init()을 기본으로 사용하되, 최종 삭제에는 list_del() + 즉시 kfree() 패턴 적용

서브시스템별 활용 분석

커널 내 실제 사용 사례에서 주요 서브시스템의 list_head 사용을 개괄적으로 살펴보았습니다. 이 섹션에서는 wait_queue, workqueue, 타이머 등의 핵심 서브시스템에서 리스트가 어떤 역할을 하는지 구조적으로 분석합니다.

각 서브시스템은 접근 패턴에 따라 list_head, hlist, llist, list_lru를 선택적으로 사용합니다

wait_queue의 리스트 사용

/* include/linux/wait.h */
struct wait_queue_head {
    spinlock_t          lock;
    struct list_head    head;  /* 대기 중인 태스크 리스트 */
};

struct wait_queue_entry {
    unsigned int        flags;
    void                *private;   /* task_struct */
    wait_queue_func_t   func;      /* 깨우기 콜백 */
    struct list_head    entry;     /* wait_queue_head.head에 연결 */
};

/* 대기 → 깨우기 흐름:
 * 1. prepare_to_wait(): entry를 head에 list_add_tail()
 * 2. schedule(): 현재 태스크 슬립
 * 3. wake_up(): head의 리스트를 순회하며 콜백 호출
 * 4. finish_wait(): entry를 list_del_init()으로 제거 */

workqueue의 리스트 사용

/* kernel/workqueue.c — 워크큐 내부 리스트 구조 */
struct pool_workqueue {
    struct list_head    pwqs_node;     /* workqueue_struct에 연결 */
    struct list_head    inactive_works;/* 비활성 작업 리스트 */
    /* ... */
};

struct worker_pool {
    struct list_head    worklist;  /* 대기 중인 work 리스트 */
    struct list_head    idle_list; /* 유휴 worker 리스트 */
    struct list_head    workers;   /* 모든 worker 리스트 */
    /* ... */
};

/* work 제출 흐름:
 * queue_work() → list_add_tail(&work->entry, &pool->worklist)
 * worker_thread() → list_first_entry(&pool->worklist, ...)로 꺼내기 */

서브시스템별 리스트 유형 비교표

서브시스템	list_head	hlist	llist	list_lru	핵심 이유
프로세스(Process) 관리	tasks, children	pid_hash	-	-	순회 + 해시 검색 혼합
VFS	d_child, d_subdirs	d_hash	-	d_lru, i_lru	계층 순회 + LRU 회수
메모리	page.lru	-	-	per-memcg	active/inactive LRU 분류
네트워크	dev_list	sk_node	softnet	-	소켓 해시 + IRQ 큐잉
블록 I/O	queuelist	-	blk_mq batch	-	요청 정렬 + 배치 제출
타이머	-	timer wheel	-	-	타이밍 휠 버킷 체인
Workqueue	worklist, idle	-	irq_work	-	작업 큐(Workqueue) + IRQ 전달
RCU	-	-	콜백 큐잉	-	grace period 콜백 MPSC

ℹ️

패턴 인식: 서브시스템의 리스트 선택을 관찰하면 일관된 패턴이 보입니다. (1) 순차 접근이 주이면 list_head, (2) 키 검색이 필요하면 hlist, (3) IRQ에서 lock 없이 큐잉하면 llist, (4) 메모리 회수 대상이면 list_lru를 선택합니다. 새로운 서브시스템을 설계할 때도 이 패턴을 따르면 검증된 선택을 할 수 있습니다.

성능 분석

성능 고려사항 섹션에서 기본적인 복잡도와 벤치마크를 다루었습니다. 이 섹션에서는 캐시 동작, 메모리 오버헤드, 실제 접근 패턴에 따른 자료구조 선택 가이드를 보다 깊이 분석합니다.

캐시 동작 분석

연결 리스트의 가장 큰 성능 약점은 캐시 비친화성입니다. 노드가 메모리에 흩어져 있으면 순회 시 캐시 미스가 빈번하게 발생합니다.

/* 캐시 친화적 배치 전략 */

/* 전략 1: slab 할당으로 노드 밀집 배치 */
static struct kmem_cache *item_cache;

/* 모듈 초기화 시 */
item_cache = kmem_cache_create("my_item_cache",
    sizeof(struct my_item),
    0,                         /* align: 기본 */
    SLAB_HWCACHE_ALIGN,        /* 캐시 라인 정렬 */
    NULL);

/* 할당: 같은 slab 페이지에 밀집 → 캐시 친화적 */
struct my_item *item = kmem_cache_alloc(item_cache, GFP_KERNEL);

/* 전략 2: list_head를 구조체 앞에 배치 */
struct my_item_optimized {
    struct list_head    list;   /* 오프셋 0: 순회 시 첫 캐시 라인 */
    int                 key;    /* 자주 비교하는 필드도 앞에 */
    /* ... 나머지 필드 ... */
    char                data[256]; /* 드물게 접근하는 필드는 뒤로 */
};

메모리 오버헤드 분석

자료구조	노드당 오버헤드	헤드/루트 크기	10만 노드 총 오버헤드
`list_head`	16B (next + prev)	16B	약 1.6 MB
`hlist_node`	16B (next + pprev)	8B (first only)	약 1.6 MB + 8B/bucket
`llist_node`	8B (next only)	8B	약 0.8 MB
`rb_node`	24B (left + right + parent_color)	8B	약 2.4 MB
배열 (참고)	0B (연속 메모리)	포인터 + 길이	0 MB (데이터만)

자료구조 전환 시점

아래 가이드라인은 절대적인 기준이 아니라 경험적 판단 기준입니다. 실제 성능은 반드시 측정으로 확인하세요.

현재 자료구조	전환 시점	대안	이유
`list_head`	검색이 빈번하고 노드 수 > 100	`hlist` + 해시	O(n) → O(1) 검색
`list_head`	정렬 상태 유지가 필요	`rbtree`	삽입 후 재정렬 비용 제거
`hlist`	버킷당 노드 수 > 10	버킷 수 증가 또는 rbtree	해시 충돌 감소
`list_head`	IRQ 컨텍스트에서 큐잉	`llist`	lock 제거로 IRQ 지연(Latency) 감소
모든 리스트	대량 순차 접근 + 크기 고정	배열	캐시 효율 극대화

⚠️

성능 최적화 원칙: "측정하지 않은 최적화는 최적화가 아닙니다." 커널에서 자료구조를 변경하기 전에 반드시 (1) perf stat으로 캐시 미스율 측정, (2) perf record로 핫스팟 확인, (3) 실제 워크로드에서 벤치마크를 수행하세요. 이론적으로 더 나은 자료구조가 실제 워크로드에서는 오히려 느릴 수 있습니다.

소스 코드 워크스루

이 섹션에서는 include/linux/list.h의 핵심 인라인 함수(Inline Function)들이 어떻게 구현되어 있고, 서로 어떤 호출 관계를 갖는지 분석합니다. container_of 매크로의 깊은 동작 원리도 함께 다룹니다.

list.h의 함수 계층: 공개 API → 내부 헬퍼 → 순회 매크로 → 기반 매크로(container_of, offsetof)

__list_add() 인라인 구현

/* include/linux/list.h — 모든 삽입의 기반 */
static inline void __list_add(
    struct list_head *new,
    struct list_head *prev,
    struct list_head *next)
{
    /* CONFIG_DEBUG_LIST 시: __list_add_valid() 검증 추가 */
    if (!__list_add_valid(new, prev, next))
        return;

    next->prev = new;    /* 1. next의 prev를 new로 */
    new->next = next;     /* 2. new의 next를 next로 */
    new->prev = prev;     /* 3. new의 prev를 prev로 */
    WRITE_ONCE(prev->next, new); /* 4. prev의 next를 new로
                                  * WRITE_ONCE: 컴파일러가 이 쓰기를
                                  * 분할하거나 재배치하지 못하게 */
}

/* list_add(new, head) = __list_add(new, head, head->next)
 * → head 뒤에 삽입 (LIFO / 스택 동작)
 *
 * list_add_tail(new, head) = __list_add(new, head->prev, head)
 * → head 앞에 삽입 (FIFO / 큐 동작)
 *
 * 같은 헬퍼, 다른 인자 → 코드 중복 제거 */

__list_del() 인라인 구현

/* 삭제의 기반: 이전과 다음을 직접 연결 */
static inline void __list_del(
    struct list_head *prev,
    struct list_head *next)
{
    next->prev = prev;
    WRITE_ONCE(prev->next, next);
}

/* __list_del_entry: 노드에서 prev/next를 추출 후 __list_del 호출 */
static inline void __list_del_entry(struct list_head *entry)
{
    if (!__list_del_entry_valid(entry))
        return;
    __list_del(entry->prev, entry->next);
}

/* __list_del_entry_valid (CONFIG_DEBUG_LIST 시):
 * - entry->prev->next == entry 확인
 * - entry->next->prev == entry 확인
 * - entry != LIST_POISON1 확인
 * → 위반 시 WARN + false 반환 → 삭제 중단 → 손상 확대 방지 */

container_of 매크로 심층 분석

/* include/linux/container_of.h — 전체 구현 */
#define container_of(ptr, type, member) ({                \
    void *__mptr = (void *)(ptr);                          \
    static_assert(                                         \
        __same_type(*(ptr), ((type *)0)->member) ||        \
        __same_type(*(ptr), void),                          \
        "pointer type mismatch in container_of()");         \
    ((type *)(__mptr - offsetof(type, member)));            \
})

/* 분해:
 *
 * 1. void *__mptr = (void *)(ptr)
 *    → const/volatile 제거, 임시 변수에 저장
 *    → ptr을 여러 번 평가하지 않도록 방지 (매크로 안전성)
 *
 * 2. static_assert(__same_type(...))
 *    → ptr의 타입이 type.member의 타입과 일치하는지 컴파일 타임 검증
 *    → 잘못된 member 이름 사용 시 컴파일 에러
 *    → void 타입은 허용 (범용 포인터)
 *
 * 3. (type *)(__mptr - offsetof(type, member))
 *    → member의 주소에서 구조체 내 오프셋을 빼면 구조체 시작 주소
 *    → 결과를 type*로 캐스팅
 *
 * 컴파일러 최적화:
 *    → offsetof는 컴파일 타임 상수
 *    → 뺄셈은 단일 SUB 명령어로 컴파일
 *    → inline 확장 시 오버헤드 제로 */

/* container_of_safe: NULL 안전 버전 (일부 코드에서 사용) */
#define container_of_safe(ptr, type, member) ({            \
    void *__mptr = (void *)(ptr);                          \
    static_assert(                                         \
        __same_type(*(ptr), ((type *)0)->member) ||        \
        __same_type(*(ptr), void),                          \
        "pointer type mismatch");                           \
    IS_ERR_OR_NULL(__mptr) ? NULL :                        \
        ((type *)(__mptr - offsetof(type, member)));        \
})

💡

소스 코드 읽기 팁: list.h를 읽을 때 핵심은 세 가지입니다. (1) 공개 API는 모두 1~2줄의 래퍼이고, 실제 로직은 __ 접두사 헬퍼에 있습니다. (2) 순회 매크로는 for 루프의 syntactic sugar이며, 종료 조건은 항상 &pos->member != head입니다. (3) WRITE_ONCE는 컴파일러 최적화(Compiler Optimization) 방지이지 메모리 배리어가 아닙니다(RCU 버전은 rcu_assign_pointer를 사용).

커널 소스 코드 분석

이 섹션에서는 include/linux/list.h, include/linux/container_of.h, include/linux/llist.h의 핵심 자료구조와 함수들을 소스 레벨에서 분석합니다. 호출 체인(Call Chain)인 container_of() → offsetof() → list_for_each_entry_safe()의 동작 원리를 단계별로 추적하고, 각 구조체 필드의 역할을 한국어 주석으로 설명합니다.

struct list_head 필드 분석

/* include/linux/types.h */
struct list_head {
    struct list_head *next; /* 다음 노드를 가리키는 포인터 — 순방향 순회에 사용 */
    struct list_head *prev; /* 이전 노드를 가리키는 포인터 — 역방향 순회 및 O(1) 삭제에 사용 */
};

코드 설명

2행next: 원형 이중 연결 리스트(Doubly Linked List)에서 다음 노드를 가리킵니다. 리스트가 비어 있을 때는 헤드 노드 자신을 가리켜 NULL 포인터 역참조를 방지합니다.
3행prev: 이전 노드를 가리킵니다. 이 포인터 덕분에 노드 삭제가 O(1)이 됩니다 — 앞뒤 포인터를 바로 알 수 있어 리스트를 처음부터 탐색하지 않아도 됩니다.
구조 전체단 2개의 포인터만으로 구성됩니다. 침투적(intrusive) 설계로, 이 구조체를 데이터 구조체 안에 임베딩하고 container_of()로 상위 구조체를 역참조합니다. 64비트 시스템에서 크기는 16바이트입니다.

hlist_head / hlist_node 필드 분석

/* include/linux/types.h — 해시 버킷용 단방향 리스트 헤드 */
struct hlist_head {
    struct hlist_node *first; /* 첫 번째 노드를 가리키는 포인터 — NULL이면 버킷이 비어 있음 */
};

/* 해시 버킷에 연결되는 노드 */
struct hlist_node {
    struct hlist_node *next;  /* 다음 노드 포인터 — NULL이면 버킷의 마지막 노드 */
    struct hlist_node **pprev; /* 이전 노드의 next 포인터를 가리키는 이중 포인터
                                * — 헤드/중간 노드 구분 없이 O(1) 삭제 가능 */
};

코드 설명

3행 (hlist_head.first)해시 버킷의 헤드는 포인터 1개만 사용합니다. list_head는 헤드도 next/prev 2개가 필요하지만, 해시 버킷은 수천~수만 개가 존재하므로 메모리를 절약하기 위해 헤드를 포인터 1개로 줄입니다. 수만 개의 버킷에서는 이 8바이트 차이가 크게 누적됩니다.
8행 (hlist_node.next)단방향(singly-linked)으로 다음 노드를 가리킵니다. 역방향 순회는 지원하지 않으며, 해시 조회는 항상 버킷 처음부터 순방향 탐색합니다.
9~11행 (hlist_node.pprev)이전 노드의 next 필드(또는 헤드의 first 필드) 주소를 저장합니다. 이중 포인터(pointer to pointer) 트릭으로, 헤드 노드인지 일반 노드인지 구분 없이 *pprev = next 한 줄로 노드를 삭제할 수 있어 O(1) 삭제가 가능합니다.

list_add() 소스 분석

/* include/linux/list.h */
static inline void list_add(struct list_head *new,
                            struct list_head *head)
{
    __list_add(new, head, head->next); /* head 뒤(head→next 앞)에 삽입 → LIFO 스택 동작 */
}

/* 내부 헬퍼: 실제 포인터 연결 수행 */
static inline void __list_add(struct list_head *new,
                               struct list_head *prev,
                               struct list_head *next)
{
    if (!__list_add_valid(new, prev, next)) /* DEBUG_LIST: 유효성 검사 */
        return;

    next->prev = new;            /* ① next의 역방향 포인터를 new로 */
    new->next  = next;           /* ② new의 순방향 포인터를 next로 */
    new->prev  = prev;           /* ③ new의 역방향 포인터를 prev로 */
    WRITE_ONCE(prev->next, new); /* ④ prev의 순방향 포인터를 new로 — 마지막에 게시 */
}

코드 설명

5행list_add()는 __list_add(new, head, head->next)로 위임합니다. head가 prev가 되고 head->next가 next가 되므로, 새 노드는 헤드 바로 뒤에 삽입됩니다. 가장 최근 삽입 노드가 첫 번째로 순회되는 LIFO(Last In, First Out) 동작입니다.
13행__list_add_valid()는 CONFIG_DEBUG_LIST가 활성화된 경우에만 실제 검사를 수행합니다. new가 이미 리스트에 있거나 prev->next != next인 경우 WARN을 출력하고 false를 반환해 삽입을 차단합니다. 릴리스 빌드에서는 인라인 함수가 항상 true를 반환해 조건문 자체가 제거됩니다.
16~18행먼저 세 개의 포인터 할당이 이루어집니다. new의 next/prev와 next->prev를 설정합니다. 이 시점에서 prev->next는 아직 바뀌지 않아 기존 리스트는 유효 상태를 유지합니다.
19행 (WRITE_ONCE)WRITE_ONCE(prev->next, new)가 마지막에 실행됩니다. 이 쓰기가 완료되는 순간 new가 리스트에 "게시(publish)"됩니다. WRITE_ONCE는 컴파일러가 이 쓰기를 분할하거나 재배치하지 못하게 하는 volatile 시맨틱이지만, CPU 메모리 배리어는 아닙니다. RCU 게시에는 rcu_assign_pointer()를 사용해야 합니다.

container_of() → offsetof() 호출 체인 분석

container_of() 호출 체인: list_for_each_entry_safe → list_entry → container_of → offsetof → 주소 계산

list_for_each_entry_safe() 소스 분석

/* include/linux/list.h — 순회 중 삭제가 안전한 매크로 */
#define list_for_each_entry_safe(pos, n, head, member)            \
    for (pos = list_first_entry(head, typeof(*pos), member),  \
         n   = list_next_entry(pos, member);                    \
         !list_entry_is_head(pos, head, member);                 \
         pos = n, n = list_next_entry(n, member))

/* 사용 예시 */
struct my_node *pos, *n;
list_for_each_entry_safe(pos, n, &my_list, list) {
    if (pos->expired) {
        list_del(&pos->list); /* n이 이미 다음을 저장했으므로 안전 */
        kfree(pos);
    }
}

코드 설명

2~6행 (매크로 정의)pos는 현재 노드, n은 다음 노드를 미리 저장합니다. for 문의 초기화 단계에서 pos와 n을 동시에 설정하고, 매 반복의 갱신 단계에서 pos = n으로 이동한 뒤 새로운 n을 한 칸 앞서 저장합니다.
3행 (list_first_entry)list_first_entry(head, type, member)는 list_entry(head->next, type, member)로 확장됩니다. 헤드의 첫 번째 실제 데이터 노드를 반환합니다. 리스트가 비어 있으면 pos가 헤드를 가리키게 되어 루프 조건에서 즉시 종료됩니다.
5행 (list_entry_is_head)종료 조건: &pos->member == head이면 리스트를 한 바퀴 돌았다는 의미입니다. 원형(circular) 리스트 구조를 활용한 종료 조건으로, NULL 검사가 아닌 헤드 주소 비교를 사용합니다.
11~13행 (안전한 삭제)n이 이미 다음 노드를 가리키고 있으므로, pos를 list_del()로 제거해도 다음 반복에서 pos = n으로 올바른 노드를 참조합니다. 주의: n 자체를 루프 본체 안에서 삭제하면 안 됩니다 — n이 훼손되어 다음 반복이 잘못된 포인터를 따라갑니다.

list_for_each_entry_rcu() 소스 분석

/* include/linux/rculist.h — RCU 읽기 측 안전 순회 */
#define list_for_each_entry_rcu(pos, head, member, cond...)           \
    for (__list_check_rcu(dummy, ## cond, 0),                       \
         pos = list_entry_rcu((head)->next, typeof(*pos), member); \
         !list_entry_is_head(pos, head, member);                      \
         pos = list_entry_rcu(pos->member.next, typeof(*pos), member))

/* list_entry_rcu 내부 — rcu_dereference로 포인터 읽기 */
#define list_entry_rcu(ptr, type, member)                     \
    container_of(READ_ONCE(ptr), type, member) /* ① */

/* RCU 쓰기 측: rcu_assign_pointer로 게시 */
static inline void list_add_rcu(struct list_head *new,
                                  struct list_head *head)
{
    __list_add_rcu(new, head, head->next);
}

static inline void __list_add_rcu(struct list_head *new,
                                    struct list_head *prev,
                                    struct list_head *next)
{
    if (!__list_add_valid(new, prev, next))
        return;

    new->next = next;
    new->prev = prev;
    rcu_assign_pointer(list_next_rcu(prev), new); /* ② 메모리 배리어 포함 게시 */
    next->prev = new;
}

코드 설명

1~6행 (list_for_each_entry_rcu)읽기 측(read-side) RCU 순회 매크로입니다. rcu_read_lock() / rcu_read_unlock() 구간 안에서 사용해야 합니다. cond 매개변수(가변 인자)를 통해 list_for_each_entry_rcu(pos, head, member, lockdep_is_held(&mylock)) 형태로 잠금 보유 여부를 lockdep에 알릴 수 있습니다.
9~10행 (list_entry_rcu, ①)READ_ONCE(ptr)로 포인터를 원자적으로 읽은 뒤 container_of()를 적용합니다. READ_ONCE는 컴파일러가 이 읽기를 캐시하거나 분할하지 못하게 합니다. 일반 list_entry와의 차이는 바로 이 READ_ONCE 래핑입니다.
26~27행 (rcu_assign_pointer, ②)쓰기 측에서는 WRITE_ONCE 대신 rcu_assign_pointer()를 사용합니다. 이 함수는 smp_store_release()를 내부적으로 호출해 새 노드의 초기화가 포인터 게시 전에 다른 CPU에 보이도록 메모리 순서를 보장합니다. RCU 독자(reader)는 완전히 초기화된 노드 또는 이전 노드 중 하나만 볼 수 있습니다 — 절반만 초기화된 상태를 볼 수 없습니다.

llist_add() 소스 분석 (Lockless 삽입)

/* include/linux/llist.h — lock-free 단방향 스택 */
struct llist_head {
    struct llist_node *first; /* 스택 최상단 노드 — atomic CAS로만 갱신 */
};

struct llist_node {
    struct llist_node *next; /* 다음(이전에 최상단이었던) 노드 */
};

/* lib/llist.c — 핵심 삽입 함수 */
bool llist_add_batch(struct llist_node *new_first,
                     struct llist_node *new_last,
                     struct llist_head *head)
{
    struct llist_node *first;

    do {
        new_last->next = first = READ_ONCE(head->first); /* ① 현재 최상단 읽기 */
    } while (!try_cmpxchg(&head->first, &first, new_first)); /* ② CAS 루프 */

    return !first; /* ③ 삽입 전 리스트가 비어 있었으면 true */
}

/* llist_add는 단일 노드를 배치로 추가 */
static inline bool llist_add(struct llist_node *new,
                               struct llist_head *head)
{
    return llist_add_batch(new, new, head); /* new_first == new_last == new */
}

코드 설명

2~8행 (구조체)llist_head는 스택 최상단 포인터 1개만 갖습니다. llist_node도 next 1개뿐으로, 단방향 스택(LIFO) 구조입니다. list_head의 원형 이중 연결과 달리 단방향이어서 pop 연산도 단순합니다.
17행 (READ_ONCE, ①)head->first를 READ_ONCE로 읽어 현재 최상단을 가져옵니다. 새 노드의 next를 이 값으로 설정해 새 노드가 기존 최상단을 가리키도록 합니다. 이 시점에서 다른 CPU가 head->first를 변경할 수 있으므로, CAS로 재확인합니다.
18행 (try_cmpxchg, ②)try_cmpxchg(&head->first, &first, new_first)는 원자적 비교-교환(Compare And Swap) 명령어입니다. head->first가 여전히 first와 같으면 new_first로 교체하고 true를 반환합니다. 다른 CPU가 먼저 변경했다면 false를 반환하고 do-while 루프를 재시도합니다. 잠금 없이 원자성을 보장하는 CAS 패턴입니다.
20행 (반환값, ③)삽입 직전 리스트가 비어 있었으면 true를 반환합니다. 이 반환값을 활용해 "첫 번째 항목이 추가되었을 때만 워크큐(Workqueue) 스케줄링" 같은 패턴을 구현합니다. 예: if (llist_add(node, head)) schedule_work(&my_work);

hlist_del() 소스 분석 (pprev 이중 포인터)

/* include/linux/list.h — hlist O(1) 삭제의 핵심 */
static inline void __hlist_del(struct hlist_node *n)
{
    struct hlist_node *next  = n->next;     /* ① n의 다음 노드 */
    struct hlist_node **pprev = n->pprev;   /* ② 이전 노드의 next(또는 head→first)의 주소 */

    WRITE_ONCE(*pprev, next);               /* ③ 이전→next = n→next (n 건너뜀) */
    if (next)
        WRITE_ONCE(next->pprev, pprev);      /* ④ 다음→pprev = n→pprev */
}

코드 설명

5행 (pprev)pprev는 "이전 노드의 next 필드의 주소"를 저장하는 이중 포인터입니다. 첫 번째 노드라면 &head->first를, 중간 노드라면 &prev_node->next를 가리킵니다. 이 트릭 덕분에 삭제 시 head인지 일반 노드인지 구분할 필요 없이 *pprev = next 한 줄로 이전 연결을 갱신합니다.
7행 (*pprev = next, ③)*pprev에 next를 쓰면, n 앞에 있던 포인터가 n을 건너뛰어 n의 다음 노드를 직접 가리키게 됩니다. n이 첫 노드였다면 head->first가 갱신되고, 중간 노드였다면 이전 노드의 next가 갱신됩니다.
8~9행 (next→pprev, ④)다음 노드가 존재하면 그 노드의 pprev를 n의 pprev로 갱신합니다. 이로써 n의 다음 노드가 n의 이전 포인터를 정확히 가리키게 되어, 이후의 삭제 연산도 올바르게 동작합니다.

list_replace() / list_cut_position() 소스 분석

/* include/linux/list.h — 노드 치환 */
static inline void list_replace(struct list_head *old,
                                struct list_head *new)
{
    new->next       = old->next;    /* ① new가 old의 다음을 가리킴 */
    new->next->prev = new;          /* ② 다음 노드의 prev를 new로 */
    new->prev       = old->prev;    /* ③ new가 old의 이전을 가리킴 */
    new->prev->next = new;          /* ④ 이전 노드의 next를 new로 */
}

/* 내부 헬퍼: 리스트 분할 핵심 로직 */
static inline void __list_cut_position(struct list_head *list,
                                       struct list_head *head,
                                       struct list_head *entry)
{
    struct list_head *new_first = entry->next; /* head에 남을 첫 노드 */

    list->next       = head->next;   /* ① list→next = head의 첫 노드 */
    list->next->prev = list;         /* ② 첫 노드→prev = list */
    list->prev       = entry;        /* ③ list→prev = 잘리는 마지막 노드 */
    entry->next      = list;         /* ④ entry→next = list (새 원형 닫기) */

    head->next       = new_first;    /* ⑤ head→next = 남은 첫 노드 */
    new_first->prev  = head;         /* ⑥ 남은 첫 노드→prev = head */
}

코드 설명

list_replace ①~④list_replace()는 4개의 포인터만 갱신하여 old 자리에 new를 넣습니다. old의 양쪽 이웃이 new를 가리키고, new가 이웃을 가리키면 치환 완료입니다. 치환 후 old의 포인터는 여전히 옛 이웃을 가리키므로, 재사용하려면 INIT_LIST_HEAD(old)로 초기화해야 합니다.
__list_cut_position ①~④head의 첫 노드부터 entry까지를 list 헤드에 연결합니다. list가 잘린 구간의 새 헤드가 되고, entry→next = list로 원형을 닫습니다.
__list_cut_position ⑤~⑥원본 head는 entry 다음 노드(new_first)부터 시작하는 리스트가 됩니다. 6개의 포인터 갱신으로 하나의 원형 리스트를 두 개의 독립적인 원형 리스트로 분할합니다.

list_for_each_entry_continue() 소스 분석

/* include/linux/list.h — 중간부터 순회 계속 */
#define list_for_each_entry_continue(pos, head, member)          \
    for (pos = list_next_entry(pos, member);                    \
         !list_entry_is_head(pos, head, member);                \
         pos = list_next_entry(pos, member))

/* list_entry_is_head: 순회 종료 조건 매크로 */
#define list_entry_is_head(pos, head, member) \
    (&pos->member == (head))

/* list_prepare_entry: continue를 위한 안전한 시작점 */
#define list_prepare_entry(pos, head, member) \
    ((pos) ? : list_entry(head, typeof(*pos), member))

코드 설명

list_for_each_entry_continue일반 list_for_each_entry와 거의 동일하지만, 초기화 구문이 list_first_entry(head) 대신 list_next_entry(pos)입니다. 즉, 현재 pos의 다음 노드부터 순회를 시작합니다. 이전에 break로 중단한 지점부터 이어서 순회할 때 사용합니다.
list_entry_is_head&pos->member == head를 검사합니다. 원형 리스트에서 head sentinel로 돌아오면 순회가 끝난 것이므로, 이 조건이 true면 루프를 종료합니다. 커널 6.x부터 이 매크로를 모든 순회 종료 조건에 사용하여 iterator 변수의 루프 탈출 후 사용(use-after-loop) 문제를 방지합니다.
list_prepare_entryGNU C 확장의 조건 연산자(?: )를 사용합니다. pos가 NULL이 아니면 그대로 반환하고, NULL이면 list_entry(head, ...)를 반환합니다. continue와 함께 사용하면, "저장된 위치가 있으면 그 다음부터, 없으면 처음부터" 순회하는 패턴을 구현합니다.

list_for_each_entry_safe 전개 시각화

list_for_each_entry_safe: n(다음 노드)을 미리 저장해 현재 노드(pos) 삭제를 안전하게 허용하는 원리

list_del() 포인터 조작 단계별 분석

list_del()은 단 두 줄의 포인터 연산으로 노드를 리스트에서 분리합니다. 이 과정에서 포인터가 어떻게 변화하는지 3단계로 시각화합니다.

list_del(): 2줄의 포인터 연산으로 노드를 분리하고 POISON 값으로 마킹하는 과정

ℹ️

순서가 중요한 이유: next->prev = prev를 먼저 실행하고 WRITE_ONCE(prev->next, next)를 나중에 실행하는 순서는 의도적입니다. prev->next가 갱신되기 전까지 순방향 순회자는 여전히 삭제 대상 노드를 거쳐 다음 노드에 도달할 수 있습니다. RCU 버전(list_del_rcu)에서는 이 속성을 활용하여 읽기 측이 잠금 없이도 일관된 리스트를 순회할 수 있습니다.

hlist pprev 이중 포인터 트릭 심층 분석

hlist의 pprev는 커널 코드에서 가장 자주 혼동되는 패턴 중 하나입니다. 일반적인 prev 포인터(이전 노드를 가리킴)와 달리, pprev는 "나를 가리키는 포인터의 주소"를 저장하는 이중 포인터(pointer-to-pointer)입니다. 이 트릭 덕분에 헤드 노드와 일반 노드를 구분하지 않고 균일하게 삭제할 수 있습니다.

hlist의 pprev 이중 포인터: 헤드/노드 구분 없이 *pprev = next 한 줄로 O(1) 삭제를 가능하게 하는 트릭

hlist_add_head() 소스 분석

/* include/linux/list.h — 해시 버킷 선두에 노드 삽입 */
static inline void hlist_add_head(struct hlist_node *n,
                                   struct hlist_head *h)
{
    struct hlist_node *first = h->first;  /* ① 현재 첫 노드 백업 */

    WRITE_ONCE(n->next, first);            /* ② n의 next = 기존 첫 노드 */
    if (first)
        WRITE_ONCE(first->pprev, &n->next); /* ③ 기존 첫 노드의 pprev = &n->next
                                              *    (이제 n의 next가 first를 가리키므로,
                                              *     first의 "나를 가리키는 포인터" = &n->next) */
    WRITE_ONCE(h->first, n);               /* ④ 헤드의 first = n */
    WRITE_ONCE(n->pprev, &h->first);       /* ⑤ n의 pprev = &head->first
                                              *    (n을 가리키는 포인터는 head의 first이므로) */
}

코드 설명

5행 (first 백업)현재 버킷의 첫 번째 노드를 지역 변수에 저장합니다. 이 값이 NULL이면 빈 버킷입니다.
7행 (n->next = first)새 노드 n의 next가 기존 첫 노드를 가리키도록 설정합니다. 빈 버킷이면 NULL이 됩니다.
8~10행 (first->pprev 갱신)기존 첫 노드가 있으면, 그 노드의 pprev를 &n->next로 변경합니다. 이전에는 &h->first를 가리키고 있었지만, 이제 n이 선두에 삽입되었으므로 "나를 가리키는 포인터"가 n->next로 바뀐 것입니다.
11행 (h->first = n)헤드의 first를 n으로 갱신하여 n이 버킷의 새로운 첫 번째 노드가 됩니다.
12~14행 (n->pprev 설정)n의 pprev는 &h->first를 가리킵니다. 이것이 pprev 트릭의 핵심입니다 — n을 삭제할 때 *pprev = n->next 한 줄로 h->first가 직접 갱신됩니다.

task_struct의 다중 리스트 참여 분석

침투적(intrusive) 리스트 설계의 가장 큰 장점은 하나의 구조체가 여러 리스트에 동시에 참여할 수 있는 것입니다. 커널에서 가장 중요한 구조체인 task_struct는 10개 이상의 list_head 필드를 가지며, 각각 다른 서브시스템에서 관리됩니다.

task_struct의 다중 리스트 참여: 하나의 구조체 안에 10개 이상의 list_head가 각기 다른 서브시스템 리스트에 연결

/* include/linux/sched.h — task_struct의 주요 리스트 필드 (발췌) */
struct task_struct {
    /* ... */

    struct list_head        tasks;        /* 전체 프로세스 리스트 (init_task.tasks)
                                            * for_each_process(p)로 순회
                                            * = list_for_each_entry(p, &init_task.tasks, tasks) */

    struct list_head        children;     /* 이 프로세스의 자식 프로세스 리스트 헤드
                                            * 자식의 sibling이 이 리스트에 연결됨 */

    struct list_head        sibling;      /* 부모의 children 리스트에 연결되는 노드
                                            * parent->children 리스트의 멤버 */

    struct list_head        thread_group;  /* 같은 스레드 그룹(TGID) 내 스레드 리스트
                                             * signal->thread_head에 연결 */

    struct list_head        ptraced;       /* ptrace로 추적 중인 자식 리스트 */
    struct list_head        ptrace_entry;  /* 부모의 ptraced 리스트에 연결 */

    struct hlist_node       pid_links[PIDTYPE_MAX]; /* PID 해시 테이블 연결
                                                       * PIDTYPE_PID, PIDTYPE_TGID,
                                                       * PIDTYPE_PGID, PIDTYPE_SID */

    struct list_head        rcu_node_entry; /* RCU 콜백 노드 관리 */
    struct list_head        cg_list;        /* cgroup 내 태스크 리스트 */

    /* ... */
};

코드 설명

tasks커널의 모든 프로세스는 init_task.tasks를 헤드로 하는 전역 리스트에 연결됩니다. for_each_process() 매크로가 이 리스트를 순회하며, /proc 파일시스템(Filesystem)이나 kill(-1, sig)(모든 프로세스에 시그널(Signal) 전달) 등에서 활용됩니다.
children / sibling프로세스 트리 구조를 구현하는 핵심 필드입니다. 부모의 children이 리스트 헤드이고, 각 자식의 sibling이 이 리스트의 노드입니다. list_for_each_entry(child, &parent->children, sibling)으로 자식을 순회합니다. do_wait()/wait4()에서 자식 종료 상태를 수집할 때 사용됩니다.
thread_group같은 TGID(Thread Group ID)를 공유하는 스레드들의 리스트입니다. while_each_thread()로 순회하며, 그룹 시그널 전달(kill(pid, sig))이나 /proc/[pid]/task/ 디렉토리 열거에 사용됩니다.
pid_links[]hlist_node 배열로, PID 유형별(PID, TGID, PGID, SID) 해시 테이블에 연결됩니다. find_task_by_vpid() 등의 O(1) PID 조회에 사용됩니다. hlist를 사용하는 이유는 해시 버킷 수가 많아 헤드 크기를 8바이트로 줄이기 위해서입니다.

프로세스 트리 순회 예제

/* 실무 패턴: 프로세스 트리를 DFS로 순회 */
static void dump_process_tree(struct task_struct *root, int depth)
{
    struct task_struct *child;

    pr_info("%*s[%d] %s\\n", depth * 2, "", root->pid, root->comm);

    /* children 리스트 순회: 자식의 sibling 필드가 이 리스트에 연결됨 */
    list_for_each_entry(child, &root->children, sibling) {
        dump_process_tree(child, depth + 1);  /* 재귀: 자식의 자식도 순회 */
    }
}

/* 사용: read_lock(&tasklist_lock) 보호 하에 호출 */
read_lock(&tasklist_lock);
dump_process_tree(&init_task, 0);  /* init_task(PID 0)부터 전체 트리 출력 */
read_unlock(&tasklist_lock);

⚠️

잠금 규칙: task_struct의 children/sibling/tasks 리스트를 순회할 때는 반드시 tasklist_lock(rwlock)을 잡아야 합니다. 읽기 전용 순회는 read_lock(), 구조 변경(fork/exit)은 write_lock()을 사용합니다. RCU로 보호되는 경로도 일부 있지만, 대부분의 리스트 조작은 tasklist_lock이 필요합니다.

list_add_rcu() vs list_add() 비교 심층 분석

list_add()와 list_add_rcu()는 기능적으로 동일하게 노드를 리스트에 삽입하지만, 메모리 순서 보장(Memory Ordering) 방식이 근본적으로 다릅니다. 이 차이를 이해하는 것이 RCU 리스트를 올바르게 사용하는 핵심입니다.

/* ===== list_add() — 일반 삽입 ===== */
static inline void __list_add(struct list_head *new,
                               struct list_head *prev,
                               struct list_head *next)
{
    next->prev = new;               /* ① */
    new->next  = next;              /* ② */
    new->prev  = prev;              /* ③ */
    WRITE_ONCE(prev->next, new);    /* ④ 컴파일러 배리어만 (CPU 재배치 가능) */
}

/* ===== list_add_rcu() — RCU 보호 삽입 ===== */
static inline void __list_add_rcu(struct list_head *new,
                                    struct list_head *prev,
                                    struct list_head *next)
{
    new->next = next;               /* ① new 초기화 먼저 */
    new->prev = prev;               /* ② new 초기화 */
    rcu_assign_pointer(              /* ③ smp_store_release() 포함 */
        list_next_rcu(prev), new);  /*   → CPU 메모리 배리어로 ①②가
                                       *     다른 CPU에 먼저 보이도록 보장
                                       *     → 독자는 완전히 초기화된 노드만 봄 */
    next->prev = new;               /* ④ prev 갱신은 RCU 독자에게 불필요
                                       *   (독자는 next만 따라감) */
}

코드 설명

핵심 차이 1: 초기화 순서list_add()는 next->prev = new를 먼저 실행하지만, list_add_rcu()는 new의 포인터 초기화를 먼저 완료합니다. RCU에서는 새 노드가 "게시"되기 전에 완전히 초기화되어야 하므로, new->next와 new->prev를 먼저 설정합니다.
핵심 차이 2: 게시 함수list_add()는 WRITE_ONCE()로 게시합니다. 이것은 컴파일러만 제어하며, CPU가 이전 쓰기보다 이 쓰기를 먼저 보이게 할 수 있습니다. list_add_rcu()는 rcu_assign_pointer()를 사용하며, 이것은 smp_store_release()를 호출하여 CPU 메모리 배리어를 삽입합니다. 다른 CPU의 RCU 독자는 rcu_dereference()(smp_load_acquire())로 읽으므로, acquire-release 쌍이 성립하여 초기화 완료가 보장됩니다.
핵심 차이 3: prev 갱신 위치list_add_rcu()에서 next->prev = new는 게시 후에 실행됩니다. RCU 독자는 next 포인터만 따라가므로(순방향 순회) prev 갱신 시점은 독자에게 영향을 주지 않습니다. 쓰기 측(writer)은 이미 잠금을 보유하고 있으므로 prev의 순서는 문제가 되지 않습니다.

💡

실무 판단 기준: 리스트에 동시 독자(reader)가 잠금 없이 접근할 가능성이 있으면 list_add_rcu()를 사용합니다. 일반적인 패턴은 쓰기 측은 spinlock으로 보호하고, 읽기 측은 rcu_read_lock() + list_for_each_entry_rcu()로 순회하는 것입니다. 읽기와 쓰기가 모두 같은 잠금으로 보호된다면 일반 list_add()로 충분합니다.

실전 커널 모듈 예제

아래는 list_head, hlist, RCU 리스트를 모두 활용하는 실전 커널 모듈(Kernel Module) 예제입니다. 프로세스 이벤트를 기록하는 간단한 이벤트 로거(Event Logger)를 구현하면서 리스트 API의 실제 사용 패턴을 보여줍니다.

예제 1: 기본 리스트 — 이벤트 로거

/* 실습 예제: list_head 기반 이벤트 로거 커널 모듈 */
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/list.h>
#include <linux/slab.h>
#include <linux/spinlock.h>
#include <linux/ktime.h>

#define MAX_EVENTS 1024

/* 이벤트 구조체: list_head를 임베드 */
struct event_entry {
    ktime_t             timestamp;  /* 이벤트 발생 시각 */
    pid_t               pid;        /* 이벤트 발생 프로세스 PID */
    char                msg[64];    /* 이벤트 메시지 */
    struct list_head    list;       /* 이벤트 리스트 연결 */
};

static LIST_HEAD(event_list);         /* 리스트 헤드 (정적 초기화) */
static DEFINE_SPINLOCK(event_lock);   /* 리스트 보호 spinlock */
static int event_count = 0;

/* 이벤트 추가: spinlock 보호 하에 list_add_tail (FIFO 순서) */
static int add_event(const char *fmt, ...)
{
    struct event_entry *evt;
    va_list args;

    /* 최대 개수 초과 시 가장 오래된 이벤트 제거 */
    spin_lock(&event_lock);
    if (event_count >= MAX_EVENTS) {
        struct event_entry *oldest;
        oldest = list_first_entry(&event_list,
                                  struct event_entry, list);
        list_del(&oldest->list);  /* 리스트에서 분리 */
        kfree(oldest);             /* 메모리 해제 */
        event_count--;
    }
    spin_unlock(&event_lock);

    /* 새 이벤트 할당 (GFP_KERNEL: 슬립 가능 — spinlock 밖에서 할당) */
    evt = kmalloc(sizeof(*evt), GFP_KERNEL);
    if (!evt)
        return -ENOMEM;

    evt->timestamp = ktime_get_real();
    evt->pid = current->pid;
    va_start(args, fmt);
    vsnprintf(evt->msg, sizeof(evt->msg), fmt, args);
    va_end(args);
    INIT_LIST_HEAD(&evt->list);  /* 리스트 노드 초기화 */

    /* 리스트에 삽입 (FIFO: tail에 추가) */
    spin_lock(&event_lock);
    list_add_tail(&evt->list, &event_list);
    event_count++;
    spin_unlock(&event_lock);

    return 0;
}

/* 이벤트 출력: list_for_each_entry로 순회 */
static void dump_events(void)
{
    struct event_entry *evt;

    spin_lock(&event_lock);
    list_for_each_entry(evt, &event_list, list) {
        pr_info("[%lld] pid=%d: %s\\n",
                ktime_to_ns(evt->timestamp),
                evt->pid, evt->msg);
    }
    spin_unlock(&event_lock);
}

/* 전체 정리: list_for_each_entry_safe로 순회하면서 삭제 */
static void flush_events(void)
{
    struct event_entry *evt, *tmp;

    spin_lock(&event_lock);
    list_for_each_entry_safe(evt, tmp, &event_list, list) {
        list_del(&evt->list);  /* tmp이 다음을 저장했으므로 안전 */
        kfree(evt);
    }
    event_count = 0;
    spin_unlock(&event_lock);
}

static int __init event_logger_init(void)
{
    add_event("module loaded");
    add_event("event count limit: %d", MAX_EVENTS);
    dump_events();
    return 0;
}

static void __exit event_logger_exit(void)
{
    flush_events();  /* 모듈 언로드 시 메모리 누수 방지 */
    pr_info("event logger unloaded\\n");
}

module_init(event_logger_init);
module_exit(event_logger_exit);
MODULE_LICENSE("GPL");

코드 설명

event_entry 구조체데이터 필드(timestamp, pid, msg)와 리스트 노드(list)를 함께 임베드하는 침투적 설계입니다. container_of로 list_head 포인터에서 event_entry를 복원할 수 있습니다.
add_event() — 할당과 잠금 분리kmalloc(GFP_KERNEL)은 슬립(Sleep)이 가능하므로 spinlock 밖에서 호출합니다. 리스트 조작(list_add_tail)만 spinlock 안에서 수행합니다. 이것이 커널에서 가장 흔한 리스트 사용 패턴입니다.
MAX_EVENTS 제한리스트가 무한히 커지지 않도록 list_first_entry()로 가장 오래된 엔트리를 꺼내서 삭제합니다. list_add_tail로 FIFO 순서를 유지하므로, 첫 번째 엔트리가 가장 오래된 것입니다.
flush_events() — _safe 매크로list_for_each_entry_safe를 사용하여 순회 중 list_del()과 kfree()를 안전하게 수행합니다. tmp이 다음 노드를 미리 저장하므로 현재 노드를 해제해도 루프가 정상 동작합니다.

예제 2: RCU 리스트 — 동시 읽기 허용 이벤트 로거

/* 실습 예제: RCU 보호 리스트 — 읽기 경로 잠금 없음 */
#include <linux/module.h>
#include <linux/list.h>
#include <linux/rculist.h>
#include <linux/slab.h>
#include <linux/spinlock.h>
#include <linux/rcupdate.h>

struct rcu_event {
    pid_t               pid;
    char                msg[64];
    struct list_head    list;
    struct rcu_head     rcu;     /* RCU 콜백용 헤더 */
};

static LIST_HEAD(rcu_event_list);
static DEFINE_SPINLOCK(writer_lock);  /* 쓰기 측만 보호 */

/* 쓰기 측: spinlock + list_add_rcu */
static int rcu_add_event(const char *msg)
{
    struct rcu_event *evt;

    evt = kmalloc(sizeof(*evt), GFP_KERNEL);
    if (!evt)
        return -ENOMEM;

    evt->pid = current->pid;
    strscpy(evt->msg, msg, sizeof(evt->msg));

    spin_lock(&writer_lock);
    list_add_rcu(&evt->list, &rcu_event_list);  /* RCU 보호 삽입 */
    spin_unlock(&writer_lock);
    return 0;
}

/* 읽기 측: 잠금 없이 RCU read-side critical section에서 순회 */
static void rcu_dump_events(void)
{
    struct rcu_event *evt;

    rcu_read_lock();  /* preempt_disable() — 선점 금지만, 슬립 불가 */
    list_for_each_entry_rcu(evt, &rcu_event_list, list) {
        pr_info("[RCU] pid=%d: %s\\n", evt->pid, evt->msg);
        /* 이 안에서 kmalloc, mutex_lock, msleep 등 슬립 금지! */
    }
    rcu_read_unlock();
}

/* RCU 콜백: grace period 후 호출되어 메모리 해제 */
static void rcu_event_free(struct rcu_head *head)
{
    struct rcu_event *evt = container_of(head, struct rcu_event, rcu);
    kfree(evt);
}

/* 삭제: list_del_rcu + call_rcu (지연 해제) */
static void rcu_remove_first(void)
{
    struct rcu_event *evt;

    spin_lock(&writer_lock);
    if (!list_empty(&rcu_event_list)) {
        evt = list_first_entry(&rcu_event_list,
                              struct rcu_event, list);
        list_del_rcu(&evt->list);  /* next/prev를 POISON으로 설정하지 않음
                                      * → 진행 중인 RCU 독자가 next를 따라갈 수 있음 */
        call_rcu(&evt->rcu, rcu_event_free);  /* grace period 후 kfree */
    }
    spin_unlock(&writer_lock);
}

코드 설명

rcu_head 필드struct rcu_head는 RCU 콜백을 위한 연결 구조체입니다. call_rcu()가 이 헤더를 사용하여 grace period 만료 후 콜백을 호출합니다. list_head와 마찬가지로 데이터 구조체에 임베드합니다.
rcu_read_lock / rcu_read_unlockRCU 읽기 측 크리티컬 섹션(Critical Section)을 표시합니다. 이 구간에서는 list_del_rcu()로 제거된 노드가 아직 해제되지 않음이 보장됩니다. 실제로는 preempt_disable()/preempt_enable()로 구현되므로 오버헤드가 거의 없습니다.
list_del_rcu vs list_dellist_del_rcu()는 next/prev를 POISON 값으로 설정하지 않습니다. 삭제된 노드의 next가 여전히 유효한 다음 노드를 가리키므로, 진행 중인 RCU 독자가 순회를 완료할 수 있습니다. list_del()과의 가장 큰 차이입니다.
call_rcu — 지연 해제call_rcu()는 모든 CPU의 RCU 읽기 측 크리티컬 섹션이 끝난 후(grace period 만료) rcu_event_free() 콜백을 호출합니다. 이 콜백 안에서 container_of()로 원본 구조체를 복원한 뒤 kfree()합니다. 즉시 해제하면 진행 중인 독자가 해제된 메모리를 참조하게 됩니다.

예제 3: hlist — 간단한 PID 캐시

/* 실습 예제: hlist 기반 해시 테이블 — PID 캐시 */
#include <linux/module.h>
#include <linux/hashtable.h>  /* DEFINE_HASHTABLE, hash_add, hash_for_each_safe 등 */
#include <linux/slab.h>

#define CACHE_BITS  8  /* 2^8 = 256 버킷 */

struct pid_cache_entry {
    pid_t               pid;
    char                comm[TASK_COMM_LEN];
    struct hlist_node   hash_node;  /* hlist 연결 */
};

/* 해시 테이블 선언: hlist_head[256] 배열 */
static DEFINE_HASHTABLE(pid_cache, CACHE_BITS);

/* 조회: 해시 버킷에서 PID 검색 */
static struct pid_cache_entry *cache_lookup(pid_t pid)
{
    struct pid_cache_entry *entry;

    /* hash_for_each_possible: pid를 키로 해시 → 해당 버킷만 순회 */
    hash_for_each_possible(pid_cache, entry, hash_node, pid) {
        if (entry->pid == pid)
            return entry;
    }
    return NULL;
}

/* 삽입: 해시 버킷 선두에 추가 */
static int cache_insert(pid_t pid, const char *comm)
{
    struct pid_cache_entry *entry;

    if (cache_lookup(pid))
        return -EEXIST;  /* 이미 존재 */

    entry = kmalloc(sizeof(*entry), GFP_KERNEL);
    if (!entry)
        return -ENOMEM;

    entry->pid = pid;
    strscpy(entry->comm, comm, sizeof(entry->comm));

    /* hash_add: hlist_add_head(&entry->hash_node, &pid_cache[hash(pid)]) */
    hash_add(pid_cache, &entry->hash_node, pid);
    return 0;
}

/* 전체 정리 */
static void cache_flush(void)
{
    struct pid_cache_entry *entry;
    struct hlist_node *tmp;
    int bkt;

    /* hash_for_each_safe: 모든 버킷을 순회하며 삭제 */
    hash_for_each_safe(pid_cache, bkt, tmp, entry, hash_node) {
        hash_del(&entry->hash_node);  /* hlist_del_init() 호출 */
        kfree(entry);
    }
}

코드 설명

DEFINE_HASHTABLEDEFINE_HASHTABLE(name, bits)는 struct hlist_head name[1 << bits] 배열을 선언하고 HASH_BITS(name) 매크로를 정의합니다. 각 버킷은 hlist_head(8바이트)이므로 256 버킷 = 2KB만 사용합니다.
hash_for_each_possible키를 해시하여 해당 버킷의 hlist만 순회합니다. hlist_for_each_entry를 내부적으로 사용하며, 해시 충돌이 있을 수 있으므로 entry->pid == pid로 정확한 키 매칭을 확인해야 합니다.
hash_addhash_add(table, node, key)는 key를 해시하여 적절한 버킷을 선택한 뒤 hlist_add_head()로 노드를 삽입합니다. 선두 삽입이므로 최근 항목이 먼저 검색됩니다.
hash_for_each_safe모든 버킷(0 ~ 2^bits-1)을 순회하며 각 버킷 내 hlist를 _safe로 순회합니다. bkt는 현재 버킷 인덱스, tmp은 안전한 순회를 위한 다음 노드 백업입니다.

llist CAS 연산과 메모리 순서 분석

llist의 try_cmpxchg() 기반 CAS(Compare-And-Swap) 루프는 잠금 없이 원자적 삽입을 보장합니다. 이 섹션에서는 CAS 루프가 동시 삽입을 어떻게 처리하는지, 그리고 llist_del_all()의 단일 소비자(Single Consumer) 패턴을 분석합니다.

/* lib/llist.c — llist_del_all: 전체 리스트를 원자적으로 분리 */
struct llist_node *llist_del_all(struct llist_head *head)
{
    return xchg(&head->first, NULL); /* 원자적으로 first를 NULL로 교체하고
                                       * 기존 first를 반환 → 전체 체인 획득 */
}

/* 사용 패턴: 생산자-소비자 */
/* 생산자(인터럽트 컨텍스트): 여러 CPU에서 동시 호출 가능 */
static void irq_producer(struct llist_head *head, struct llist_node *new)
{
    if (llist_add(new, head))          /* CAS 루프 — 잠금 불필요 */
        raise_softirq(MY_SOFTIRQ);     /* 첫 삽입 시에만 softirq 트리거 */
}

/* 소비자(softirq 컨텍스트): 단일 CPU에서만 실행 */
static void softirq_consumer(struct llist_head *head)
{
    struct llist_node *node, *next;

    /* 전체 리스트를 원자적으로 분리 — 이후 로컬 순회 */
    node = llist_del_all(head);
    if (!node)
        return;

    /* 분리된 리스트는 로컬이므로 동기화 불필요 */
    /* 역순이므로 llist_reverse_order로 FIFO 순서 복원 */
    node = llist_reverse_order(node);

    llist_for_each_safe(node, next, node) {
        struct my_work *w = llist_entry(node, struct my_work, lnode);
        process_work(w);
        kfree(w);
    }
}

코드 설명

llist_del_all — xchgxchg()는 원자적 교환 명령어입니다. head->first를 NULL로 바꾸면서 기존 값을 반환합니다. 이 한 줄로 전체 리스트를 소비자의 로컬 변수로 이전합니다. 이후 새로운 llist_add()는 빈 리스트에 삽입하게 됩니다.
생산자-소비자 패턴llist의 전형적 사용 패턴입니다. 여러 CPU의 인터럽트 핸들러가 잠금 없이 llist_add()로 작업을 큐잉하고, softirq나 워크큐가 llist_del_all()로 한 번에 가져가 처리합니다. 네트워크 스택의 sd->input_pkt_queue가 이 패턴의 대표적 예입니다.
llist_reverse_orderllist_add()는 스택(LIFO) 동작이므로, 삽입 순서대로 처리하려면 리스트를 뒤집어야 합니다. llist_reverse_order()는 단방향 리스트를 O(n)으로 역전시킵니다.
ABA 문제 회피llist는 ABA 문제(CAS에서 값이 A→B→A로 변경되어 변경을 감지하지 못하는 문제)에 취약할 수 있지만, 커널의 llist 사용 패턴에서는 노드가 CAS 성공 전에 재삽입되지 않도록 설계하여 이 문제를 회피합니다. 소비자가 노드를 완전히 처리한 뒤에만 재삽입하므로 CAS 진행 중 동일 노드가 나타나지 않습니다.

ℹ️

커널 내 llist 실제 사용 사례: (1) kernel/smp.c의 call_single_queue — IPI(Inter-Processor Interrupt)로 다른 CPU에 함수 호출을 큐잉합니다. (2) kernel/workqueue.c의 pwq->inactive_works — 비활성 워크큐 작업을 lockless로 관리합니다. (3) net/core/dev.c의 패킷 백로그(Backlog) — 인터럽트 핸들러에서 패킷을 큐잉하고 NAPI가 일괄 처리합니다.

list_for_each_entry 매크로 확장 분석

커널 연결 리스트 매크로는 여러 단계의 매크로 확장을 거칩니다. 실제 코드를 디버깅할 때 매크로가 어떤 코드로 확장되는지 이해하는 것이 중요합니다.

/* 원본 코드 */
struct my_item *pos;
list_for_each_entry(pos, &my_list, list) {
    pr_info("id=%d\\n", pos->id);
}

/* ===== 1단계: list_for_each_entry 확장 ===== */
for (pos = list_first_entry(&my_list, struct my_item, list),
         /* ... */;
     !list_entry_is_head(pos, &my_list, list);
     pos = list_next_entry(pos, list))
{
    pr_info("id=%d\\n", pos->id);
}

/* ===== 2단계: list_first_entry 확장 ===== */
/* list_first_entry(head, type, member)
 * = list_entry((head)->next, type, member) */
for (pos = list_entry((&my_list)->next, struct my_item, list);
     !list_entry_is_head(pos, &my_list, list);
     pos = list_next_entry(pos, list))
{ /* ... */ }

/* ===== 3단계: list_entry → container_of 확장 ===== */
/* list_entry(ptr, type, member) = container_of(ptr, type, member) */
for (pos = (struct my_item *)((void *)((&my_list)->next)
           - offsetof(struct my_item, list));
     &pos->list != (&my_list);  /* list_entry_is_head 확장 */
     pos = (struct my_item *)((void *)pos->list.next
           - offsetof(struct my_item, list)))
{ /* ... */ }

/* ===== 최종: 컴파일러 최적화 후 (의사 어셈블리) =====
 *
 * offsetof(struct my_item, list) = 컴파일 타임 상수 (예: 72)
 *
 *   pos = my_list.next - 72     ; 첫 노드의 구조체 시작 주소
 * loop:
 *   cmp &pos->list, &my_list    ; 헤드 도달 여부 검사
 *   je  done
 *   ; pr_info 호출
 *   pos = pos->list.next - 72   ; 다음 노드
 *   jmp loop
 * done:
 *
 * 오버헤드: 포인터 뺄셈(SUB) 1회 + 비교(CMP) 1회 per iteration
 */

코드 설명

1단계list_for_each_entry가 for 루프로 확장됩니다. 초기화: list_first_entry()로 첫 번째 엔트리 획득. 조건: list_entry_is_head()로 헤드 도달 검사. 갱신: list_next_entry()로 다음 엔트리 이동.
2단계list_first_entry가 list_entry(head->next, ...)로, 즉 container_of(head->next, ...)로 확장됩니다. 헤드의 next가 첫 번째 실제 데이터 노드의 list_head를 가리킵니다.
3단계container_of가 최종적으로 포인터 뺄셈(ptr - offsetof)으로 확장됩니다. list_entry_is_head는 &pos->member == head라는 단순 주소 비교로 확장됩니다.
컴파일러 최적화offsetof는 컴파일 타임 상수이므로, 최적화 후에는 단일 SUB 명령어로 컴파일됩니다. static_assert 검사는 컴파일 타임에 완전히 제거됩니다. 결과적으로 C++ 이터레이터(Iterator)와 동일한 성능으로 동작합니다.

⚠️

iterator 변수의 루프 탈출 후 사용 문제: list_for_each_entry로 순회한 뒤 루프 밖에서 pos를 사용하면 위험합니다. 리스트가 비어 있거나 끝까지 순회한 경우, pos는 헤드 노드를 포함한 "가짜" 구조체를 가리킵니다(container_of(head, type, member)). 커널 6.x에서는 list_entry_is_head()를 종료 조건으로 사용하여 이 문제를 명시적으로 드러내고, 컴파일러 경고를 통해 루프 후 사용을 감지합니다.

Linux 6.12 ~ 7.0 Linked List 동향

연결 리스트(Linked List) 핵심 매크로와 인라인 함수는 2000년대 중반 이후 API 표면이 거의 불변입니다. 다만 2024~2026년 구간에는 Rust 바인딩의 확립, SRCU/RCU 리스트 순회에 대한 lockdep·KCSAN 주석 강화, hlist 해제 경로의 use-after-free 방어가 진행되며 내구성이 한층 향상되었습니다.

커널	릴리스	변경 사항	실무 시사점
6.12 (LTS)	2024-11	`hlist_for_each_entry_srcu()`의 read-side 조건 검사 강화, `list_count_nodes()`가 `size_t`를 반환하도록 정리. `rculist` lockdep 주석 보강	SRCU 기반 리스트 순회 시 read-side 보호 누락을 조기 감지할 수 있어 디버깅 비용 감소
6.13	2025-01	`hlist_nulls` 문서화 보강과 네트워킹 lookup 경로의 RCU 전환 계열 작업 지속. 메인 API 안정 — 주변 확장만	TCP/UDP 소켓 룩업, conntrack이 사용하는 nulls-hash 패턴의 관습 유지
6.14	2025-03	`list_is_first()`/`list_is_last()`의 `__always_inline` 속성 정리, `llist`(lock-less list)의 UBSAN NULL deref false positive 수정	짧은 리스트 순회 핫패스의 인라인 품질 개선 — UBSAN 활성 빌드에서 오탐 감소
6.15	2025-05	Rust 바인딩(`rust/kernel/list.rs`)에서 `List<T>`/`ListArc<T>`가 stable로 승격	Rust 드라이버가 기존 C 링크드 리스트와 안전하게 상호운용 가능 — 포인터 변환 없이 ownership 기반 공유
6.16	2025-07	`hlist_add_fake()`/`hlist_unhashed()` 계열의 KCSAN 주석 정리, 일부 드라이버의 `hlist_del()` 재호출 버그 수정 유입	해시 버킷 해제 경로의 use-after-free 위험 감소 — KCSAN 보고 데이터 레이스 개수 축소
6.17	2025-09	Rust `ListLinks` API 공식화, `rculist_nulls` 문서가 RCU 섹션과 교차 참조되도록 Documentation 트리 재구성	Rust로 NULL-terminated RCU 해시 룩업(예: 소켓 테이블) 구현 가능 — C/Rust 혼합 서브시스템 설계 탄력성 증가
6.18 (LTS)	2025-11	메인 API 안정 — 주변 확장만. UDP 수신 경로에서 소켓 룩업에 사용되는 `hlist` 버킷 레이아웃이 NUMA 인식 방식으로 개선됨 (구조체 바이너리 레이아웃 재배치)	고트래픽 UDP 서버에서 `hlist` 기반 소켓 해시 테이블 탐색 성능이 간접적으로 향상
6.19	2026-02	메인 API 안정 — 주변 확장만. Rust 기반 드라이버가 최초로 커널 트리에 공식 포함되면서 `List<T>`/`ListArc<T>`의 실사용 사례 축적	Rust 드라이버 작성 시 `List<T>` 사용 패턴이 커널 내 레퍼런스 구현으로 확립됨
7.0	2026-04	메인 API 안정 — 주변 확장만. PIDFS의 내부 구현이 rb-tree(적흑 나무)에서 `rhashtable`로 전환 — `list_head`가 아닌 해시 테이블 기반으로 마이그레이션된 사례	대규모 프로세스 환경에서 PID 조회 성능 향상 — 커널 내 자료구조 선택의 진화 방향을 보여주는 실증 사례

핵심 요약: (1) 새로 코드를 작성한다면 list_count_nodes() 반환 타입이 size_t로 변경된 점을 반영해 비교 변수도 size_t로 선언하세요. (2) hlist_nulls 기반 RCU 룩업은 여전히 표준 패턴이며, 6.16의 KCSAN 주석 강화로 동시성 버그 발견이 더 쉬워졌습니다. (3) Rust에서 리스트를 공유하려면 ListArc<T>로 감싸고, C 경로와 섞일 때 문서화 주석(SAFETY)을 필수로 남기세요. (4) 7.0의 PIDFS 사례처럼 탐색 성능이 임계치를 넘으면 list_head 기반 선형 탐색에서 해시 테이블로 마이그레이션하는 전략을 고려하세요.

Linked List와 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.

참고자료

include/linux/list.h — kernel.org Git — 이중 연결 리스트 매크로와 인라인 함수의 핵심 구현 소스입니다.
include/linux/rculist.h — kernel.org Git — RCU 보호 리스트 순회 및 조작 함수 구현입니다.
include/linux/types.h — kernel.org Git — struct list_head와 struct hlist_head 구조체가 정의된 파일입니다.
lib/list_sort.c — kernel.org Git — 커널 리스트 전용 병합 정렬(merge sort) 구현입니다.
Kernel API documentation — docs.kernel.org — 리스트 관련 API를 포함한 커널 핵심 API 공식 문서입니다.
Circular Buffers — docs.kernel.org — 원형 버퍼 설명 문서로, 리스트와 함께 자주 사용되는 자료구조를 다룹니다.
list.h — Bootlin Elixir Cross Reference — 최신 커널 소스의 list.h를 브라우저에서 탐색할 수 있는 크로스 레퍼런스입니다.
rculist.h — Bootlin Elixir Cross Reference — RCU 리스트 헤더의 크로스 레퍼런스로, 호출자와 피호출자를 추적할 수 있습니다.
Trees I: Radix trees — LWN.net (2009) — 커널 자료구조 시리즈 중 리스트와 함께 자주 비교되는 기수 트리(Radix Tree) 해설입니다.
Lockless patterns: an introduction to compare-and-swap — LWN.net (2014) — 잠금 없는 리스트 조작에 필요한 CAS 패턴을 설명합니다.
Circular, doubly-linked list (list.h) — LWN.net — 커널 연결 리스트 API에 대한 LWN의 상세 해설 문서입니다.
Linked Lists — Kernel Newbies FAQ — 커널 연결 리스트의 기본 사용법을 초보자 관점에서 설명합니다.
Linux kernel coding style — kernel.org — 리스트 API 사용 시 따라야 할 커널 코딩 스타일(Coding Style) 가이드입니다.
Data Structures in the Linux Kernel: Doubly Linked List — Linux Insides — 커널 이중 연결 리스트의 내부 구현을 단계별로 분석한 튜토리얼입니다.