io_uring (Async I/O)

Linux io_uring 비동기 I/O 인터페이스를 커널-사용자 공간(User Space) 공유 링 모델 관점에서 심층 분석합니다. SQE/CQE 기반 제출·완료 경로, SQPOLL/IOPOLL/고정 버퍼(Buffer)/고정 파일 등 지연(Latency)시간 최적화 모드, io-wq와 worker 오프로딩(Offloading) 동작, timeout·cancel·multishot·링크드 연산 같은 고급 제어 패턴, zero-copy 전송과 io_uring_cmd passthrough 활용, liburing 실전 코드 구조, epoll/스레드(Thread)풀/AIO 대비 선택 기준, 보안 제약과 취약점(Vulnerability) 대응 전략, 운영 환경에서의 계측·튜닝·장애 분석 절차까지 고성능 서비스 개발에 필요한 핵심 내용을 종합적으로 다룹니다.

관련 표준: NVMe Specification 2.0 (비동기 I/O 커맨드), POSIX.1-2024 (AIO 비교 기준) — io_uring은 POSIX AIO를 대체하는 고성능 비동기 I/O 인터페이스입니다. 종합 목록은 참고자료 — 표준 & 규격 섹션을 참고하세요.

전제 조건: Block I/O 서브시스템과 VFS 문서를 먼저 읽으세요. 스토리지 경로는 큐잉, 병합, 플러시(Flush) 정책이 연쇄적으로 동작하므로, 요청 수명주기와 완료 경로를 먼저 추적해야 합니다.

일상 비유: 이 개념은 식당 주문표를 한 번에 여러 장 넘기는 것과 비슷합니다. 주문과 완료 확인을 한 장씩 주고받지 않듯이, io_uring도 SQ/CQ 링으로 작업 제출과 완료 회수를 분리해 왕복 비용을 줄입니다.

핵심 요약

io_uring — Linux 5.1에서 도입된 고성능 비동기 I/O 인터페이스입니다.
SQ / CQ — Submission Queue(제출 큐)와 Completion Queue(완료 큐). 사용자-커널 간 공유 링 버퍼(Ring Buffer)입니다.
SQPOLL — 커널 스레드(Kernel Thread)가 SQ를 폴링(Polling)하여 시스템 콜(System Call) 없이 I/O를 처리하는 모드입니다.
liburing — io_uring을 쉽게 사용하기 위한 사용자 공간 라이브러리입니다.
제로카피 — 데이터 복사 없이 네트워크 전송/수신을 수행하는 고급 기능입니다.

단계별 이해

왜 필요한가 — 기존 read()/write()는 매번 시스템 콜 전환이 필요하고, POSIX AIO는 제한적입니다.
NVMe SSD처럼 수백만 IOPS 디바이스에서는 시스템 콜 오버헤드(Overhead)가 병목(Bottleneck)이 됩니다.
링 버퍼 이해 — 사용자가 SQE(Submission Queue Entry)를 SQ에 넣으면, 커널이 처리 후 CQE(Completion Queue Entry)를 CQ에 넣습니다.
공유 메모리이므로 데이터 복사 없이 포인터만 이동합니다.
liburing 체험 — io_uring_queue_init()으로 링을 초기화하고, io_uring_prep_readv()로 읽기를 준비합니다.
io_uring_submit()으로 제출, io_uring_wait_cqe()로 완료를 기다립니다.
성능 확인 — fio --ioengine=io_uring --bs=4k --iodepth=64으로 io_uring 성능을 벤치마크합니다.
기존 libaio 대비 latency와 IOPS에서 큰 향상을 확인할 수 있습니다.

개요

io_uring은 Linux 5.1(2019)에서 도입된 비동기 I/O 인터페이스입니다. 기존 AIO(io_submit/io_getevents)의 한계(버퍼드 I/O 미지원, 시스템 콜 오버헤드)를 해결하며, 사용자-커널 간 공유 링 버퍼를 통해 시스템 콜 없이 I/O를 제출하고 완료를 수확합니다.

io_uring 전체 아키텍처: 사용자-커널 공유 링 버퍼, io-wq 워커, 서브시스템 연동

io_uring 발전 역사

io_uring은 Jens Axboe가 설계하여 Linux 5.1에서 처음 도입되었으며, 이후 매 커널 릴리스마다 새로운 opcode와 기능이 추가되어 범용 비동기 인터페이스로 발전하고 있습니다.

커널 버전	주요 추가 기능
5.1 (2019-05)	io_uring 도입: READV/WRITEV, FSYNC, POLL_ADD, io_uring_setup/enter/register
5.2	POLL_REMOVE, io-wq 워커 풀 도입
5.3	TIMEOUT, SQE 링크(IOSQE_IO_LINK)
5.4	TIMEOUT_REMOVE, ASYNC_CANCEL, LINK_TIMEOUT
5.5	ACCEPT, CONNECT, FALLOCATE, OPENAT, CLOSE, STATX, PROVIDE_BUFFERS
5.6	READ/WRITE (단순화), SPLICE, TEE, SQPOLL CPU affinity 개선
5.7	EPOLL_CTL, MADVISE, OPENAT2
5.11	SHUTDOWN, RENAMEAT, UNLINKAT, MKDIRAT
5.12	SYMLINKAT, LINKAT, `io_uring_disabled` sysctl 보안 옵션
5.15	MSG_RING (ring-to-ring 메시징)
5.18	SOCKET (소켓(Socket) 생성), 등록 파일 업데이트
5.19	SEND_ZC (제로카피 전송), provided buf ring mmap API
6.0	SEND_ZC 안정화, io_uring_cmd (NVMe passthrough)
6.1	IORING_SETUP_SINGLE_ISSUER, IORING_SETUP_DEFER_TASKRUN
6.2	RECV_ZC (제로카피 수신), 멀티 CQE32
6.3	WAITID, IORING_REGISTER_RESTRICTIONS
6.7	IORING_SETUP_NO_SQARRAY (SQ 배열 제거로 메모리 절약)
6.9	FUTEX_WAIT/WAKE, 네이티브 futex 지원, IORING_REGISTER_NAPI (busy-poll)
6.10	FUTEX_WAITV, clock 소스 지원, pbuf_ring 증분 소비(incremental), io-wq 해시(Hash) 최적화
6.11	IORING_SETUP_NO_MMAP, 커널 측 ring 할당, 번들(bundle) SQE 실험적 지원
6.12	FIXED_FD_INSTALL opcode, 소켓 직접 설치, 등록 잠금(Lock) 최적화
6.13	CLONE 관련 정리, per-ring NAPI 개선, 대기 영역(wait region) 실험적
6.14	FUSE io_uring 지원, 번들 recv/send 안정화, 성능 카운터 통합
6.15	io_uring 전용 LSM 훅 (security_uring_sqe, security_uring_cmd), 보안 강화
6.16	IORING_OP_PIPE (파이프 직접 생성), zcrx DMA-BUF 지원, 다중 ifq(인터페이스 큐)per ring, io-wq 간접 호출 제거
6.17	IORING_OP_SENDMSG 벡터화 전송, 멀티샷 수신 크기 상한(cap), TX 타임스탬프 cmd, IORING_NOP_TW 완료 플래그
6.18	혼합 크기 CQE(Mixed-size CQE), zcrx 확장 업데이트, uring_cmd 멀티샷, 링 파라미터 쿼리 인터페이스

시스템 콜 인터페이스

io_uring은 3개의 시스템 콜로 동작합니다. 초기 설정 이후에는 io_uring_enter()조차 호출하지 않는 완전한 커널 폴링 모드도 가능합니다.

/* 1. io_uring 인스턴스 생성 */
int io_uring_setup(u32 entries, struct io_uring_params *params);
/* entries: SQ 크기 (2의 거듭제곱으로 올림)
 * params: 설정 플래그 + 커널이 채워주는 SQ/CQ 오프셋 정보
 * 반환: io_uring fd → mmap()으로 SQ/CQ 매핑 */

/* 2. I/O 제출 및 완료 대기 */
int io_uring_enter(int fd, u32 to_submit, u32 min_complete,
                    u32 flags, sigset_t *sig);
/* to_submit: 제출할 SQE 수
 * min_complete: 최소 완료 대기 수 (0이면 논블로킹)
 * flags: IORING_ENTER_GETEVENTS, IORING_ENTER_SQ_WAKEUP 등 */

/* 3. 리소스 사전 등록 (선택) */
int io_uring_register(int fd, u32 opcode, void *arg, u32 nr_args);
/* fd/버퍼를 커널에 사전 등록 → 매 I/O마다 fget/fput, 페이지 핀 비용 제거
 * IORING_REGISTER_BUFFERS: 고정 버퍼 등록
 * IORING_REGISTER_FILES: 고정 파일 디스크립터 등록 */

SQE / CQE 자료구조

SQE(Submission Queue Entry)는 I/O 요청을, CQE(Completion Queue Entry)는 완료 결과를 나타냅니다. 두 구조체(Struct) 모두 고정 크기로 캐시(Cache) 친화적입니다.

/* include/uapi/linux/io_uring.h */
struct io_uring_sqe {
    __u8    opcode;     /* IORING_OP_READ, IORING_OP_WRITE, ... */
    __u8    flags;      /* IOSQE_FIXED_FILE, IOSQE_IO_LINK, ... */
    __u16   ioprio;     /* I/O 우선순위 */
    __s32   fd;         /* 대상 파일 디스크립터 */
    union {
        __u64 off;      /* 파일 오프셋 */
        __u64 addr2;    /* 두 번째 주소 (opcode에 따라) */
    };
    union {
        __u64 addr;     /* 버퍼 주소 또는 iovec 포인터 */
        __u64 splice_off_in;
    };
    __u32   len;        /* 버퍼 크기 또는 iovec 수 */
    union {
        __kernel_rwf_t rw_flags;
        __u32          fsync_flags;
        __u32          poll_events;
        __u32          msg_flags;
        __u32          accept_flags;
    };
    __u64   user_data;  /* CQE에 그대로 복사 → 요청 식별자 */
    union {
        __u16 buf_index; /* 고정 버퍼 인덱스 */
        __u16 buf_group; /* 버퍼 그룹 ID (provided buffers) */
    };
    __u16   personality;
    union {
        __s32 splice_fd_in;
        __u32 file_index;
    };
    __u64   __pad2[2];
};  /* sizeof = 64 bytes (1 캐시라인) */

struct io_uring_cqe {
    __u64   user_data;  /* SQE에서 복사된 사용자 데이터 */
    __s32   res;        /* 결과값 (바이트 수 또는 -errno) */
    __u32   flags;      /* IORING_CQE_F_BUFFER, IORING_CQE_F_MORE */
};  /* sizeof = 16 bytes */

링 버퍼 동작 원리

SQ/CQ 링은 mmap()으로 사용자 공간에 매핑(Mapping)된 lock-free SPSC(Single-Producer Single-Consumer) 링 버퍼입니다. 메모리 배리어(Memory Barrier)만으로 동기화합니다.

/* SQE 제출 과정 (사용자 공간) */
unsigned idx = sq->tail & sq->ring_mask;
struct io_uring_sqe *sqe = &sq->sqes[idx];

sqe->opcode  = IORING_OP_READ;
sqe->fd      = file_fd;
sqe->addr    = (unsigned long)buf;
sqe->len     = buf_size;
sqe->off     = offset;
sqe->user_data = my_request_id;

/* SQ tail 포인터 갱신 (write barrier 필수) */
io_uring_smp_store_release(&sq->tail, sq->tail + 1);
io_uring_enter(ring_fd, 1, 0, 0, NULL);

/* CQE 수확 과정 (사용자 공간) */
unsigned head = io_uring_smp_load_acquire(&cq->head);
while (head != cq->tail) {
    struct io_uring_cqe *cqe = &cq->cqes[head & cq->ring_mask];
    handle_completion(cqe->user_data, cqe->res);
    head++;
}
io_uring_smp_store_release(&cq->head, head);

ℹ️

SQ는 간접 인덱싱을 사용합니다: sq->array[idx]가 실제 sqes[] 인덱스를 가리킵니다. 이를 통해 SQE를 순서 무관하게 재사용할 수 있습니다. CQ는 직접 인덱싱으로 더 단순합니다.

mmap 메모리 레이아웃

io_uring의 SQ/CQ 링과 SQE 배열은 mmap()을 통해 사용자 공간에 매핑됩니다. 커널 5.4+ 이후 SQ와 CQ 링은 하나의 mmap 영역을 공유하여 메모리를 절약합니다.

io_uring의 3개 mmap 영역: SQ/CQ 공유 링, SQE 배열, Provided Buffer Ring

/* mmap 설정 코드 (liburing 내부 동작) */
struct io_uring_params p;
int fd = io_uring_setup(256, &p);

/* 1. SQ Ring 매핑 (CQ Ring도 같은 영역에 포함) */
size_t sq_ring_sz = p.sq_off.array + p.sq_entries * sizeof(u32);
size_t cq_ring_sz = p.cq_off.cqes + p.cq_entries * sizeof(struct io_uring_cqe);
size_t ring_sz = sq_ring_sz > cq_ring_sz ? sq_ring_sz : cq_ring_sz;

void *sq_ptr = mmap(NULL, ring_sz, PROT_READ | PROT_WRITE,
                    MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);

/* SQ 필드 오프셋 (params.sq_off에서 제공) */
u32 *sq_head     = sq_ptr + p.sq_off.head;
u32 *sq_tail     = sq_ptr + p.sq_off.tail;
u32 *sq_mask     = sq_ptr + p.sq_off.ring_mask;
u32 *sq_entries  = sq_ptr + p.sq_off.ring_entries;
u32 *sq_flags    = sq_ptr + p.sq_off.flags;
u32 *sq_array    = sq_ptr + p.sq_off.array;

/* CQ 필드 오프셋 (같은 mmap 영역, params.cq_off에서 제공) */
u32 *cq_head     = sq_ptr + p.cq_off.head;    /* 5.4+: 같은 mmap */
u32 *cq_tail     = sq_ptr + p.cq_off.tail;
struct io_uring_cqe *cqes = sq_ptr + p.cq_off.cqes;

/* 2. SQE 배열 매핑 (별도 mmap 영역) */
struct io_uring_sqe *sqes = mmap(NULL,
    p.sq_entries * sizeof(struct io_uring_sqe),
    PROT_READ | PROT_WRITE, MAP_SHARED | MAP_POPULATE,
    fd, IORING_OFF_SQES);

mmap 오프셋(Offset) 상수	값	매핑 대상	크기
`IORING_OFF_SQ_RING`	0x00000000	SQ Ring + CQ Ring (공유)	max(SQ 링 크기, CQ 링 크기)
`IORING_OFF_CQ_RING`	0x08000000	CQ Ring (5.4 이전 별도 매핑)	5.4+에서는 SQ_RING과 동일
`IORING_OFF_SQES`	0x10000000	SQE 배열	sq_entries × 64 (또는 128)
`IORING_OFF_PBUF_RING`	0x80000000	Provided buffer ring	등록 시 결정

ℹ️

SQ/CQ 통합 매핑 (5.4+): 커널 5.4 이전에는 SQ Ring과 CQ Ring이 별도로 mmap 되었으나, 이후 하나의 mmap 호출로 통합되었습니다. IORING_OFF_CQ_RING으로 mmap하면 IORING_OFF_SQ_RING과 동일한 주소를 반환합니다. params.features에 IORING_FEAT_SINGLE_MMAP 비트가 설정되어 있으면 통합 매핑이 지원됩니다.

SQE 간접 인덱싱 상세

SQ Ring에는 SQE를 직접 저장하지 않고, sq.array[]라는 간접 인덱스 배열이 있습니다. 이 배열의 각 항목은 별도 mmap된 sqes[] 배열의 인덱스를 가리킵니다.

SQ 간접 인덱싱 (기본) vs 직접 인덱싱 (IORING_SETUP_NO_SQARRAY)

/* 간접 인덱싱 (기본): sq.array[idx]가 sqes[] 인덱스를 가리킴 */
unsigned idx = sq_tail & sq_mask;
sq_array[idx] = idx;           /* 간접 인덱스 설정 (보통 idx == idx) */
struct io_uring_sqe *sqe = &sqes[idx];
sqe->opcode = IORING_OP_READ;
/* ... SQE 필드 설정 ... */

/* 간접 인덱싱의 장점: 순서 변경 가능 */
sq_array[0] = 2;  /* 첫 번째 제출할 SQE: sqes[2] */
sq_array[1] = 0;  /* 두 번째 제출할 SQE: sqes[0] */

/* 직접 인덱싱 (6.7+): sq.array 불필요 */
struct io_uring_params params = {
    .flags = IORING_SETUP_NO_SQARRAY,
};
/* sqes[sq_tail & mask]가 곧 SQE → 간접 참조 1단계 제거 */

💡

NO_SQARRAY 권장: 대부분의 애플리케이션은 SQE를 순차적으로 사용하므로 간접 인덱싱이 불필요합니다. IORING_SETUP_NO_SQARRAY(6.7+)를 사용하면 sq.array[] 메모리(sq_entries × 4바이트)를 절약하고, 한 단계 간접 참조를 제거하여 미미하지만 일관된 성능 향상을 얻습니다.

주요 연산 (opcodes)

카테고리	Opcode	설명	도입
파일 I/O	`IORING_OP_READ`	파일 읽기 (고정 버퍼 지원)	5.6
	`IORING_OP_WRITE`	파일 쓰기 (고정 버퍼 지원)	5.6
	`IORING_OP_READV / WRITEV`	Scatter-gather I/O (iovec)	5.1
	`IORING_OP_READ_FIXED / WRITE_FIXED`	등록된 고정 버퍼 사용 읽기/쓰기	5.1
	`IORING_OP_FSYNC`	파일 동기화 (fdatasync 포함)	5.1
	`IORING_OP_FALLOCATE`	파일 공간 사전 할당	5.6
	`IORING_OP_FADVISE`	파일 접근 패턴 힌트 (posix_fadvise)	5.6
네트워크	`IORING_OP_ACCEPT`	소켓 연결 수락 (multishot 지원)	5.5
	`IORING_OP_CONNECT`	소켓 연결	5.5
	`IORING_OP_SEND / RECV`	소켓 송수신 (multishot recv 지원)	5.6
	`IORING_OP_SENDMSG / RECVMSG`	msghdr 기반 소켓 송수신	5.3
	`IORING_OP_SEND_ZC`	제로카피 송신 (2개 CQE 생성)	6.0
	`IORING_OP_RECV_ZC`	제로카피 수신	6.2
	`IORING_OP_SOCKET`	소켓 생성 (fixed file 직접 등록 가능)	5.19
	`IORING_OP_SHUTDOWN`	소켓 종료	5.11
	`IORING_OP_BIND / LISTEN`	소켓 바인드/리슨 (실험적)	6.11
파일시스템(Filesystem)	`IORING_OP_OPENAT / OPENAT2`	파일 열기 (고급 플래그 지원)	5.6/5.7
	`IORING_OP_CLOSE`	파일 닫기 (fixed file 해제 포함)	5.6
	`IORING_OP_STATX`	파일 상태 조회	5.6
	`IORING_OP_RENAMEAT`	파일 이름 변경	5.11
	`IORING_OP_UNLINKAT`	파일/디렉토리 삭제	5.11
	`IORING_OP_MKDIRAT`	디렉토리 생성	5.15
	`IORING_OP_SYMLINKAT / LINKAT`	심볼릭/하드 링크 생성	5.15
	`IORING_OP_GETXATTR / SETXATTR / FGETXATTR / FSETXATTR`	확장 속성(Extended Attribute) 읽기/쓰기	5.19
데이터 전달	`IORING_OP_SPLICE`	파이프 기반 제로카피 데이터 이동	5.7
	`IORING_OP_TEE`	파이프 데이터 복제 (소비하지 않음)	5.7
	`IORING_OP_PROVIDE_BUFFERS`	커널에 버퍼 풀 제공 (레거시 방식)	5.7
	`IORING_OP_REMOVE_BUFFERS`	제공된 버퍼 제거	5.7
제어/고급	`IORING_OP_POLL_ADD / POLL_REMOVE`	이벤트 폴링 (multishot 지원, epoll 대체)	5.2
	`IORING_OP_TIMEOUT / TIMEOUT_REMOVE`	타임아웃 설정/해제	5.4
	`IORING_OP_LINK_TIMEOUT`	링크된 SQE에 타임아웃 부여	5.5
	`IORING_OP_ASYNC_CANCEL`	진행 중인 요청 취소 (user_data/fd/전체)	5.5
	`IORING_OP_MSG_RING`	링 간 CQE/fd 전송	5.18
	`IORING_OP_NOP`	아무 작업 안 함 (벤치마크/테스트용)	5.1
	`IORING_OP_MADVISE`	메모리 조언 (posix_madvise)	5.6
특수	`IORING_OP_URING_CMD`	드라이버 직접 명령 (NVMe passthrough 등)	6.0
	`IORING_OP_FUTEX_WAIT / FUTEX_WAKE`	커널 futex 비동기 대기/깨우기(Wakeup)	6.7
	`IORING_OP_WAITID`	프로세스(Process) 상태 비동기 대기	6.7
	`IORING_OP_FIXED_FD_INSTALL`	fixed file을 프로세스 fd 테이블에 설치	6.12
Epoll 호환	`IORING_OP_EPOLL_CTL`	epoll_ctl 비동기 실행	5.6
Epoll 호환	`IORING_OP_FILES_UPDATE`	등록된 파일 테이블 업데이트	5.6

io_uring_params 플래그 상세

io_uring_setup() 호출 시 io_uring_params.flags에 설정하는 플래그들은 링의 동작 방식을 결정합니다.

플래그	도입	설명
`IORING_SETUP_IOPOLL`	5.1	완료를 인터럽트(Interrupt) 대신 폴링으로 확인. `O_DIRECT` 전용
`IORING_SETUP_SQPOLL`	5.1	커널 스레드가 SQ를 폴링. 시스템 콜 없이 I/O 제출
`IORING_SETUP_SQ_AFF`	5.1	SQPOLL 스레드를 `sq_thread_cpu`에 바인딩
`IORING_SETUP_CQSIZE`	5.5	CQ 크기를 `cq_entries`로 별도 지정
`IORING_SETUP_ATTACH_WQ`	5.6	기존 ring의 io-wq 워커 풀을 공유
`IORING_SETUP_R_DISABLED`	5.10	ring을 비활성 상태로 생성. ENABLE_RINGS로 활성화
`IORING_SETUP_COOP_TASKRUN`	5.19	task_work를 협력적으로 처리. io_uring_enter() 진입 시에만 완료
`IORING_SETUP_SQE128`	5.19	SQE를 128바이트로 확장 (NVMe passthrough 등)
`IORING_SETUP_CQE32`	5.19	CQE를 32바이트로 확장
`IORING_SETUP_SINGLE_ISSUER`	6.0	단일 태스크(Task)만 제출 보장. 내부 잠금 최적화
`IORING_SETUP_DEFER_TASKRUN`	6.1	SINGLE_ISSUER 필요. task_work를 io_uring_enter() 시 일괄 처리
`IORING_SETUP_NO_SQARRAY`	6.7	SQ 간접 인덱스 배열 생략. 메모리 절약

💡

최고 성능 조합: IORING_SETUP_SQPOLL | IORING_SETUP_IOPOLL | IORING_SETUP_SINGLE_ISSUER | IORING_SETUP_DEFER_TASKRUN. NVMe O_DIRECT 워크로드에서 시스템 콜과 인터럽트 없이 극한의 IOPS를 달성합니다.

동작 모드

기본 모드 (Interrupt Driven)

struct io_uring_params params = {};
int ring_fd = io_uring_setup(256, &params);
io_uring_enter(ring_fd, 1, 1, IORING_ENTER_GETEVENTS, NULL);

SQPOLL 모드 (커널 폴링)

커널 스레드(io_uring-sq)가 SQ를 지속적으로 폴링합니다. 시스템 콜 없이 SQ tail만 갱신하면 커널이 자동으로 처리합니다.

struct io_uring_params params = {
    .flags = IORING_SETUP_SQPOLL,
    .sq_thread_idle = 2000,  /* 2초 유휴 시 스레드 슬립 */
};
int ring_fd = io_uring_setup(256, &params);

/* 커널 스레드가 슬립했다면 깨워야 함 */
if (*sq->flags & IORING_SQ_NEED_WAKEUP)
    io_uring_enter(ring_fd, 0, 0, IORING_ENTER_SQ_WAKEUP, NULL);

IOPOLL 모드 (하드웨어 폴링)

커널이 블록 디바이스 완료를 인터럽트 대신 폴링으로 확인합니다. NVMe 등 고성능 스토리지에서 인터럽트 지연을 제거합니다. O_DIRECT 전용입니다.

struct io_uring_params params = {
    .flags = IORING_SETUP_IOPOLL,
};
/* SQPOLL + IOPOLL = 완전한 폴링 기반 I/O (시스템 콜 0, 인터럽트 0) */

고급 기능

SQE 링크 (Chaining)

/* write → fsync 순차 실행 보장 */
sqe1->opcode = IORING_OP_WRITE;
sqe1->flags  = IOSQE_IO_LINK;
sqe2->opcode = IORING_OP_FSYNC;
sqe2->flags  = 0;
/* IOSQE_IO_HARDLINK: 앞 SQE 실패해도 계속 실행 */

고정 파일/버퍼 (Registered Resources)

매 I/O마다 발생하는 fget()/fput()와 페이지(Page) 핀(GUP) 비용을 제거합니다.

int fds[] = {fd1, fd2, fd3};
io_uring_register(ring_fd, IORING_REGISTER_FILES, fds, 3);
sqe->flags |= IOSQE_FIXED_FILE;
sqe->fd = 0;  /* fds[0] = fd1 사용 */

struct iovec iovs[] = { { buf1, 4096 }, { buf2, 4096 } };
io_uring_register(ring_fd, IORING_REGISTER_BUFFERS, iovs, 2);
sqe->opcode = IORING_OP_READ_FIXED;
sqe->buf_index = 0;

Provided Buffers (커널 버퍼 선택)

버퍼 풀을 커널에 제공하고, 커널이 완료 시 적절한 버퍼를 자동 선택합니다.

struct io_uring_buf_ring *br;
br = mmap(..., ring_fd, IORING_OFF_PBUF_RING);
for (int i = 0; i < nr_bufs; i++)
    io_uring_buf_ring_add(br, bufs[i], buf_size, i, mask, i);
io_uring_buf_ring_advance(br, nr_bufs);

sqe->opcode = IORING_OP_RECV;
sqe->flags  = IOSQE_BUFFER_SELECT;
sqe->buf_group = group_id;

Multishot 연산

하나의 SQE로 여러 번의 CQE를 생성합니다. accept, recv, poll 등에서 반복적인 SQE 재제출 오버헤드를 제거합니다.

/* Multishot accept */
sqe->opcode = IORING_OP_ACCEPT;
sqe->fd     = listen_fd;
sqe->ioprio = IORING_ACCEPT_MULTISHOT;
/* 새 연결마다 CQE 생성, CQE.flags에 IORING_CQE_F_MORE 설정 */

/* Multishot recv */
sqe->opcode    = IORING_OP_RECV;
sqe->ioprio    = IORING_RECV_MULTISHOT;
sqe->flags     = IOSQE_BUFFER_SELECT;
sqe->buf_group = group_id;

Cancel / Timeout 연산

IORING_OP_ASYNC_CANCEL

sqe->opcode = IORING_OP_ASYNC_CANCEL;
sqe->addr   = target_user_data;
/* 결과: 0=취소됨, -ENOENT=없음, -EALREADY=이미 완료 중 */

/* fd 기반 취소 (6.0+) */
sqe->fd    = target_fd;
sqe->flags = IORING_ASYNC_CANCEL_FD;

/* 모든 요청 취소 (6.1+) */
sqe->cancel_flags = IORING_ASYNC_CANCEL_ANY;

IORING_OP_TIMEOUT

struct __kernel_timespec ts = { .tv_sec = 2 };
sqe->opcode = IORING_OP_TIMEOUT;
sqe->addr   = (unsigned long)&ts;
sqe->len    = 1;
sqe->off    = 5;  /* 5개 CQE 완료되면 조기 해제 */
/* -ETIME=만료, 0=조기 해제, -ECANCELED=취소됨 */

IORING_OP_LINK_TIMEOUT

/* read가 3초 내 완료되지 않으면 취소 */
sqe1->opcode = IORING_OP_READ;
sqe1->flags  = IOSQE_IO_LINK;

struct __kernel_timespec ts = { .tv_sec = 3 };
sqe2->opcode = IORING_OP_LINK_TIMEOUT;
sqe2->addr   = (unsigned long)&ts;
sqe2->len    = 1;

Zero-copy 네트워킹

IORING_OP_SEND_ZC는 사용자 공간 버퍼를 복사 없이 커널 네트워크 스택(Network Stack)에 직접 전달합니다.

sqe->opcode = IORING_OP_SEND_ZC;
sqe->fd     = sock_fd;
sqe->addr   = (unsigned long)send_buf;
sqe->len    = send_len;

/* 주의: 2개의 CQE가 생성됨
 * 1) 전송 완료 (IORING_CQE_F_MORE)
 * 2) notification: 버퍼 해제 가능 (IORING_CQE_F_NOTIF) */
if (cqe->flags & IORING_CQE_F_NOTIF)
    recycle_buffer(cqe->user_data);

ℹ️

제로카피 전송은 64KB 이상의 대용량 전송에서 효과적이며, 10GbE 이상의 고속 네트워크에서 CPU 사용량을 30-50% 절감할 수 있습니다.

MSG_RING — 링 간 메시징

IORING_OP_MSG_RING(커널 5.18+)은 한 io_uring 인스턴스에서 다른 인스턴스로 CQE를 직접 전송하는 연산입니다. 멀티스레드 환경에서 별도 동기화 없이 스레드 간 통신이 가능합니다.

IORING_OP_MSG_RING: Ring A에서 Ring B의 CQ로 직접 CQE 주입

MSG_RING 서브타입	도입	설명	전달 데이터
`IORING_MSG_DATA`	5.18	임의 데이터를 CQE로 전달	`sqe->len` → CQE.res, `sqe->addr` → CQE.user_data
`IORING_MSG_SEND_FD`	6.3	파일 디스크립터(File Descriptor)를 대상 ring에 설치	fd가 대상 ring의 fixed file 테이블에 등록됨

/* MSG_RING: Ring A에서 Ring B로 데이터 전달 */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring_a);

io_uring_prep_msg_ring(sqe,
    ring_b.ring_fd,   /* 대상 ring fd */
    42,               /* CQE.res에 들어갈 값 */
    0xDEAD,           /* CQE.user_data에 들어갈 값 */
    0                 /* 플래그 */
);
io_uring_submit(&ring_a);

/* Ring B 쪽에서 CQE 수신 */
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring_b, &cqe);
/* cqe->res = 42, cqe->user_data = 0xDEAD */

/* MSG_RING_FD: fd를 대상 ring에 전달 (6.3+) */
sqe = io_uring_get_sqe(&ring_a);
sqe->opcode   = IORING_OP_MSG_RING;
sqe->fd       = ring_b.ring_fd;
sqe->len      = IORING_MSG_SEND_FD;
sqe->addr     = 0;                /* CQE.user_data */
sqe->addr3    = client_fd;         /* 전달할 fd */
sqe->file_index = dest_slot;       /* 대상 ring의 fixed file 슬롯 */

💡

활용 패턴: MSG_RING은 accept 전용 ring에서 새 연결 fd를 워커 ring으로 전달하거나, 타이머(Timer) ring에서 I/O ring으로 타임아웃 알림을 보내는 패턴에 유용합니다. pipe()/eventfd() 기반 통신보다 오버헤드가 훨씬 낮습니다.

FUSE io_uring 지원 (v6.14+)

커널 6.14에서 FUSE(Filesystem in Userspace)에 io_uring 지원이 추가되었습니다. 기존 FUSE는 /dev/fuse를 통한 read/write 시스템 콜로 커널↔유저스페이스 간 요청을 교환했으나, io_uring을 사용하면 시스템 콜 오버헤드와 컨텍스트 스위칭(Context Switching)을 크게 줄일 수 있습니다.

경로	시스템 콜 수 (요청당)	컨텍스트 스위칭
기존 FUSE	2 (read + write)	2회 이상
FUSE + io_uring	0 (SQ/CQ 공유 메모리)	최소화 (SQPOLL 시 0)

성능 향상: 고빈도 메타데이터 연산(stat, readdir 등)이 많은 FUSE 파일시스템에서 io_uring 경로는 기존 대비 상당한 IOPS 향상을 달성할 수 있습니다. 특히 클라우드 스토리지 FUSE 마운트(Mount)(GCSFuse, S3FS 등)에서 효과적입니다.

io_uring_cmd (Passthrough)

IORING_OP_URING_CMD는 디바이스 드라이버에 io_uring을 통해 직접 커스텀 명령을 전달합니다. NVMe passthrough가 대표적입니다.

/* NVMe passthrough (IORING_SETUP_SQE128 필요) */
sqe->opcode = IORING_OP_URING_CMD;
sqe->fd     = nvme_ns_fd;       /* /dev/ng0n1 */
sqe->cmd_op = NVME_URING_CMD_IO;

struct nvme_uring_cmd *cmd = (struct nvme_uring_cmd *)sqe->cmd;
cmd->opcode  = nvme_cmd_read;
cmd->addr    = (__u64)buffer;
cmd->data_len = 4096;

/* 커널 드라이버 측 */
static const struct file_operations my_fops = {
    .uring_cmd = my_uring_cmd_handler,
};

CQE Overflow 처리

CQ 링이 가득 찬 상태에서 새 CQE가 생성되면 오버플로가 발생합니다. 커널은 내부 오버플로 리스트에 CQE를 보관하고, 사용자가 CQ에서 CQE를 소비하면 자동으로 옮겨줍니다.

/* 오버플로 감지 */
if (*sq->flags & IORING_SQ_CQ_OVERFLOW)
    io_uring_enter(ring_fd, 0, 0, IORING_ENTER_GETEVENTS, NULL);

/* 오버플로 방지: CQ 크기를 충분히 크게 */
params.flags |= IORING_SETUP_CQSIZE;
params.cq_entries = 4096;  /* SQ의 4배 이상 권장 */

⚠️

CQE 오버플로는 성능 저하의 원인이 됩니다. 오버플로 리스트는 GFP_ATOMIC 할당을 사용하며, 지속되면 메모리 부족으로 CQE가 손실될 수 있습니다. CQ 크기를 충분히 설정하고 CQE를 적시에 소비하세요.

CQ 링 원형 버퍼 내부 구조

CQ(Completion Queue) 링은 커널이 완료된 I/O 결과를 기록하고 사용자 공간이 이를 수확하는 lock-free SPSC 원형 버퍼입니다. SQ와 달리 간접 인덱싱 배열 없이 직접 인덱싱을 사용하여 구조가 더 단순합니다.

ℹ️

CQ 링의 크기는 항상 power-of-2이며, ring_mask = entries - 1로 비트 AND 연산만으로 인덱싱합니다. 기본값은 cq_entries = 2 × sq_entries이고, IORING_SETUP_CQSIZE 플래그로 커스텀 설정할 수 있습니다.

/* CQ 링 인덱싱 메커니즘 */
/* 커널: CQE 기록 후 tail 전진 */
unsigned tail = ctx->rings->cq.tail;
unsigned idx = tail & ctx->cq_mask;  /* cq_mask = cq_entries - 1 */
struct io_uring_cqe *cqe = &ctx->rings->cqes[idx];
cqe->user_data = req->cqe.user_data;
cqe->res       = req->cqe.res;
cqe->flags     = req->cqe.flags;
smp_store_release(&ctx->rings->cq.tail, tail + 1);

/* 유저: head ~ tail 범위에서 CQE 소비 */
unsigned head = io_uring_smp_load_acquire(cq->khead);
while (head != *cq->ktail) {
    struct io_uring_cqe *cqe = &cq->cqes[head & cq->ring_mask];
    process_cqe(cqe);
    head++;
}
io_uring_smp_store_release(cq->khead, head);

/* struct io_rings — CQ 관련 필드 (include/uapi/linux/io_uring.h) */
struct io_rings {
    struct io_uring sq, cq;       /* 각각 head/tail/flags/entries 포함 */
    u32 sq_ring_mask;              /* sq_entries - 1 */
    u32 cq_ring_mask;              /* cq_entries - 1 */
    u32 sq_ring_entries;           /* SQ 엔트리 수 */
    u32 cq_ring_entries;           /* CQ 엔트리 수 */
    u32 sq_dropped;                /* 드롭된 SQE 카운터 */
    u32 sq_flags;                  /* IORING_SQ_* 플래그 */
    u32 cq_flags;                  /* IORING_CQ_* 플래그 */
    u32 cq_overflow;               /* 오버플로 카운터 */
    struct io_uring_cqe cqes[];   /* CQE 배열 (가변 길이) */
};

CQ 링 메타데이터 필드	오프셋	크기	기록자	읽기자	설명
`cq.head`	IORING_OFF_CQ_RING + 0	4B	유저	커널	다음 소비할 CQE 위치
`cq.tail`	IORING_OFF_CQ_RING + 4	4B	커널	유저	다음 기록할 CQE 위치
`cq.ring_mask`	io_cqring_offsets.ring_mask	4B	커널	유저	entries - 1
`cq.ring_entries`	io_cqring_offsets.ring_entries	4B	커널	유저	CQ 엔트리 총 개수
`cq.overflow`	io_cqring_offsets.overflow	4B	커널	유저	오버플로 발생 누적 횟수
`cq.cqes[]`	io_cqring_offsets.cqes	entries × 16B	커널	유저	CQE 배열 (CQE32는 ×32B)
`cq.flags`	io_cqring_offsets.flags	4B	커널	유저	IORING_CQ_EVENTFD_DISABLED 등

ℹ️

교차참조: CQ 링의 전체 mmap 배치는 mmap 메모리 레이아웃, SQ 간접 인덱싱과의 구조적 차이는 SQE 간접 인덱싱 상세, 링 버퍼의 기본 동작 원리는 링 버퍼 동작 원리 섹션을 참고하세요.

CQE 필드 상세 분석

각 CQE는 16바이트(CQE32 확장 시 32바이트)로 3개의 필드로 구성됩니다: user_data(8B), res(4B), flags(4B). 이 필드들의 의미와 활용 패턴을 상세히 분석합니다.

user_data 필드와 요청 식별 패턴

user_data는 SQE 제출 시 설정한 8바이트 값이 CQE에 그대로 복사되는 식별자입니다. 커널은 이 값을 해석하지 않으며, 애플리케이션이 어떤 요청의 완료인지 식별하는 유일한 수단입니다.

/* 패턴 1: 포인터 캐스트 — 가장 직관적 */
struct my_request *req = malloc(sizeof(*req));
req->op = OP_READ;
req->buf = buffer;
sqe->user_data = (__u64)(uintptr_t)req;
/* CQE 수확 시 */
struct my_request *req = (void *)(uintptr_t)cqe->user_data;

/* 패턴 2: 태그드 유니온 — 상위 비트 = 타입, 하위 = 인덱스 */
enum { TAG_ACCEPT = 0, TAG_READ = 1, TAG_WRITE = 2 };
#define MAKE_UD(tag, idx) (((__u64)(tag) << 56) | (__u64)(idx))
#define UD_TAG(ud)       ((unsigned)((ud) >> 56))
#define UD_IDX(ud)       ((unsigned)((ud) & 0x00FFFFFFFFFFFFFF))
sqe->user_data = MAKE_UD(TAG_READ, conn_id);
/* CQE 수확 시 */
switch (UD_TAG(cqe->user_data)) {
    case TAG_READ:  handle_read(UD_IDX(cqe->user_data), cqe->res); break;
    case TAG_WRITE: handle_write(UD_IDX(cqe->user_data), cqe->res); break;
}

/* 패턴 3: 순차 ID + 해시맵 — 대규모 요청 추적 */
static __u64 next_id = 1;
__u64 id = next_id++;
hashmap_insert(pending, id, request_ctx);
sqe->user_data = id;
/* CQE 수확 시 */
struct request_ctx *ctx = hashmap_remove(pending, cqe->user_data);

res 필드: opcode별 결과 의미

res 필드는 요청의 결과를 나타내며, 양수는 성공(바이트 수, fd 번호 등), 0은 EOF 또는 성공, 음수는 -errno 에러 코드입니다. Short read/write는 res > 0이지만 요청한 크기보다 작은 경우로, 에러가 아닌 정상 동작입니다.

Opcode	양수 res 의미	0 의미	음수 res 예시	비고
`IORING_OP_READ`	읽은 바이트 수	EOF	-EIO, -EAGAIN	short read 가능
`IORING_OP_WRITE`	쓴 바이트 수	(해당 없음)	-ENOSPC, -EIO	short write 가능
`IORING_OP_READV`	읽은 총 바이트	EOF	-EFAULT	벡터 I/O
`IORING_OP_WRITEV`	쓴 총 바이트	(해당 없음)	-ENOSPC	벡터 I/O
`IORING_OP_ACCEPT`	새 소켓 fd	(해당 없음)	-ECONNABORTED	multishot: F_MORE
`IORING_OP_CONNECT`	(해당 없음)	성공	-ECONNREFUSED	res == 0이 성공
`IORING_OP_RECV`	수신 바이트 수	연결 종료	-ENOTCONN	multishot: F_MORE
`IORING_OP_SEND`	송신 바이트 수	(해당 없음)	-EPIPE, -ECONNRESET	short send 가능
`IORING_OP_POLL_ADD`	발생한 poll 이벤트	(해당 없음)	-ECANCELED	비트마스크
`IORING_OP_TIMEOUT`	(해당 없음)	-ETIME(만료)	-ECANCELED	만료 시 -ETIME
`IORING_OP_NOP`	(해당 없음)	성공	(없음)	항상 0
`IORING_OP_OPENAT`	새 파일 fd	(해당 없음)	-ENOENT, -EACCES	direct: 고정 fd 인덱스
`IORING_OP_CLOSE`	(해당 없음)	성공	-EBADF
`IORING_OP_FSYNC`	(해당 없음)	성공	-EIO
`IORING_OP_SENDMSG`	송신 바이트	(해당 없음)	-ENOBUFS
`IORING_OP_RECVMSG`	수신 바이트	연결 종료	-ENOTCONN	multishot 지원
`IORING_OP_SPLICE`	전송 바이트	EOF	-EINVAL	파이프 필요
`IORING_OP_PROVIDE_BUFFERS`	(해당 없음)	성공	-ENOMEM	버퍼 등록
`IORING_OP_CANCEL`	(해당 없음)	성공	-ENOENT, -EALREADY	대상 없으면 -ENOENT

flags 필드: CQE 플래그 전체 참조

CQE의 flags 필드는 완료 결과에 대한 추가 메타데이터를 전달합니다. 하위 비트는 플래그, 상위 16비트는 버퍼 선택(provided buffers) 시 버퍼 ID를 인코딩합니다.

플래그	비트	값	설명	도입 커널
`IORING_CQE_F_BUFFER`	0	0x1	Provided buffer 사용됨; 상위 16비트 = 버퍼 ID	5.7
`IORING_CQE_F_MORE`	1	0x2	Multishot: 추가 CQE가 더 올 예정	5.13
`IORING_CQE_F_SOCK_NONEMPTY`	2	0x4	소켓에 아직 읽을 데이터 있음	5.19
`IORING_CQE_F_NOTIF`	3	0x8	제로카피 send 완료 알림 (데이터 해제 가능)	6.0

/* CQE 플래그 해석 패턴 */
#define IORING_CQE_BUFFER_SHIFT  16

if (cqe->flags & IORING_CQE_F_BUFFER) {
    unsigned buf_id = cqe->flags >> IORING_CQE_BUFFER_SHIFT;
    void *buf = bufs[buf_id];
    /* buf_id로 실제 버퍼 접근 */
}

if (cqe->flags & IORING_CQE_F_MORE) {
    /* multishot: 아직 더 올 CQE가 있음, SQE 재제출 불필요 */
} else {
    /* 마지막 CQE: multishot 종료, 필요 시 SQE 재제출 */
}

if (cqe->flags & IORING_CQE_F_NOTIF) {
    /* 제로카피 send: 커널이 버퍼를 해제함, 실제 전송 결과 아님 */
    return;  /* 알림만 — res 무시 */
}

ℹ️

교차참조: CQE32 확장 포맷(big_cqe 필드 추가)은 CQE32 / SQE128 확장 포맷, Multishot 동작의 자세한 설명은 Multishot CQE 동작 상세 섹션을 참고하세요.

커널 CQE 게시 내부 경로

커널이 I/O 완료 후 CQE를 사용자에게 전달하는 내부 경로를 추적합니다. 핵심 함수 체인은 io_req_complete_post() → io_fill_cqe_req() → io_commit_cqring() → io_cqring_ev_posted()입니다.

/* io_fill_cqe_req() — 간소화된 커널 코드 */
static bool io_fill_cqe_req(struct io_ring_ctx *ctx,
                             struct io_kiocb *req)
{
    struct io_uring_cqe *cqe;
    u32 tail = ctx->rings->cq.tail;

    /* CQ 가득 찼는지 확인 */
    if (tail - READ_ONCE(ctx->rings->cq.head) >= ctx->cq_entries) {
        /* 오버플로 리스트에 추가 */
        return io_cqring_event_overflow(ctx, req->cqe.user_data,
                                        req->cqe.res, req->cqe.flags);
    }

    cqe = &ctx->rings->cqes[tail & ctx->cq_mask];
    cqe->user_data = req->cqe.user_data;
    cqe->res       = req->cqe.res;
    cqe->flags     = req->cqe.flags;

    return true;
}

/* io_commit_cqring() — tail을 store_release로 갱신 */
static void io_commit_cqring(struct io_ring_ctx *ctx)
{
    smp_store_release(&ctx->rings->cq.tail,
                      ctx->cached_cq_tail);
}

/* io_cqring_ev_posted() — 대기자 깨우기 */
static void io_cqring_ev_posted(struct io_ring_ctx *ctx)
{
    if (wq_has_sleeper(&ctx->cq_wait))
        wake_up_all(&ctx->cq_wait);
    if (ctx->cq_ev_fd)
        eventfd_signal(ctx->cq_ev_fd, 1);
}

ℹ️

배치 플러시: 성능을 위해 커널은 여러 완료를 compl_reqs 리스트에 모은 뒤 io_submit_flush_completions()에서 한 번에 CQ에 기록합니다. completion_lock은 io-wq 워커와 메인 태스크 간 동시 CQE 게시를 보호합니다.

ℹ️

교차참조: io_kiocb 구조체의 생명주기는 io_kiocb 생명주기, task_work 기반 완료 전달은 task_work 완료 전달 메커니즘 섹션을 참고하세요.

CQE 소비 패턴과 liburing API

liburing은 CQE 수확을 위한 다양한 API를 제공합니다. 상황에 맞는 소비 패턴 선택이 지연시간과 처리량(Throughput)에 직접 영향을 줍니다.

peek vs wait vs batch

liburing API	동작	블로킹	반환	사용 시나리오
`io_uring_peek_cqe()`	CQ 확인, 없으면 즉시 반환	아니오	0 또는 -EAGAIN	busy-poll 루프
`io_uring_wait_cqe()`	CQE 1개 도착까지 대기	예	0 또는 -errno	일반적인 이벤트 루프(Event Loop)
`io_uring_wait_cqe_nr(N)`	CQE N개 도착까지 대기	예	0 또는 -errno	배치 처리 최적화
`io_uring_peek_batch_cqe()`	가용 CQE 전부 비차단(Non-blocking) 수확	아니오	수확한 CQE 수	고처리량 배치
`io_uring_cqe_seen()`	CQE 1개 소비 완료 표시	-	void	단일 CQE 처리 후
`io_uring_cq_advance(N)`	CQE N개 소비 완료 (head += N)	-	void	배치 처리 후 한 번에

/* 배치 소비 패턴 — 최적 성능 */
struct io_uring_cqe *cqes[256];
unsigned count, i;

/* 최소 1개 대기 후 가용한 만큼 배치 수확 */
io_uring_wait_cqe(&ring, &cqes[0]);
count = io_uring_peek_batch_cqe(&ring, cqes, 256);

for (i = 0; i < count; i++) {
    process_completion(cqes[i]->user_data,
                       cqes[i]->res,
                       cqes[i]->flags);
}
/* 한 번의 store_release로 모든 CQE 소비 완료 */
io_uring_cq_advance(&ring, count);

CQ 크기 선택 전략

CQ 크기는 성능과 메모리 사이의 트레이드오프입니다. 너무 작으면 오버플로가 발생하고, 너무 크면 메모리를 낭비합니다. Multishot 연산은 단일 SQE에서 무한 CQE를 생성할 수 있어 특별한 고려가 필요합니다.

워크로드	SQ 크기	CQ 배수	CQ 엔트리	CQE 메모리	근거
단순 파일 I/O	64	2×	128	2 KB	기본값 충분, 순차 I/O
웹 서버 (epoll 대체)	256	4×	1024	16 KB	다중 연결, 간헐적 burst
DB WAL 쓰기	512	4×	2048	32 KB	fsync 지연 중 쓰기 누적
Multishot recv 서버	256	8×~16×	2048~4096	32~64 KB	단일 SQE → 다수 CQE
고성능 스토리지 (NVMe)	1024	4×	4096	64 KB	높은 QD, 빠른 완료
프록시/게이트웨이	512	8×	4096	64 KB	양방향 I/O, splice 체인

/* IORING_SETUP_CQSIZE로 CQ 크기 커스텀 설정 */
struct io_uring_params params = {};
params.flags = IORING_SETUP_CQSIZE;
params.cq_entries = 4096;  /* 반드시 power-of-2 */

int ring_fd = io_uring_setup(512, &params);
/* 커널이 params.cq_entries를 실제 할당된 값으로 갱신 */

/* liburing 래퍼 */
struct io_uring ring;
struct io_uring_params p = { .flags = IORING_SETUP_CQSIZE, .cq_entries = 4096 };
io_uring_queue_init_params(512, &ring, &p);

/* 동적 크기 산정: multishot 연결 수 기반 */
unsigned sq_size = 256;
unsigned max_multishot_conns = 1000;
unsigned cq_size = next_power_of_2(sq_size * 2 + max_multishot_conns * 4);
/* 최소 SQ×2, multishot당 여유 4 CQE 확보 */

⚠️

IORING_SETUP_CQSIZE 없이 CQ 크기를 지정하면 무시됩니다. 또한 CQ 크기가 SQ 크기보다 작으면 -EINVAL이 반환됩니다. CQ 크기는 커널이 자동으로 다음 power-of-2로 올림합니다.

ℹ️

교차참조: CQ 오버플로 발생 시의 동작은 CQE Overflow 처리 및 CQ 오버플로 내부 메커니즘 섹션을 참고하세요.

CQE 대기 메커니즘

CQE를 대기하는 방법은 여러 가지이며, 각각 지연시간/CPU 사용량 특성이 다릅니다. 워크로드에 맞는 대기 전략 선택이 중요합니다.

/* EXT_ARG: 나노초 타임아웃 + 시그널 마스크 */
struct __kernel_timespec ts = { .tv_sec = 0, .tv_nsec = 500000000 }; /* 500ms */
struct io_uring_getevents_arg arg = {
    .sigmask    = (__u64)(uintptr_t)&sigmask,
    .sigmask_sz = sizeof(sigmask),
    .ts         = (__u64)(uintptr_t)&ts,
};
io_uring_enter(ring_fd, 0, 1,
               IORING_ENTER_GETEVENTS | IORING_ENTER_EXT_ARG,
               &arg);
/* 반환: 타임아웃 시 -ETIME, CQE 도착 시 0 */

/* eventfd + ASYNC: 비동기 완료만 시그널 */
int efd = eventfd(0, EFD_NONBLOCK);
io_uring_register_eventfd_async(&ring, efd);
/* epoll에 eventfd 등록 */
struct epoll_event ev = { .events = EPOLLIN, .data.fd = efd };
epoll_ctl(epfd, EPOLL_CTL_ADD, efd, &ev);

ℹ️

DEFER_TASKRUN 모드: IORING_SETUP_DEFER_TASKRUN | IORING_SETUP_SINGLE_ISSUER 설정 시, CQE는 io_uring_enter() 호출 시에만 게시됩니다. 비동기 인터럽트가 없어 예측 가능한 지연을 제공하며, busy-poll과 결합하면 최적의 성능을 달성합니다.

ℹ️

교차참조: eventfd 기반 이벤트 루프 통합의 구체적인 예제는 eventfd 기반 CQ 알림 상세, 이벤트 루프 설계 패턴은 이벤트 루프 설계 패턴 섹션을 참고하세요.

CQ 오버플로 내부 메커니즘

CQ 링이 가득 찬 상태에서 새 CQE가 발생하면 커널은 오버플로 리스트(struct io_overflow_cqe)에 보관합니다. 이 리스트의 생명주기와 플러시/드롭 메커니즘을 상세히 분석합니다.

/* struct io_overflow_cqe — 오버플로 CQE 보관 구조 */
struct io_overflow_cqe {
    struct list_head list;      /* ctx->cq_overflow_list에 연결 */
    struct io_uring_cqe cqe;    /* CQE 데이터 직접 내장 */
};

/* 오버플로 모니터링 패턴 */
static void check_overflow(struct io_uring *ring) {
    unsigned flags = IO_URING_READ_ONCE(*ring->sq.kflags);

    if (flags & IORING_SQ_CQ_OVERFLOW) {
        /* 오버플로 발생: CQ에서 CQE를 빨리 소비하여 플러시 유도 */
        fprintf(stderr, "CQ overflow detected!\n");

        /* GETEVENTS로 플러시 트리거 */
        io_uring_enter(ring->ring_fd, 0, 0,
                       IORING_ENTER_GETEVENTS, NULL);

        /* 드롭된 CQE 확인 */
        unsigned overflow = *ring->cq.koverflow;
        if (overflow)
            fprintf(stderr, "Dropped %u CQEs!\n", overflow);
    }
}

오버플로 관련 필드/플래그	위치	의미
`IORING_SQ_CQ_OVERFLOW`	sq_flags (bit 1)	오버플로 리스트에 CQE 존재
`cq.overflow`	io_rings	드롭된 CQE 누적 카운터 (GFP_ATOMIC 실패 시)
`cq_overflow_list`	io_ring_ctx	커널 내부 연결 리스트(Linked List)
`IORING_SETUP_NOCLAMP`	params.flags	CQ 크기를 SQ 크기로 클램핑하지 않음 (5.8+)

ℹ️

교차참조: 기본 오버플로 처리 개요는 CQE Overflow 처리, 오버플로 예방을 위한 CQ 크기 전략은 CQ 크기 선택 전략 섹션을 참고하세요.

CQE 순서 보장(Ordering)과 완료 의미론

io_uring은 기본적으로 CQE 순서를 보장하지 않습니다. I/O가 완료되는 순서대로 CQE가 게시되므로, 빠른 연산이 느린 연산보다 먼저 완료될 수 있습니다. 링크와 드레인 플래그로 순서를 강제할 수 있습니다.

플래그	순서 보장	실패 동작	사용 사례
(없음) 독립 SQE	없음	개별 처리	병렬 I/O, 최대 처리량
`IOSQE_IO_LINK`	체인 순서 보장	실패 시 후속 -ECANCELED	read → process → write 파이프라인(Pipeline)
`IOSQE_IO_HARDLINK`	체인 순서 보장	실패해도 체인 계속	read → timeout (타임아웃 제한 읽기)
`IOSQE_IO_DRAIN`	이전 전체 완료 보장	개별 처리	배리어 (fsync 전 쓰기 완료 보장)

⚠️

SQPOLL 모드에서의 순서: SQPOLL 모드에서도 링크/드레인 의미론은 동일하게 유지됩니다. 다만 IOSQE_ASYNC 플래그가 설정된 SQE는 io-wq 워커에서 실행되므로, 독립 SQE 간 완료 순서가 더욱 비결정적입니다.

ℹ️

교차참조: SQE 링크 체인의 상세한 설명은 고급 기능 섹션의 링크 부분을 참고하세요.

Multishot CQE 동작 상세

Multishot 연산은 하나의 SQE 제출로 다수의 CQE를 스트림으로 수신합니다. IORING_CQE_F_MORE 플래그가 설정된 CQE는 "아직 더 올 CQE가 있습니다"는 의미이며, 이 플래그 없이 도착한 CQE가 스트림의 종료를 나타냅니다.

/* Multishot recv CQE 처리 루프 */
void handle_multishot_recv(struct io_uring *ring,
                           struct io_uring_cqe *cqe,
                           int sock_fd)
{
    if (cqe->res < 0) {
        /* 에러: -ECONNRESET, -ECANCELED 등 */
        fprintf(stderr, "multishot recv error: %d\n", cqe->res);
        if (!(cqe->flags & IORING_CQE_F_MORE))
            resubmit_multishot_recv(ring, sock_fd);
        return;
    }

    if (cqe->res == 0) {
        /* 연결 종료 (EOF) */
        close_connection(sock_fd);
        return;
    }

    /* 성공: 버퍼 ID 추출 */
    if (cqe->flags & IORING_CQE_F_BUFFER) {
        unsigned buf_id = cqe->flags >> IORING_CQE_BUFFER_SHIFT;
        void *buf = provided_bufs[buf_id];
        process_data(buf, cqe->res);
        replenish_buffer(ring, buf_id);  /* 버퍼 재공급 */
    }

    /* F_MORE 없으면 multishot 종료 → 재제출 */
    if (!(cqe->flags & IORING_CQE_F_MORE)) {
        resubmit_multishot_recv(ring, sock_fd);
    }
}

ℹ️

교차참조: Provided buffers 메커니즘의 상세한 설명은 고급 기능 섹션을, CQ 크기와 multishot의 관계는 CQ 크기 선택 전략 섹션을 참고하세요.

CQ 성능 최적화

배치 소비와 tail advance 최적화

CQE를 하나씩 io_uring_cqe_seen()으로 소비하면 매번 smp_store_release가 발생합니다. 배치로 처리 후 한 번의 io_uring_cq_advance()를 호출하면 메모리 배리어 비용을 최소화할 수 있습니다.

DEFER_TASKRUN과 CQ 성능

IORING_SETUP_DEFER_TASKRUN | IORING_SETUP_SINGLE_ISSUER 조합은 CQE 게시를 io_uring_enter() 호출 시점으로 지연시킵니다. 이를 통해 task_work 인터럽트 없이 예측 가능한 지연시간을 제공합니다.

CQ 성능 튜닝 파라미터	효과	트레이드오프
배치 소비 (`cq_advance`)	store_release 횟수 감소	소비 지연 증가
`DEFER_TASKRUN`	인터럽트 제거, 예측 가능	평균 지연 소폭 증가
`SINGLE_ISSUER`	lock-free 경로 활성	단일 스레드 제한
CQ 크기 확대	오버플로 방지	메모리 사용 증가
Busy-poll + peek	최저 지연시간	CPU 100% 사용
CQE16 (기본)	캐시라인당 4개 밀집	확장 필드 사용 불가

/* DEFER_TASKRUN 최적 폴링 루프 */
struct io_uring ring;
struct io_uring_params p = {
    .flags = IORING_SETUP_DEFER_TASKRUN
           | IORING_SETUP_SINGLE_ISSUER
           | IORING_SETUP_CQSIZE,
    .cq_entries = 4096,
};
io_uring_queue_init_params(512, &ring, &p);

while (running) {
    /* 제출할 SQE 준비 */
    prepare_submissions(&ring);
    io_uring_submit(&ring);

    /* CQE 대기 — DEFER_TASKRUN이므로 이 시점에 CQE 게시 */
    struct io_uring_cqe *cqe;
    io_uring_wait_cqe(&ring, &cqe);

    /* 배치 수확 */
    struct io_uring_cqe *cqes[256];
    unsigned n = io_uring_peek_batch_cqe(&ring, cqes, 256);

    for (unsigned i = 0; i < n; i++)
        dispatch_cqe(cqes[i]);

    io_uring_cq_advance(&ring, n);
}

CQE 에러 처리 패턴

견고한 io_uring 애플리케이션은 CQE의 res 값을 체계적으로 분류하고 적절히 처리해야 합니다. 양수(성공), 0(EOF/성공), 음수(에러)의 세 가지 범주와 각 에러 코드별 복구 전략을 정리합니다.

에러 코드	카테고리	원인	복구 전략
`-EAGAIN`	일반	자원 일시 부족	재제출 (IOSQE_ASYNC 또는 지연 후)
`-ECANCELED`	일반	요청 취소됨 (CANCEL/링크 실패)	정리, 필요 시 재제출
`-ETIME`	타임아웃	타임아웃 만료	타임아웃 정상 처리
`-EINVAL`	일반	잘못된 파라미터	SQE 파라미터 검증 (프로그래밍 오류)
`-EBADF`	파일 I/O	잘못된 fd	fd 유효성 검증
`-EIO`	파일 I/O	디스크/하드웨어 오류	재시도 또는 대체 경로
`-ENOSPC`	파일 I/O	디스크 공간 부족	알림, 공간 확보 후 재시도
`-EFAULT`	일반	잘못된 사용자 주소	버퍼 주소 검증 (프로그래밍 오류)
`-ECONNRESET`	네트워크	상대방이 연결 리셋	연결 정리, 재연결
`-ECONNREFUSED`	네트워크	연결 거부	재시도 (backoff)
`-EPIPE`	네트워크	깨진 파이프/소켓	연결 정리
`-ENOBUFS`	네트워크	버퍼 부족	provided buffer 보충
`-ENOENT`	취소	취소 대상 없음	이미 완료됨, 무시
`-EALREADY`	취소	이미 취소 진행 중	무시, CQE 대기

/* 견고한 CQE 에러 처리 함수 */
static void handle_cqe_result(struct io_uring *ring,
                               struct io_uring_cqe *cqe,
                               struct request *req)
{
    if (cqe->res < 0) {
        switch (-cqe->res) {
        case EAGAIN:
            /* 자원 부족: IOSQE_ASYNC로 재제출 */
            req->flags |= IOSQE_ASYNC;
            resubmit_request(ring, req);
            return;
        case ECANCELED:
            /* 취소됨: 자원 정리 */
            cleanup_request(req);
            return;
        case ECONNRESET:
        case EPIPE:
            /* 연결 끊김: 소켓 정리 */
            close_connection(req->fd);
            free_request(req);
            return;
        default:
            fprintf(stderr, "I/O error: %s (fd=%d)\n",
                    strerror(-cqe->res), req->fd);
            free_request(req);
            return;
        }
    }

    if (cqe->res == 0 && req->op == OP_READ) {
        /* EOF */
        handle_eof(req);
        return;
    }

    /* Short read/write 처리 */
    if (cqe->res > 0 && (unsigned)cqe->res < req->len) {
        /* 부분 완료: offset 조정 후 나머지 재제출 */
        req->buf  += cqe->res;
        req->len  -= cqe->res;
        req->off  += cqe->res;
        resubmit_request(ring, req);
        return;
    }

    /* 완전 완료 */
    complete_request(req, cqe->res);
}

eventfd 기반 CQ 알림 상세

eventfd를 io_uring에 등록하면 CQE 게시 시 자동으로 시그널(Signal)이 발생합니다. 이를 통해 기존 epoll 기반 이벤트 루프에 io_uring을 통합할 수 있습니다. 일반 모드와 ASYNC 모드의 차이를 이해하는 것이 중요합니다.

/* eventfd 등록 + epoll 통합 */
struct io_uring ring;
io_uring_queue_init(256, &ring, 0);

/* 일반 eventfd: 모든 CQE에 시그널 */
int efd = eventfd(0, EFD_NONBLOCK);
io_uring_register_eventfd(&ring, efd);

/* 또는 ASYNC 변형: 비동기 완료만 시그널 */
/* io_uring_register_eventfd_async(&ring, efd); */

/* epoll에 eventfd 추가 */
int epfd = epoll_create1(0);
struct epoll_event ev = {
    .events = EPOLLIN,
    .data.fd = efd,
};
epoll_ctl(epfd, EPOLL_CTL_ADD, efd, &ev);

/* 이벤트 루프: io_uring + 다른 fd 통합 */
while (running) {
    struct epoll_event events[64];
    int n = epoll_wait(epfd, events, 64, -1);

    for (int i = 0; i < n; i++) {
        if (events[i].data.fd == efd) {
            /* eventfd 시그널: io_uring CQE 도착 */
            uint64_t val;
            read(efd, &val, sizeof(val));  /* eventfd 소비 */

            struct io_uring_cqe *cqe;
            while (io_uring_peek_cqe(&ring, &cqe) == 0) {
                process_cqe(cqe);
                io_uring_cqe_seen(&ring, cqe);
            }
        } else {
            /* 다른 fd 이벤트 처리 */
            handle_other_fd(events[i].data.fd);
        }
    }
}

/* eventfd 해제 */
io_uring_unregister_eventfd(&ring);
close(efd);

⚠️

eventfd 성능 비용: 매 CQE마다 eventfd_signal()이 호출되면 시스콜 오버헤드가 발생합니다. 고성능 시나리오에서는 REGISTER_EVENTFD_ASYNC를 사용하거나, DEFER_TASKRUN으로 전환하여 eventfd 없이 직접 io_uring_enter()로 CQE를 수확하는 것이 좋습니다.

ℹ️

DEFER_TASKRUN과의 상호작용: DEFER_TASKRUN 모드에서는 CQE가 io_uring_enter() 시점에만 게시되므로, eventfd 시그널도 그 시점에 발생합니다. 이 경우 eventfd는 비동기 알림이 아닌 동기적 확인 용도로만 유용하며, 대부분 불필요합니다.

ℹ️

교차참조: 이벤트 루프 통합의 전체 설계 패턴은 이벤트 루프 설계 패턴 섹션을 참고하세요.

커널 내부 구현

/* io_uring/io_uring.c - 핵심 커널 자료구조 */
struct io_ring_ctx {
    struct {
        unsigned int        flags;
        unsigned int        sq_entries;
        unsigned int        cq_entries;
        struct io_rings     *rings;
        struct io_uring_sqe *sq_sqes;
    } ____cacheline_aligned_in_smp;

    struct io_sq_data    *sq_data;   /* SQPOLL 스레드 */
    struct io_wq        *io_wq;     /* 비동기 워커 풀 */
    struct io_rsrc_data *file_data;  /* 고정 파일 */
    struct io_rsrc_data *buf_data;   /* 고정 버퍼 */
};

/* SQE 처리 흐름 */
io_uring_enter()
  → io_submit_sqes()
      → io_get_sqe()         /* SQ에서 SQE 가져오기 */
      → io_init_req()        /* SQE → io_kiocb 변환 */
      → io_issue_sqe()       /* opcode별 핸들러 디스패치 */
          → io_read() → vfs_read()
          → io_req_complete()  /* 즉시 완료: CQE 게시 */
          → io_queue_async()   /* 블로킹: io-wq에 위임 */

io_kiocb 생명주기

io_kiocb는 io_uring 내부에서 각 I/O 요청을 추적하는 핵심 구조체입니다.

struct io_kiocb {
    struct file        *file;
    u8                  opcode;
    u64                 user_data;
    s32                 result;
    struct io_ring_ctx  *ctx;
    struct task_struct  *task;
    struct io_kiocb     *link;
    struct io_wq_work   work;
};

ℹ️

task_work 메커니즘: io_uring은 완료 처리를 제출자 태스크의 컨텍스트에서 수행하기 위해 task_work_add()를 사용합니다. DEFER_TASKRUN 플래그를 사용하면 task_work가 io_uring_enter() 호출 시에만 일괄 실행되어 효율이 높아집니다.

io-wq 워커 스레드 풀

즉시 완료되지 않는 (블로킹) 요청은 io-wq 커널 워커 스레드 풀로 넘겨집니다.

워커 유형	용도	최대 수
Bounded	블로킹 파일 I/O (buffered read/write)	`RLIMIT_NPROC` 기반
Unbounded	네트워크 I/O, 긴 대기 작업	별도 제한

# 실행 중인 io-wq 워커 확인
ps -eo pid,comm | grep io_uring
ls /proc/<pid>/task/ | wc -l

task_work 완료 전달 메커니즘

io_uring은 I/O 완료를 제출자 태스크의 컨텍스트에서 처리하기 위해 커널의 task_work 메커니즘을 사용합니다. 완료가 어떤 컨텍스트(IRQ, softirq, 워커 스레드)에서 발생하든, 최종 CQE 게시와 사용자 알림은 제출자 태스크에서 실행됩니다.

task_work를 통한 CQE 완료 전달: 기본/COOP_TASKRUN/DEFER_TASKRUN 모드 비교

완료 전달 모드	플래그	task_work 실행 시점	IPI	적합 상황
기본	(없음)	커널→유저 전환 시 즉시	발생	범용, 단순 사용
COOP_TASKRUN	`IORING_SETUP_COOP_TASKRUN`	io_uring_enter() 호출 시	없음	폴링 루프 앱
DEFER_TASKRUN	`IORING_SETUP_DEFER_TASKRUN`	io_uring_enter(GETEVENTS) 시 일괄	없음	최고 성능 (SINGLE_ISSUER 필요)

/* DEFER_TASKRUN 최적 설정 */
struct io_uring_params params = {
    .flags = IORING_SETUP_SINGLE_ISSUER
           | IORING_SETUP_DEFER_TASKRUN
           | IORING_SETUP_COOP_TASKRUN,  /* DEFER에 포함되지만 명시적 설정 */
};
io_uring_queue_init_params(256, &ring, &params);

/* 이벤트 루프: GETEVENTS 시 적립된 task_work 일괄 실행 */
while (1) {
    io_uring_submit_and_wait(&ring, 1);
    /* ↑ 여기서 적립된 모든 task_work가 한번에 실행됨
     *   → CQE가 배치로 게시 → 한 번의 CQ 순회로 모두 처리 */

    struct io_uring_cqe *cqe;
    unsigned head, count = 0;
    io_uring_for_each_cqe(&ring, head, cqe) {
        process(cqe);
        count++;
    }
    io_uring_cq_advance(&ring, count);
}

io_uring 커널 소스 구조

io_uring 코드는 Linux 5.20(6.0) 이후 fs/io_uring.c 단일 파일(~27,000줄)에서 io_uring/ 디렉토리로 분리되어 약 30개 파일로 모듈화되었습니다.

io_uring/ 디렉토리 구조: 핵심 모듈, 인프라, opcode 핸들러(Handler)

파일	역할	주요 함수
`io_uring.c`	핵심: ring 생성/파괴, SQE 디스패치(Dispatch), CQE 게시	`io_uring_setup()`, `io_submit_sqes()`
`sqpoll.c`	SQPOLL 커널 스레드 관리	`io_sq_thread()`, 슬립(Sleep)/웨이크업
`io-wq.c`	비동기 워커 스레드 풀	`io_wq_enqueue()`, 워커 생성/소멸
`rsrc.c`	파일/버퍼 등록, 리소스 수명 관리	`io_register_files()`, `io_register_buffers()`
`kbuf.c`	Provided buffer ring 관리	`io_provide_buffers()`
`rw.c`	read/write/readv/writev 핸들러	`io_read()`, `io_write()`
`net.c`	send/recv/accept/connect 핸들러	`io_sendmsg()`, `io_accept()`
`poll.c`	poll_add/poll_remove 핸들러	`io_poll_add()`, multishot poll
`timeout.c`	timeout/link_timeout 핸들러	`io_timeout()`
`cancel.c`	async_cancel 핸들러	`io_async_cancel()`
`msg_ring.c`	MSG_RING 링 간 통신	`io_msg_ring()`
`uring_cmd.c`	io_uring_cmd passthrough	`io_uring_cmd()`
`splice.c`	splice/tee 핸들러	`io_splice()`, `io_tee()`
`openclose.c`	open/close/ftruncate 핸들러	`io_openat()`, `io_close()`
`fdinfo.c`	/proc/PID/fdinfo 출력	디버깅용 정보 출력

콜 체인 분석

io_uring의 I/O 제출 경로는 io_uring_setup()으로 링을 생성한 뒤, io_uring_enter() 시스템 콜(System Call)에서 시작하는 4단계 콜 체인으로 구성됩니다. 각 단계는 캐시라인(Cache Line) 친화적으로 설계되어 있으며, 최소한의 잠금(Lock)으로 높은 처리량을 달성합니다.

io_uring 콜 체인: 시스템 콜 진입부터 CQE 게시까지의 4단계 경로

io_uring_sqe 구조체 필드 상세

io_uring_sqe는 64바이트(1 캐시라인) 고정 크기로, 모든 I/O 요청 유형을 단일 구조체로 표현합니다. 여러 필드가 union을 통해 opcode에 따라 다른 의미로 재사용됩니다.

/* include/uapi/linux/io_uring.h — io_uring_sqe 전체 필드 */
struct io_uring_sqe {
    __u8    opcode;         /* 연산 코드: IORING_OP_READ, IORING_OP_WRITE 등 */
    __u8    flags;          /* SQE 플래그: IOSQE_FIXED_FILE, IOSQE_IO_LINK 등 */
    __u16   ioprio;         /* I/O 스케줄러 우선순위 (CFQ/BFQ 호환) */
    __s32   fd;             /* 대상 파일 디스크립터 (FIXED_FILE이면 인덱스) */
    union {
        __u64 off;          /* 파일 오프셋 (read/write) */
        __u64 addr2;        /* 보조 주소 (sendmsg_zc, uring_cmd 등) */
        struct {
            __u32 cmd_op;   /* io_uring_cmd 의 하위 명령(Subcommand) */
            __u32 __pad1;
        };
    };
    union {
        __u64 addr;         /* 사용자 버퍼 주소 또는 iovec 배열 포인터 */
        __u64 splice_off_in;/* splice: 입력 파일 오프셋 */
    };
    __u32   len;            /* 버퍼 바이트 수 또는 iovec 원소 수 */
    union {
        __kernel_rwf_t rw_flags;    /* preadv2/pwritev2 플래그 */
        __u32          fsync_flags; /* IORING_FSYNC_DATASYNC */
        __u16          poll_events; /* POLLIN, POLLOUT 등 (16비트 레거시) */
        __u32          poll32_events;/* EPOLL 이벤트 마스크 (32비트 확장) */
        __u32          sync_range_flags;
        __u32          msg_flags;   /* sendmsg/recvmsg 플래그 */
        __u32          timeout_flags;/* IORING_TIMEOUT_ABS 등 */
        __u32          accept_flags; /* accept4() 플래그 */
        __u32          cancel_flags; /* IORING_ASYNC_CANCEL_ALL 등 */
        __u32          open_flags;   /* openat2() 플래그 */
        __u32          statx_flags;
        __u32          fadvise_advice;
        __u32          splice_flags;
        __u32          rename_flags;
        __u32          unlink_flags;
        __u32          hardlink_flags;
        __u32          xattr_flags;
        __u32          msg_ring_flags;/* MSG_RING 전달 플래그 */
        __u32          uring_cmd_flags;/* io_uring_cmd 전달 플래그 */
        __u32          waitid_flags;
        __u32          futex_flags;
        __u32          install_fd_flags;
        __u32          nop_flags;
    };
    __u64   user_data;      /* 완료 시 CQE에 그대로 복사되는 식별자 */
    union {
        __u16 buf_index;    /* 고정 버퍼(Registered Buffer) 인덱스 */
        __u16 buf_group;    /* Provided Buffer 그룹 ID */
    } __attribute__((packed));
    __u16   personality;    /* 다른 credentials로 실행할 때 사용하는 자격증명 ID */
    union {
        __s32 splice_fd_in; /* splice: 입력 파일 디스크립터 */
        __u32 file_index;   /* Direct Descriptor 인덱스 */
        __u32 optlen;       /* setsockopt/getsockopt 옵션 길이 */
        struct {
            __u16 addr_len;
            __u16 __pad3[1];
        };
    };
    union {
        struct {
            __u64 addr3;     /* 세 번째 주소 파라미터 */
            __u64 __pad2[1];
        };
        __u64 optval;        /* setsockopt 옵션 값 포인터 */
        __u8  cmd[0];        /* io_uring_cmd 인라인 페이로드 (가변) */
    };
};  /* sizeof = 64 bytes (정확히 1 캐시라인) */

코드 설명

opcodeIORING_OP_* 열거값으로 어떤 I/O 연산을 수행할지 지정합니다. 커널은 이 값을 인덱스로 io_op_defs[] 테이블을 조회하여 핸들러 함수를 호출합니다.
flagsIOSQE_FIXED_FILE은 fd를 등록된 파일 테이블의 인덱스로 해석하게 합니다. IOSQE_IO_LINK는 다음 SQE와 순서 의존성을 형성하고, IOSQE_ASYNC는 항상 io-wq를 통해 비동기 처리하도록 강제합니다.
ioprio블록 레이어(Block Layer)의 I/O 스케줄러(Scheduler)에 전달되는 우선순위(Priority)입니다. CFQ나 BFQ 스케줄러가 이 값을 사용하여 요청 순서를 조정합니다.
fdIOSQE_FIXED_FILE 플래그 없이 사용하면 일반 파일 디스크립터입니다. 플래그가 있으면 io_register_files()로 등록한 고정 파일 테이블의 인덱스로 해석되어 파일 테이블 잠금 없이 접근합니다.
off / addr2read/write 연산에서는 파일 오프셋으로, IORING_OP_URING_CMD에서는 하위 명령 번호(cmd_op)로 사용됩니다. -1이면 현재 파일 위치를 사용합니다.
addr / splice_off_in대부분의 연산에서 사용자 공간 버퍼 주소입니다. IORING_OP_SPLICE에서는 입력 파일의 오프셋으로 재사용됩니다. 커널은 copy_from_user() 없이 이 포인터를 직접 사용하기 위해 고정 버퍼 등록을 권장합니다.
len읽기/쓰기면 바이트 수, readv/writev면 iovec 배열의 원소 수입니다. Provided Buffer 연산에서는 예상 최대 크기 힌트로 사용됩니다.
user_data커널은 이 값을 전혀 해석하지 않고 CQE의 user_data 필드에 그대로 복사합니다. 애플리케이션이 완료된 요청을 식별하는 데 사용하는 불투명한 쿠키(Cookie)입니다.


      buf_index / buf_groupIOSQE_FIXED_BUFFER 플래그와 함께 buf_index를 사용하면 등록된 버퍼를 직접 사용하여 get_user_pages() 오버헤드를 제거합니다. buf_group은 Provided Buffer 그룹에서 커널이 자동으로 버퍼를 선택할 때 지정합니다.
      personalityio_uring_register(IORING_REGISTER_PERSONALITY)로 등록한 자격증명(Credential) 집합의 ID입니다. 0이면 현재 태스크의 자격증명을 그대로 사용합니다.
      cmd[0]SQE128 확장 모드에서만 유효합니다. io_uring_cmd passthrough 시 드라이버(Driver)에 전달할 인라인 페이로드(Payload) 공간으로 사용됩니다 (추가 64바이트).



io_ring_ctx 구조체 필드 상세

io_ring_ctx는 하나의 io_uring 인스턴스 전체 상태를 담는 커널 내부 구조체입니다. 캐시라인 경계에 맞춰 핫(Hot) 필드와 콜드(Cold) 필드를 분리하여 false sharing을 방지합니다.

/* io_uring/io_uring.h — io_ring_ctx 핵심 필드 (v6.8 기준) */
struct io_ring_ctx {
    /* --- 캐시라인 0: 읽기 경로 핫 필드 --- */
    struct {
        struct io_rings         *rings;       /* 공유 링 버퍼: SQ/CQ 헤드·테일 포인터 */
        unsigned int             flags;        /* IORING_SETUP_* 플래그 (초기화 후 읽기 전용) */
        unsigned int             sq_entries;   /* SQ 크기 (2의 거듭제곱) */
        unsigned int             cq_entries;   /* CQ 크기 (기본값 sq_entries * 2) */
        struct io_uring_sqe     *sq_sqes;     /* SQE 배열 베이스 주소 */
        unsigned int             sq_mask;      /* sq_entries - 1: 링 인덱싱용 마스크 */
        unsigned int             cq_mask;      /* cq_entries - 1 */
        unsigned int             cached_sq_head;/* 커널 캐시 SQ head (사용자 공간 직접 접근 방지) */
    } ____cacheline_aligned_in_smp;

    /* --- 쓰기 경로 및 완료 경로 필드 --- */
    struct list_head         inflight_list; /* 진행 중인 비동기 요청 목록 */
    struct io_wq_work_list   locked_free_list; /* 완료 후 해제 대기 중인 요청 목록 */

    /* --- 워커 및 SQPOLL --- */
    struct io_sq_data        *sq_data;     /* SQPOLL 커널 스레드 데이터 */
    struct io_wq             *io_wq;       /* 비동기 I/O 워커 스레드 풀 */
    struct task_struct       *submitter_task;/* 링을 소유한 태스크(Task) */

    /* --- 리소스 등록 --- */
    struct io_rsrc_data      *file_data;   /* io_register_files()로 등록된 고정 파일 테이블 */
    struct io_rsrc_data      *buf_data;    /* io_register_buffers()로 등록된 고정 버퍼 테이블 */
    struct xarray            personalities;/* 등록된 자격증명(Personality) 집합 */

    /* --- 완료 큐 및 eventfd --- */
    struct io_ev_fd           *io_ev_fd;    /* eventfd 알림 핸들 */
    unsigned int             cached_cq_tail;/* 커널 캐시 CQ tail */
    unsigned int             cq_overflow;  /* CQ 오버플로 발생 횟수 카운터 */
    struct list_head         cq_overflow_list;/* 오버플로 CQE 임시 저장 리스트 */

    /* --- 잠금 및 동기화 --- */
    struct mutex             uring_lock;   /* 링 전반 뮤텍스(Mutex): 등록 연산 직렬화 */
    struct wait_queue_head   cq_wait;      /* io_uring_enter() 완료 대기 큐 */
    struct io_restriction    restrictions; /* 허용 opcode 비트맵 (샌드박스) */

    /* --- NUMA 및 메모리 --- */
    struct user_struct       *user;        /* 링 소유자 사용자 계정 정보 */
    struct mm_struct         *mm_account;  /* 고정 버퍼 핀(Pin)을 위한 mm 참조 */
    int                      node;         /* NUMA 노드 번호 (메모리 할당 지역화) */
};

  코드 설명
  
    
      ringsstruct io_rings는 사용자 공간과 공유되는 실제 링 버퍼 헤더입니다. SQ/CQ의 head·tail 원자적(Atomic) 포인터, 링 크기, 오버플로 플래그가 여기 들어 있으며 mmap(IORING_OFF_SQ_RING)으로 사용자에게 매핑됩니다.
      flagsio_uring_setup()에 전달된 io_uring_params.flags에서 복사됩니다. IORING_SETUP_SQPOLL, IORING_SETUP_IOPOLL, IORING_SETUP_DEFER_TASKRUN 등의 비트가 여기 저장됩니다. 초기화 이후 읽기 전용(Read-Only)으로 취급됩니다.
      sq_mask / cq_mask링 인덱싱 시 index & mask 연산으로 나머지(Modulo) 연산을 대체합니다. 크기가 항상 2의 거듭제곱이므로 성능상 중요한 최적화입니다.
      cached_sq_head커널이 캐시하는 SQ head입니다. 사용자 공간이 직접 SQ head를 수정하지 못하도록 커널 쪽 복사본을 별도로 유지합니다. 이를 통해 사용자 공간의 잘못된 쓰기로부터 커널 상태를 보호합니다.
      sq_data / io_wqsq_data는 IORING_SETUP_SQPOLL 활성화 시에만 할당됩니다. io_wq는 모든 링에 공통으로 생성되는 비동기 워커 풀입니다. 동일 프로세스의 여러 링은 같은 io_wq를 공유할 수 있습니다.
      file_data / buf_data각각 io_uring_register(IORING_REGISTER_FILES)와 IORING_REGISTER_BUFFERS로 등록한 리소스입니다. 등록된 파일은 파일 테이블 참조 카운트(Reference Count) 변경 없이 직접 접근되어 fget() 비용을 절감합니다.
      uring_lock링 등록 연산(io_uring_register()), CQ 오버플로 처리, 리소스 해제 등 느린 경로에서 사용됩니다. 성능이 중요한 제출/완료 경로(io_submit_sqes)는 이 잠금을 사용하지 않습니다.
      cq_waitio_uring_enter(flags=IORING_ENTER_GETEVENTS)에서 완료 이벤트를 기다리는 태스크들이 이 대기 큐(Wait Queue)에 등록됩니다. CQE가 게시될 때 wake_up()으로 깨워집니다.
      mm_account고정 버퍼(IORING_REGISTER_BUFFERS) 사용 시 사용자 페이지를 get_user_pages()로 핀(Pin)합니다. 이때 mm_struct 참조를 저장해 두어 링이 살아있는 동안 페이지가 교체되지 않도록 보장합니다.
      node링 생성 시 IORING_SETUP_SQE128 플래그나 NUMA 어피니티 설정에 따라 결정되는 NUMA 노드 번호입니다. SQE/CQE 배열, io_kiocb 슬랩(Slab) 캐시가 이 노드에 우선 할당됩니다.
    
  


io_submit_sqes() 소스 분석

io_submit_sqes()는 io_uring_enter()가 호출될 때마다 실행되는 메인 제출 루프입니다. SQ 링에서 SQE를 꺼내 io_kiocb로 변환한 뒤 io_issue_sqe()에 전달합니다.

/* io_uring/io_uring.c — io_submit_sqes() 핵심 경로 */
static int io_submit_sqes(struct io_ring_ctx *ctx, unsigned int nr)
{
    unsigned int entries = io_sqring_entries(ctx);  /* 사용 가능한 SQE 수 계산 */
    unsigned int left = min(nr, entries);            /* 요청 수와 가용 수 중 작은 값 */
    int ret = 0;

    while (left) {
        struct io_kiocb *req;
        const struct io_uring_sqe *sqe;

        if (unlikely(!io_alloc_req(ctx, &req)))  /* slab 캐시에서 io_kiocb 할당 */
            break;                                /* 할당 실패 시 처리 중단 */

        sqe = io_get_sqe(ctx);                    /* SQ에서 다음 SQE 포인터 반환 */
        if (unlikely(!sqe)) {
            io_req_add_to_cancel_list(req);
            break;
        }

        /* SQE 파싱: opcode 검증, 플래그 적용, 필드 복사 */
        ret = io_init_req(ctx, req, sqe);
        if (unlikely(ret)) {
            io_req_complete_failed(req, ret);     /* 파싱 실패: 즉시 에러 CQE 게시 */
            break;
        }

        io_submit_state_inc(&ctx->submit_state);  /* 배치(Batch) 카운터 증가 */
        ret = io_issue_sqe(req, 0);              /* 실제 I/O 발급 */

        if (unlikely(ret && ret != -EAGAIN)) {
            io_req_complete_failed(req, ret);
            break;
        }
        left--;
    }

    io_submit_state_end(ctx);                     /* 배치 완료: 지연된 CQE 플러시 */
    return nr - left;                             /* 실제 제출된 SQE 수 반환 */
}

  코드 설명
  
    
      io_sqring_entries()공유 SQ 링의 tail에서 커널이 캐시한 head를 뺀 값으로, 사용자가 아직 처리하지 않은 SQE 수를 계산합니다. 메모리 배리어(smp_load_acquire)로 사용자 공간의 tail 쓰기를 가시화합니다.
      min(nr, entries)io_uring_enter()에 요청된 수(nr)와 실제 가용한 SQE 수 중 작은 값으로 루프 횟수를 제한합니다. 과도한 제출 시도를 방어합니다.
      io_alloc_req()per-CPU 슬랩 캐시에서 io_kiocb를 할당합니다. 할당 실패 시 루프를 빠져나오며, 이미 초기화된 요청들은 계속 처리됩니다. 실패는 ENOMEM이 아닌 nr - left 반환으로 표현됩니다.
      io_get_sqe()SQ 간접 인덱스 배열(sq_array)을 통해 실제 SQE 포인터를 반환합니다. cached_sq_head++로 head를 전진시켜 이 SQE의 소비를 예약합니다.
      io_init_req()SQE의 opcode 범위 검사, flags 검증, fd 참조 획득, user_data 복사를 수행합니다. 실패 시 즉시 에러 CQE를 게시하고 루프를 중단합니다. 여기서의 실패는 사용자 프로그래밍 오류를 의미합니다.
      io_submit_state_inc()배치 제출 상태 머신을 업데이트합니다. 일정 수 이상의 SQE가 처리될 때까지 CQE 게시를 지연시켜 캐시 효율을 높입니다.
      io_issue_sqe(req, 0)두 번째 인수 0은 issue_flags로, 인라인 실행(IOPOLL 없음, 비강제 비동기) 모드를 의미합니다. 반환값 -EAGAIN은 정상적인 비동기 오프로딩을 의미하므로 에러로 처리하지 않습니다.
      io_submit_state_end()배치가 끝났음을 알리고, 지연된 CQE들을 한꺼번에 플러시(Flush)합니다. 이 시점에서 eventfd/대기 큐 알림도 한 번만 발행되어 알림 오버헤드를 줄입니다.
      return nr - left요청된 수에서 처리하지 못한 수를 뺀 값 — 실제로 발급된 SQE 수 — 를 반환합니다. io_uring_enter()는 이 값을 사용자 공간에 반환합니다.
    
  


io_issue_sqe() 소스 분석

io_issue_sqe()는 opcode에 따라 적절한 핸들러 함수를 호출하는 디스패처(Dispatcher)입니다. io_op_defs[] 테이블을 기반으로 동작하며, 핸들러 반환 값에 따라 즉시 완료, 비동기 오프로딩, 에러 처리 경로를 선택합니다.

/* io_uring/io_uring.c — io_issue_sqe() 핵심 경로 */
static int io_issue_sqe(struct io_kiocb *req, unsigned int issue_flags)
{
    const struct io_issue_def *def = &io_issue_defs[req->opcode];
    int ret;

    /* 권한(Permission) 및 restrictions 비트맵 검사 */
    if (unlikely(!io_check_restriction(req->ctx, req, req->opcode)))
        return -EACCES;

    /* opcode 정의 테이블의 prep 함수로 추가 파라미터 준비 */
    if (def->prep_async) {
        ret = def->prep_async(req);
        if (unlikely(ret))
            return ret;
    }

    /* 실제 I/O 핸들러 호출 */
    ret = def->issue(req, issue_flags);

    if (ret == IOU_OK) {
        /* 즉시 완료: task_work 경로로 CQE 게시 */
        io_req_task_queue(req);
        return 0;
    }

    if (ret == IOU_ISSUE_SKIP_COMPLETE) {
        /* 핸들러가 완료를 직접 처리 (multishot, poll add 등) */
        return 0;
    }

    if (likely(ret == -EAGAIN)) {
        /* 비동기 필요: io-wq 또는 poll 대기 경로로 전환 */
        io_queue_async(req, ret);
        return 0;
    }

    /* 실제 에러: 에러 CQE를 즉시 게시하고 요청 해제 */
    io_req_complete_failed(req, ret);
    return ret;
}

  코드 설명
  
    
      io_issue_defs[]각 IORING_OP_* opcode에 대한 핸들러와 메타데이터가 들어있는 정적 테이블입니다. 각 항목은 prep(준비), issue(실행), prep_async(비동기 준비) 함수 포인터와 함께 플래그(버퍼 필요 여부, 파일 필요 여부 등)를 포함합니다.
      io_check_restriction()IORING_REGISTER_RESTRICTIONS로 설정된 opcode 비트맵(Bitmap)을 검사합니다. 샌드박스(Sandbox) 환경에서 허용되지 않은 opcode 사용을 -EACCES로 차단합니다.
      def->prep_async()비동기 실행이 필요할 경우를 대비해 사용자 공간 포인터를 커널 버퍼로 미리 복사하거나 추가 메모리를 할당합니다. io-wq 워커는 원본 태스크의 메모리 맵(Memory Map)에 접근하지 못할 수 있기 때문입니다.
      def->issue()실제 연산 핸들러입니다. 예를 들어 IORING_OP_READ의 경우 io_read() → vfs_read() → 블록 레이어로 이어지는 호출이 여기서 시작됩니다.
      IOU_OK핸들러가 동기적으로 성공했음을 나타내는 특수 반환값입니다. io_req_task_queue()를 통해 task_work 메커니즘으로 CQE를 게시합니다. 직접 CQE를 쓰지 않고 task_work를 경유하는 이유는 시그널 안전성과 DEFER_TASKRUN 지원 때문입니다.
      IOU_ISSUE_SKIP_COMPLETE멀티샷(Multishot) poll, MSG_RING 등 핸들러가 자체적으로 CQE 게시를 관리하는 경우 사용하는 특수값입니다. 상위 레이어가 중복 처리하지 않도록 알립니다.
      -EAGAIN → io_queue_async()파일이 블로킹 상태이거나 즉시 완료가 불가능할 때 핸들러가 -EAGAIN을 반환합니다. io_queue_async()는 요청을 io-wq 큐에 넣거나 poll wait에 등록합니다. IOSQE_ASYNC 플래그가 있으면 항상 이 경로를 선택합니다.
      io_req_complete_failed()실제 에러가 발생한 경우 음수 errno를 CQE의 res 필드에 담아 즉시 게시하고 io_kiocb를 해제합니다. 이 시점에서 에러는 사용자 공간에서 cqe->res < 0으로 확인됩니다.
    
  


io_cqring_ev_posted() 소스 분석

io_cqring_ev_posted()는 CQE를 CQ 링에 기록한 직후 호출되어, 대기 중인 사용자 공간 스레드들을 깨우고 eventfd 알림을 발송하는 완료 알림 함수입니다.

/* io_uring/io_uring.c — io_cqring_ev_posted() */
static inline void io_cqring_ev_posted(struct io_ring_ctx *ctx)
{
    /*
     * 메모리 배리어: CQE tail 업데이트가 대기 큐 확인보다 먼저 가시화.
     * io_uring_enter(GETEVENTS)가 배리어 없이 tail을 읽어 이른 깨움을 방지.
     */
    if (waitqueue_active(&ctx->cq_wait))     /* 대기 큐에 잠든 태스크가 있으면 */
        wake_up_all(&ctx->cq_wait);           /* 모든 대기 태스크 깨움 */

    if (ctx->sq_data && waitqueue_active(&ctx->sq_data->wait))
        wake_up(&ctx->sq_data->wait);        /* SQPOLL 스레드 슬립 해제 */

    if (io_should_trigger_evfd(ctx))          /* eventfd 구독자가 있으면 */
        eventfd_signal(ctx->io_ev_fd->cq_ev_fd, 1);/* epoll-readable 이벤트 발생 */
}

/* io_should_trigger_evfd() — eventfd 알림 조건 판단 */
static bool io_should_trigger_evfd(struct io_ring_ctx *ctx)
{
    const struct io_ev_fd *ev_fd = ctx->io_ev_fd;

    if (likely(!ev_fd))                       /* eventfd 미등록: 빠른 경로 */
        return false;
    if (READ_ONCE(ev_fd->refs) <= 0)         /* 이미 해제 중인 eventfd */
        return false;
    if (ev_fd->eventfd_async &&               /* async 전용 등록인 경우 */
        !io_get_task_refs(1))                  /* task_work 경유 완료가 아니면 스킵 */
        return false;
    return true;
}

  코드 설명
  
    
      waitqueue_active(&ctx->cq_wait)io_uring_enter(IORING_ENTER_GETEVENTS)를 호출하고 잠든 사용자 스레드들이 등록된 대기 큐를 확인합니다. 대기 중인 태스크가 없으면 함수 호출 자체를 생략하는 분기 예측(Branch Prediction) 최적화가 적용됩니다.
      wake_up_all()지정된 수의 CQE를 기다리던 모든 태스크를 깨웁니다. 개별 태스크가 충분한 CQE를 받았는지 재확인하는 로직은 스케줄러 레이어가 아닌 대기 조건 함수에서 처리합니다.
      sq_data->waitSQPOLL 스레드는 새 SQE가 없을 때 이 대기 큐에서 슬립합니다. CQE가 게시되는 시점이 아닌 SQE 제출 시점에 깨워야 하므로 이 코드 경로는 SQPOLL 연동 시나리오에서만 유효합니다.
      io_should_trigger_evfd()매번 eventfd 시그널을 발생시키면 epoll을 사용하는 이벤트 루프와 통합 시 불필요한 시스템 콜이 많아집니다. 이 함수는 실제로 eventfd가 등록되어 있고 유효한 경우에만 true를 반환합니다.
      eventfd_signal()eventfd 카운터를 1 증가시킵니다. epoll_wait()나 select()로 이 eventfd를 감시 중인 스레드가 깨어납니다. io_uring을 기존 epoll 기반 이벤트 루프에 통합할 때 핵심 연동 지점입니다.
      eventfd_asyncIORING_REGISTER_EVENTFD_ASYNC로 등록된 경우 true입니다. 이 모드에서는 인라인으로 완료된 요청은 eventfd를 트리거하지 않고, io-wq나 task_work를 통해 완료된 요청만 트리거합니다. 불필요한 epoll 깨움을 줄이는 데 유용합니다.
    
  


io_uring_setup() 소스 분석

io_uring_setup()은 io_uring 인스턴스의 핵심 자료구조인 io_ring_ctx를 할당하고, SQ/CQ 링 버퍼를 초기화하며, mmap 가능한 메모리 영역을 준비하는 시스템 콜 진입점(Entry Point)입니다.

/* io_uring/io_uring.c — io_uring_setup() 핵심 경로 */
static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
{
    struct io_uring_params p;
    struct io_ring_ctx *ctx;
    int ret;

    if (copy_from_user(&p, params, sizeof(p)))
        return -EFAULT;

    /* entries 유효성 검증: 1~IORING_MAX_ENTRIES 범위, 2의 거듭제곱으로 올림 */
    if (!entries || entries > IORING_MAX_ENTRIES)
        return -EINVAL;
    entries = roundup_pow_of_two(entries);

    /* io_ring_ctx 할당 및 초기화 */
    ctx = io_ring_ctx_alloc(&p);
    if (!ctx)
        return -ENOMEM;

    ctx->flags = p.flags;
    ctx->sq_entries = entries;

    /* CQ 크기 결정: CQSIZE 플래그 시 사용자 지정, 아니면 SQ의 2배 */
    if (p.flags & IORING_SETUP_CQSIZE) {
        if (!p.cq_entries || p.cq_entries > IORING_MAX_CQ_ENTRIES)
            goto err;
        ctx->cq_entries = roundup_pow_of_two(p.cq_entries);
    } else {
        ctx->cq_entries = 2 * entries;  /* 기본: SQ의 2배 */
    }

    /* SQ/CQ 링 버퍼와 SQE 배열 할당 */
    ret = io_allocate_scq_urings(ctx, &p);
    if (ret)
        goto err;

    /* SQPOLL 스레드 생성 (요청 시) */
    if (p.flags & IORING_SETUP_SQPOLL) {
        ret = io_sq_offload_create(ctx, &p);
        if (ret)
            goto err;
    }

    /* io-wq 워커 풀 초기화 (또는 ATTACH_WQ로 기존 풀 공유) */
    if (p.flags & IORING_SETUP_ATTACH_WQ) {
        ret = io_attach_wq(ctx, &p);
    } else {
        ret = io_init_wq(ctx);
    }
    if (ret)
        goto err;

    /* anon fd 생성: 사용자 공간에 ring_fd 반환 */
    ret = io_uring_install_fd(ctx, &p);
    if (ret < 0)
        goto err;

    /* 커널이 채운 정보를 사용자에게 반환: SQ/CQ 오프셋, 기능 플래그 */
    copy_to_user(params, &p, sizeof(p));
    return ret;  /* ring_fd 반환 */

err:
    io_ring_ctx_free(ctx);
    return ret;
}

  코드 설명
  
    
      copy_from_user()사용자 공간에서 io_uring_params 구조체를 커널 스택으로 복사합니다. params는 입출력(I/O) 겸용으로, 사용자가 flags를 설정하고 커널이 sq_off/cq_off 오프셋과 features 비트마스크를 채워 반환합니다.
      roundup_pow_of_two()SQ/CQ 크기를 2의 거듭제곱으로 올림합니다. 링 버퍼의 인덱스를 & ring_mask 비트 AND 연산으로 O(1) 래핑할 수 있게 합니다. 나머지 연산(%) 대비 CPU 사이클을 절약합니다.
      io_ring_ctx_alloc()io_ring_ctx 구조체를 kzalloc()로 할당합니다. 캐시라인 정렬(____cacheline_aligned_in_smp)이 적용된 필드들은 SQ/CQ 경로에서 서로 다른 캐시라인에 배치되어 false sharing을 방지합니다. 대기 큐, 잠금, 카운터 등의 초기화도 여기서 수행됩니다.
      cq_entries = 2 * entriesCQ를 SQ의 2배로 할당하는 이유는 multishot 연산(accept, recv)이 하나의 SQE에서 여러 CQE를 생성할 수 있고, 오버플로(Overflow) 여유 공간을 확보하기 위함입니다. IORING_SETUP_CQSIZE 플래그로 사용자가 직접 크기를 지정할 수도 있습니다.
      io_allocate_scq_urings()SQ 링(io_rings + sq_array[]), CQ 링(io_uring_cqe[]), SQE 배열(io_uring_sqe[])을 물리적으로 연속된 페이지에 할당합니다. 이 메모리는 mmap()으로 사용자 공간에 매핑됩니다. 커널 5.4+ 에서는 SQ와 CQ 링이 하나의 mmap 영역을 공유하여 mmap() 호출을 2회로 줄입니다.
      io_sq_offload_create()SQPOLL 모드 요청 시 io_sq_thread()를 실행하는 전용 커널 스레드를 생성합니다. sq_thread_cpu가 지정되면 해당 CPU에 어피니티(Affinity)를 설정하고, sq_thread_idle 밀리초 동안 작업이 없으면 슬립합니다.
      io_attach_wq()IORING_SETUP_ATTACH_WQ 플래그와 함께 기존 ring의 fd가 wq_fd에 전달되면, 새 ring이 기존 ring의 io-wq 워커 풀을 공유합니다. Multi-ring 패턴에서 워커 스레드 수를 통제하는 데 사용됩니다.
      io_uring_install_fd()익명 파일 디스크립터(anon fd)를 생성하고 현재 프로세스의 fd 테이블에 설치합니다. 이 fd의 file_operations에는 mmap(링 매핑), poll(epoll 통합), release(정리) 핸들러가 등록됩니다.
      copy_to_user()커널이 채운 정보를 사용자 공간으로 반환합니다. sq_off/cq_off는 mmap 영역 내의 오프셋 정보이고, features는 커널이 지원하는 기능 비트마스크(IORING_FEAT_SINGLE_MMAP, IORING_FEAT_NODROP 등)입니다.
    
  


io_allocate_scq_urings() 링 메모리 할당 분석

io_allocate_scq_urings()는 SQ/CQ 링 버퍼와 SQE 배열의 물리 메모리(Physical Memory)를 할당하고, 사용자 공간 mmap()을 위한 구조를 준비하는 핵심 함수입니다.

/* io_uring/io_uring.c — 링 메모리 할당 핵심 경로 */
static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
                                   struct io_uring_params *p)
{
    struct io_rings *rings;
    size_t sq_array_size, rings_size, sqes_size;

    /* 1. 공유 링 헤더(io_rings) + SQ 간접 배열 + CQE 배열 크기 계산 */
    sq_array_size = (p->flags & IORING_SETUP_NO_SQARRAY)
                    ? 0
                    : ctx->sq_entries * sizeof(u32);

    rings_size = sizeof(struct io_rings)
               + sq_array_size
               + ctx->cq_entries * sizeof(struct io_uring_cqe);

    /* CQE32 모드: CQE 크기가 32바이트로 2배 */
    if (p->flags & IORING_SETUP_CQE32)
        rings_size += ctx->cq_entries * sizeof(struct io_uring_cqe);

    rings = io_mem_alloc(rings_size);  /* 물리 연속 페이지 할당 */
    if (IS_ERR(rings))
        return PTR_ERR(rings);

    ctx->rings = rings;
    ctx->sq_ring_mask = ctx->sq_entries - 1;   /* 비트 AND 마스크 */
    ctx->cq_ring_mask = ctx->cq_entries - 1;

    /* 2. SQE 배열은 별도 mmap 영역으로 할당 */
    sqes_size = ctx->sq_entries * sizeof(struct io_uring_sqe);
    if (p->flags & IORING_SETUP_SQE128)
        sqes_size *= 2;  /* SQE128: 128바이트로 확장 */

    ctx->sq_sqes = io_mem_alloc(sqes_size);
    if (IS_ERR(ctx->sq_sqes))
        return PTR_ERR(ctx->sq_sqes);

    /* 3. 사용자 공간에 반환할 mmap 오프셋 정보 설정 */
    p->sq_off.head       = offsetof(struct io_rings, sq.head);
    p->sq_off.tail       = offsetof(struct io_rings, sq.tail);
    p->sq_off.ring_mask  = offsetof(struct io_rings, sq_ring_mask);
    p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
    p->sq_off.flags      = offsetof(struct io_rings, sq_flags);
    p->sq_off.dropped    = offsetof(struct io_rings, sq_dropped);
    p->sq_off.array      = offsetof(struct io_rings, sq_array);

    p->cq_off.head       = offsetof(struct io_rings, cq.head);
    p->cq_off.tail       = offsetof(struct io_rings, cq.tail);
    p->cq_off.cqes       = offsetof(struct io_rings, cqes);

    return 0;
}

  코드 설명
  
    
      IORING_SETUP_NO_SQARRAY커널 6.7+에서 도입된 최적화입니다. SQ 간접 인덱스 배열(sq_array[])을 생략하여 sq_entries × 4바이트의 메모리를 절약합니다. 대부분의 애플리케이션이 SQE를 순차적으로 사용하므로 간접 인덱싱이 불필요한 경우에 효과적입니다.
      io_mem_alloc()물리적으로 연속된 페이지를 할당합니다. 크기가 작으면 kmalloc(), 크면 vmalloc() + __GFP_COMP를 사용합니다. mmap 가능하려면 물리 페이지가 연속적이거나 vm_ops의 fault 핸들러로 개별 페이지를 매핑해야 합니다.
      sq_ring_mask = sq_entries - 12의 거듭제곱 크기 덕분에 index & mask 연산으로 순환 인덱스를 계산합니다. 이 마스크 값은 공유 메모리의 io_rings 헤더에 기록되어 사용자 공간에서도 동일한 비트 AND 연산을 사용합니다.
      SQE 별도 mmapSQE 배열은 SQ/CQ 링과 별도의 mmap 영역(IORING_OFF_SQES)에 할당됩니다. SQE는 64(또는 128)바이트 고정 크기로, SQ 엔트리 수와 동일한 개수만큼 할당됩니다. SQ 간접 배열의 인덱스가 이 배열을 가리킵니다.
      sq_off / cq_off커널이 io_rings 구조체 내의 각 필드 오프셋을 사용자에게 반환합니다. 사용자 공간은 mmap된 베이스 주소에 이 오프셋을 더해 head, tail, ring_mask 등에 접근합니다. 이 간접 방식 덕분에 구조체 레이아웃이 커널 버전에 따라 바뀌어도 사용자 코드가 깨지지 않습니다.
    
  


io_sq_thread() SQPOLL 구현 분석

io_sq_thread()는 SQPOLL 모드에서 동작하는 전용 커널 스레드의 메인 루프입니다. 사용자 공간의 시스템 콜 없이 SQ 링을 지속적으로 폴링하며 I/O를 처리합니다.

/* io_uring/sqpoll.c — io_sq_thread() 핵심 경로 */
static int io_sq_thread(void *data)
{
    struct io_sq_data *sqd = data;
    unsigned long timeout = 0;

    while (!io_sqd_events_pending(sqd)) {
        bool cap_entries, sqt_spin = false;
        int ret;

        /* 이 sqd에 연결된 모든 io_ring_ctx를 순회 */
        list_for_each_entry(ctx, &sqd->ctx_list, sqd_list) {
            /* SQ 링에 새 SQE가 있는지 확인 */
            unsigned int entries = io_sqring_entries(ctx);

            if (!entries)
                continue;

            /* SQE가 있으면 io_submit_sqes()로 처리 */
            mutex_lock(&ctx->uring_lock);
            ret = io_submit_sqes(ctx, entries);
            mutex_unlock(&ctx->uring_lock);

            if (ret > 0)
                sqt_spin = true;  /* 작업 처리함: 계속 폴링 */
        }

        /* IOPOLL 모드인 경우 완료도 폴링 */
        list_for_each_entry(ctx, &sqd->ctx_list, sqd_list)
            io_iopoll_try_reap_events(ctx);

        if (sqt_spin) {
            timeout = jiffies + sqd->sq_thread_idle;
            continue;  /* 스핀 계속 */
        }

        /* sq_thread_idle 시간 동안 새 SQE가 없으면 슬립 */
        if (time_after(jiffies, timeout)) {
            /* NEED_WAKEUP 플래그 설정 → 사용자에게 깨움 필요 알림 */
            io_sqd_update_thread_idle(sqd);
            WRITE_ONCE(ctx->rings->sq_flags,
                       ctx->rings->sq_flags | IORING_SQ_NEED_WAKEUP);

            /* 슬립 전 한 번 더 확인 (경합 조건 방어) */
            smp_mb();
            if (!io_sqring_entries(ctx)) {
                schedule();        /* 슬립 → WAKEUP 시그널 대기 */
            }

            /* 깨어남: NEED_WAKEUP 플래그 해제 */
            WRITE_ONCE(ctx->rings->sq_flags,
                       ctx->rings->sq_flags & ~IORING_SQ_NEED_WAKEUP);
            timeout = jiffies + sqd->sq_thread_idle;
        }
    }
    return 0;
}

  코드 설명
  
    
      io_sq_dataSQPOLL 스레드의 상태를 관리하는 구조체입니다. ctx_list에 이 스레드가 서비스하는 모든 io_ring_ctx가 연결됩니다. 하나의 SQPOLL 스레드가 여러 ring을 처리할 수 있어 리소스를 절약합니다.
      io_sqd_events_pending()스레드 종료 요청(SIGKILL, ring 해제)이나 sq_data 재설정 이벤트를 확인합니다. 펜딩 이벤트가 있으면 루프를 빠져나와 정리 후 스레드를 종료합니다.
      ctx_list 순회IORING_SETUP_ATTACH_WQ나 동일 SQPOLL 스레드를 공유하는 여러 ring의 io_ring_ctx를 순회합니다. 각 ring의 SQ를 독립적으로 확인하여, 여러 ring이 하나의 커널 스레드로 서비스됩니다.
      io_sqring_entries()공유 메모리의 SQ tail과 커널이 캐시한 head 간 차이로 미처리 SQE 수를 계산합니다. smp_load_acquire()로 사용자 공간의 tail 쓰기를 가시화합니다.
      mutex_lock(&ctx->uring_lock)SQPOLL 스레드와 io_uring_enter()를 동시에 호출하는 사용자 스레드 간의 동시성을 보호합니다. SINGLE_ISSUER 플래그가 설정되면 이 잠금이 불필요하여 경합(Contention)이 제거됩니다.
      io_iopoll_try_reap_events()IORING_SETUP_IOPOLL이 함께 설정된 경우, 블록 디바이스의 완료 큐를 폴링하여 인터럽트 없이 CQE를 수확합니다. SQPOLL + IOPOLL 조합은 시스템 콜 0회 + 인터럽트 0회의 완전한 폴링 경로를 구현합니다.
      IORING_SQ_NEED_WAKEUP슬립 전에 공유 메모리의 sq_flags에 이 플래그를 설정합니다. 사용자 공간은 io_uring_sq_ring_needs_wakeup()로 이 플래그를 확인하고, 설정되어 있으면 io_uring_enter(IORING_ENTER_SQ_WAKEUP)을 호출하여 스레드를 깨웁니다.
      smp_mb() 배리어NEED_WAKEUP 플래그 설정과 SQ 엔트리 재확인 사이의 메모리 배리어입니다. 이 배리어 없이는 "사용자가 SQE를 넣었지만 NEED_WAKEUP을 보고 깨움 → 스레드는 SQE를 못 보고 슬립" 경합이 발생할 수 있습니다.
      schedule()커널 스케줄러에 CPU를 양보(Yield)하고 슬립합니다. io_uring_enter(IORING_ENTER_SQ_WAKEUP) 호출로 대기 큐가 시그널되면 깨어납니다. 유휴 시간이 길면 CPU를 절약하지만, 깨어나는 데 수 마이크로초가 소요됩니다.
    
  


io_read() 핸들러 구현 분석

io_read()는 IORING_OP_READ/IORING_OP_READV의 실제 핸들러로, VFS 레이어를 통해 파일 읽기를 수행합니다. 즉시 완료와 비동기 오프로딩 경로를 모두 처리하며, retry 로직으로 short read를 관리합니다.

/* io_uring/rw.c — io_read() 핵심 경로 */
int io_read(struct io_kiocb *req, unsigned int issue_flags)
{
    struct io_rw *rw = io_kiocb_to_cmd(req, struct io_rw);
    struct kiocb *kiocb = &rw->kiocb;
    bool force_nonblock = issue_flags & IO_URING_F_NONBLOCK;
    ssize_t ret;
    loff_t *ppos;

    /* 1. kiocb 초기화: 파일, 오프셋, 플래그 설정 */
    ret = io_rw_init_file(req, FMODE_READ);
    if (unlikely(ret))
        return ret;

    /* 인라인 실행 시 논블로킹 플래그 설정 */
    if (force_nonblock)
        kiocb->ki_flags |= IOCB_NOWAIT;

    /* 2. iov_iter 준비: 사용자 버퍼 또는 고정 버퍼 설정 */
    ret = io_import_iovec(ITER_DEST, req, &rw->s, issue_flags);
    if (unlikely(ret < 0))
        return ret;

    /* Provided buffer 선택 (IOSQE_BUFFER_SELECT) */
    if (req->flags & REQ_F_BUFFER_SELECT) {
        ret = io_rw_buffer_select(req, &rw->s, issue_flags);
        if (ret)
            return ret;
    }

    /* 3. VFS 읽기 호출 */
    ppos = io_kiocb_ppos(kiocb);
    ret = vfs_iocb_iter_read(req->file, kiocb, &rw->s.iter);

    if (ret == -EAGAIN) {
        /* 파일이 아직 준비되지 않음 → 비동기 오프로딩 필요 */
        if (force_nonblock)
            return -EAGAIN;  /* io-wq로 전달됨 */
    }

    if (ret == -EIOCBQUEUED) {
        /* 비동기 DIO: 블록 레이어가 완료 콜백으로 알림 예정 */
        return IOU_ISSUE_SKIP_COMPLETE;
    }

    /* 4. Short read 처리: 요청 크기보다 적게 읽힌 경우 */
    if (ret > 0 && ret < req->cqe.res) {
        /* 파일 끝이 아니면 retry — iov_iter를 전진시키고 재시도 */
        if (!(io_file_can_poll(req) || (kiocb->ki_flags & IOCB_NOWAIT))) {
            rw->bytes_done += ret;
            return -EAGAIN;  /* io-wq에서 남은 부분 retry */
        }
    }

    /* 5. 완료 */
    io_req_set_res(req, ret, 0);
    return IOU_OK;
}

  코드 설명
  
    
      io_kiocb_to_cmd()io_kiocb 뒤에 인라인으로 배치된 opcode별 데이터(struct io_rw)에 접근합니다. 별도 메모리 할당 없이 캐시 친화적으로 요청 데이터를 관리하는 방식입니다.
      io_rw_init_file()파일의 읽기 권한(FMODE_READ)을 검증하고, kiocb를 초기화합니다. 고정 파일(IOSQE_FIXED_FILE)이면 등록 테이블에서 struct file을 가져오고, 일반 fd면 fget()을 호출합니다.
      IOCB_NOWAIT인라인 실행 경로에서는 블로킹이 허용되지 않으므로 VFS에 비차단 모드를 요청합니다. 파일 시스템이 즉시 데이터를 제공할 수 없으면 -EAGAIN을 반환하여 io-wq로 오프로딩됩니다.
      io_import_iovec()SQE의 addr/len 필드에서 iov_iter를 구성합니다. 고정 버퍼(IORING_OP_READ_FIXED)면 사전 등록된 버퍼를 직접 사용하고, 일반 버퍼면 사용자 공간 주소를 검증합니다. READV opcode의 경우 iovec 배열을 읽습니다.
      io_rw_buffer_select()IOSQE_BUFFER_SELECT 플래그가 설정되면 Provided buffer ring에서 사용 가능한 버퍼를 하나 선택합니다. 커널이 완료 시 사용한 버퍼 ID를 CQE의 flags 필드 상위 비트에 기록합니다.
      vfs_iocb_iter_read()실제 VFS 읽기를 수행합니다. 파일 시스템의 read_iter 콜백(Callback)을 호출하며, 이 콜백은 페이지 캐시(Page Cache)에서 데이터를 반환(buffered I/O)하거나 블록 디바이스에 직접 요청(Direct I/O)합니다.
      -EIOCBQUEUED비동기 Direct I/O가 성공적으로 큐에 들어갔음을 의미합니다. 블록 레이어가 I/O 완료 시 ki_complete 콜백을 호출하여 CQE를 게시합니다. 이 경우 io_uring이 직접 완료를 처리하지 않으므로 IOU_ISSUE_SKIP_COMPLETE를 반환합니다.
      Short read retry요청한 크기보다 적게 읽혔지만 파일 끝이 아닌 경우(예: 페이지 캐시 부분 적중) retry합니다. bytes_done에 이미 읽은 양을 기록하고 -EAGAIN을 반환하면, io-wq 워커가 나머지 부분을 블로킹 모드로 읽습니다.
      io_req_set_res()CQE의 res 필드에 결과값(읽은 바이트 수 또는 음수 errno)을 설정합니다. IOU_OK 반환 후 상위 레이어가 task_work를 통해 CQE를 게시합니다.
    
  


io_alloc_req() 요청 메모리 관리(Memory Management) 분석

io_uring은 매 I/O 요청마다 io_kiocb를 할당해야 합니다. 높은 IOPS에서는 메모리 할당 자체가 병목이 될 수 있으므로, per-ring 프리리스트와 slab 캐시를 조합한 2단계 캐싱 전략을 사용합니다.

/* io_uring/io_uring.c — io_alloc_req() 2단계 캐싱 */
static bool io_alloc_req(struct io_ring_ctx *ctx,
                         struct io_kiocb **req)
{
    struct io_submit_state *state = &ctx->submit_state;

    /* 1단계: per-ring 프리리스트에서 먼저 시도 (가장 빠름) */
    if (!io_req_cache_empty(ctx)) {
        *req = io_extract_req(ctx);  /* 프리리스트 head pop */
        return true;
    }

    /* 2단계: 프리리스트가 비었으면 slab 캐시에서 배치 할당 */
    return __io_alloc_req_refill(ctx);
}

static bool __io_alloc_req_refill(struct io_ring_ctx *ctx)
{
    struct io_submit_state *state = &ctx->submit_state;
    gfp_t gfp = GFP_KERNEL | __GFP_NOWARN;
    int ret, i;

    /* 한 번에 IO_REQ_ALLOC_BATCH(보통 8~32)개를 slab에서 할당 */
    ret = kmem_cache_alloc_bulk(req_cachep, gfp,
                                IO_REQ_ALLOC_BATCH,
                                state->reqs);
    if (unlikely(!ret))
        return false;

    /* 할당된 io_kiocb들을 프리리스트에 추가 */
    for (i = 0; i < ret; i++) {
        struct io_kiocb *req = state->reqs[i];
        io_preinit_req(req, ctx);  /* ctx 포인터, 참조 카운트 초기화 */
    }
    state->free_reqs = ret;
    return true;
}

/* 요청 해제: slab 반환 대신 프리리스트에 되돌림 */
static void io_free_req(struct io_kiocb *req)
{
    struct io_ring_ctx *ctx = req->ctx;

    /* 프리리스트에 반환 → 다음 할당에서 재사용 */
    io_req_put_to_cache(req, ctx);

    /* 프리리스트가 너무 크면 slab에 반환 (메모리 낭비 방지) */
    if (io_req_cache_overfull(ctx))
        io_req_cache_free(ctx);
}

  코드 설명
  
    
      per-ring 프리리스트각 io_ring_ctx가 자체 프리리스트를 유지합니다. SINGLE_ISSUER 모드에서는 단일 스레드만 접근하므로 잠금 없이 push/pop이 가능합니다. slab 캐시 접근보다 10~50배 빠릅니다.
      kmem_cache_alloc_bulk()slab 할당자의 배치 할당 API입니다. 한 번의 호출로 여러 오브젝트를 할당하여 slab 잠금 획득 횟수를 줄입니다. IO_REQ_ALLOC_BATCH는 보통 8~32로, 한 번의 io_uring_enter() 호출에서 처리하는 평균 SQE 수에 맞춰져 있습니다.
      io_preinit_req()새로 할당된 io_kiocb에 ctx 포인터와 참조 카운트를 초기화합니다. opcode별 필드는 io_init_req()에서 SQE 파싱 시 설정되므로, 여기서는 최소한의 초기화만 수행합니다.
      io_req_put_to_cache()완료된 요청을 slab에 반환하지 않고 프리리스트에 되돌립니다. 메모리를 재사용하므로 slab 할당/해제 오버헤드를 제거하고, 이미 캐시에 올라온 메모리를 재활용(Recycling)하여 캐시 적중률을 높입니다.
      io_req_cache_overfull()프리리스트가 일정 수 이상 쌓이면 true를 반환합니다. 짧은 burst 후 유휴 상태(Idle State)가 되면 불필요한 메모리를 점유하게 되므로, 초과분을 slab에 반환하여 시스템 전체의 메모리 효율을 유지합니다.
    
  


io_poll_add() 내부 구현 분석

IORING_OP_POLL_ADD는 파일 디스크립터의 이벤트를 비동기로 감시합니다. epoll과 유사하지만, io_uring의 CQE로 결과가 전달되어 별도의 시스템 콜 없이 이벤트를 수확할 수 있습니다.

/* io_uring/poll.c — io_poll_add() 핵심 경로 */
int io_poll_add(struct io_kiocb *req, unsigned int issue_flags)
{
    struct io_poll *poll = io_kiocb_to_cmd(req, struct io_poll);
    struct io_poll_table ipt;
    __poll_t mask;
    int ret;

    /* 1. poll 테이블 초기화 */
    io_poll_table_init(&ipt, poll);

    /* 2. 파일의 poll 핸들러 호출 → 대기 큐에 등록 */
    mask = vfs_poll(req->file, &ipt.pt);

    /* 3. 이미 이벤트가 준비되어 있으면 즉시 완료 */
    if (mask & poll->events) {
        if (poll->events & IORING_POLL_ADD_MULTI) {
            /* Multishot: CQE 게시 후 계속 감시 */
            io_req_set_res(req, mask, IORING_CQE_F_MORE);
            io_req_task_complete(req);
            return IOU_ISSUE_SKIP_COMPLETE;
        }
        /* Single-shot: 즉시 완료 */
        io_req_set_res(req, mask, 0);
        return IOU_OK;
    }

    /* 4. 이벤트 미발생: 파일의 대기 큐에 콜백 등록 */
    /* → 이벤트 발생 시 io_poll_wake()가 호출됨 */
    return IOU_ISSUE_SKIP_COMPLETE;
}

/* 파일 이벤트 발생 시 호출되는 콜백 */
static int io_poll_wake(struct wait_queue_entry *wait,
                        unsigned mode, int sync, void *key)
{
    struct io_poll *poll = container_of(wait, struct io_poll, wait);
    struct io_kiocb *req = container_of(poll, struct io_kiocb, poll);
    __poll_t mask = key_to_poll(key);

    if (!(mask & poll->events))
        return 0;  /* 관심 이벤트가 아님 */

    if (poll->events & IORING_POLL_ADD_MULTI) {
        /* Multishot: CQE 게시하고 대기 큐에서 제거하지 않음 */
        io_req_set_res(req, mask, IORING_CQE_F_MORE);
        io_req_task_work_add(req);
    } else {
        /* Single-shot: 대기 큐에서 제거 후 CQE 게시 */
        list_del_init(&poll->wait.entry);
        io_req_set_res(req, mask, 0);
        io_req_task_work_add(req);
    }
    return 1;  /* 처리됨 */
}

  코드 설명
  
    
      vfs_poll()파일 시스템이나 소켓의 poll 연산을 호출합니다. 동시에 io_poll_table의 콜백 함수(io_poll_wake)를 파일의 대기 큐에 등록합니다. epoll의 ep_item_poll()과 동일한 메커니즘입니다.
      mask & poll->events현재 파일 상태(mask)와 요청한 이벤트(POLLIN, POLLOUT 등)를 비교합니다. 이미 준비되어 있으면 대기 큐에 등록할 필요 없이 즉시 CQE를 게시합니다.
      IORING_POLL_ADD_MULTIMultishot poll은 한 번의 SQE로 반복적으로 이벤트를 감시합니다. 이벤트 발생 시 CQE에 IORING_CQE_F_MORE 플래그를 설정하고, 대기 큐에서 제거하지 않아 다음 이벤트도 계속 받습니다. epoll의 EPOLLET과 유사한 level-triggered 동작입니다.
      io_poll_wake()파일의 상태가 변경되면(예: 소켓에 데이터 도착) 대기 큐에서 이 콜백이 호출됩니다. IRQ 컨텍스트나 softirq에서 실행될 수 있으므로, io_req_task_work_add()로 CQE 게시를 제출자 태스크로 위임합니다.
      io_req_task_work_add()완료 처리를 제출자 태스크의 task_work 큐에 추가합니다. 이 간접 경로 덕분에 인터럽트 컨텍스트에서 CQ 잠금을 직접 획득하지 않아도 되고, DEFER_TASKRUN 모드에서는 배치 처리가 가능합니다.
    
  


liburing 사용 예제

liburing은 io_uring 시스템 콜의 저수준 복잡성을 추상화하는 헬퍼 라이브러리입니다.

#include <liburing.h>

int main(void) {
    struct io_uring ring;
    struct io_uring_sqe *sqe;
    struct io_uring_cqe *cqe;
    char buf[4096];

    io_uring_queue_init(256, &ring, 0);

    sqe = io_uring_get_sqe(&ring);
    io_uring_prep_read(sqe, fd, buf, sizeof(buf), 0);
    io_uring_sqe_set_data(sqe, my_context);

    io_uring_submit(&ring);

    io_uring_wait_cqe(&ring, &cqe);
    if (cqe->res < 0)
        fprintf(stderr, "I/O error: %s\\n", strerror(-cqe->res));
    else
        printf("Read %d bytes\\n", cqe->res);

    io_uring_cqe_seen(&ring, cqe);
    io_uring_queue_exit(&ring);
    return 0;
}

SQPOLL 모드 설정 예제

SQPOLL 모드를 사용하면 커널 스레드가 SQ를 폴링하여 시스템 콜 없이 I/O를 처리합니다.

#include <liburing.h>

int setup_sqpoll_ring(struct io_uring *ring) {
    struct io_uring_params params;
    memset(&params, 0, sizeof(params));

    params.flags = IORING_SETUP_SQPOLL;
    params.sq_thread_idle = 2000;  /* 2초 유휴 시 슬립 */
    params.sq_thread_cpu = 2;       /* CPU 2번에 고정 (선택) */

    return io_uring_queue_init_params(256, ring, &params);
}

void submit_sqpoll(struct io_uring *ring, int fd) {
    struct io_uring_sqe *sqe;
    char buf[4096];

    sqe = io_uring_get_sqe(ring);
    io_uring_prep_read(sqe, fd, buf, sizeof(buf), 0);

    /* SQPOLL 모드에서는 submit()만으로 충분 (syscall 없음) */
    io_uring_submit(ring);  /* 커널 스레드가 자동 처리 */

    /* 만약 커널 스레드가 슬립했다면 깨워야 함 */
    if (io_uring_sq_ring_needs_wakeup(ring)) {
        io_uring_enter(ring->ring_fd, 0, 0,
                        IORING_ENTER_SQ_WAKEUP, NULL);
    }
}

Multishot Accept 예제

Multishot accept는 하나의 SQE로 여러 연결을 처리합니다 (커널 5.19+).

#include <liburing.h>

int start_multishot_accept(struct io_uring *ring, int listen_fd) {
    struct io_uring_sqe *sqe;

    sqe = io_uring_get_sqe(ring);
    io_uring_prep_multishot_accept(sqe, listen_fd, NULL, NULL, 0);
    io_uring_sqe_set_data(sqe, (void*)(uintptr_t)listen_fd);

    io_uring_submit(ring);

    /* 이벤트 루프 */
    while (1) {
        struct io_uring_cqe *cqe;
        int ret = io_uring_wait_cqe(ring, &cqe);

        if (ret < 0) break;

        if (cqe->res < 0) {
            fprintf(stderr, "Accept error: %s\n", strerror(-cqe->res));
        } else {
            int client_fd = cqe->res;
            printf("Accepted connection: fd=%d\n", client_fd);

            /* 클라이언트 처리... */
            handle_client(ring, client_fd);
        }

        /* Multishot: CQE에 IORING_CQE_F_MORE 플래그가 있으면 계속 accept */
        if (!(cqe->flags & IORING_CQE_F_MORE)) {
            printf("Multishot accept ended, resubmitting...\n");
            start_multishot_accept(ring, listen_fd);
        }

        io_uring_cqe_seen(ring, cqe);
    }
}

Fixed Files 사용 예제

파일 디스크립터를 사전 등록하여 매 I/O마다 fd 조회 오버헤드를 제거합니다.

int use_fixed_files(struct io_uring *ring, int *fds, int nr_files) {
    /* 파일 디스크립터 배열 등록 */
    int ret = io_uring_register_files(ring, fds, nr_files);
    if (ret < 0) return ret;

    /* I/O 수행 시 fixed file index 사용 */
    struct io_uring_sqe *sqe = io_uring_get_sqe(ring);
    char buf[4096];

    io_uring_prep_read(sqe, 0, buf, sizeof(buf), 0);  /* index 0 사용 */
    sqe->flags |= IOSQE_FIXED_FILE;  /* Fixed file 플래그 */

    io_uring_submit(ring);

    /* 정리 */
    io_uring_unregister_files(ring);
    return 0;
}

Multi-ring 패턴

하나의 프로세스에서 여러 io_uring 인스턴스를 사용하면 잠금 경합(Lock Contention) 회피, I/O 유형별 격리(Isolation), NUMA 최적화 등의 이점을 얻을 수 있습니다.


  
  Per-thread ring + ATTACH_WQ 공유 워커 풀 + MSG_RING 링 간 통신


/* Per-thread ring 설정 + ATTACH_WQ로 워커 풀 공유 */
struct io_uring primary_ring, secondary_ring;

/* 1. 메인 ring 생성 (워커 풀 소유) */
struct io_uring_params p1 = {
    .flags = IORING_SETUP_SINGLE_ISSUER
           | IORING_SETUP_DEFER_TASKRUN,
};
io_uring_queue_init_params(256, &primary_ring, &p1);

/* 워커 수 제한: [bounded=8, unbounded=4] */
unsigned int workers[2] = { 8, 4 };
io_uring_register_iowq_max_workers(&primary_ring, workers);

/* 2. 보조 ring 생성 (메인 ring의 워커 풀 공유) */
struct io_uring_params p2 = {
    .flags = IORING_SETUP_SINGLE_ISSUER
           | IORING_SETUP_ATTACH_WQ,
    .wq_fd = primary_ring.ring_fd,  /* 메인 ring의 fd */
};
io_uring_queue_init_params(128, &secondary_ring, &p2);



접근 방식 장점 단점 적합 상황


단일 Ring 단순, 관리 쉬움 멀티스레드 시 잠금 필요 단일 스레드 앱
Per-thread Ring 잠금 없음, SINGLE_ISSUER 가능 워커 풀 분산 멀티스레드 고성능
Per-thread + ATTACH_WQ 잠금 없음 + 워커 풀 공유 약간의 설정 복잡도 멀티스레드 최적 구성
I/O 유형별 Ring 스토리지/네트워크 설정 독립 관리 복잡 혼합 워크로드 (DB 등)




  💡
  
    SINGLE_ISSUER 성능 효과: IORING_SETUP_SINGLE_ISSUER는 단일 태스크만 SQE를 제출함을 커널에 보장하여, 내부 잠금을 제거합니다. Per-thread ring에서 반드시 설정하세요. DEFER_TASKRUN과 함께 사용하면 완료 처리도 일괄적으로 수행되어 최고 효율을 달성합니다.
  


이벤트 루프 설계 패턴

io_uring은 Proactor 패턴(비동기 I/O 완료 통지)을 따르며, epoll의 Reactor 패턴(준비 상태 통지)과 근본적으로 다릅니다.


  
  Reactor (준비 통지) vs Proactor (완료 통지) 이벤트 루프 모델 비교


io_uring 이벤트 루프 스켈레톤

#include <liburing.h>

/* 4단계 이벤트 루프: 준비 → 제출+대기 → 수확 → 디스패치 */
void event_loop(struct io_uring *ring) {
    while (!shutdown_requested) {
        /* 1단계: 새 SQE 준비 (타이머, accept 재등록 등) */
        prepare_pending_ops(ring);

        /* 2단계: 배치 제출 + 최소 1개 완료 대기 */
        io_uring_submit_and_wait(ring, 1);

        /* 3단계: CQE 수확 (배치 처리) */
        struct io_uring_cqe *cqe;
        unsigned head;
        unsigned count = 0;

        io_uring_for_each_cqe(ring, head, cqe) {
            /* 4단계: user_data 기반 디스패치 */
            struct request *req = (struct request *)cqe->user_data;
            switch (req->type) {
            case REQ_ACCEPT:
                handle_accept(ring, cqe); break;
            case REQ_READ:
                handle_read(ring, cqe);   break;
            case REQ_WRITE:
                handle_write(ring, cqe);  break;
            case REQ_TIMEOUT:
                handle_timeout(ring, cqe); break;
            }
            count++;
        }
        io_uring_cq_advance(ring, count);
    }
}

/* user_data 인코딩 전략:
 * - 구조체 포인터: (struct request *)sqe->user_data
 * - 인덱스 + 타입: upper 8bit = type, lower 56bit = index
 * - 태그: 고유 ID로 해시맵에서 컨텍스트 조회
 */

eventfd 통합: 기존 이벤트 루프와 연동

기존 epoll/select 기반 이벤트 루프에 io_uring을 통합하려면, eventfd를 등록하여 CQE 완료 시 epoll에 통지할 수 있습니다.

int efd = eventfd(0, EFD_NONBLOCK);

/* io_uring에 eventfd 등록: CQE 완료 시 efd에 시그널 */
io_uring_register_eventfd(&ring, efd);

/* epoll에 eventfd 추가 */
struct epoll_event ev = { .events = EPOLLIN, .data.fd = efd };
epoll_ctl(epoll_fd, EPOLL_CTL_ADD, efd, &ev);

/* 이벤트 루프에서 io_uring 완료를 epoll로 감지 */
while (1) {
    struct epoll_event events[64];
    int n = epoll_wait(epoll_fd, events, 64, -1);

    for (int i = 0; i < n; i++) {
        if (events[i].data.fd == efd) {
            uint64_t val;
            read(efd, &val, sizeof(val));
            /* io_uring CQE 처리 */
            drain_cqes(&ring);
        } else {
            /* 기존 소켓 이벤트 처리 */
        }
    }
}


  ℹ️
  
    EVENTFD_ASYNC: IORING_REGISTER_EVENTFD_ASYNC를 사용하면 비동기로 완료된 요청에 대해서만 eventfd 시그널이 발생합니다. 동기 완료(즉시 결과 반환) 시에는 시그널이 불필요하므로, 이 옵션으로 불필요한 eventfd 쓰기를 줄일 수 있습니다.
  


성능 비교



I/O 방식 시스템 콜/요청 컨텍스트 스위치 특징


동기 read/write 1 블로킹 시 발생 단순, 저처리량
epoll + 비차단 2+ (epoll_wait + read) 이벤트 기반 네트워크에 적합, 파일 I/O 제한
Linux AIO (io_submit) 2 (submit + getevents) 최소 O_DIRECT 전용, 제한적
io_uring (기본) 1 (io_uring_enter) 최소 범용, 배치 제출
io_uring (SQPOLL) 0 없음 최고 성능, CPU 사용
io_uring (SQPOLL+IOPOLL) 0 없음 극한 저지연 (NVMe)




  💡
  
    NVMe SSD에서 SQPOLL+IOPOLL 모드는 동기 I/O 대비 IOPS 2~5배, 지연 시간 50% 이상 감소를 달성할 수 있습니다. 단, CAP_SYS_NICE 권한이 필요하며 유휴 시에도 CPU를 소비합니다.
  


벤치마크 데이터: libaio vs io_uring

4KB 랜덤 읽기, NVMe SSD (Samsung 980 PRO), QD=128 환경에서 측정한 실제 성능 비교:



I/O 방식 IOPS (K) 평균 지연 (μs) CPU 사용률 (%) 비고


libaio (io_submit) 385 332 82 O_DIRECT 필수
io_uring (기본) 472 271 78 +22.6% IOPS
io_uring (SQPOLL) 531 241 92 +37.9% IOPS, 1 CPU 전용
io_uring (SQPOLL+IOPOLL) 624 205 145 +62.1% IOPS, 인터럽트 제거
io_uring (SQPOLL+IOPOLL+FIXEDFILE) 698 183 148 +81.3% IOPS, fd 조회 제거



순차 읽기 성능 (128KB, QD=32, buffered I/O):



I/O 방식 처리량 (GB/s) 시스템 콜 수/초 특징


read() 동기 2.1 16,800 스레드 풀 필요
libaio N/A - buffered I/O 미지원
io_uring (기본) 4.8 1,200 배치 제출 효과
io_uring (SQPOLL) 5.6 0 Zero syscall




  ℹ️
  
    벤치마크 해석 주의: SQPOLL+IOPOLL은 전용 CPU 코어를 100% 소비하므로, 실제 애플리케이션에서는 총 시스템 처리량과 CPU 효율성을 함께 고려해야 합니다. 워크로드가 충분히 높지 않으면 오히려 비효율적일 수 있습니다.
  


io_uring vs epoll 상세 비교


  
  epoll vs io_uring: 시스템 콜 흐름과 아키텍처 비교




비교 항목 epoll io_uring


시스템 콜 이벤트당 2회+ 0~1회 (SQPOLL이면 0)
I/O 유형 네트워크(소켓) 중심 파일 + 네트워크 + 기타 모두 통합
파일 I/O 비차단 불가 → 스레드 풀 필요 네이티브 비동기 (io-wq 자동)
배치 처리 이벤트 수집만 배치 제출 + 완료 모두 배치
메모리 복사 커널-사용자 간 이벤트 복사 공유 메모리로 제로카피
연산 체이닝 불가 SQE 링크로 순서 보장
학습 곡선 낮음 높음 (liburing 사용 시 완화)
적합 시나리오 소켓 이벤트 다중화(Multiplexing) 고성능 스토리지/네트워크, 통합 이벤트 루프



실전 패턴: 고성능 Echo 서버

liburing 기반 multishot accept + provided buffers를 활용한 이벤트 루프 구현입니다.

#include <liburing.h>
#include <netinet/in.h>

#define ENTRIES   256
#define BUF_COUNT 64
#define BUF_SIZE  4096
#define BUF_BGID  0

enum { EV_ACCEPT, EV_RECV, EV_SEND };
struct conn_info { int fd; int type; };

static char bufs[BUF_COUNT][BUF_SIZE];
static struct io_uring_buf_ring *buf_ring;

static void setup_buf_ring(struct io_uring *ring) {
    struct io_uring_buf_reg reg = {
        .ring_entries = BUF_COUNT, .bgid = BUF_BGID,
    };
    buf_ring = io_uring_setup_buf_ring(ring, &reg, 0);
    for (int i = 0; i < BUF_COUNT; i++)
        io_uring_buf_ring_add(buf_ring, bufs[i], BUF_SIZE,
                              i, BUF_COUNT - 1, i);
    io_uring_buf_ring_advance(buf_ring, BUF_COUNT);
}

int main(void) {
    struct io_uring ring;
    io_uring_queue_init(ENTRIES, &ring, 0);
    setup_buf_ring(&ring);

    int listen_fd = /* socket + bind + listen */;

    /* Multishot accept 등록 */
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    io_uring_prep_multishot_accept(sqe, listen_fd, NULL, NULL, 0);
    struct conn_info ci = { listen_fd, EV_ACCEPT };
    memcpy(&sqe->user_data, &ci, sizeof(ci));

    while (1) {
        io_uring_submit_and_wait(&ring, 1);

        struct io_uring_cqe *cqe;
        unsigned head, count = 0;
        io_uring_for_each_cqe(&ring, head, cqe) {
            struct conn_info ci;
            memcpy(&ci, &cqe->user_data, sizeof(ci));

            if (ci.type == EV_ACCEPT && cqe->res >= 0) {
                /* 새 연결: multishot recv 등록 */
                struct io_uring_sqe *s = io_uring_get_sqe(&ring);
                io_uring_prep_recv_multishot(s, cqe->res, NULL, 0, 0);
                s->flags |= IOSQE_BUFFER_SELECT;
                s->buf_group = BUF_BGID;
                struct conn_info ri = { cqe->res, EV_RECV };
                memcpy(&s->user_data, &ri, sizeof(ri));
            } else if (ci.type == EV_RECV && cqe->res > 0) {
                int bid = cqe->flags >> IORING_CQE_BUFFER_SHIFT;
                /* echo: 받은 데이터 그대로 전송 */
                struct io_uring_sqe *s = io_uring_get_sqe(&ring);
                io_uring_prep_send(s, ci.fd, bufs[bid], cqe->res, 0);
                struct conn_info si = { ci.fd, EV_SEND };
                memcpy(&s->user_data, &si, sizeof(si));
                /* 버퍼 반환 */
                io_uring_buf_ring_add(buf_ring, bufs[bid], BUF_SIZE,
                                      bid, BUF_COUNT - 1, 0);
                io_uring_buf_ring_advance(buf_ring, 1);
            } else if (ci.type == EV_RECV && cqe->res <= 0) {
                close(ci.fd);
            }
            count++;
        }
        io_uring_cq_advance(&ring, count);
    }
}

실전 패턴: 비동기 파일 복사

io_uring의 SQE 링크를 활용하여 read→write 체인으로 비동기 파일 복사를 구현합니다.

#include <liburing.h>
#include <fcntl.h>

#define BLOCK_SIZE  (128 * 1024)
#define QUEUE_DEPTH 32

static int copy_file(const char *src, const char *dst) {
    struct io_uring ring;
    io_uring_queue_init(QUEUE_DEPTH, &ring, 0);

    int in_fd  = open(src, O_RDONLY);
    int out_fd = open(dst, O_WRONLY | O_CREAT | O_TRUNC, 0644);

    off_t offset = 0;
    int inflight = 0, done = 0;
    char *bufs[QUEUE_DEPTH];
    for (int i = 0; i < QUEUE_DEPTH; i++)
        bufs[i] = malloc(BLOCK_SIZE);

    while (!done || inflight) {
        while (!done && inflight < QUEUE_DEPTH) {
            /* read → write 링크 */
            struct io_uring_sqe *sqe_r = io_uring_get_sqe(&ring);
            io_uring_prep_read(sqe_r, in_fd, bufs[inflight],
                               BLOCK_SIZE, offset);
            sqe_r->flags |= IOSQE_IO_LINK;
            sqe_r->user_data = offset;

            struct io_uring_sqe *sqe_w = io_uring_get_sqe(&ring);
            io_uring_prep_write(sqe_w, out_fd, bufs[inflight],
                                BLOCK_SIZE, offset);
            sqe_w->user_data = offset | (1ULL << 63);

            offset += BLOCK_SIZE;
            inflight++;
        }
        io_uring_submit(&ring);

        struct io_uring_cqe *cqe;
        io_uring_wait_cqe(&ring, &cqe);
        if (cqe->res == 0 && !(cqe->user_data & (1ULL << 63)))
            done = 1;
        if (cqe->user_data & (1ULL << 63))
            inflight--;
        io_uring_cqe_seen(&ring, cqe);
    }

    for (int i = 0; i < QUEUE_DEPTH; i++) free(bufs[i]);
    close(in_fd); close(out_fd);
    io_uring_queue_exit(&ring);
    return 0;
}

실전 패턴: 데이터베이스 WAL 쓰기

데이터베이스의 WAL(Write-Ahead Log)은 내구성(durability)을 보장하면서도 높은 쓰기 처리량을 달성해야 합니다. io_uring의 SQE 링크(write → fdatasync)를 활용하면 배치 WAL 쓰기를 원자적(Atomic)으로 수행할 수 있습니다.

#include <liburing.h>
#include <fcntl.h>

#define WAL_BATCH_MAX 32

struct wal_writer {
    struct io_uring ring;
    int             wal_fd;
    off_t           write_pos;
    int             pending;
};

int wal_init(struct wal_writer *w, const char *path) {
    io_uring_queue_init(256, &w->ring, 0);
    w->wal_fd = open(path, O_WRONLY | O_CREAT | O_APPEND, 0644);
    w->write_pos = 0;
    w->pending = 0;

    /* WAL fd를 고정 등록 → fget/fput 비용 제거 */
    io_uring_register_files(&w->ring, &w->wal_fd, 1);
    return 0;
}

/* WAL 배치 쓰기: write → fdatasync 링크 체인 */
int wal_write_batch(struct wal_writer *w,
                    struct iovec *entries, int nr_entries) {
    /* 1. 배치의 모든 엔트리를 하나의 writev로 작성 */
    struct io_uring_sqe *sqe = io_uring_get_sqe(&w->ring);
    io_uring_prep_writev(sqe, 0, entries, nr_entries, w->write_pos);
    sqe->flags |= IOSQE_FIXED_FILE | IOSQE_IO_LINK;
    sqe->user_data = 1;  /* write 식별 */

    /* 2. fdatasync로 디스크 플러시 보장 (링크: write 완료 후 실행) */
    sqe = io_uring_get_sqe(&w->ring);
    io_uring_prep_fsync(sqe, 0, IORING_FSYNC_DATASYNC);
    sqe->flags |= IOSQE_FIXED_FILE;
    sqe->user_data = 2;  /* fsync 식별 */

    /* 3. 제출 및 fsync 완료 대기 */
    io_uring_submit(&w->ring);

    struct io_uring_cqe *cqe;
    int remaining = 2;
    while (remaining > 0) {
        io_uring_wait_cqe(&w->ring, &cqe);
        if (cqe->res < 0) {
            fprintf(stderr, "WAL %s error: %s\n",
                    cqe->user_data == 1 ? "write" : "fsync",
                    strerror(-cqe->res));
            return -1;
        }
        if (cqe->user_data == 1)
            w->write_pos += cqe->res;
        io_uring_cqe_seen(&w->ring, cqe);
        remaining--;
    }
    return 0;  /* fsync 완료 = 내구성 보장 */
}



WAL 쓰기 방식 syscall 수 fsync 빈도 처리량


동기 write + fsync 2N (N = 트랜잭션(Transaction) 수) 매 트랜잭션 기준선
그룹 커밋 (sync write + 배치 fsync) N + 1 배치당 1회 3~10배
io_uring 링크 (write→fsync) 1 (io_uring_enter) 배치당 1회 5~15배
io_uring SQPOLL + 링크 0 배치당 1회 10~20배




  ℹ️
  
    RocksDB의 io_uring 활용: RocksDB는 MultiGet() 연산에서 여러 SST 파일의 읽기를 io_uring 배치로 제출하여, 동기 읽기 대비 랜덤 읽기 지연을 30~50% 감소시킵니다. WAL 쓰기에도 io_uring 적용이 논의되고 있습니다.
  


실전 패턴: 프록시 서버 (splice)

io_uring의 IORING_OP_SPLICE를 활용하면 사용자 공간 버퍼를 거치지 않고 커널 내에서 직접 데이터를 전달하는 제로카피 프록시를 구현할 수 있습니다.


  
  기존 recv/send vs io_uring splice 프록시 데이터 경로 비교


#include <liburing.h>
#include <fcntl.h>

/* splice 기반 프록시: client_fd → pipe → server_fd */
void proxy_splice(struct io_uring *ring,
                  int client_fd, int server_fd,
                  int pipe_rd, int pipe_wr) {
    struct io_uring_sqe *sqe;

    /* 1단계: client → pipe (SPLICE_F_MOVE로 페이지 이동) */
    sqe = io_uring_get_sqe(ring);
    io_uring_prep_splice(sqe, client_fd, -1,
                         pipe_wr, -1, 65536,
                         SPLICE_F_MOVE | SPLICE_F_NONBLOCK);
    sqe->flags |= IOSQE_IO_LINK;
    sqe->user_data = 1;  /* client→pipe */

    /* 2단계: pipe → server (링크: 1단계 완료 후 실행) */
    sqe = io_uring_get_sqe(ring);
    io_uring_prep_splice(sqe, pipe_rd, -1,
                         server_fd, -1, 65536,
                         SPLICE_F_MOVE | SPLICE_F_NONBLOCK);
    sqe->user_data = 2;  /* pipe→server */

    io_uring_submit(ring);
}


  ℹ️
  
    TEE 연산: IORING_OP_TEE를 사용하면 pipe의 데이터를 소비하지 않고 복제할 수 있습니다. 로깅이나 모니터링을 위해 프록시 데이터를 분기(tee)하는 패턴에 유용합니다.
  


실전 패턴: 런타임 기능 탐지 (PROBE)

io_uring의 기능은 커널 버전마다 다릅니다. IORING_REGISTER_PROBE를 사용하면 런타임에 지원되는 opcode를 탐지하여, 단일 바이너리(Binary)로 다양한 커널 버전을 안전하게 지원할 수 있습니다.

#include <liburing.h>
#include <stdio.h>

/* 런타임 opcode 지원 여부 확인 */
static bool probe_op_supported(struct io_uring *ring, int op)
{
    struct io_uring_probe *probe;
    bool supported = false;

    probe = io_uring_get_probe_ring(ring);
    if (!probe)
        return false;

    if (op <= probe->last_op)
        supported = (probe->ops[op].flags & IO_URING_OP_SUPPORTED) != 0;

    io_uring_free_probe(probe);
    return supported;
}

/* 기능별 분기 패턴 */
int setup_server(struct io_uring *ring, int listen_fd) {
    bool has_multishot = probe_op_supported(ring, IORING_OP_ACCEPT);
    bool has_send_zc   = probe_op_supported(ring, IORING_OP_SEND_ZC);
    bool has_recv_multi = probe_op_supported(ring, IORING_OP_RECV);

    printf("Multishot accept: %s\n", has_multishot ? "yes" : "no");
    printf("Zero-copy send:   %s\n", has_send_zc ? "yes" : "no");
    printf("Multishot recv:   %s\n", has_recv_multi ? "yes" : "no");

    /* 기능에 따라 최적 경로 선택 */
    struct io_uring_sqe *sqe = io_uring_get_sqe(ring);
    if (has_multishot) {
        io_uring_prep_multishot_accept(sqe, listen_fd,
                                       NULL, NULL, 0);
    } else {
        /* 폴백: 단일 accept */
        io_uring_prep_accept(sqe, listen_fd,
                             NULL, NULL, 0);
    }
    io_uring_submit(ring);

    /* features 비트마스크로 커널 기능 확인 */
    struct io_uring_params params;
    memset(&params, 0, sizeof(params));
    int fd = io_uring_setup(1, &params);
    if (fd >= 0) {
        printf("FEAT_SINGLE_MMAP:  %s\n",
               params.features & IORING_FEAT_SINGLE_MMAP ? "yes" : "no");
        printf("FEAT_NODROP:       %s\n",
               params.features & IORING_FEAT_NODROP ? "yes" : "no");
        printf("FEAT_CUR_PERSONALITY: %s\n",
               params.features & IORING_FEAT_CUR_PERSONALITY ? "yes" : "no");
        close(fd);
    }
    return 0;
}

실전 패턴: Timeout 기반 연결 관리

네트워크 서버에서 유휴 연결을 자동으로 정리하려면, io_uring의 IORING_OP_LINK_TIMEOUT과 IORING_OP_TIMEOUT을 조합하여 연결별 타임아웃을 관리합니다.

#include <liburing.h>

#define IDLE_TIMEOUT_SEC  30
#define EV_RECV           1
#define EV_TIMEOUT        2

struct conn {
    int      fd;
    int      ev_type;
    uint64_t conn_id;
};

/* 타임아웃 연동 recv: IDLE_TIMEOUT_SEC 내 데이터가 없으면 자동 취소 */
static void submit_recv_with_timeout(struct io_uring *ring,
                                     struct conn *c,
                                     char *buf, size_t len)
{
    struct io_uring_sqe *sqe;

    /* 1. recv SQE: 링크 플래그로 다음 SQE(timeout)와 연결 */
    sqe = io_uring_get_sqe(ring);
    io_uring_prep_recv(sqe, c->fd, buf, len, 0);
    sqe->flags |= IOSQE_IO_LINK;
    c->ev_type = EV_RECV;
    io_uring_sqe_set_data(sqe, c);

    /* 2. link_timeout SQE: recv가 시간 내 완료되지 않으면 취소 */
    sqe = io_uring_get_sqe(ring);
    struct __kernel_timespec ts = {
        .tv_sec = IDLE_TIMEOUT_SEC
    };
    io_uring_prep_link_timeout(sqe, &ts, 0);
    struct conn *tc = malloc(sizeof(*tc));
    *tc = (struct conn){ c->fd, EV_TIMEOUT, c->conn_id };
    io_uring_sqe_set_data(sqe, tc);
}

/* 이벤트 루프에서의 처리 */
static void handle_cqe(struct io_uring *ring,
                       struct io_uring_cqe *cqe)
{
    struct conn *c = io_uring_cqe_get_data(cqe);

    if (c->ev_type == EV_RECV) {
        if (cqe->res == -ECANCELED) {
            /* 타임아웃으로 취소됨 → 유휴 연결 종료 */
            printf("conn %lu: idle timeout, closing\n", c->conn_id);
            close(c->fd);
            free(c);
        } else if (cqe->res > 0) {
            /* 데이터 수신 → 처리 후 타임아웃 갱신하여 다시 recv */
            process_data(c, cqe->res);
            submit_recv_with_timeout(ring, c, buf, sizeof(buf));
        } else {
            /* 연결 종료 (EOF 또는 에러) */
            close(c->fd);
            free(c);
        }
    } else if (c->ev_type == EV_TIMEOUT) {
        /* 타임아웃 CQE: -ECANCELED면 recv가 먼저 완료된 것 (정상)
         * -ETIME이면 타임아웃이 만료되어 recv를 취소한 것 */
        free(c);
    }
}

실전 패턴: io_uring_cmd NVMe Passthrough

IORING_OP_URING_CMD는 블록 레이어를 우회하여 NVMe 명령을 직접 디바이스에 전달합니다. SQE128 확장 포맷을 사용하여 NVMe 명령 구조체(64바이트)를 추가로 전달합니다.

#include <liburing.h>
#include <linux/nvme_ioctl.h>
#include <fcntl.h>

#define NVME_URING_CMD_IO 0

struct nvme_uring_cmd {
    __u8    opcode;      /* NVMe opcode: 0x02=read, 0x01=write */
    __u8    flags;
    __u16   rsvd1;
    __u32   nsid;        /* Namespace ID */
    __u32   cdw2, cdw3;
    __u64   metadata;
    __u64   addr;        /* 데이터 버퍼 주소 */
    __u32   metadata_len;
    __u32   data_len;    /* 데이터 버퍼 크기 */
    __u32   cdw10, cdw11, cdw12, cdw13, cdw14, cdw15;
    __u32   timeout_ms;
    __u32   rsvd2;
};

int nvme_passthrough_read(const char *dev, uint64_t lba,
                          void *buf, uint32_t nlb)
{
    struct io_uring ring;
    struct io_uring_params params = {};

    /* SQE128 필수: NVMe 명령 구조체를 추가 64바이트에 담음 */
    params.flags = IORING_SETUP_SQE128 | IORING_SETUP_CQE32;
    io_uring_queue_init_params(64, &ring, &params);

    int fd = open(dev, O_RDONLY);  /* /dev/ng0n1 (NVMe generic) */

    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);

    /* uring_cmd SQE 준비 */
    sqe->opcode   = IORING_OP_URING_CMD;
    sqe->fd       = fd;
    sqe->cmd_op   = NVME_URING_CMD_IO;
    sqe->user_data = lba;

    /* SQE의 추가 64바이트 영역에 NVMe 명령 작성 */
    struct nvme_uring_cmd *cmd =
        (struct nvme_uring_cmd *)&sqe->cmd;
    memset(cmd, 0, sizeof(*cmd));

    cmd->opcode   = 0x02;           /* NVMe Read */
    cmd->nsid     = 1;              /* Namespace 1 */
    cmd->addr     = (__u64)buf;     /* 데이터 버퍼 */
    cmd->data_len = nlb * 512;     /* 블록 수 × 섹터 크기 */
    cmd->cdw10    = lba & 0xFFFFFFFF;        /* LBA 하위 32비트 */
    cmd->cdw11    = (lba >> 32) & 0xFFFFFFFF; /* LBA 상위 32비트 */
    cmd->cdw12    = nlb - 1;                 /* Number of LBs (0-based) */

    io_uring_submit(&ring);

    struct io_uring_cqe *cqe;
    io_uring_wait_cqe(&ring, &cqe);

    if (cqe->res < 0) {
        fprintf(stderr, "NVMe read failed: %s\n",
                strerror(-cqe->res));
    } else {
        /* CQE32의 추가 16바이트에서 NVMe 상태 확인 가능 */
        printf("NVMe read OK: LBA=%lu, blocks=%u\n", lba, nlb);
    }

    io_uring_cqe_seen(&ring, cqe);
    close(fd);
    io_uring_queue_exit(&ring);
    return cqe->res;
}



NVMe I/O 경로 시스템 콜 블록 레이어 지연 시간 적용 대상


동기 read()/write() 매번 1회 경유 기준선 범용
io_uring IORING_OP_READ 배치 경유 기준선 × 0.7 고 IOPS
io_uring URING_CMD (passthrough) 배치 우회 기준선 × 0.5 초저지연, 벤치마크
URING_CMD + SQPOLL + IOPOLL 0 우회 기준선 × 0.3 극한 성능




  ⚠️
  
    io_uring_cmd 사용 시 주의사항: passthrough는 블록 레이어의 I/O 스케줄러(Scheduler), 병합(merging), 통계, cgroup 제어를 모두 우회합니다. 운영 환경에서는 블록 레이어 경유 경로를 우선 사용하고, 벤치마크나 초저지연이 필수인 경우에만 passthrough를 적용하세요. NVMe generic 디바이스(/dev/ngXnY)를 사용해야 하며, 일반 블록 디바이스(/dev/nvmeXnY)와는 다릅니다.
  


실전 패턴: io_uring + epoll 하이브리드 이벤트 루프

기존 epoll 기반 이벤트 루프에 io_uring을 점진적으로 도입하려면, eventfd를 브릿지(Bridge)로 사용하여 두 시스템을 통합합니다. io_uring의 CQE 완료가 eventfd를 통해 epoll에 전달됩니다.

#include <liburing.h>
#include <sys/epoll.h>
#include <sys/eventfd.h>

struct hybrid_loop {
    int              epfd;
    int              evfd;     /* io_uring → epoll 브릿지 */
    struct io_uring   ring;
};

int hybrid_init(struct hybrid_loop *loop) {
    /* 1. io_uring 초기화 */
    struct io_uring_params params = {
        .flags = IORING_SETUP_SINGLE_ISSUER
               | IORING_SETUP_COOP_TASKRUN,
    };
    io_uring_queue_init_params(256, &loop->ring, &params);

    /* 2. eventfd 생성 및 io_uring에 등록 */
    loop->evfd = eventfd(0, EFD_NONBLOCK | EFD_CLOEXEC);
    io_uring_register_eventfd_async(&loop->ring, loop->evfd);
    /* _async 등록: 인라인 완료는 eventfd 미발생 → 불필요한 깨움 방지 */

    /* 3. epoll 초기화 및 eventfd 등록 */
    loop->epfd = epoll_create1(EPOLL_CLOEXEC);
    struct epoll_event ev = {
        .events = EPOLLIN,
        .data.fd = loop->evfd,
    };
    epoll_ctl(loop->epfd, EPOLL_CTL_ADD, loop->evfd, &ev);

    return 0;
}

/* 하이브리드 이벤트 루프 */
void hybrid_run(struct hybrid_loop *loop) {
    struct epoll_event events[64];

    while (1) {
        /* epoll_wait: io_uring eventfd + 기존 소켓 이벤트 동시 대기 */
        int nfds = epoll_wait(loop->epfd, events, 64, -1);

        for (int i = 0; i < nfds; i++) {
            if (events[i].data.fd == loop->evfd) {
                /* io_uring 완료 이벤트 → CQE 수확 */
                uint64_t val;
                read(loop->evfd, &val, sizeof(val));

                struct io_uring_cqe *cqe;
                unsigned head, count = 0;
                io_uring_for_each_cqe(&loop->ring, head, cqe) {
                    handle_io_completion(cqe);
                    count++;
                }
                io_uring_cq_advance(&loop->ring, count);
            } else {
                /* 기존 epoll 이벤트 처리 (레거시 소켓 등) */
                handle_legacy_event(&events[i]);
            }
        }

        /* 새 io_uring 요청 제출 */
        io_uring_submit(&loop->ring);
    }
}

void hybrid_cleanup(struct hybrid_loop *loop) {
    io_uring_unregister_eventfd(&loop->ring);
    io_uring_queue_exit(&loop->ring);
    close(loop->evfd);
    close(loop->epfd);
}


  💡
  
    하이브리드 vs 순수 io_uring: 새 프로젝트에서는 순수 io_uring 이벤트 루프(io_uring_submit_and_wait())가 성능이 더 좋습니다. 하이브리드 패턴은 기존 epoll 기반 코드베이스에 io_uring을 점진적으로 도입할 때만 사용하세요. eventfd 시그널링 자체가 시스템 콜 오버헤드를 추가하기 때문입니다.
  


실전 패턴: Provided Buffer Ring 고급 관리

Provided buffer ring은 커널이 완료 시 자동으로 버퍼를 선택하는 메커니즘으로, 네트워크 서버에서 연결당 버퍼를 미리 할당하지 않아도 됩니다. 대규모 동시 연결에서 메모리를 효율적으로 관리하는 고급 패턴입니다.

#include <liburing.h>

#define BUF_RING_SIZE  256
#define BUF_SIZE       4096
#define BUF_BGID       0

struct buf_pool {
    struct io_uring_buf_ring *br;
    char                    *base;    /* 전체 버퍼 메모리 */
    int                      nr_bufs;
    int                      outstanding; /* 커널이 보유 중인 버퍼 수 */
};

/* Provided buffer ring 초기화 (v5.19+ mmap 방식) */
int buf_pool_init(struct io_uring *ring, struct buf_pool *pool)
{
    int ret;

    /* 정렬된 대규모 버퍼 메모리 할당 */
    pool->base = aligned_alloc(4096, BUF_RING_SIZE * BUF_SIZE);
    if (!pool->base)
        return -ENOMEM;

    pool->nr_bufs = BUF_RING_SIZE;
    pool->outstanding = 0;

    /* 커널에 buffer ring 등록 */
    struct io_uring_buf_reg reg = {
        .ring_entries = BUF_RING_SIZE,
        .bgid = BUF_BGID,
    };
    pool->br = io_uring_setup_buf_ring(ring, &reg, 0, &ret);
    if (!pool->br) {
        free(pool->base);
        return ret;
    }

    /* 모든 버퍼를 ring에 등록 */
    for (int i = 0; i < BUF_RING_SIZE; i++) {
        io_uring_buf_ring_add(pool->br,
                              pool->base + i * BUF_SIZE,
                              BUF_SIZE, i,
                              io_uring_buf_ring_mask(BUF_RING_SIZE),
                              i);
    }
    io_uring_buf_ring_advance(pool->br, BUF_RING_SIZE);

    return 0;
}

/* CQE에서 사용된 버퍼 ID와 포인터 추출 */
static inline void *buf_pool_get_buf(struct buf_pool *pool,
                                      struct io_uring_cqe *cqe,
                                      int *bid)
{
    *bid = cqe->flags >> IORING_CQE_BUFFER_SHIFT;
    pool->outstanding++;
    return pool->base + (*bid) * BUF_SIZE;
}

/* 사용 완료된 버퍼를 ring에 반환 */
static inline void buf_pool_return(struct buf_pool *pool, int bid)
{
    io_uring_buf_ring_add(pool->br,
                          pool->base + bid * BUF_SIZE,
                          BUF_SIZE, bid,
                          io_uring_buf_ring_mask(pool->nr_bufs),
                          0);
    io_uring_buf_ring_advance(pool->br, 1);
    pool->outstanding--;
}

/* multishot recv + provided buffer 이벤트 루프 */
void recv_loop(struct io_uring *ring, struct buf_pool *pool,
               int sock_fd)
{
    /* Multishot recv 등록: 하나의 SQE로 반복 수신 */
    struct io_uring_sqe *sqe = io_uring_get_sqe(ring);
    io_uring_prep_recv_multishot(sqe, sock_fd, NULL, 0, 0);
    sqe->flags |= IOSQE_BUFFER_SELECT;
    sqe->buf_group = BUF_BGID;
    sqe->user_data = sock_fd;
    io_uring_submit(ring);

    while (1) {
        struct io_uring_cqe *cqe;
        io_uring_wait_cqe(ring, &cqe);

        if (cqe->res > 0 && (cqe->flags & IORING_CQE_F_BUFFER)) {
            int bid;
            void *buf = buf_pool_get_buf(pool, cqe, &bid);
            size_t len = cqe->res;

            /* 데이터 처리 */
            process_data(buf, len);

            /* 처리 완료 → 버퍼 반환 */
            buf_pool_return(pool, bid);
        }

        /* Multishot 종료 감지 */
        if (!(cqe->flags & IORING_CQE_F_MORE)) {
            /* 버퍼 부족(-ENOBUFS) 또는 소켓 에러로 multishot 종료
             * → multishot recv 재등록 필요 */
            if (cqe->res == -ENOBUFS) {
                fprintf(stderr, "Buffer pool exhausted! "
                        "outstanding=%d\n", pool->outstanding);
            }
            /* multishot 재등록 */
            sqe = io_uring_get_sqe(ring);
            io_uring_prep_recv_multishot(sqe, sock_fd,
                                        NULL, 0, 0);
            sqe->flags |= IOSQE_BUFFER_SELECT;
            sqe->buf_group = BUF_BGID;
            sqe->user_data = sock_fd;
            io_uring_submit(ring);
        }

        io_uring_cqe_seen(ring, cqe);
    }
}



버퍼 관리 방식 메모리 사용 동시 연결 확장성 구현 복잡도


연결당 고정 버퍼 O(N × buf_size) 낮음 (연결 수에 비례) 단순
Provided buffers (레거시) O(pool_size × buf_size) 높음 중간
Provided buffer ring (v5.19+) O(pool_size × buf_size) 높음 + lock-free 중간




  ℹ️
  
    버퍼 풀 크기 산정: 동시에 처리 중인 I/O 수의 2~4배를 BUF_RING_SIZE로 설정합니다. -ENOBUFS가 발생하면 풀이 부족한 것이므로 크기를 늘리세요. outstanding 카운터를 모니터링하면 적정 풀 크기를 실측할 수 있습니다.
  


실전 패턴: 배치 Scatter-Gather I/O

여러 파일의 여러 오프셋에서 동시에 읽기를 수행하는 패턴입니다. 데이터베이스(Database)의 인덱스(Index) 룩업(Lookup)이나 분산 파일의 조각 수집에 유용합니다.

#include <liburing.h>
#include <fcntl.h>

#define MAX_BATCH    64
#define PAGE_SIZE    4096

struct io_request {
    int      fd;
    off_t    offset;
    size_t   len;
    void    *buf;
    void    *user_ctx;    /* 애플리케이션 컨텍스트 */
};

/* 배치 읽기: 여러 (fd, offset) 쌍을 한 번에 제출 */
int batch_scatter_read(struct io_uring *ring,
                       struct io_request *reqs, int nr_reqs)
{
    /* 1. 모든 읽기 요청을 SQE로 변환 */
    for (int i = 0; i < nr_reqs; i++) {
        struct io_uring_sqe *sqe = io_uring_get_sqe(ring);
        if (!sqe) {
            /* SQ가 가득 참: 기존 제출 후 대기 */
            io_uring_submit(ring);
            sqe = io_uring_get_sqe(ring);
        }

        io_uring_prep_read(sqe, reqs[i].fd, reqs[i].buf,
                           reqs[i].len, reqs[i].offset);
        io_uring_sqe_set_data(sqe, &reqs[i]);
    }

    /* 2. 한 번의 시스템 콜로 모든 요청 제출 */
    io_uring_submit(ring);

    /* 3. 모든 완료 수확 (순서 무관) */
    int completed = 0;
    while (completed < nr_reqs) {
        struct io_uring_cqe *cqe;
        unsigned head, count = 0;

        io_uring_wait_cqe(ring, &cqe);  /* 최소 1개 대기 */

        /* 배치로 여러 CQE를 한 번에 수확 */
        io_uring_for_each_cqe(ring, head, cqe) {
            struct io_request *req = io_uring_cqe_get_data(cqe);

            if (cqe->res >= 0) {
                process_read_result(req->user_ctx,
                                    req->buf, cqe->res);
            } else {
                handle_read_error(req->user_ctx, cqe->res);
            }
            count++;
        }
        io_uring_cq_advance(ring, count);
        completed += count;
    }

    return completed;
}

/* 사용 예시: RocksDB MultiGet 스타일 */
void example_multiget(struct io_uring *ring) {
    struct io_request reqs[MAX_BATCH];
    int nr = 0;

    /* 여러 SST 파일의 다른 오프셋에서 동시 읽기 */
    reqs[nr++] = (struct io_request){
        .fd = sst_fd_1, .offset = 0x1000,
        .len = PAGE_SIZE, .buf = buf1
    };
    reqs[nr++] = (struct io_request){
        .fd = sst_fd_2, .offset = 0x3000,
        .len = PAGE_SIZE, .buf = buf2
    };
    reqs[nr++] = (struct io_request){
        .fd = sst_fd_1, .offset = 0x8000,
        .len = PAGE_SIZE, .buf = buf3
    };

    /* 1회 시스템 콜로 3개 읽기 동시 제출 → 병렬 I/O */
    batch_scatter_read(ring, reqs, nr);
}


  💡
  
    고정 파일/버퍼 조합 최적화: 반복적으로 동일한 파일을 읽는 경우 io_uring_register_files()로 fd를 사전 등록하고, io_uring_register_buffers()로 버퍼를 고정하면 매 I/O마다 fget()/fput()과 GUP(Get User Pages) 비용을 제거하여 추가로 15~30%의 성능 향상을 달성할 수 있습니다.
  


실전 패턴: Registered Ring FD 최적화

io_uring_enter() 시스템 콜은 매번 ring fd에 대해 fdget()/fdput()을 수행합니다. Ring FD를 사전 등록하면 이 오버헤드를 제거하여 초고빈도 제출 경로에서 성능을 개선합니다.

#include <liburing.h>

/* Ring FD 등록 및 활용 */
int setup_registered_ring(struct io_uring *ring) {
    struct io_uring_params params = {
        .flags = IORING_SETUP_SINGLE_ISSUER
               | IORING_SETUP_DEFER_TASKRUN
               | IORING_SETUP_COOP_TASKRUN,
    };
    int ret;

    ret = io_uring_queue_init_params(256, ring, &params);
    if (ret < 0)
        return ret;

    /* Ring FD를 커널에 사전 등록
     * → 이후 io_uring_enter()에서 fdget/fdput 비용 제거 */
    ret = io_uring_register_ring_fd(ring);
    if (ret < 0) {
        fprintf(stderr, "register ring fd failed: %s\n",
                strerror(-ret));
        /* 실패해도 동작에는 지장 없음 — 최적화만 미적용 */
    }

    return 0;
}

/* 최적 설정 조합: 모든 최적화를 한 번에 적용 */
int setup_optimal_ring(struct io_uring *ring, int *fds,
                        int nr_fds, struct iovec *bufs,
                        int nr_bufs)
{
    struct io_uring_params params = {
        .flags = IORING_SETUP_SQPOLL
               | IORING_SETUP_IOPOLL
               | IORING_SETUP_SINGLE_ISSUER
               | IORING_SETUP_DEFER_TASKRUN
               | IORING_SETUP_NO_SQARRAY,
        .sq_thread_idle = 1000,
    };
    int ret;

    ret = io_uring_queue_init_params(1024, ring, &params);
    if (ret < 0)
        return ret;

    /* 최적화 1: Ring FD 등록 */
    io_uring_register_ring_fd(ring);

    /* 최적화 2: 파일 디스크립터 고정 → fget/fput 제거 */
    if (nr_fds > 0)
        io_uring_register_files(ring, fds, nr_fds);

    /* 최적화 3: 버퍼 고정 → GUP(페이지 핀) 제거 */
    if (nr_bufs > 0)
        io_uring_register_buffers(ring, bufs, nr_bufs);

    /* 최적화 4: 워커 스레드 수 제한 (리소스 제어) */
    unsigned int max_workers[2] = {
        4,   /* bounded: buffered I/O 워커 */
        8,   /* unbounded: 네트워크 I/O 워커 */
    };
    io_uring_register_iowq_max_workers(ring, max_workers);

    return 0;
}



최적화 제거되는 비용 효과 필요 커널


Registered ring fd fdget()/fdput() enter() 당 ~50ns 절약 5.18+
Fixed files fget()/fput() SQE 당 ~100ns 절약 5.1+
Fixed buffers GUP (페이지 핀) SQE 당 ~200ns 절약 5.1+
SINGLE_ISSUER 내부 잠금 제출 경로 ~20% 단축 6.0+
DEFER_TASKRUN IPI + 시그널 완료 경로 ~30% 단축 6.1+
NO_SQARRAY 간접 인덱스 배열 메모리 절약, 미세 성능 향상 6.7+



io_uring Restrictions (샌드박싱)

IORING_REGISTER_RESTRICTIONS를 사용하면 허용되는 opcode, 플래그, 등록 연산을 제한할 수 있습니다.

struct io_uring_params params = {
    .flags = IORING_SETUP_R_DISABLED,
};
int ring_fd = io_uring_setup(256, &params);

struct io_uring_restriction res[] = {
    { .opcode = IORING_RESTRICTION_SQE_OP,
      .sqe_op = IORING_OP_READ },
    { .opcode = IORING_RESTRICTION_SQE_OP,
      .sqe_op = IORING_OP_WRITE },
    { .opcode = IORING_RESTRICTION_SQE_FLAGS_ALLOWED,
      .sqe_flags = IOSQE_FIXED_FILE },
    { .opcode = IORING_RESTRICTION_REGISTER_OP,
      .register_op = IORING_REGISTER_FILES },
};
io_uring_register(ring_fd, IORING_REGISTER_RESTRICTIONS,
                  res, sizeof(res) / sizeof(res[0]));

/* ring 활성화 (이후 restriction 변경 불가) */
io_uring_register(ring_fd, IORING_REGISTER_ENABLE_RINGS,
                  NULL, 0);

io_uring 디버깅(Debugging)

/proc/PID/fdinfo
# io_uring fd의 상세 정보 확인
cat /proc/<pid>/fdinfo/<uring_fd>
# SqSize, CqSize, SqThreadCpu, UserFiles, UserBufs 등 출력

io_uring tracepoints
# 사용 가능한 io_uring tracepoint 목록
ls /sys/kernel/tracing/events/io_uring/
# io_uring_create, io_uring_submit_sqe, io_uring_complete,
# io_uring_queue_async_work, io_uring_poll_arm, io_uring_task_add

# ftrace로 io_uring 이벤트 추적
echo 1 > /sys/kernel/tracing/events/io_uring/enable
cat /sys/kernel/tracing/trace_pipe

bpftrace 원라이너
# io_uring SQE 제출 추적 (opcode별 카운트)
bpftrace -e 'tracepoint:io_uring:io_uring_submit_sqe {
    @ops[args->opcode] = count();
}'

# io_uring 완료 지연 시간 히스토그램
bpftrace -e '
tracepoint:io_uring:io_uring_submit_sqe {
    @start[args->req] = nsecs;
}
tracepoint:io_uring:io_uring_complete /@start[args->req]/ {
    @latency_us = hist((nsecs - @start[args->req]) / 1000);
    delete(@start[args->req]);
}'

# CQE 오버플로 감지
bpftrace -e 'kprobe:io_cqring_overflow_flush {
    @overflow = count();
}'

문제 해결 가이드

일반적인 오류와 해결



증상 원인 해결 방법



  -ENOMEM (메모리 부족)
  RLIMIT_MEMLOCK 제한
  ulimit -l unlimited 또는 /etc/security/limits.conf에서 memlock 증가


  -EINVAL (setup 실패)
  잘못된 플래그 조합
  SQPOLL + IOPOLL은 O_DIRECT 필수, 커널 버전별 지원 플래그 확인


  -EPERM (SQPOLL)
  CAP_SYS_NICE 권한 없음
  sudo 사용 또는 setcap cap_sys_nice+ep <binary>


  CQE res = -EAGAIN
  리소스 일시 부족 (비차단 소켓)
  재시도 로직 추가 또는 블로킹 모드로 전환


  CQE 오버플로 (IORING_CQ_OVERFLOW)
  CQ 링 크기 부족, 처리 지연
  CQ 크기 증가 (io_uring_params.cq_entries) 또는 CQE 처리 속도 향상


  SQPOLL 스레드가 슬립 반복
  워크로드 불규칙, sq_thread_idle 너무 짧음
  sq_thread_idle 값 증가 (예: 5000ms) 또는 기본 모드로 전환




성능 저하 진단

1. 시스템 콜 오버헤드 확인
# io_uring_enter() 호출 빈도 측정
perf stat -e 'syscalls:sys_enter_io_uring_enter' ./my_app

# SQPOLL 모드가 제대로 동작하는지 확인 (0회여야 함)

2. I/O 지연 프로파일링(Profiling)
# SQE 제출부터 CQE 완료까지 지연 시간 분포
bpftrace -e '
tracepoint:io_uring:io_uring_submit_sqe {
    @start[args->req] = nsecs;
}
tracepoint:io_uring:io_uring_complete /@start[args->req]/ {
    @latency_us = hist((nsecs - @start[args->req]) / 1000);
    delete(@start[args->req]);
}
interval:s:10 {
    print(@latency_us);
    clear(@latency_us);
}'

3. CQ 처리 병목 확인
/* CQ 처리 루프에서 한 번에 처리하는 CQE 수 측정 */
unsigned int count = 0, head;
struct io_uring_cqe *cqe;

io_uring_for_each_cqe(ring, head, cqe) {
    count++;
    /* 처리 */
}
printf("Batch size: %u\n", count);  /* 1에 가까우면 배치 효과 없음 */

4. 워커 스레드 포화 확인
# io-wq 워커 스레드 생성 추적
bpftrace -e 'kprobe:io_wq_create { @wq_creates = count(); }'

# 대기 중인 작업 수 (높으면 워커 부족)
cat /proc/<pid>/fdinfo/<uring_fd> | grep SqThreadIdle

성능 최적화 체크리스트


  💡
  
    성능 향상 우선순위(Priority):
    
      배치 제출: 여러 SQE를 한 번에 제출 (1회 io_uring_enter()로 N개 처리)
      Fixed Files/Buffers: io_uring_register_files()로 fd 조회 오버헤드 제거
      SQPOLL (고부하 전용): 지속적인 워크로드에서만 활성화, 저부하 시 기본 모드 사용
      IOPOLL (NVMe 전용): O_DIRECT + 고속 스토리지에서만 효과, 일반 디스크는 역효과
      Provided Buffers: 네트워크 I/O에서 버퍼 복사 제거
      링크 체인: 순차 작업(write→fsync)을 하나의 체인으로 처리
    
  


피해야 할 안티 패턴



안티 패턴 문제점 권장 패턴



  매 I/O마다 io_uring_enter() 호출
  시스템 콜 오버헤드, 동기 I/O와 차이 없음
  배치 제출 (예: 32개씩 모아서 제출)


  저부하 환경에서 SQPOLL 사용
  CPU 낭비 (유휴 시에도 100% 사용)
  고부하에서만 SQPOLL, 일반적으로 기본 모드


  HDD에서 IOPOLL 사용
  폴링이 인터럽트보다 비효율적
  NVMe SSD 전용으로 제한


  CQ 크기 = SQ 크기
  연결 폭증 시 CQE 오버플로
  CQ 크기를 SQ의 2배 이상으로 설정


  모든 작업에 링크 사용
  병렬성 감소, 하나 실패 시 전체 취소
  순차 의존성이 있는 작업만 링크


  CQE 처리 지연
  CQ 오버플로, 백프레셔 발생
  IORING_SETUP_CQSIZE로 큐 확장 또는 즉시 처리




NUMA 최적화

다중 소켓 서버에서 io_uring 성능을 극대화하려면 NUMA(Non-Uniform Memory Access) 토폴로지(Topology)를 고려한 설정이 필수입니다. 메모리 접근 지연이 로컬 노드 대비 원격 노드에서 2~3배 차이 나므로, 링 버퍼·워커·버퍼 모두 동일 NUMA 노드에 배치해야 합니다.


  
  NUMA 노드별 io_uring 인스턴스와 리소스 격리 배치


#define _GNU_SOURCE
#include <liburing.h>
#include <numa.h>
#include <sched.h>

int setup_numa_ring(struct io_uring *ring, int numa_node, int sqpoll_cpu) {
    /* 1. 현재 스레드를 NUMA 노드에 바인딩 */
    struct bitmask *mask = numa_allocate_nodemask();
    numa_bitmask_setbit(mask, numa_node);
    numa_bind(mask);
    numa_bitmask_free(mask);

    /* 2. SQPOLL 스레드를 로컬 CPU에 고정 */
    struct io_uring_params params = {
        .flags = IORING_SETUP_SQPOLL | IORING_SETUP_SQ_AFF
               | IORING_SETUP_SINGLE_ISSUER,
        .sq_thread_cpu  = sqpoll_cpu,
        .sq_thread_idle = 2000,
    };
    int ret = io_uring_queue_init_params(256, ring, &params);
    if (ret < 0) return ret;

    /* 3. io-wq 워커도 같은 NUMA 노드 CPU에 제한 */
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    for (int c = numa_node * 8; c < (numa_node + 1) * 8; c++)
        CPU_SET(c, &cpuset);
    io_uring_register_iowq_aff(ring, sizeof(cpuset), &cpuset);

    /* 4. 고정 버퍼를 로컬 NUMA 노드에 할당 */
    void *buf = numa_alloc_onnode(4096 * 64, numa_node);
    struct iovec iov = { .iov_base = buf, .iov_len = 4096 * 64 };
    io_uring_register_buffers(ring, &iov, 1);

    return 0;
}



NUMA 설정 항목 방법 효과


앱 스레드 CPU 고정 sched_setaffinity(), taskset 일관된 NUMA 메모리 접근
SQPOLL CPU 고정 IORING_SETUP_SQ_AFF + sq_thread_cpu 폴링 스레드의 캐시 미스 감소
io-wq 워커 CPU 제한 IORING_REGISTER_IOWQ_AFF 워커가 원격 NUMA 노드에서 실행 방지
버퍼 NUMA 할당 numa_alloc_onnode() DMA 버퍼의 로컬 메모리 보장
NVMe 디바이스 선택 NUMA 노드에 연결된 PCIe 디바이스 사용 PCIe 크로스-소켓 오버헤드 제거
per-NUMA ring 노드별 별도 io_uring 인스턴스 완전한 로컬리티 보장




  ⚠️
  
    NVMe 디바이스 NUMA 확인: cat /sys/block/nvme0n1/device/numa_node으로 디바이스가 어느 NUMA 노드에 연결되어 있는지 확인하세요. 디바이스와 다른 NUMA 노드에서 I/O를 수행하면 PCIe 크로스-소켓 전송으로 지연이 증가합니다.
  


메모리 배리어와 순서 보장

io_uring의 SQ/CQ 링은 lock-free SPSC(Single-Producer Single-Consumer) 큐입니다. 뮤텍스(Mutex) 대신 메모리 배리어(memory barrier)만으로 생산자-소비자 간 데이터 가시성을 보장합니다. 배리어를 잘못 사용하면 데이터 손실이나 스톨이 발생할 수 있으므로 정확한 이해가 필요합니다.


  
  SQ/CQ 링의 메모리 배리어 배치: 생산자-소비자 간 데이터 가시성 보장


아키텍처별 배리어 매핑



io_uring 배리어 함수 의미 x86-64 ARM64 RISC-V


smp_store_release(&ptr, val) 이전 쓰기 완료 후 ptr에 val 저장 MOV (no-op, TSO 보장) STL (store-release) fence rw,w; sw
smp_load_acquire(&ptr) ptr 읽은 후 이후 읽기/쓰기 보장 MOV (no-op, TSO 보장) LDA (load-acquire) lw; fence r,rw
smp_mb() 전체 메모리 배리어 MFENCE / LOCK DMB ISH fence rw,rw



/* 올바른 원시(raw) SQ 제출 코드 (liburing 없이) */

/* 1. SQE 작성 — 데이터가 먼저 기록되어야 함 */
struct io_uring_sqe *sqe = &sq->sqes[sq->tail & sq->ring_mask];
sqe->opcode    = IORING_OP_READ;
sqe->fd        = fd;
sqe->addr      = (unsigned long)buf;
sqe->len       = len;
sqe->user_data = my_id;

/* 2. 간접 인덱스 배열 설정 (NO_SQARRAY 아닌 경우) */
sq->array[sq->tail & sq->ring_mask] = sq->tail & sq->ring_mask;

/* 3. store_release: SQE 내용이 반드시 tail 갱신 전에 가시적이어야 함
 *    이 배리어가 없으면 커널이 아직 기록되지 않은 SQE를 읽을 수 있음 */
io_uring_smp_store_release(sq->tail_ptr, sq->tail + 1);

/* 4. 커널 통지 (SQPOLL이 아닌 경우) */
io_uring_enter(ring_fd, 1, 0, 0, NULL);

/* === CQE 수확 === */

/* 5. load_acquire: tail 값을 읽은 후에야 CQE 데이터에 접근
 *    이 배리어가 없으면 커널이 아직 기록 중인 CQE를 읽을 수 있음 */
unsigned tail = io_uring_smp_load_acquire(cq->tail_ptr);
unsigned head = *cq->head_ptr;

while (head != tail) {
    struct io_uring_cqe *cqe = &cq->cqes[head & cq->ring_mask];
    process(cqe->user_data, cqe->res);
    head++;
}

/* 6. store_release: CQE 읽기 완료 후 head 갱신
 *    이 배리어가 없으면 커널이 아직 읽는 중인 슬롯을 재사용할 수 있음 */
io_uring_smp_store_release(cq->head_ptr, head);


  💡
  
    liburing 사용 권장: 위의 배리어 처리는 liburing의 io_uring_get_sqe(), io_uring_submit(), io_uring_cqe_seen() 등이 내부적으로 자동 처리합니다. 직접 원시 링을 조작해야 하는 경우(예: 커널 개발, 특수 최적화)가 아니면 liburing을 사용하세요.
  


보안 고려사항

io_uring의 강력한 기능은 보안 관점에서 주의가 필요합니다. 공유 메모리를 통한 시스템 콜 우회로 seccomp 필터링이 어렵고, 커널 공격 표면이 넓습니다.



이슈 설명 대응


seccomp 우회 SQPOLL에서 커널 스레드가 I/O를 수행하므로 seccomp 모델이 복잡해질 수 있음 커널 버전별 동작 차이를 전제로 seccomp/LSM 정책을 재검증하고, 기본적으로 io_uring_disabled 또는 syscall 차단 정책을 우선 적용
권한 상승 복잡한 커널 코드 → CVE 다수 발생 io_uring_disabled sysctl로 비활성화
리소스 소진 대량 SQE 제출 → 메모리/CPU 소비 RLIMIT_MEMLOCK으로 mmap 크기 제한



# io_uring 사용 제한 (Linux 5.12.4+)
# 0: 모든 사용자 허용 (기본)
# 1: 권한 없는 사용자 비활성화
# 2: 모든 사용자 비활성화
sysctl -w kernel.io_uring_disabled=1

# Docker/Kubernetes: seccomp 프로파일에서 io_uring_* 차단


  LSM 보안 훅 (v6.15+): 커널 6.15에서 io_uring 전용 LSM 훅(security_uring_sqe(), security_uring_cmd())이 추가되어, SELinux/AppArmor 등의 MAC 정책이 io_uring 연산에도 적용됩니다. 이전에는 io_uring이 시스템 콜 기반 LSM 훅을 우회할 수 있었으나, 전용 훅을 통해 이 구조적 보안 문제가 해결되었습니다.



  ⚠️
  
    Google, Chromium, Docker 등에서 기본 seccomp 프로파일에 io_uring 시스템 콜을 차단하고 있습니다. 컨테이너(Container) 환경에서는 io_uring_disabled=1 설정을 권장하며, 필요한 경우 IORING_REGISTER_RESTRICTIONS로 최소 권한만 부여하세요.
  


io_uring 주요 보안 취약점 사례

io_uring은 Linux 5.1에서 도입된 이후 빠른 기능 확장과 함께 다수의 심각한 보안 취약점이 발견되었습니다. 복잡한 비동기 상태 관리, 커널 스레드 기반의 SQPOLL, 다양한 opcode의 조합 등이 공격 면적을 크게 확장시킵니다. 2021~2023년에 CVE가 집중 발생하여, Google이 Android/ChromeOS에서 io_uring을 완전 비활성화하는 결정을 내리기도 했습니다.


  CVE-2021-41073 — io_uring 타입 혼동으로 권한 상승 (CVSS 7.8):
  io_uring의 파일 등록 메커니즘에서 IORING_REGISTER_FILES와 IORING_REGISTER_FILES_UPDATE의 처리 과정에서 파일 디스크립터 타입 검증이 누락되어, 일반 파일 디스크립터를 특수 파일(예: 커널 내부 파일)로 교체할 수 있었습니다. 이를 통해 권한 검사를 우회하고 임의 코드를 실행할 수 있습니다.



  CVE-2022-29582 — io_uring timeout UAF (CVSS 7.0):
  io_uring의 IORING_OP_LINK_TIMEOUT 처리에서, 링크된 요청이 완료된 후에도 timeout 요청의 io_kiocb가 해제되지 않은 채 타이머 콜백(Callback)에서 참조되어 Use-After-Free가 발생합니다. 타이머 만료와 요청 완료 사이의 경쟁 조건(Race Condition)이 근본 원인입니다.



  CVE-2023-2598 — io_uring 고정 버퍼 범위 초과 (CVSS 7.8):
  IORING_REGISTER_BUFFERS로 등록된 고정 버퍼(fixed buffer)의 경계 검사가 불충분하여, coalesced 버퍼에서 범위 밖 읽기/쓰기가 가능합니다. 물리적으로 연속된 페이지를 병합하는 과정에서 길이 계산 오류가 발생합니다.


/* io_uring 취약점 타임라인 (주요 항목) */

/*
 * 2021:
 * CVE-2021-20226  — io_uring close 연산에서 UAF
 * CVE-2021-41073  — 파일 등록 타입 혼동 → 권한 상승
 * CVE-2021-3491   — io_uring PROVIDE_BUFFERS OOB 쓰기
 *
 * 2022:
 * CVE-2022-29582  — LINK_TIMEOUT UAF (타이머 경쟁 조건)
 * CVE-2022-1043   — io_uring sendmsg/recvmsg UAF
 * CVE-2022-2602   — io_uring + Unix socket GC UAF
 *
 * 2023:
 * CVE-2023-2598   — 고정 버퍼 경계 초과
 * CVE-2023-2235   — io_uring timer의 이중 해제
 * CVE-2023-21400  — io_uring 파일 테이블 오프셋 UAF
 *
 * 근본 원인 분류:
 * - Use-After-Free: ~60% (비동기 생명주기 관리 실패)
 * - 경쟁 조건: ~20% (완료/취소/타임아웃 간 race)
 * - 범위 초과: ~15% (버퍼/인덱스 경계 검사 누락)
 * - 타입 혼동: ~5% (파일/소켓 타입 검증 누락)
 */

/* io_uring 비동기 생명주기 관리의 복잡성 */
struct io_kiocb {
    /* 하나의 요청(SQE)에 대한 커널 제어 블록
     * 생명주기:
     *   submit → queued → in_flight → completed → freed
     *
     * 위험 지점:
     * 1. cancel과 complete가 동시에 발생 (race)
     * 2. linked request 체인에서 중간 요청 실패 시 후속 정리
     * 3. SQPOLL 커널 스레드와 사용자 스레드의 동시 접근
     * 4. timeout과 target 요청의 상호 참조 해제
     */
    struct io_ring_ctx *ctx;     /* io_uring 인스턴스 */
    u8 opcode;                    /* 연산 종류 */
    struct io_kiocb *link;       /* 다음 연결된 요청 */
    struct io_tw_state tw;       /* task work 상태 */
    atomic_t refs;                /* 참조 카운트 */
};

/* io_uring 보안 설정 권장 */
# 시스템 전체에서 io_uring 비활성화 (보안 우선 환경)
sysctl -w kernel.io_uring_disabled=2  # 0=허용, 1=비특권 차단, 2=완전 차단

# 비특권 사용자만 차단 (일반 서버)
sysctl -w kernel.io_uring_disabled=1

레거시 Linux AIO

Linux AIO(Asynchronous I/O)는 Linux 2.5(2002)에 도입된 비동기 I/O 인터페이스로, io_uring(Linux 5.1, 2019)의 전신입니다. O_DIRECT 필수, 파일 I/O 전용, 복잡한 API 등의 한계로 현재는 유지보수 모드이며 새 프로젝트는 io_uring을 권장합니다.

동기 I/O vs 비동기 I/O



항목 동기 I/O (read/write) 비동기 I/O (AIO)


호출 방식 read(), write() io_submit()
반환 시점 I/O 완료 후 즉시 (제출만 완료)
블로킹 O (기다림) X (비차단)
완료 확인 반환값 io_getevents()



Linux AIO 시스템 콜

Linux AIO는 5개의 시스템 콜로 구성됩니다.



시스템 콜 역할 주요 파라미터


io_setup() AIO 컨텍스트 생성 maxevents, ctxp
io_submit() I/O 요청 제출 ctx, nr, iocbpp
io_getevents() 완료된 I/O 수집 ctx, min_nr, nr, events, timeout
io_cancel() I/O 요청 취소 ctx, iocb, result
io_destroy() AIO 컨텍스트 파괴 ctx



libaio 예제

#include <libaio.h>

io_context_t ctx = 0;
struct iocb *iocbs[DEPTH];
struct io_event events[DEPTH];

/* 1. AIO 컨텍스트 생성 */
io_setup(DEPTH, &ctx);

/* 2. O_DIRECT로 파일 열기 (필수!) */
int fd = open("datafile.bin", O_RDONLY | O_DIRECT);

/* 3. IOCB 초기화 및 제출 */
io_prep_pread(iocbs[0], fd, buffer, 4096, 0);
io_submit(ctx, 1, iocbs);

/* 4. 완료 대기 */
io_getevents(ctx, 1, DEPTH, events, NULL);
io_destroy(ctx);

O_DIRECT 요구사항


Linux AIO는 O_DIRECT 필수! Buffered I/O에서 io_submit()이 블로킹될 수 있습니다. 진짜 비동기 처리를 위해서는 반드시 O_DIRECT 플래그가 필요합니다. io_uring은 Buffered I/O에서도 비동기 동작을 지원하는 것이 핵심적인 개선점입니다.


Linux AIO의 한계


O_DIRECT 강제: Buffered I/O에서 비효율적
파일 I/O만 지원: 네트워크 소켓, 파이프 등 미지원
복잡한 API: 시스템 콜 직접 사용 어려움
메타데이터 연산 미지원: open(), stat(), mkdir() 등 블로킹


성능 벤치마크



방식 IOPS (4KB, QD=32) Latency (avg) CPU


동기 I/O (1 thread) 10K 0.1 ms 5%
동기 I/O (32 threads) 80K 0.4 ms 35%
Linux AIO (QD=32) 200K 0.16 ms 15%
io_uring (QD=32) 350K 0.09 ms 10%



Linux AIO 사용 시점



레거시 시스템: 커널 5.1 미만 (io_uring 없음)
기존 코드베이스: 이미 AIO를 사용 중이고 잘 동작함
단순 파일 I/O: Direct I/O만 필요하고 복잡도 낮음

새 프로젝트는 io_uring 사용을 권장합니다!


io_uring 채택 현황

io_uring은 도입 이후 빠르게 주요 인프라 프로젝트에 채택되고 있습니다. 다음은 io_uring을 적극적으로 활용하거나 실험하고 있는 대표적인 프로젝트입니다.



프로젝트 분류 io_uring 활용 방식 주요 사용 기능


fio 벤치마크 --ioengine=io_uring으로 스토리지 성능 측정 SQPOLL, IOPOLL, fixed files/buffers
RocksDB 데이터베이스 MultiGet 비동기 읽기, compaction I/O 가속 배치 제출, fixed buffers
PostgreSQL 데이터베이스 v16+ 실험적 비동기 I/O 백엔드 buffered read, AIO 대체
ScyllaDB / Seastar 데이터베이스 Seastar 프레임워크의 핵심 I/O 백엔드 SQPOLL, IOPOLL, zero-copy
Ceph 분산 스토리지 BlueStore의 io_uring 백엔드 배치 제출, fixed files
SPDK 스토리지 프레임워크 NVMe passthrough 대안으로 io_uring_cmd 지원 io_uring_cmd, IOPOLL
QEMU 가상화(Virtualization) virtio-blk/scsi의 io_uring AIO 백엔드 기본 모드, 배치 제출
nginx 웹 서버 실험적 io_uring 이벤트 모듈 read, sendfile 대체
Tokio (Rust) 런타임 tokio-uring 크레이트로 비동기 I/O 백엔드 제공 multishot, provided buffers
io-uring (Rust) 라이브러리 안전한 Rust 래퍼로 io_uring 전체 기능 노출 전체 opcode 지원
netty (Java) 네트워크 io_uring transport (incubator-transport-io_uring) multishot accept/recv
libuv 이벤트 루프 실험적 io_uring 백엔드 (Node.js 기반) 파일 I/O 가속



언어별 생태계



언어 라이브러리/프레임워크 상태 특징


C liburing 공식 안정 Jens Axboe 직접 관리, 사실상 표준
Rust io-uring, tokio-uring, monoio 안정/활발 소유권 모델과 잘 맞음, completion-based
Go iceber/iouring-go, godzie/gouring 실험적 goroutine 모델과 통합 어려움
Java netty-incubator-transport-io_uring 인큐(Enqueue)베이터 JNI 기반, Netty 채널 추상화
Python liburing (cffi 바인딩) 실험적 GIL로 인해 효과 제한적
C++ liburing (직접 사용), Boost.Asio 실험적 안정 C API 그대로 사용 가능




  💡
  
    채택 트렌드: io_uring은 특히 Rust 생태계에서 가장 빠르게 채택되고 있습니다. Rust의 소유권 모델이 io_uring의 completion-based 비동기 모델(버퍼 소유권 이전)과 자연스럽게 맞기 때문입니다. Go는 goroutine 스케줄러(Scheduler)와의 통합이 어려워 채택이 느린 편입니다.
  


io_uring_register 전체 연산 참조

io_uring_register() 시스템 콜은 리소스 사전 등록, 기능 조회, 워커 제어 등 io_uring 인스턴스의 설정을 관리합니다. 다음은 전체 등록 연산 목록입니다.



Opcode 이름 설명 도입


0 IORING_REGISTER_BUFFERS 고정 버퍼 등록 (페이지 핀, GUP 비용 제거) 5.1
1 IORING_UNREGISTER_BUFFERS 고정 버퍼 해제 5.1
2 IORING_REGISTER_FILES 고정 파일 디스크립터 등록 (fget/fput 비용 제거) 5.1
3 IORING_UNREGISTER_FILES 고정 파일 디스크립터 해제 5.1
4 IORING_REGISTER_EVENTFD 완료 알림용 eventfd 등록 5.2
5 IORING_UNREGISTER_EVENTFD eventfd 해제 5.2
6 IORING_REGISTER_FILES_UPDATE 등록된 파일 테이블 부분 업데이트 5.5
7 IORING_REGISTER_EVENTFD_ASYNC 비동기 완료 시에만 eventfd 시그널 5.6
8 IORING_REGISTER_PROBE 지원 opcode 조회 (기능 탐지) 5.6
9 IORING_REGISTER_PERSONALITY 크리덴셜 등록 (다른 사용자 권한으로 I/O) 5.6
10 IORING_UNREGISTER_PERSONALITY 크리덴셜 해제 5.6
11 IORING_REGISTER_RESTRICTIONS 허용 opcode/플래그 제한 (샌드박싱) 5.13
12 IORING_REGISTER_ENABLE_RINGS R_DISABLED 상태의 ring 활성화 5.10
13 IORING_REGISTER_FILES_UPDATE2 파일 업데이트 확장 (태그 지원) 5.13
14 IORING_REGISTER_BUFFERS2 버퍼 등록 확장 (태그 지원) 5.13
15 IORING_REGISTER_BUFFERS_UPDATE 등록된 버퍼 부분 업데이트 5.13
16 IORING_REGISTER_IOWQ_AFF io-wq 워커의 CPU affinity 설정 5.14
17 IORING_UNREGISTER_IOWQ_AFF io-wq CPU affinity 해제 5.14
18 IORING_REGISTER_IOWQ_MAX_WORKERS io-wq 최대 워커 수 설정 [bounded, unbounded] 5.15
19 IORING_REGISTER_RING_FDS ring fd를 테이블에 등록 (close-on-exec 없이) 5.18
20 IORING_UNREGISTER_RING_FDS ring fd 테이블 해제 5.18
22 IORING_REGISTER_PBUF_RING Provided buffer ring 등록 5.19
23 IORING_UNREGISTER_PBUF_RING Provided buffer ring 해제 5.19
24 IORING_REGISTER_SYNC_CANCEL 동기적 요청 취소 6.0
25 IORING_REGISTER_FILE_ALLOC_RANGE 파일 테이블 할당 범위 지정 6.0
27 IORING_REGISTER_NAPI busy-poll NAPI 등록 (네트워크 지연 최적화) 6.9
28 IORING_UNREGISTER_NAPI NAPI 등록 해제 6.9



기능 탐지: IORING_REGISTER_PROBE

런타임에 커널이 지원하는 opcode를 확인할 수 있습니다. 다양한 커널 버전에서 동작해야 하는 애플리케이션에 필수적입니다.

#include <liburing.h>
#include <stdio.h>

void probe_io_uring(struct io_uring *ring) {
    struct io_uring_probe *probe = io_uring_get_probe_ring(ring);
    if (!probe) {
        perror("probe not supported");
        return;
    }

    const char *op_names[] = {
        [IORING_OP_NOP]       = "NOP",
        [IORING_OP_READV]     = "READV",
        [IORING_OP_WRITEV]    = "WRITEV",
        [IORING_OP_READ]      = "READ",
        [IORING_OP_WRITE]     = "WRITE",
        [IORING_OP_SEND_ZC]  = "SEND_ZC",
        [IORING_OP_URING_CMD] = "URING_CMD",
    };

    for (int i = 0; i < probe->ops_len; i++) {
        if (probe->ops[i].flags & IO_URING_OP_SUPPORTED) {
            printf("  op %d (%s): supported\n",
                   i, i < sizeof(op_names)/sizeof(*op_names)
                      ? op_names[i] : "unknown");
        }
    }
    io_uring_free_probe(probe);
}

/* 특정 opcode 지원 여부 간편 확인 */
bool supports_op(struct io_uring *ring, int op) {
    struct io_uring_probe *p = io_uring_get_probe_ring(ring);
    bool ok = p && io_uring_opcode_supported(p, op);
    io_uring_free_probe(p);
    return ok;
}


  💡
  
    이식성 팁: io_uring_get_probe()는 새 ring을 생성하여 탐지하고, io_uring_get_probe_ring()은 기존 ring에서 탐지합니다. 애플리케이션 초기화 시 한 번만 호출하고 결과를 캐시하세요.
  


NAPI Busy-Poll 통합

커널 6.9에서 도입된 IORING_REGISTER_NAPI는 io_uring과 네트워크 NAPI(New API) 폴링을 통합하여, 패킷(Packet) 수신 시 인터럽트 대신 busy-poll을 사용해 네트워크 지연을 극적으로 줄입니다. 일반적인 인터럽트 경로에서 10~50μs 걸리는 패킷 수신이, busy-poll을 통해 2~5μs로 단축됩니다.


  
  NAPI Busy-Poll: 인터럽트 경로를 제거하고 사용자 컨텍스트에서 직접 NIC 폴링


#include <liburing.h>

/* NAPI busy-poll 등록 (커널 6.9+) */
struct io_uring ring;
io_uring_queue_init(256, &ring, 0);

struct io_uring_napi napi = {
    .busy_poll_to = 100,    /* busy-poll 타임아웃: 100μs */
    .prefer_busy_poll = 1,  /* busy-poll 우선 */
};
io_uring_register_napi(&ring, &napi);

/* recv SQE 등록 */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_recv(sqe, sock_fd, buf, buf_len, 0);
io_uring_submit(&ring);

/* io_uring_enter(GETEVENTS) 시 내부적으로 napi_busy_loop() 호출
 * → NIC 드라이버의 poll 함수를 직접 호출하여 패킷 수확
 * → IRQ/softirq 경로를 완전히 우회 */
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);  /* 여기서 busy-poll 발생 */

/* 해제 */
io_uring_unregister_napi(&ring, &napi);



설정 항목 설명 권장값


busy_poll_to busy-poll 타임아웃 (μs). 이 시간 동안 NIC를 폴링 50~200μs (워크로드에 따라 조정)
prefer_busy_poll 1이면 인터럽트보다 busy-poll 우선 1 (지연 중시 환경)
시스템 sysctl net.core.busy_poll, net.core.busy_read io_uring NAPI 사용 시 0 (io_uring이 직접 관리)




  ⚠️
  
    NIC 드라이버 요건: NAPI busy-poll은 드라이버가 ndo_busy_poll을 지원해야 합니다. Intel i40e, ixgbe, ice, Mellanox mlx5 등 주요 10GbE+ 드라이버가 지원합니다. ethtool -k <iface> | grep busy로 확인하세요.
  


Direct Descriptors (직접 파일 할당)

Direct Descriptors는 accept(), open() 등으로 생성되는 파일 디스크립터를 프로세스 fd 테이블에 설치하지 않고, io_uring의 fixed file 테이블에 직접 등록하는 기능입니다. 프로세스 fd 테이블의 잠금(fdget()/fdput())과 fd 번호 할당 오버헤드를 완전히 제거합니다.


  
  기존 fd 경로(잠금 경합) vs Direct Descriptor(잠금 프리) 비교


#include <liburing.h>

/* 1. Fixed file 테이블 초기 할당 (빈 슬롯) */
int fds[1024];
memset(fds, -1, sizeof(fds));  /* -1 = 빈 슬롯 */
io_uring_register_files(&ring, fds, 1024);

/* 또는: 할당 범위 지정 (6.0+) */
struct io_uring_file_index_range range = {
    .off = 0, .len = 1024,
};
io_uring_register_file_alloc_range(&ring, range.off, range.len);

/* 2. Direct accept: 프로세스 fd 테이블을 거치지 않고 직접 fixed file에 설치 */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_multishot_accept_direct(sqe, listen_fd, NULL, NULL, 0);
/* IORING_FILE_INDEX_ALLOC → 커널이 빈 슬롯 자동 선택 */

/* 3. CQE에서 fixed file index 확인 */
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);
int file_index = cqe->res;  /* fixed file 슬롯 인덱스 */

/* 4. Fixed file로 I/O 수행 */
sqe = io_uring_get_sqe(&ring);
io_uring_prep_recv(sqe, file_index, buf, len, 0);
sqe->flags |= IOSQE_FIXED_FILE;  /* 필수: fixed file 사용 표시 */

/* 5. 연결 종료 시: CLOSE_DIRECT로 슬롯만 해제 (process fd 테이블 미사용) */
sqe = io_uring_get_sqe(&ring);
io_uring_prep_close_direct(sqe, file_index);

/* 6. 필요 시 fixed file을 프로세스 fd로 변환 (6.12+) */
sqe = io_uring_get_sqe(&ring);
sqe->opcode = IORING_OP_FIXED_FD_INSTALL;
sqe->fd = file_index;
sqe->flags = IOSQE_FIXED_FILE;
/* CQE.res = 프로세스 fd 번호 (일반 fd처럼 사용 가능) */



연산 Direct 변형 설명


accept io_uring_prep_accept_direct() 새 소켓을 fixed file 슬롯에 직접 설치
multishot accept io_uring_prep_multishot_accept_direct() multishot + 자동 슬롯 할당
openat io_uring_prep_openat_direct() 파일을 fixed file 슬롯에 직접 열기
openat2 io_uring_prep_openat2_direct() 고급 플래그 + 직접 설치
socket io_uring_prep_socket_direct() 소켓 생성 + 직접 설치
close io_uring_prep_close_direct() fixed file 슬롯 해제 (fd close 불필요)




  💡
  
    대규모 연결 서버에서 필수: 수만 개의 동시 연결을 처리하는 서버에서 Direct Descriptors는 fd 테이블 잠금 경합을 완전히 제거합니다. 특히 SINGLE_ISSUER + multishot_accept_direct + IOSQE_FIXED_FILE 조합은 연결 수락부터 I/O까지 프로세스 fd 테이블을 전혀 사용하지 않는 완전 잠금-프리 경로를 구현합니다.
  


CQE32 / SQE128 확장 포맷

기본 SQE는 64바이트, CQE는 16바이트입니다. IORING_SETUP_SQE128과 IORING_SETUP_CQE32 플래그를 사용하면 각각 128바이트, 32바이트로 확장하여 추가 데이터를 전달할 수 있습니다. NVMe passthrough(io_uring_cmd)에서 주로 사용됩니다.


  
  SQE(64/128바이트) 및 CQE(16/32바이트) 바이트 레이아웃과 확장 영역


/* SQE128 + CQE32 링 설정 (NVMe passthrough용) */
struct io_uring_params params = {
    .flags = IORING_SETUP_SQE128   /* SQE를 128바이트로 확장 */
           | IORING_SETUP_CQE32,   /* CQE를 32바이트로 확장 */
};
io_uring_queue_init_params(64, &ring, &params);

/* SQE128 mmap 크기: sq_entries × 128 (기본의 2배) */
/* CQE32 mmap 크기: cq_entries × 32 (기본의 2배) */

/* NVMe passthrough 예시 */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
sqe->opcode   = IORING_OP_URING_CMD;
sqe->fd       = nvme_ns_fd;
sqe->cmd_op   = NVME_URING_CMD_IO;

/* 확장 영역(offset 64~127)에 NVMe 커맨드 배치 */
struct nvme_uring_cmd *cmd = (struct nvme_uring_cmd *)sqe->cmd;
cmd->opcode   = nvme_cmd_read;
cmd->nsid     = 1;
cmd->addr     = (__u64)buffer;
cmd->data_len = 4096;
cmd->cdw10    = lba & 0xFFFFFFFF;
cmd->cdw11    = lba >> 32;
cmd->cdw12    = (4096 / 512) - 1;  /* 블록 수 */

io_uring_submit(&ring);

/* CQE32에서 확장 결과 읽기 */
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);
__u64 extra1 = io_uring_cqe_get_extra1(cqe);  /* NVMe 결과 DW0 */
__u64 extra2 = io_uring_cqe_get_extra2(cqe);  /* NVMe 결과 DW1 */

Buffered I/O 내부 경로

io_uring이 기존 Linux AIO와 결정적으로 다른 점 중 하나는 Buffered I/O를 진정한 비동기로 처리할 수 있는 것입니다. 페이지 캐시(Page Cache) 히트 시 즉시 완료하고, 캐시 미스 시 자동으로 io-wq 워커에 위임하여 블로킹 없이 처리합니다.


  
  Buffered Read 경로: 페이지 캐시 히트(Fast Path) vs 미스(Slow Path → io-wq)




경로 페이지 캐시 워커 사용 지연 발생 비율


Fast Path 히트 없음 (인라인 완료) 1~5μs 워킹셋 내: 90%+
Slow Path 미스 io-wq bounded worker 50~500μs (디스크) 콜드 데이터: 가변
Readahead 히트 히트 (예측) 없음 1~5μs 순차 읽기: 95%+




  ℹ️
  
    NOWAIT 시도 메커니즘: io_uring은 모든 buffered I/O를 먼저 IOCB_NOWAIT 플래그로 시도합니다. 페이지가 캐시에 있으면 즉시 반환되고, 없으면 -EAGAIN이 반환되어 io-wq로 넘어갑니다. 이 "먼저 시도하고, 안 되면 위임" 전략이 buffered I/O의 비동기 처리 핵심입니다. 파일시스템이 FMODE_NOWAIT을 지원해야 하며, ext4, XFS, btrfs 등이 지원합니다.
  


Registered Ring FD 최적화

IORING_REGISTER_RING_FDS(5.18+)는 io_uring 링 자체의 fd를 커널 내부 테이블에 등록하여, io_uring_enter() 호출 시 fdget()/fdput() 오버헤드를 제거합니다. 고빈도로 io_uring_enter()를 호출하는 환경에서 유효합니다.

#include <liburing.h>

struct io_uring ring;
io_uring_queue_init(256, &ring, 0);

/* Ring fd를 커널에 등록 → enter_ring_fd 사용 가능 */
int ret = io_uring_register_ring_fd(&ring);
if (ret == 1) {
    /* 이후 io_uring_enter()는 등록된 인덱스를 사용
     * → fdget/fdput 스킵 → 시스템 콜당 ~200ns 절약
     * liburing이 자동으로 enter_ring_fd 사용 */
}

/* 일반 I/O 수행 — 내부적으로 최적화된 enter 경로 사용 */
io_uring_submit(&ring);

/* 해제 */
io_uring_unregister_ring_fd(&ring);



최적화 제거 비용 절약량 적합 환경


Registered Ring FD io_uring_enter()의 fdget/fdput ~200ns/콜 기본 모드 (빈번한 enter 호출)
Fixed Files I/O 대상 fd의 fdget/fdput ~150ns/I/O 모든 환경 (필수 최적화)
Fixed Buffers GUP (get_user_pages) 비용 ~500ns/I/O 대용량/고빈도 I/O
SQPOLL io_uring_enter() 시스템 콜 자체 ~1μs/콜 극한 지연 요구




  💡
  
    liburing 자동 처리: liburing 2.3+에서 io_uring_queue_init() 시 자동으로 io_uring_register_ring_fd()를 호출합니다. 직접 원시 시스템 콜을 사용하는 경우에만 수동 등록이 필요합니다.
  


kTLS + io_uring 통합

커널 TLS(kTLS)는 TLS 암호화(Encryption)/복호화(Decryption)를 커널 공간(Kernel Space)에서 수행하여, 사용자 공간 TLS 라이브러리(OpenSSL 등)의 복사 오버헤드를 제거합니다. io_uring의 send/recv와 결합하면 TLS 전송도 비동기 + 제로카피로 처리할 수 있습니다.


  
  기존 OpenSSL 경로(3회 복사) vs kTLS + io_uring(제로카피) 비교


#include <linux/tls.h>
#include <liburing.h>

/* 1. TCP 소켓에 kTLS 설정 (OpenSSL 핸드셰이크 후) */
struct tls12_crypto_info_aes_gcm_128 crypto_info;
crypto_info.info.version     = TLS_1_2_VERSION;
crypto_info.info.cipher_type = TLS_CIPHER_AES_GCM_128;
/* iv, key, salt, rec_seq 설정 (OpenSSL에서 추출) */

setsockopt(sock_fd, SOL_TCP, TCP_ULP, "tls", 3);
setsockopt(sock_fd, SOL_TLS, TLS_TX,
           &crypto_info, sizeof(crypto_info));

/* 2. io_uring으로 TLS 전송 (평문을 보내면 커널이 암호화) */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_send(sqe, sock_fd, plaintext, len, 0);
/* 커널 kTLS 레이어가 자동으로 AES-GCM 암호화 수행 */

/* 3. 제로카피 TLS 전송 (대용량 전송 시) */
sqe = io_uring_get_sqe(&ring);
io_uring_prep_send_zc(sqe, sock_fd, plaintext, len, 0, 0);
/* kTLS + SEND_ZC: 최소 복사로 최대 처리량 */

io_uring_submit(&ring);


  ℹ️
  
    kTLS 적용 사례: nginx 1.21.4+에서 ssl_conf_command Options KTLS 설정으로 kTLS를 활성화할 수 있습니다. Envoy, HAProxy도 kTLS 지원을 추가하고 있으며, io_uring 이벤트 루프와 결합하면 HTTPS 프록시 성능이 크게 향상됩니다. kTLS 지원 확인: cat /proc/net/tls_stat
  


io_uring 내부 잠금 전략

io_uring의 성능 핵심 중 하나는 잠금을 최소화하는 설계입니다. SQ/CQ 링 자체는 lock-free이지만, 내부 자원 관리(io_ring_ctx)에는 다양한 잠금이 사용되며, 커널 버전에 따라 세분화되어 왔습니다.


  
  io_uring 잠금 전략 진화: 큰 뮤텍스 → 분리 → 완전 lock-free




잠금 보호 대상 SINGLE_ISSUER 시 DEFER_TASKRUN 시


uring_lock SQE 파싱, 리소스 등록/해제 제출 경로에서 생략 가능 동일
completion_lock CQE 게시, 오버플로 리스트 여전히 필요 (다중 완료 소스) 불필요 (일괄 처리)
timeout_lock 타이머 리스트 관리 여전히 필요 여전히 필요
cancel_lock 취소 해시 테이블(Hash Table) 여전히 필요 여전히 필요
SQ/CQ 링 포인터 head/tail 포인터 항상 lock-free (메모리 배리어만 사용)



시스템 파라미터 튜닝 가이드

io_uring 성능과 안정성에 영향을 미치는 커널 파라미터, 리소스 제한, 시스템 설정을 종합적으로 정리합니다.

리소스 제한 (rlimits)



파라미터 영향 기본값 권장값 설정 방법


RLIMIT_MEMLOCK mmap 고정 메모리 상한 (SQ/CQ 링, 고정 버퍼) 64KB (대부분) 256MB+ (고성능 서버) ulimit -l unlimited 또는 /etc/security/limits.conf
RLIMIT_NPROC io-wq bounded 워커 최대 수 프로세스 제한 워크로드에 따라 ulimit -u 65535
RLIMIT_NOFILE fd 테이블 크기 (Direct Descriptor 사용 시 덜 중요) 1024 65536+ ulimit -n 65536



커널 sysctl 파라미터



sysctl 경로 설명 기본값 권장


kernel.io_uring_disabled io_uring 사용 제어 0 (허용) 프로덕션: 0, 컨테이너: 1 또는 2
kernel.io_uring_group io_uring 사용 허용 GID (6.1+) -1 (비활성) 특정 그룹만 허용 시 설정
fs.file-max 시스템 전체 fd 상한 시스템 의존 고성능 서버: 2097152+
fs.nr_open 프로세스별 fd 상한 1048576 일반적으로 충분
vm.locked_vm (간접) mmap 고정 페이지 MEMLOCK 기반 io_uring 크기에 따라
net.core.busy_poll 소켓 busy-poll 타임아웃 (μs) 0 io_uring NAPI 사용 시 0 (io_uring이 관리)
net.core.busy_read 소켓 busy-read 타임아웃 (μs) 0 io_uring NAPI 사용 시 0
net.core.somaxconn listen 백로그 최대값 4096 고연결 서버: 65535



io-wq 워커 제어

/* io-wq 워커 수 제한 */
unsigned int workers[2] = {
    16,   /* [0] bounded: buffered I/O 워커 (RLIMIT_NPROC 이하) */
    8,    /* [1] unbounded: 네트워크/폴 대기 워커 */
};
io_uring_register_iowq_max_workers(&ring, workers);
/* 반환: workers[]에 이전 값이 저장됨 */

/* io-wq 워커 CPU affinity 설정 */
cpu_set_t cpuset;
CPU_ZERO(&cpuset);
for (int i = 0; i < 8; i++)
    CPU_SET(i, &cpuset);
io_uring_register_iowq_aff(&ring, sizeof(cpuset), &cpuset);

프로덕션 배포 체크리스트


  💡
  
    프로덕션 환경 설정 순서:
    
      RLIMIT_MEMLOCK 증가: 링 크기 + 고정 버퍼 크기를 수용하도록 설정
      커널 버전 확인: 최소 5.11+ (SQPOLL 개선), 권장 6.1+ (DEFER_TASKRUN)
      보안 설정: 컨테이너에서는 io_uring_disabled=1, 필요 시 RESTRICTIONS 적용
      CPU 바인딩: SQPOLL CPU, io-wq affinity, NUMA 노드 일치 확인
      모니터링: /proc/PID/fdinfo, tracepoint, bpftrace로 CQ 오버플로/워커 포화 감시
      성능 측정: fio로 기준선 측정 후 최적화 효과 검증
    
  


# 프로덕션 서버 io_uring 설정 스크립트

# 1. 리소스 제한 설정
cat <<EOF >> /etc/security/limits.conf
*    soft    memlock    unlimited
*    hard    memlock    unlimited
*    soft    nofile     65536
*    hard    nofile     65536
EOF

# 2. sysctl 설정
cat <<EOF >> /etc/sysctl.d/99-io-uring.conf
# io_uring 허용 (비특권 사용자 차단)
kernel.io_uring_disabled = 1

# 파일 시스템 제한
fs.file-max = 2097152
fs.nr_open = 1048576

# 네트워크 (io_uring NAPI 사용 시)
net.core.somaxconn = 65535
net.core.netdev_max_backlog = 50000
net.ipv4.tcp_max_syn_backlog = 30000
EOF

sysctl -p /etc/sysctl.d/99-io-uring.conf

# 3. 커널 버전 및 io_uring 기능 확인
uname -r
cat /proc/sys/kernel/io_uring_disabled

# 4. SQPOLL 권한 부여 (특정 바이너리에만)
setcap cap_sys_nice+ep /usr/local/bin/my_server

# 5. fio 기준선 측정
fio --ioengine=io_uring --direct=1 --bs=4k --iodepth=64 \
    --rw=randread --filename=/dev/nvme0n1 --name=baseline \
    --fixedbufs=1 --registerfiles=1 --sqthread_poll=1

커널 버전 호환성 매트릭스

io_uring 기능은 커널 버전에 따라 크게 달라집니다. 다음은 주요 기능별 최소 요구 커널 버전을 종합한 호환성 매트릭스입니다.



기능 범주 기능 최소 커널 안정 권장 비고


기본 io_uring 기본 (setup/enter/register) 5.1 5.4+ 초기 버전은 버그 다수
SQ/CQ 통합 mmap 5.4 5.4+ IORING_FEAT_SINGLE_MMAP
liburing 호환 5.1 5.10+ liburing 2.x는 5.10+ 권장
모드 SQPOLL 5.1 5.11+ 5.11에서 안정성 대폭 개선
IOPOLL 5.1 5.1+ O_DIRECT 필수
SINGLE_ISSUER 6.0 6.0+ 내부 잠금 제거
DEFER_TASKRUN 6.1 6.1+ SINGLE_ISSUER 필수
리소스 등록 Fixed files 5.1 5.5+ 5.5에서 업데이트 지원
Fixed buffers 5.1 5.1+ GUP 비용 제거
Provided buffer ring 5.19 5.19+ mmap 방식, 이전 PROVIDE_BUFFERS 대체
Registered ring fd 5.18 5.18+ enter() 시 fdget 비용 제거
네트워크 accept/connect/send/recv 5.5 5.6+ 기본 네트워크 연산
Multishot accept 5.19 5.19+ ACCEPT_MULTISHOT
Multishot recv 6.0 6.0+ RECV_MULTISHOT + provided buffers
SEND_ZC (제로카피 전송) 6.0 6.0+ 64KB+ 대용량에 효과적
NAPI busy-poll 6.9 6.9+ 초저지연 네트워크
고급 MSG_RING 5.18 5.18+ 링 간 통신
MSG_RING_FD 6.3 6.3+ fd 전달
io_uring_cmd (NVMe passthrough) 6.0 6.0+ SQE128 필요
파일시스템 open/close/statx 5.6 5.6+ 비동기 메타데이터 연산
Direct descriptors 5.15 6.0+ FILE_INDEX_ALLOC은 6.0+
FUSE io_uring 6.14 6.14+ FUSE 성능 대폭 향상
보안 io_uring_disabled sysctl 5.12.4 5.12.4+ 0/1/2 레벨
RESTRICTIONS 5.13 5.13+ opcode/플래그 제한
NO_SQARRAY 6.7 6.7+ 메모리 절약
LSM 훅 6.15 6.15+ SELinux/AppArmor 통합




  ⚠️
  
    최소 권장 버전: 새 프로젝트에서 io_uring을 사용한다면 최소 커널 6.1+을 권장합니다. SINGLE_ISSUER + DEFER_TASKRUN 조합이 가능하고, 다수의 보안 패치(Patch)와 성능 개선이 포함되어 있습니다. 5.x 커널에서는 CVE가 다수 존재하므로, 반드시 최신 안정 패치를 적용하세요. IORING_REGISTER_PROBE로 런타임에 기능을 탐지하면 다양한 커널 버전에서 안전하게 동작할 수 있습니다.
  


최신 동향 (커널 6.11~6.15)

io_uring은 2024~2025년에도 공격적인 신규 기능 추가와 성능 최적화가 계속되고 있습니다. 다음 항목들은 본 문서의 이전 버전에는 포함되지 않았던 최근 릴리즈의 핵심 변경입니다.

RWF_DONTCACHE (6.14)

버퍼 I/O에 RWF_DONTCACHE를 전달하면 페이지 캐시를 경유하되 완료 직후 해당 폴리오를 drop하여 LRU 압력을 만들지 않습니다. 스트리밍 백업이나 초기 적재처럼 "한 번만 읽는" 워크로드에서 POSIX_FADV_DONTNEED 이후 처리 경합을 제거합니다. io_uring은 sqe->rw_flags에 그대로 전달합니다.

#include <linux/fs.h>

struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_read(sqe, fd, buf, len, off);
sqe->rw_flags = RWF_DONTCACHE;            /* 6.14+ */

IORING_SETUP_HYBRID_IOPOLL (6.13)

기존 IOPOLL은 완료 쪽에서 무제한 busy-polling을 수행하므로 100% CPU 사용이 불가피했습니다. 6.13의 HYBRID_IOPOLL(=1<<17)은 디바이스 응답 평균 지연을 학습해, 그 절반만큼 커널이 잠들었다가(대기) 나머지 구간에서만 polling하도록 완화합니다. NVMe Gen5에서 CPU 사용률을 최대 50~70% 줄이면서 p99 지연은 거의 유지됩니다. 반드시 NO_SQARRAY + IOPOLL과 함께 써야 하며 SQPOLL과는 배타적입니다.

struct io_uring_params p = {
    .flags = IORING_SETUP_IOPOLL
           | IORING_SETUP_NO_SQARRAY
           | IORING_SETUP_HYBRID_IOPOLL,   /* 6.13+ */
};
io_uring_queue_init_params(4096, &ring, &p);

IORING_OP_BIND / IORING_OP_LISTEN (6.11)

6.11에서 bind()와 listen()을 SQE로 발행하는 오퍼코드가 추가되었습니다. 이전에는 socket 생성 후 raw fd를 얻어야만 이들을 호출할 수 있었는데, direct descriptor(registered fd) 기반 파이프라인에서 raw fd가 존재하지 않는 경로를 완성하기 위한 조각입니다. IORING_OP_SOCKET + IORING_OP_BIND + IORING_OP_LISTEN + IORING_OP_ACCEPT_MULTISHOT 체인이 모두 direct descriptor로 닫히면서, 수십 만 커넥션 accept 루프에서 fd 테이블 경합이 사라집니다.

IOU_PBUF_RING_INC — 증분 버퍼 소비 (6.12)

Provided Buffer Ring(PBR)에 Incremental Consumption 모드가 추가되었습니다. 종래에는 CQE 한 건당 버퍼 하나를 반환했으나, 6.12 이후 플래그를 설정하면 하나의 대형 버퍼에서 부분 소비가 가능하며 IORING_CQE_BUF_MORE가 설정된 동안 같은 버퍼 ID로 여러 개의 CQE가 순차 발생합니다. 대형 jumbo 프레임/SMB Direct 수신 경로에서 재할당 없이 스트림을 흘려보낼 수 있어 throughput이 크게 개선됩니다.

struct io_uring_buf_reg reg = {
    .ring_addr    = (__u64)(uintptr_t)ring_ptr,
    .ring_entries = 1024,
    .bgid         = 0,
    .flags        = IOU_PBUF_RING_MMAP
                  | IOU_PBUF_RING_INC,      /* 6.12+: 증분 소비 */
};
io_uring_register_buf_ring(&ring, &reg, 0);

링 리사이즈 / 버퍼 부분 복제 (6.13)

IORING_REGISTER_RESIZE_RINGS로 런타임에 SQ/CQ 크기를 변경할 수 있고, IORING_REGISTER_CLONE_BUFFERS의 부분 복제가 허용되어 등록 버퍼 배열을 다른 링과 범위 지정으로 공유할 수 있습니다. 시작 단계에서는 작은 링으로 자원을 아끼다가 부하가 늘 때 확장하는 워크로드 패턴이 단순해졌습니다.

대용량 등록 버퍼 (6.12)

io_uring_register_buffers()에 hugepage(2 MB)를 단일 iovec으로 전달하면 내부 bvec이 PAGE_SIZE 단위로 쪼개지지 않고 hugepage 전체를 단일 세그먼트로 보유합니다. O_DIRECT + hugepage 등록 버퍼 경로에서 per-I/O 리스트 탐색 비용이 사라져 100G NIC, PCIe Gen5 NVMe에서 측정 가능한 IOPS 상승이 관측됩니다.

Zero-Copy Receive (zcrx, 6.15)

6.15에서 io_uring Zero-Copy Receive(zcrx)가 병합되었습니다. IORING_REGISTER_ZCRX_IFQ로 특정 NIC 수신 큐에 묶인 인터페이스 큐(ifq)를 등록하고, 사용자 공간이 DMA-매핑 가능한 페이지 풀을 제공하면 NIC가 직접 사용자 페이지에 패킷을 기록합니다. recv/recvmsg의 기존 사용자 공간 복사본이 완전히 제거되어 CPU 사이클이 NIC 드라이버 대역폭을 제한하지 않게 됩니다. 6.16에서는 DMA-BUF를 통한 GPU/TPU 직결 zcrx도 추가되었습니다.

/* 개념 의사 코드 — 실제 ABI는 <linux/io_uring.h> 참조 */
struct io_uring_zcrx_ifq_reg ifq = {
    .if_idx     = if_nametoindex("eth0"),
    .if_rxq     = 3,                /* NIC 수신 큐 번호 */
    .rq_entries = 4096,
    .area_ptr   = (__u64)(uintptr_t)area, /* 페이지 풀 */
    .area_len   = 32 * 1024 * 1024,
};
io_uring_register(fd, IORING_REGISTER_ZCRX_IFQ, &ifq, 1);

ublk + io_uring 제로카피 (6.12~6.16)

사용자 공간 블록 드라이버 프레임워크 ublk는 io_uring uring_cmd를 통해 커맨드를 교환합니다. 6.12에서 커널 등록 bvec 기반 zero-copy 인프라가 도입되어 ublk 사용자 공간 데몬이 bounce 복사 없이 DMA 페이지를 주고받을 수 있게 되었고, 6.16에서 경로 전체가 정식 통합되었습니다. 이는 유저스페이스 NBD 대체, 네트워크 파일시스템 오프로드 등에서 실측 대역폭을 ~2배로 끌어올립니다.

그 외 개선


  Futex 연산(6.7 도입, 이후 확장): IORING_OP_FUTEX_WAIT/WAKE/WAITV가 하이브리드 이벤트 루프 대체재로 자리 잡아, SQE 하나로 조건 변수 대기와 깨우기를 모두 표현할 수 있습니다.
  최소 타임아웃 대기(6.12): io_uring_submit_and_wait_min_timeout() 계열 헬퍼로 "최소 N개 CQE 또는 T 시간 중 먼저 도달한 쪽에서 깨어나기"가 표준화되었습니다.
  SINGLE_ISSUER 잠금 제거: 2025년 후반 패치 시리즈로 uring_lock을 SINGLE_ISSUER 경로에서 완전히 제거해, 단일 이슈어 사용 시 락 경합이 사라집니다.
  FUSE io_uring(6.14): FUSE 요청 전송을 io_uring 링으로 옮겨 per-request 컨텍스트 스위치를 제거했습니다.



  💡
  
    전략 요약: 2026년 시점에서 새 애플리케이션을 설계한다면 SINGLE_ISSUER + DEFER_TASKRUN + NO_SQARRAY를 기본으로 하고, 저지연 스토리지에는 HYBRID_IOPOLL, 네트워크 서버에는 ACCEPT_MULTISHOT + RECV_MULTISHOT + PBUF_RING_INC, 최고 성능 수신 경로에는 zcrx를 조합하는 것이 권장됩니다. liburing 2.8 이상이면 위 기능을 모두 헬퍼로 제공합니다.
  


최신 동향 (커널 6.16~6.18)

2025년 하반기부터 2026년 초 사이 릴리즈된 커널에서 io_uring은 네트워크 제로카피 경로 확장, 파이프 직접 생성, 멀티샷 수신 개선 등 실전 서버 응용에 직접 영향을 주는 기능이 병합되었습니다.

IORING_OP_PIPE — 파이프 직접 생성 (6.16)

6.16에서 IORING_OP_PIPE opcode가 추가되어 pipe() 시스템 콜 없이 SQE 하나로 파이프를 생성하고 곧바로 direct descriptor로 등록할 수 있게 되었습니다. IORING_OP_SOCKET + IORING_OP_BIND + IORING_OP_LISTEN 체인처럼, 파이프도 raw fd를 노출하지 않는 완전한 direct descriptor 파이프라인을 형성할 수 있습니다. 리눅스 파이프를 플로우 제어나 프로세스 간 단방향 채널로 사용하는 고성능 서버에서 fd 테이블 경합을 제거합니다.

/* 6.16+: direct descriptor로 파이프 생성 */
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_pipe(sqe, 0);                     /* flags */
sqe->file_index = IORING_FILE_INDEX_ALLOC;       /* direct fd 자동 할당 */
io_uring_submit(&ring);
/* CQE.res = read_end fd, CQE.flags >> 16 = write_end fd (구현 확인 필요) */

zcrx DMA-BUF 지원 (6.16)

6.15에서 병합된 io_uring Zero-Copy Receive(zcrx)가 6.16에서 DMA-BUF 기반 수신을 지원합니다. 기존에는 사용자 공간이 제공하는 일반 페이지를 풀로 등록했으나, 이제 GPU/가속기의 VRAM이나 CXL 장치 메모리를 DMA-BUF로 직접 등록할 수 있습니다. NIC가 패킷을 GPU 메모리에 직접 쓰는 경로가 완성되어 Host CPU 개입 없이 NIC→GPU 데이터 경로를 구성하는 데 활용됩니다.

커널 6.16부터: IORING_REGISTER_ZCRX_IFQ의 area_ptr에 DMA-BUF fd를 전달하면 커널이 해당 버퍼의 sg-table을 직접 참조합니다. 드라이버가 dma_buf_ops를 정상 구현한 모든 장치에 적용됩니다.

다중 ifq(인터페이스 큐) per ring (6.16)

6.15의 zcrx는 io_uring 인스턴스당 ifq(NIC 수신 큐)를 하나만 등록할 수 있었으나, 6.16에서 다중 ifq 등록이 가능해졌습니다. 단일 io_uring 링을 유지하면서 여러 NIC 또는 여러 RSS 큐를 동시에 제로카피 수신 경로에 묶을 수 있으므로, 멀티큐 NIC를 활용하는 고성능 패킷 처리 애플리케이션(DPDK-bypass, 고속 프록시 등)에서 구조가 단순해집니다.

io-wq 간접 호출 제거 (6.16)

6.16에서 io-wq 내부의 작업 실행·해제 함수가 함수 포인터(간접 호출) 대신 직접 호출로 전환되었습니다. 현대 CPU의 분기 예측(Branch Prediction)과 BTI(Branch Target Identification) 완화에서 간접 호출은 스펙터(Spectre) 계열 완화 비용이 발생하므로, 이 변경은 IO 집약 워크로드에서 측정 가능한 오버헤드(Overhead)를 줄입니다.

멀티샷 수신 크기 상한 (6.17)

6.17에서 IORING_OP_RECV_MULTISHOT에 수신 크기 상한(cap)이 추가되었습니다. 기존에는 제공된 버퍼 크기 전체를 소비할 때까지 하나의 SQE가 반복 수신했으나, 이제 sqe->len으로 멀티샷 1회 수신의 최대 바이트를 제한할 수 있습니다. 길이가 불규칙한 프로토콜에서 버퍼 단편화(Fragmentation)를 제어하는 데 유용합니다.

TX 타임스탬프 cmd (6.17)

6.17에서 io_uring_cmd 경로에 TX 타임스탬프 지원이 추가되었습니다. 소켓에 SO_TIMESTAMPING을 설정한 상태에서 io_uring을 통해 전송하면 이제 하드웨어/소프트웨어 타임스탬프를 CQE로 수신할 수 있습니다. 네트워크 지연(Latency) 계측, PTP(Precision Time Protocol) 연동, 고빈도 거래(High-Frequency Trading) 응용에서 epoll 기반 경로 없이 타임스탬프를 회수할 수 있게 됩니다.

혼합 크기 CQE — Mixed-size CQE (6.18)

6.18에서 혼합 크기 CQE 지원이 병합되었습니다. 기존에는 CQE32(확장 64바이트)와 CQE16(표준 16바이트)을 링 전체에 일괄 적용해야 했으나, 이제 opcode별로 크기가 다른 CQE를 동일 링에서 발생시킬 수 있습니다. TX 타임스탬프나 추가 메타데이터가 필요한 경로만 CQE32를 소비하므로 CQ 링 메모리 사용량이 최적화됩니다.

uring_cmd 멀티샷 (6.18)

6.18에서 io_uring_cmd(NVMe passthrough, ublk 등)가 멀티샷 완료를 지원합니다. 단일 SQE 제출로 여러 CQE가 순차 발생하는 패턴이 uring_cmd에도 적용되어, NVMe 폴링 드라이버나 ublk 데몬이 SQE 재제출 없이 스트리밍 이벤트를 수신할 수 있게 됩니다.

링 파라미터 쿼리 인터페이스 (6.18)

6.18에서 io_uring_register로 링의 현재 파라미터(SQ/CQ 크기, 활성 플래그 등)를 런타임에 조회할 수 있는 쿼리(Query) 인터페이스가 추가되었습니다. 이전에는 링 생성 시 반환된 io_uring_params를 애플리케이션이 직접 보관해야 했으나, 이제 fd만으로도 현재 설정을 복원할 수 있어 라이브러리와 감사(Audit) 도구가 단순해집니다.


  💡
  
    2026년 시점 권장 조합: 새 네트워크 서버를 설계한다면 SINGLE_ISSUER + DEFER_TASKRUN + NO_SQARRAY를 기본으로, 저지연 스토리지에는 HYBRID_IOPOLL(6.13), 고성능 수신에는 zcrx + 다중 ifq(6.16), GPU 수신 오프로드에는 zcrx DMA-BUF(6.16)를 조합하는 것을 권장합니다. liburing 2.9 이상에서 6.16 이후 기능을 위한 헬퍼가 제공됩니다.
  


참고 링크


  외부 참고 자료:
  
    커널 공식 문서: kernel.org — io_uring
    io_uring 커널 소스 (Bootlin): io_uring/ 디렉터리
    io_uring 핵심 구현: io_uring.c
    liburing 공식 저장소: github.com/axboe/liburing
    LWN.net — io_uring 최초 소개: Ringing in a new asynchronous I/O API
    LWN.net — SQPOLL 소개: The rapid growth of io_uring
    LWN.net — io_uring 보안 논의: Reconsidering io_uring
    Jens Axboe의 io_uring 설계 문서: Efficient IO with io_uring (PDF)
    man 페이지 — io_uring_setup: io_uring_setup(2)
    man 페이지 — io_uring_enter: io_uring_enter(2)
    커널 문서 — io_uring zero-copy 수신: kernel.org — io_uring zero copy Rx
    LWN.net — Zero copy Rx using io_uring: Zero copy Rx using io_uring
    Linux Kernel Newbies — 6.16 변경사항: kernelnewbies.org/Linux_6.16
    Linux Kernel Newbies — 6.17 변경사항: kernelnewbies.org/Linux_6.17
  


관련 문서

io_uring과 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.


  Block I/O — 블록 I/O 스택
  VFS — 파일 시스템 I/O
  시스템 콜 — 전통적인 I/O 시스템 콜
  io_uring 네트워킹 — multishot accept/recv, zero-copy, kTLS, NAPI busy-poll, 서버 아키텍처
  네트워크 스택 — io_uring 네트워크 I/O
  데이터베이스와 커널 — DB 비동기 I/O, fsync, 큐 깊이 정합 관점

증상	원인	해결 방법
`-ENOMEM` (메모리 부족)	`RLIMIT_MEMLOCK` 제한	`ulimit -l unlimited` 또는 `/etc/security/limits.conf`에서 `memlock` 증가
`-EINVAL` (setup 실패)	잘못된 플래그 조합	SQPOLL + IOPOLL은 O_DIRECT 필수, 커널 버전별 지원 플래그 확인
`-EPERM` (SQPOLL)	`CAP_SYS_NICE` 권한 없음	`sudo` 사용 또는 `setcap cap_sys_nice+ep <binary>`
CQE `res = -EAGAIN`	리소스 일시 부족 (비차단 소켓)	재시도 로직 추가 또는 블로킹 모드로 전환
CQE 오버플로 (`IORING_CQ_OVERFLOW`)	CQ 링 크기 부족, 처리 지연	CQ 크기 증가 (`io_uring_params.cq_entries`) 또는 CQE 처리 속도 향상
SQPOLL 스레드가 슬립 반복	워크로드 불규칙, `sq_thread_idle` 너무 짧음	`sq_thread_idle` 값 증가 (예: 5000ms) 또는 기본 모드로 전환

연산	Direct 변형	설명
`accept`	`io_uring_prep_accept_direct()`	새 소켓을 fixed file 슬롯에 직접 설치
`multishot accept`	`io_uring_prep_multishot_accept_direct()`	multishot + 자동 슬롯 할당
`openat`	`io_uring_prep_openat_direct()`	파일을 fixed file 슬롯에 직접 열기
`openat2`	`io_uring_prep_openat2_direct()`	고급 플래그 + 직접 설치
`socket`	`io_uring_prep_socket_direct()`	소켓 생성 + 직접 설치
`close`	`io_uring_prep_close_direct()`	fixed file 슬롯 해제 (fd close 불필요)

접근 방식	장점	단점	적합 상황
단일 Ring	단순, 관리 쉬움	멀티스레드 시 잠금 필요	단일 스레드 앱
Per-thread Ring	잠금 없음, SINGLE_ISSUER 가능	워커 풀 분산	멀티스레드 고성능
Per-thread + ATTACH_WQ	잠금 없음 + 워커 풀 공유	약간의 설정 복잡도	멀티스레드 최적 구성
I/O 유형별 Ring	스토리지/네트워크 설정 독립	관리 복잡	혼합 워크로드 (DB 등)

I/O 방식	시스템 콜/요청	컨텍스트 스위치	특징
동기 read/write	1	블로킹 시 발생	단순, 저처리량
epoll + 비차단	2+ (epoll_wait + read)	이벤트 기반	네트워크에 적합, 파일 I/O 제한
Linux AIO (io_submit)	2 (submit + getevents)	최소	O_DIRECT 전용, 제한적
io_uring (기본)	1 (io_uring_enter)	최소	범용, 배치 제출
io_uring (SQPOLL)	0	없음	최고 성능, CPU 사용
io_uring (SQPOLL+IOPOLL)	0	없음	극한 저지연 (NVMe)

I/O 방식	IOPS (K)	평균 지연 (μs)	CPU 사용률 (%)	비고
libaio (io_submit)	385	332	82	O_DIRECT 필수
io_uring (기본)	472	271	78	+22.6% IOPS
io_uring (SQPOLL)	531	241	92	+37.9% IOPS, 1 CPU 전용
io_uring (SQPOLL+IOPOLL)	624	205	145	+62.1% IOPS, 인터럽트 제거
io_uring (SQPOLL+IOPOLL+FIXEDFILE)	698	183	148	+81.3% IOPS, fd 조회 제거

I/O 방식	처리량 (GB/s)	시스템 콜 수/초	특징
read() 동기	2.1	16,800	스레드 풀 필요
libaio	N/A	-	buffered I/O 미지원
io_uring (기본)	4.8	1,200	배치 제출 효과
io_uring (SQPOLL)	5.6	0	Zero syscall

비교 항목	epoll	io_uring
시스템 콜	이벤트당 2회+	0~1회 (SQPOLL이면 0)
I/O 유형	네트워크(소켓) 중심	파일 + 네트워크 + 기타 모두 통합
파일 I/O	비차단 불가 → 스레드 풀 필요	네이티브 비동기 (io-wq 자동)
배치 처리	이벤트 수집만 배치	제출 + 완료 모두 배치
메모리 복사	커널-사용자 간 이벤트 복사	공유 메모리로 제로카피
연산 체이닝	불가	SQE 링크로 순서 보장
학습 곡선	낮음	높음 (liburing 사용 시 완화)
적합 시나리오	소켓 이벤트 다중화(Multiplexing)	고성능 스토리지/네트워크, 통합 이벤트 루프

WAL 쓰기 방식	syscall 수	fsync 빈도	처리량
동기 write + fsync	2N (N = 트랜잭션(Transaction) 수)	매 트랜잭션	기준선
그룹 커밋 (sync write + 배치 fsync)	N + 1	배치당 1회	3~10배
io_uring 링크 (write→fsync)	1 (io_uring_enter)	배치당 1회	5~15배
io_uring SQPOLL + 링크	0	배치당 1회	10~20배

NVMe I/O 경로	시스템 콜	블록 레이어	지연 시간	적용 대상
동기 `read()`/`write()`	매번 1회	경유	기준선	범용
io_uring `IORING_OP_READ`	배치	경유	기준선 × 0.7	고 IOPS
io_uring `URING_CMD` (passthrough)	배치	우회	기준선 × 0.5	초저지연, 벤치마크
URING_CMD + SQPOLL + IOPOLL	0	우회	기준선 × 0.3	극한 성능

버퍼 관리 방식	메모리 사용	동시 연결 확장성	구현 복잡도
연결당 고정 버퍼	O(N × buf_size)	낮음 (연결 수에 비례)	단순
Provided buffers (레거시)	O(pool_size × buf_size)	높음	중간
Provided buffer ring (v5.19+)	O(pool_size × buf_size)	높음 + lock-free	중간

최적화	제거되는 비용	효과	필요 커널
Registered ring fd	`fdget()`/`fdput()`	enter() 당 ~50ns 절약	5.18+
Fixed files	`fget()`/`fput()`	SQE 당 ~100ns 절약	5.1+
Fixed buffers	GUP (페이지 핀)	SQE 당 ~200ns 절약	5.1+
SINGLE_ISSUER	내부 잠금	제출 경로 ~20% 단축	6.0+
DEFER_TASKRUN	IPI + 시그널	완료 경로 ~30% 단축	6.1+
NO_SQARRAY	간접 인덱스 배열	메모리 절약, 미세 성능 향상	6.7+

안티 패턴	문제점	권장 패턴
매 I/O마다 `io_uring_enter()` 호출	시스템 콜 오버헤드, 동기 I/O와 차이 없음	배치 제출 (예: 32개씩 모아서 제출)
저부하 환경에서 SQPOLL 사용	CPU 낭비 (유휴 시에도 100% 사용)	고부하에서만 SQPOLL, 일반적으로 기본 모드
HDD에서 IOPOLL 사용	폴링이 인터럽트보다 비효율적	NVMe SSD 전용으로 제한
CQ 크기 = SQ 크기	연결 폭증 시 CQE 오버플로	CQ 크기를 SQ의 2배 이상으로 설정
모든 작업에 링크 사용	병렬성 감소, 하나 실패 시 전체 취소	순차 의존성이 있는 작업만 링크
CQE 처리 지연	CQ 오버플로, 백프레셔 발생	`IORING_SETUP_CQSIZE`로 큐 확장 또는 즉시 처리

NUMA 설정 항목	방법	효과
앱 스레드 CPU 고정	`sched_setaffinity()`, `taskset`	일관된 NUMA 메모리 접근
SQPOLL CPU 고정	`IORING_SETUP_SQ_AFF` + `sq_thread_cpu`	폴링 스레드의 캐시 미스 감소
io-wq 워커 CPU 제한	`IORING_REGISTER_IOWQ_AFF`	워커가 원격 NUMA 노드에서 실행 방지
버퍼 NUMA 할당	`numa_alloc_onnode()`	DMA 버퍼의 로컬 메모리 보장
NVMe 디바이스 선택	NUMA 노드에 연결된 PCIe 디바이스 사용	PCIe 크로스-소켓 오버헤드 제거
per-NUMA ring	노드별 별도 io_uring 인스턴스	완전한 로컬리티 보장

io_uring 배리어 함수	의미	x86-64	ARM64	RISC-V
`smp_store_release(&ptr, val)`	이전 쓰기 완료 후 ptr에 val 저장	MOV (no-op, TSO 보장)	STL (store-release)	fence rw,w; sw
`smp_load_acquire(&ptr)`	ptr 읽은 후 이후 읽기/쓰기 보장	MOV (no-op, TSO 보장)	LDA (load-acquire)	lw; fence r,rw
`smp_mb()`	전체 메모리 배리어	MFENCE / LOCK	DMB ISH	fence rw,rw

이슈	설명	대응
seccomp 우회	SQPOLL에서 커널 스레드가 I/O를 수행하므로 seccomp 모델이 복잡해질 수 있음	커널 버전별 동작 차이를 전제로 seccomp/LSM 정책을 재검증하고, 기본적으로 `io_uring_disabled` 또는 syscall 차단 정책을 우선 적용
권한 상승	복잡한 커널 코드 → CVE 다수 발생	`io_uring_disabled` sysctl로 비활성화
리소스 소진	대량 SQE 제출 → 메모리/CPU 소비	`RLIMIT_MEMLOCK`으로 mmap 크기 제한

항목	동기 I/O (read/write)	비동기 I/O (AIO)
호출 방식	`read()`, `write()`	`io_submit()`
반환 시점	I/O 완료 후	즉시 (제출만 완료)
블로킹	O (기다림)	X (비차단)
완료 확인	반환값	`io_getevents()`

시스템 콜	역할	주요 파라미터
`io_setup()`	AIO 컨텍스트 생성	maxevents, ctxp
`io_submit()`	I/O 요청 제출	ctx, nr, iocbpp
`io_getevents()`	완료된 I/O 수집	ctx, min_nr, nr, events, timeout
`io_cancel()`	I/O 요청 취소	ctx, iocb, result
`io_destroy()`	AIO 컨텍스트 파괴	ctx

방식	IOPS (4KB, QD=32)	Latency (avg)	CPU
동기 I/O (1 thread)	10K	0.1 ms	5%
동기 I/O (32 threads)	80K	0.4 ms	35%
Linux AIO (QD=32)	200K	0.16 ms	15%
io_uring (QD=32)	350K	0.09 ms	10%

프로젝트	분류	io_uring 활용 방식	주요 사용 기능
fio	벤치마크	`--ioengine=io_uring`으로 스토리지 성능 측정	SQPOLL, IOPOLL, fixed files/buffers
RocksDB	데이터베이스	MultiGet 비동기 읽기, compaction I/O 가속	배치 제출, fixed buffers
PostgreSQL	데이터베이스	v16+ 실험적 비동기 I/O 백엔드	buffered read, AIO 대체
ScyllaDB / Seastar	데이터베이스	Seastar 프레임워크의 핵심 I/O 백엔드	SQPOLL, IOPOLL, zero-copy
Ceph	분산 스토리지	BlueStore의 io_uring 백엔드	배치 제출, fixed files
SPDK	스토리지 프레임워크	NVMe passthrough 대안으로 io_uring_cmd 지원	io_uring_cmd, IOPOLL
QEMU	가상화(Virtualization)	virtio-blk/scsi의 io_uring AIO 백엔드	기본 모드, 배치 제출
nginx	웹 서버	실험적 io_uring 이벤트 모듈	read, sendfile 대체
Tokio (Rust)	런타임	tokio-uring 크레이트로 비동기 I/O 백엔드 제공	multishot, provided buffers
io-uring (Rust)	라이브러리	안전한 Rust 래퍼로 io_uring 전체 기능 노출	전체 opcode 지원
netty (Java)	네트워크	io_uring transport (incubator-transport-io_uring)	multishot accept/recv
libuv	이벤트 루프	실험적 io_uring 백엔드 (Node.js 기반)	파일 I/O 가속

언어	라이브러리/프레임워크	상태	특징
C	liburing	공식 안정	Jens Axboe 직접 관리, 사실상 표준
Rust	io-uring, tokio-uring, monoio	안정/활발	소유권 모델과 잘 맞음, completion-based
Go	iceber/iouring-go, godzie/gouring	실험적	goroutine 모델과 통합 어려움
Java	netty-incubator-transport-io_uring	인큐(Enqueue)베이터	JNI 기반, Netty 채널 추상화
Python	liburing (cffi 바인딩)	실험적	GIL로 인해 효과 제한적
C++	liburing (직접 사용), Boost.Asio 실험적	안정	C API 그대로 사용 가능

Opcode	이름	설명	도입
0	`IORING_REGISTER_BUFFERS`	고정 버퍼 등록 (페이지 핀, GUP 비용 제거)	5.1
1	`IORING_UNREGISTER_BUFFERS`	고정 버퍼 해제	5.1
2	`IORING_REGISTER_FILES`	고정 파일 디스크립터 등록 (fget/fput 비용 제거)	5.1
3	`IORING_UNREGISTER_FILES`	고정 파일 디스크립터 해제	5.1
4	`IORING_REGISTER_EVENTFD`	완료 알림용 eventfd 등록	5.2
5	`IORING_UNREGISTER_EVENTFD`	eventfd 해제	5.2
6	`IORING_REGISTER_FILES_UPDATE`	등록된 파일 테이블 부분 업데이트	5.5
7	`IORING_REGISTER_EVENTFD_ASYNC`	비동기 완료 시에만 eventfd 시그널	5.6
8	`IORING_REGISTER_PROBE`	지원 opcode 조회 (기능 탐지)	5.6
9	`IORING_REGISTER_PERSONALITY`	크리덴셜 등록 (다른 사용자 권한으로 I/O)	5.6
10	`IORING_UNREGISTER_PERSONALITY`	크리덴셜 해제	5.6
11	`IORING_REGISTER_RESTRICTIONS`	허용 opcode/플래그 제한 (샌드박싱)	5.13
12	`IORING_REGISTER_ENABLE_RINGS`	R_DISABLED 상태의 ring 활성화	5.10
13	`IORING_REGISTER_FILES_UPDATE2`	파일 업데이트 확장 (태그 지원)	5.13
14	`IORING_REGISTER_BUFFERS2`	버퍼 등록 확장 (태그 지원)	5.13
15	`IORING_REGISTER_BUFFERS_UPDATE`	등록된 버퍼 부분 업데이트	5.13
16	`IORING_REGISTER_IOWQ_AFF`	io-wq 워커의 CPU affinity 설정	5.14
17	`IORING_UNREGISTER_IOWQ_AFF`	io-wq CPU affinity 해제	5.14
18	`IORING_REGISTER_IOWQ_MAX_WORKERS`	io-wq 최대 워커 수 설정 [bounded, unbounded]	5.15
19	`IORING_REGISTER_RING_FDS`	ring fd를 테이블에 등록 (close-on-exec 없이)	5.18
20	`IORING_UNREGISTER_RING_FDS`	ring fd 테이블 해제	5.18
22	`IORING_REGISTER_PBUF_RING`	Provided buffer ring 등록	5.19
23	`IORING_UNREGISTER_PBUF_RING`	Provided buffer ring 해제	5.19
24	`IORING_REGISTER_SYNC_CANCEL`	동기적 요청 취소	6.0
25	`IORING_REGISTER_FILE_ALLOC_RANGE`	파일 테이블 할당 범위 지정	6.0
27	`IORING_REGISTER_NAPI`	busy-poll NAPI 등록 (네트워크 지연 최적화)	6.9
28	`IORING_UNREGISTER_NAPI`	NAPI 등록 해제	6.9

설정 항목	설명	권장값
`busy_poll_to`	busy-poll 타임아웃 (μs). 이 시간 동안 NIC를 폴링	50~200μs (워크로드에 따라 조정)
`prefer_busy_poll`	1이면 인터럽트보다 busy-poll 우선	1 (지연 중시 환경)
시스템 sysctl	`net.core.busy_poll`, `net.core.busy_read`	io_uring NAPI 사용 시 0 (io_uring이 직접 관리)

경로	페이지 캐시	워커 사용	지연	발생 비율
Fast Path	히트	없음 (인라인 완료)	1~5μs	워킹셋 내: 90%+
Slow Path	미스	io-wq bounded worker	50~500μs (디스크)	콜드 데이터: 가변
Readahead 히트	히트 (예측)	없음	1~5μs	순차 읽기: 95%+

최적화	제거 비용	절약량	적합 환경
Registered Ring FD	io_uring_enter()의 fdget/fdput	~200ns/콜	기본 모드 (빈번한 enter 호출)
Fixed Files	I/O 대상 fd의 fdget/fdput	~150ns/I/O	모든 환경 (필수 최적화)
Fixed Buffers	GUP (get_user_pages) 비용	~500ns/I/O	대용량/고빈도 I/O
SQPOLL	io_uring_enter() 시스템 콜 자체	~1μs/콜	극한 지연 요구

잠금	보호 대상	SINGLE_ISSUER 시	DEFER_TASKRUN 시
`uring_lock`	SQE 파싱, 리소스 등록/해제	제출 경로에서 생략 가능	동일
`completion_lock`	CQE 게시, 오버플로 리스트	여전히 필요 (다중 완료 소스)	불필요 (일괄 처리)
`timeout_lock`	타이머 리스트 관리	여전히 필요	여전히 필요
`cancel_lock`	취소 해시 테이블(Hash Table)	여전히 필요	여전히 필요
SQ/CQ 링 포인터	head/tail 포인터	항상 lock-free (메모리 배리어만 사용)

파라미터	영향	기본값	권장값	설정 방법
`RLIMIT_MEMLOCK`	mmap 고정 메모리 상한 (SQ/CQ 링, 고정 버퍼)	64KB (대부분)	256MB+ (고성능 서버)	`ulimit -l unlimited` 또는 `/etc/security/limits.conf`
`RLIMIT_NPROC`	io-wq bounded 워커 최대 수	프로세스 제한	워크로드에 따라	`ulimit -u 65535`
`RLIMIT_NOFILE`	fd 테이블 크기 (Direct Descriptor 사용 시 덜 중요)	1024	65536+	`ulimit -n 65536`

sysctl 경로	설명	기본값	권장
`kernel.io_uring_disabled`	io_uring 사용 제어	0 (허용)	프로덕션: 0, 컨테이너: 1 또는 2
`kernel.io_uring_group`	io_uring 사용 허용 GID (6.1+)	-1 (비활성)	특정 그룹만 허용 시 설정
`fs.file-max`	시스템 전체 fd 상한	시스템 의존	고성능 서버: 2097152+
`fs.nr_open`	프로세스별 fd 상한	1048576	일반적으로 충분
`vm.locked_vm`	(간접) mmap 고정 페이지	MEMLOCK 기반	io_uring 크기에 따라
`net.core.busy_poll`	소켓 busy-poll 타임아웃 (μs)	0	io_uring NAPI 사용 시 0 (io_uring이 관리)
`net.core.busy_read`	소켓 busy-read 타임아웃 (μs)	0	io_uring NAPI 사용 시 0
`net.core.somaxconn`	listen 백로그 최대값	4096	고연결 서버: 65535

기능 범주	기능	최소 커널	안정 권장	비고
기본	io_uring 기본 (setup/enter/register)	5.1	5.4+	초기 버전은 버그 다수
	SQ/CQ 통합 mmap	5.4	5.4+	IORING_FEAT_SINGLE_MMAP
	liburing 호환	5.1	5.10+	liburing 2.x는 5.10+ 권장
모드	SQPOLL	5.1	5.11+	5.11에서 안정성 대폭 개선
	IOPOLL	5.1	5.1+	O_DIRECT 필수
	SINGLE_ISSUER	6.0	6.0+	내부 잠금 제거
	DEFER_TASKRUN	6.1	6.1+	SINGLE_ISSUER 필수
리소스 등록	Fixed files	5.1	5.5+	5.5에서 업데이트 지원
	Fixed buffers	5.1	5.1+	GUP 비용 제거
	Provided buffer ring	5.19	5.19+	mmap 방식, 이전 PROVIDE_BUFFERS 대체
	Registered ring fd	5.18	5.18+	enter() 시 fdget 비용 제거
네트워크	accept/connect/send/recv	5.5	5.6+	기본 네트워크 연산
	Multishot accept	5.19	5.19+	ACCEPT_MULTISHOT
	Multishot recv	6.0	6.0+	RECV_MULTISHOT + provided buffers
	SEND_ZC (제로카피 전송)	6.0	6.0+	64KB+ 대용량에 효과적
	NAPI busy-poll	6.9	6.9+	초저지연 네트워크
고급	MSG_RING	5.18	5.18+	링 간 통신
	MSG_RING_FD	6.3	6.3+	fd 전달
	io_uring_cmd (NVMe passthrough)	6.0	6.0+	SQE128 필요
파일시스템	open/close/statx	5.6	5.6+	비동기 메타데이터 연산
	Direct descriptors	5.15	6.0+	FILE_INDEX_ALLOC은 6.0+
	FUSE io_uring	6.14	6.14+	FUSE 성능 대폭 향상
보안	io_uring_disabled sysctl	5.12.4	5.12.4+	0/1/2 레벨
	RESTRICTIONS	5.13	5.13+	opcode/플래그 제한
	NO_SQARRAY	6.7	6.7+	메모리 절약
	LSM 훅	6.15	6.15+	SELinux/AppArmor 통합