시스템 콜 레퍼런스 (System Call Reference)

x86_64 Linux 시스템 콜 전체 목록을 13개 카테고리로 정리합니다. 각 항목마다 syscall 번호, 이름, C 함수 시그니처, 한국어 설명을 제공하여 빠른 조회가 가능합니다. 동작 원리와 진입 경로는 시스템 콜 (System Call) 문서를 참고하세요.

참고: 이 페이지는 "무엇이 있는가"를 다루는 레퍼런스입니다. "어떻게 동작하는가"(SYSCALL/SYSRET 진입 경로, SYSCALL_DEFINE, vDSO, seccomp 등)는 시스템 콜 (System Call)을 참고하세요. syscall 번호는 arch/x86/entry/syscalls/syscall_64.tbl 기준이며 커널 버전에 따라 달라질 수 있습니다.
전제 조건: 시스템 콜 문서를 먼저 읽어 SYSCALL 동작 원리를 이해하세요.

핵심 요약

  • syscall 번호 — x86_64에서 rax 레지스터에 번호를 넣고 SYSCALL 명령어를 실행합니다.
  • 인자 전달 — 최대 6개 인자를 rdi, rsi, rdx, r10, r8, r9 레지스터로 전달합니다 (일반 함수 호출 규약과 달리 4번째가 rcx 대신 r10).
  • 반환값 — 성공 시 양수 또는 0, 오류 시 -errno (음수) 반환. -1~-4095 범위.
  • glibc 래퍼 — 대부분의 syscall은 glibc가 래핑하며, 오류 시 errno를 설정하고 -1을 반환합니다.
  • man 2man 2 read처럼 섹션 2 매뉴얼로 syscall 시그니처와 설명을 확인할 수 있습니다.
  • stracestrace ./프로그램으로 실행 중 호출되는 syscall을 실시간으로 추적합니다.
  • vDSOclock_gettime, gettimeofday 등 일부 syscall은 커널 진입 없이 vDSO로 실행됩니다 (3~10배 빠름).

syscall 직접 호출 예시 (x86_64)

  1. C로 직접 호출syscall(SYS_write, 1, "hello\n", 6)처럼 glibc syscall() 함수로 직접 호출할 수 있습니다.
  2. 어셈블리로 호출mov $1, %rax; mov $1, %rdi; syscallwrite(1, ...)를 어셈블리로 직접 호출합니다.
  3. 오류 처리 — 반환값이 -4095에서 -1 사이면 -errno이므로 절댓값이 오류 코드입니다.
  4. seccomp 필터링 — Docker/Chrome 등은 seccomp-BPF로 허용된 syscall 목록을 제한합니다. 차단된 syscall 호출 시 EPERM 또는 프로세스 종료가 발생합니다.

개요

x86_64 Linux 커널에는 현재 약 340개 이상의 시스템 콜이 정의되어 있습니다 (arch/x86/entry/syscalls/syscall_64.tbl 기준). 아래 카테고리별 분포와 호출 규약을 참고하세요.

x86_64 Linux syscall 호출 규약 사용자 공간 (User Space) rax = syscall 번호 rdi = 인자 1 rsi = 인자 2 rdx = 인자 3 r10 = 인자 4 ⚠ r8 = 인자 5 r9 = 인자 6 syscall(2) NR 첫 번째 인자 두 번째 인자 세 번째 인자 ⚠ rcx 아님! (rcx는 SYSCALL이 덮어씀) 다섯 번째 인자 여섯 번째 인자 SYSCALL 명령어 커널 공간 (Kernel Space) entry_SYSCALL_64 do_syscall_64(regs, nr) sys_call_table[nr](args) 반환값 → rax SYSRET 명령어 성공: rax ≥ 0 실패: rax = -errno syscall 전체 호출 흐름 응용 프로그램 fread(), printf() (glibc 함수) glibc 래퍼 errno 변환 레지스터 설정 SYSCALL 명령어 링 3 → 링 0 스택 전환 커널 핸들러 sys_read() 등 실제 처리 수행 SYSRET 링 0 → 링 3 rax = 반환값 결과 반환 반환값 또는 errno 설정 사용자 공간 커널 공간 ⚠ KPTI 환경에서는 SYSCALL/SYSRET 전후 페이지 테이블 전환 오버헤드 발생 카테고리별 시스템 콜 분포 (이 페이지 기준) 0 5 10 15 20 파일 I/O 16개 FD 관리 10개 디렉터리/FS 16개 프로세스 18개 메모리 12개 네트워크 13개 시그널 10개 IPC 13개 시간/타이머 10개 보안/권한 13개 비동기 I/O 10개 기타 14개
카테고리대표 syscall이 페이지 섹션
파일 I/Oread, write, open, close, stat§ 파일 I/O
파일 디스크립터 관리dup, fcntl, ioctl, fsync§ FD 관리
디렉터리 & 파일시스템mkdir, link, mount, statfs§ 디렉터리/FS
프로세스 관리fork, clone, execve, exit, wait4§ 프로세스
메모리 관리mmap, munmap, mprotect, brk§ 메모리
네트워크 소켓socket, bind, connect, sendto§ 네트워크
시그널kill, rt_sigaction, sigaltstack§ 시그널
IPCpipe, futex, shmget, eventfd2§ IPC
시간 & 타이머clock_gettime, nanosleep, timerfd_create§ 시간
보안 & 권한setuid, capset, seccomp, unshare§ 보안
비동기 I/O & 이벤트epoll_create1, io_uring_setup, select§ 비동기 I/O
기타uname, getrlimit, bpf, reboot§ 기타

주요 errno 오류 코드 참조

syscall이 실패하면 커널은 -errnorax로 반환하고, glibc 래퍼가 errno 전역 변수에 양수 값을 설정한 뒤 -1을 반환합니다.

errno 이름번호의미자주 발생하는 syscall
EPERM1권한 없음 (Operation not permitted)setuid, capset, seccomp
ENOENT2파일/디렉터리 없음open, stat, unlink
ESRCH3프로세스 없음kill, waitpid
EINTR4시그널에 의해 중단됨read, write, nanosleep
EIO5I/O 오류read, write, fsync
ENXIO6장치 없음open (디바이스)
EACCES13접근 거부open, chmod, execve
EFAULT14잘못된 주소 (user space 포인터 문제)read, write, 대부분
EBUSY16장치/리소스 사용 중umount, rmdir
EEXIST17파일이 이미 존재함open(O_CREAT|O_EXCL), mkdir
ENOTDIR20디렉터리가 아님chdir, mkdir, openat
EISDIR21디렉터리임open(쓰기 모드), unlink
EINVAL22잘못된 인자ioctl, fcntl, mmap
EMFILE24프로세스가 열 수 있는 fd 한계 초과open, socket, pipe
ENFILE23시스템 전체 fd 한계 초과open, socket
ENOTTY25터미널 장치가 아님ioctl (tty 전용 명령)
EPIPE32파이프 끊김 (읽는 쪽이 닫힘)write (파이프/소켓)
ERANGE34결과가 범위 초과getxattr, readlink
EDEADLK35잠금 데드락 발생fcntl(F_SETLKW)
ENAMETOOLONG36경로명이 너무 김 (PATH_MAX=4096)open, stat, rename
ENOSYS38syscall이 구현되지 않음미구현/아키텍처 불일치
ENOTEMPTY39디렉터리가 비어 있지 않음rmdir
ELOOP40심볼릭 링크 순환open, stat
EAGAIN / EWOULDBLOCK11잠시 후 재시도 (비블로킹 I/O)read, accept, recv
ENOMEM12메모리 부족mmap, fork, malloc 내부
EADDRINUSE98주소(포트)가 이미 사용 중bind
ECONNREFUSED111연결 거부됨connect
ETIMEDOUT110연결 타임아웃connect, sendto
ENOBUFS / ENOMEM105/12버퍼/메모리 부족socket, sendmsg

파일 I/O

파일 읽기/쓰기의 핵심 syscall 목록입니다. read()/write() 호출은 VFS → 페이지 캐시 → 파일시스템 드라이버 순으로 처리됩니다. 자세한 VFS 경로는 VFS 계층을 참고하세요.

read() 커널 내부 처리 경로 사용자 read(fd,buf,n) sys_read() fd → struct file vfs_read() 권한·range 검증 f_op→read_iter() 파일시스템 구현 페이지 캐시 캐시 히트/미스 블록 I/O (캐시 미스 시) 캐시 히트: copy_to_user() 후 즉시 반환 캐시 미스: 블록 장치 읽기 후 페이지 캐시 채움 → copy_to_user()
관련 문서: VFS 계층 — VFS 연산 디스패치, 페이지 캐시, writeback | inode 구조 — inode/file 객체 모델 | 시스템 콜 동작 원리 | Direct I/O & Buffered I/O
번호이름시그니처설명
0readssize_t read(int fd, void *buf, size_t count)fd에서 최대 count 바이트를 읽어 buf에 저장합니다. 실제 읽은 바이트 수 반환 (0 = EOF(End of File), 음수 = 오류). 부분 읽기(partial read) 가능하므로 루프 필요.
1writessize_t write(int fd, const void *buf, size_t count)buf의 데이터를 fd에 count 바이트 씁니다. 실제 쓴 바이트 수 반환. 파이프/소켓에서 부분 쓰기(partial write) 가능. O_SYNC 없으면 페이지 캐시에 쓰고 즉시 반환합니다.
2openint open(const char *path, int flags, mode_t mode)경로명을 열고 파일 디스크립터를 반환합니다. 현재는 레거시 — openat(AT_FDCWD, ...)로 대체 구현됩니다. flags에 O_CREAT 포함 시 mode 인자 필요.
3closeint close(int fd)fd를 닫고 struct file의 참조 카운트를 감소시킵니다. 마지막 참조자가 닫으면 flushing 발생. EINTR 오류 시 fd는 이미 닫혀있으므로 재시도하지 마세요.
4statint stat(const char *path, struct stat *st)경로명의 파일 메타데이터(크기, 권한, 타임스탬프, inode 번호 등)를 가져옵니다. 심볼릭 링크를 따라갑니다.
5fstatint fstat(int fd, struct stat *st)이미 열린 fd의 파일 메타데이터를 가져옵니다. 경로 조회 없이 inode에서 직접 읽으므로 stat보다 빠릅니다.
6lstatint lstat(const char *path, struct stat *st)심볼릭 링크 자체의 메타데이터를 가져옵니다. stat과 달리 링크를 따라가지 않습니다 (st_mode에서 S_ISLNK 확인 가능).
7pollint poll(struct pollfd *fds, nfds_t nfds, int timeout)여러 fd의 이벤트를 감시합니다. select보다 fd 수 제한이 없으며, 이벤트는 POLLIN/POLLOUT/POLLERR/POLLHUP 플래그로 지정합니다.
8lseekoff_t lseek(int fd, off_t offset, int whence)파일 오프셋을 변경합니다. SEEK_SET(절대), SEEK_CUR(현재+offset), SEEK_END(파일끝+offset). 파이프/소켓에는 ESPIPE 오류 발생.
17pread64ssize_t pread64(int fd, void *buf, size_t count, off_t offset)파일 오프셋을 변경하지 않고 지정 위치에서 읽습니다. 멀티스레드 환경에서 lseek+read 대신 사용합니다 (원자적 위치 지정).
18pwrite64ssize_t pwrite64(int fd, const void *buf, size_t count, off_t offset)파일 오프셋을 변경하지 않고 지정 위치에 씁니다. O_APPEND 플래그와 함께 사용 시 offset이 무시됩니다.
19readvssize_t readv(int fd, const struct iovec *iov, int iovcnt)분산된 버퍼 배열(scatter)로 읽기를 수행합니다. 헤더+바디 분리 처리 시 syscall 횟수를 줄일 수 있습니다.
20writevssize_t writev(int fd, const struct iovec *iov, int iovcnt)분산된 버퍼 배열(gather)로 쓰기를 수행합니다. 소켓에서 헤더+페이로드를 하나의 syscall로 전송할 때 유용합니다.
40sendfilessize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count)파일을 소켓으로 zero-copy 전송합니다. 커널이 직접 파일 → 소켓 버퍼로 복사하여 유저 공간 왕복을 생략합니다. nginx/Apache의 정적 파일 전송에 사용합니다.
76truncateint truncate(const char *path, off_t length)파일 크기를 length로 자릅니다. 크게 하면 스파스 파일(hole)이 됩니다.
77ftruncateint ftruncate(int fd, off_t length)이미 열린 fd의 파일 크기를 변경합니다. 쓰기 권한으로 열려 있어야 합니다.
257openatint openat(int dirfd, const char *path, int flags, mode_t mode)dirfd를 기준으로 상대 경로의 파일을 엽니다. AT_FDCWD를 넣으면 cwd 기준. TOCTOU 취약점 방지에 권장됩니다 (POSIX.1-2008).
285fallocateint fallocate(int fd, int mode, off_t offset, off_t len)파일에 디스크 공간을 미리 할당하거나 구멍(hole)을 만듭니다. FALLOC_FL_KEEP_SIZE로 파일 크기 유지, FALLOC_FL_PUNCH_HOLE로 스파스 홀을 만듭니다.
326copy_file_rangessize_t copy_file_range(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags)두 파일 사이에 데이터를 커널 내에서 복사합니다. Btrfs/XFS의 reflink를 활용하면 실제 복사 없이 메타데이터만 변경합니다.

open() / openat() 플래그 (flags 인자)

플래그값(8진수)설명
O_RDONLY0읽기 전용으로 엽니다.
O_WRONLY01쓰기 전용으로 엽니다.
O_RDWR02읽기/쓰기 모두 가능하게 엽니다.
O_CREAT0100파일이 없으면 생성합니다. mode 인자로 권한을 지정합니다.
O_EXCL0200O_CREAT와 함께 사용 시 파일이 이미 있으면 EEXIST로 실패합니다 (원자적 생성).
O_TRUNC01000파일을 열면서 길이를 0으로 자릅니다.
O_APPEND02000쓸 때마다 파일 끝으로 이동합니다 (원자적, 로그 파일에 적합).
O_NONBLOCK04000비블로킹 모드로 엽니다. 데이터 없을 때 EAGAIN 반환.
O_SYNC04010000write마다 스토리지에 동기적으로 플러시합니다 (데이터+메타데이터).
O_DSYNC010000데이터만 동기적으로 플러시합니다 (메타데이터 제외, O_SYNC보다 빠름).
O_CLOEXEC02000000execve() 시 fd를 자동으로 닫습니다 (fd 누수 방지, 권장).
O_DIRECTORY0200000디렉터리만 열고, 파일이면 ENOTDIR 반환합니다.
O_NOFOLLOW0400000심볼릭 링크를 따라가지 않습니다 (보안 목적).
O_TMPFILE020200000이름 없는 임시 파일을 생성합니다. linkat()로 나중에 이름을 붙일 수 있습니다.
O_PATH010000000파일을 열지 않고 경로 참조용 fd만 얻습니다 (fstat, openat 등에만 사용 가능).
O_DIRECT040000페이지 캐시를 우회하여 직접 I/O를 수행합니다. 정렬 제약 있음.

기본 파일 I/O 패턴

/* open → read → write → close 기본 패턴 */
int fd = openat(AT_FDCWD, "file.txt", O_RDONLY | O_CLOEXEC);
if (fd < 0) { perror("openat"); exit(1); }

char buf[4096];
ssize_t n;
while ((n = read(fd, buf, sizeof(buf))) > 0) {
    /* 부분 쓰기 처리: write는 요청보다 적게 쓸 수 있음 */
    ssize_t written = 0;
    while (written < n) {
        ssize_t w = write(STDOUT_FILENO, buf + written, n - written);
        if (w < 0) { perror("write"); break; }
        written += w;
    }
}
if (n < 0) perror("read");
close(fd);   /* EINTR에도 fd는 닫혀있으므로 재시도 금지 */

/* sendfile: 파일 → 소켓 zero-copy */
off_t off = 0;
sendfile(sock_fd, file_fd, &off, file_size);

/* pread/pwrite: 멀티스레드에서 안전한 위치 지정 I/O */
ssize_t r = pread64(fd, buf, 512, offset);  /* lseek 불필요 */

파일 디스크립터 관리

프로세스마다 고유한 파일 디스크립터 테이블을 가집니다. fd는 커널 내 struct file 객체에 대한 인덱스이며, 0(stdin), 1(stdout), 2(stderr)는 기본으로 할당됩니다. fork() 시 fd 테이블이 복사되고, execve()O_CLOEXEC 설정된 fd는 자동으로 닫힙니다.

파일 디스크립터 테이블 구조 (프로세스 A) fd 테이블 0 → stdin 1 → stdout 2 → stderr 3 → file.txt ... (최대 RLIMIT_NOFILE) struct file (open file table) /dev/pts/0 (f_pos, flags, ...) /dev/pts/0 (공유 가능) file.txt (f_pos=0, O_RDWR) struct inode tty inode (dup 공유) file.txt inode dup/dup2: 같은 struct file을 가리키는 새 fd 생성 (f_pos 공유) | fork: fd 테이블 복사, struct file 참조 카운트 증가
번호이름시그니처설명
16ioctlint ioctl(int fd, unsigned long request, ...)디바이스 드라이버와 특수 파일에 대한 제어 명령을 전달합니다. 파일시스템(FIOCLEX, FIONREAD), 터미널(TIOCGWINSZ), 네트워크(SIOCGIFADDR), 블록장치(BLKGETSIZE64) 등에 광범위하게 사용됩니다.
32dupint dup(int oldfd)fd를 복제하여 사용 가능한 가장 낮은 번호의 새 fd를 반환합니다. 두 fd는 같은 struct file을 참조하므로 f_pos와 플래그를 공유합니다.
33dup2int dup2(int oldfd, int newfd)oldfd를 지정한 newfd로 복제합니다. newfd가 이미 열려있으면 원자적으로 닫고 덮어씁니다. 셸 리다이렉션(2>&1)에 사용합니다.
72fcntlint fcntl(int fd, int cmd, ...)fd의 속성 조회/변경(F_GETFL/F_SETFL), fd 플래그(F_GETFD/F_SETFD), fd 복제(F_DUPFD), POSIX 파일 잠금(F_SETLK/F_GETLK), 시그널(F_SETOWN/F_SETSIG) 등 다용도 제어 syscall입니다.
73flockint flock(int fd, int operation)파일 전체에 advisory 잠금(LOCK_SH=공유/LOCK_EX=배타/LOCK_UN=해제)을 설정합니다. NFS에서는 동작하지 않습니다. LOCK_NB로 비블로킹 시도 가능.
74fsyncint fsync(int fd)파일의 데이터와 메타데이터(크기, 타임스탬프 등)를 스토리지에 플러시합니다. 데이터베이스의 내구성(durability) 보장에 필수입니다.
75fdatasyncint fdatasync(int fd)데이터만 스토리지에 플러시합니다 (크기 변경이 없으면 메타데이터 플러시 생략). fsync보다 빠르고, 저널 기반 파일시스템에서 특히 효율적입니다.
221fadvise64int fadvise64(int fd, off_t offset, off_t len, int advice)파일 접근 패턴을 커널에 힌트로 제공합니다. POSIX_FADV_SEQUENTIAL(readahead 증가), POSIX_FADV_RANDOM(readahead 끄기), POSIX_FADV_DONTNEED(페이지 캐시 해제).
292dup3int dup3(int oldfd, int newfd, int flags)dup2의 확장으로 O_CLOEXEC 플래그를 원자적으로 설정합니다. oldfd==newfd이면 EINVAL 반환합니다 (dup2와 차이점).
319memfd_createint memfd_create(const char *name, unsigned int flags)이름 없는 익명 파일을 생성합니다. tmpfs 기반이며 ftruncate+mmap으로 공유 메모리로 활용합니다 (MFD_CLOEXEC, MFD_ALLOW_SEALING).

fcntl() 주요 명령 (cmd 인자)

cmd설명
F_DUPFDarg 이상의 가장 낮은 번호로 fd를 복제합니다.
F_DUPFD_CLOEXECF_DUPFD + O_CLOEXEC 플래그를 원자적으로 설정합니다.
F_GETFDfd 플래그(FD_CLOEXEC) 를 가져옵니다.
F_SETFDfd 플래그를 설정합니다. arg에 FD_CLOEXEC=1 또는 0.
F_GETFL파일 상태 플래그(O_NONBLOCK, O_APPEND 등)를 가져옵니다.
F_SETFL파일 상태 플래그를 변경합니다. O_NONBLOCK, O_ASYNC만 변경 가능.
F_GETLK파일 잠금 상태를 확인합니다 (POSIX advisory lock).
F_SETLK파일 잠금을 설정/해제합니다. 즉시 실패 가능 (비블로킹).
F_SETLKW파일 잠금을 설정합니다. 잠금 가능할 때까지 대기합니다 (블로킹).
F_OFD_SETLKOpen File Description 잠금 설정 (Linux 3.15+, 스레드 간 안전).
F_SETOWNSIGIO/SIGURG를 받을 프로세스/그룹을 설정합니다.
F_SETSIG비동기 I/O 알림에 사용할 시그널 번호를 변경합니다.
F_ADD_SEALSmemfd에 sealing을 추가합니다 (F_SEAL_WRITE 등, 불변성 보장).

디렉터리 & 파일시스템

디렉터리 조작, 링크, 마운트 등 파일시스템 구조를 변경하는 syscall 목록입니다. 경로 기반 syscall보다 *at() 변형(openat, linkat, mkdirat 등)이 TOCTOU 경쟁 조건을 방지하고 O_CLOEXEC를 원자적으로 설정할 수 있어 모던 코드에서 권장됩니다.

관련 문서: VFS 계층 — namei 경로 탐색, dentry 캐시 | ext4 파일시스템 | Btrfs 파일시스템
Unix 파일 권한 비트 (mode_t) 구조 setuid 04000 setgid 02000 sticky 01000 owner-r 0400 owner-w 0200 owner-x 0100 grp-r 0040 grp-w 0020 grp-x 0010 oth-r 0004 oth-w 0002 oth-x 0001 특수 비트 소유자 (owner/user) 그룹 (group) 기타 (others) 예시: 0755 = rwxr-xr-x (소유자: 읽기+쓰기+실행, 그룹/기타: 읽기+실행) → 실행 파일 0644 = rw-r--r-- (소유자: 읽기+쓰기, 그룹/기타: 읽기만) → 일반 파일 4755 = rwsr-xr-x (setuid 설정) → /usr/bin/sudo, /usr/bin/passwd 등 1777 = rwxrwxrwt (sticky 설정) → /tmp 디렉터리 (자신의 파일만 삭제 가능)

하드 링크 vs 심볼릭 링크 비교

특성하드 링크 (link)심볼릭 링크 (symlink)
inode원본과 동일한 inode 공유별도 inode 생성 (파일 타입: S_IFLNK)
파일시스템 경계동일 파일시스템 내에서만 가능다른 파일시스템, 다른 마운트도 가능
디렉터리 링크불가 (슈퍼유저도 기본 금지)가능 (디렉터리 심링크 생성 가능)
원본 삭제 시링크 카운트 감소, 0이 되면 inode 삭제dangling symlink (깨진 링크)
stat() 결과원본과 동일한 크기/inode 번호링크 파일 자체의 정보 (lstat)
권한 변경chmod 효과 동일하게 적용chmod는 target에 적용 (링크 자체는 lchown)
용도백업, 중복 파일 참조 (같은 파티션)경로 별명, 버전 관리(/usr/bin/python)

mount() 주요 플래그

플래그설명
MS_RDONLY1읽기 전용으로 마운트
MS_NOSUID2setuid/setgid 비트 무시
MS_NODEV4장치 파일 접근 금지
MS_NOEXEC8실행 파일 실행 금지
MS_SYNCHRONOUS16모든 쓰기를 동기식으로
MS_REMOUNT32기존 마운트 옵션 변경
MS_BIND4096바인드 마운트 (디렉터리를 다른 위치에 노출)
MS_SHARED1<<20피어 그룹과 마운트 이벤트를 공유 (컨테이너 네트워크)
MS_SLAVE1<<19상위에서만 전파받고 하위로는 전파 안함
MS_PRIVATE1<<18마운트 이벤트 전파 없음 (완전 격리)
MS_NOATIME1024접근 시각(atime) 업데이트 안함 (성능 향상)
MS_STRICTATIME1<<24atime을 POSIX 표준대로 항상 업데이트
번호이름시그니처설명
79getcwdchar *getcwd(char *buf, size_t size)현재 작업 디렉터리의 절대 경로를 가져옵니다. /proc/self/cwd 심볼릭 링크로도 확인 가능합니다.
80chdirint chdir(const char *path)현재 작업 디렉터리를 변경합니다. fchdir(fd)로도 가능하며, chroot 환경에서는 제한됩니다.
81fchdirint fchdir(int fd)열린 디렉터리 fd를 기준으로 작업 디렉터리를 변경합니다. 경로 기반보다 안전합니다.
82renameint rename(const char *oldpath, const char *newpath)파일이나 디렉터리 이름을 원자적으로 변경합니다. 같은 파일시스템 내에서만 가능하며, 대상이 존재하면 교체합니다.
83mkdirint mkdir(const char *path, mode_t mode)새 디렉터리를 생성합니다. mode는 umask에 의해 마스킹됩니다 (실제 권한 = mode & ~umask).
84rmdirint rmdir(const char *path)비어 있는 디렉터리를 삭제합니다. 내용이 있으면 ENOTEMPTY를 반환합니다.
86linkint link(const char *oldpath, const char *newpath)기존 파일에 하드 링크를 생성합니다. inode 링크 카운트가 증가하며, 같은 파일시스템 내에서만 가능합니다.
87unlinkint unlink(const char *path)파일 이름을 디렉터리에서 제거하고 inode 링크 카운트를 감소시킵니다. 카운트가 0이 되고 fd 참조도 없으면 실제로 삭제됩니다.
88symlinkint symlink(const char *target, const char *linkpath)심볼릭 링크를 생성합니다. target은 상대/절대 경로 모두 가능하며, 존재하지 않는 경로도 지정할 수 있습니다.
89readlinkssize_t readlink(const char *path, char *buf, size_t bufsiz)심볼릭 링크가 가리키는 경로 문자열을 읽습니다. NUL 종료 문자가 없으므로 직접 추가해야 합니다.
90chmodint chmod(const char *path, mode_t mode)파일 권한 비트를 변경합니다. 파일 소유자 또는 CAP_FOWNER만 가능합니다.
91fchmodint fchmod(int fd, mode_t mode)열린 파일 디스크립터의 권한을 변경합니다.
92chownint chown(const char *path, uid_t owner, gid_t group)파일의 소유자와 그룹을 변경합니다. 심볼릭 링크를 따라갑니다 (링크 자체 변경은 lchown).
258mkdiratint mkdirat(int dirfd, const char *path, mode_t mode)dirfd 기준으로 디렉터리를 생성합니다. dirfd=AT_FDCWD이면 mkdir과 동일합니다.
263unlinkatint unlinkat(int dirfd, const char *path, int flags)AT_REMOVEDIR 플래그로 디렉터리 삭제도 가능한 통합 unlink/rmdir입니다.
265linkatint linkat(int olddirfd, const char *oldpath, int newdirfd, const char *newpath, int flags)dirfd 기준으로 하드 링크를 생성합니다. AT_EMPTY_PATH로 fd를 직접 링크할 수 있습니다.
266symlinkatint symlinkat(const char *target, int newdirfd, const char *linkpath)newdirfd 기준으로 심볼릭 링크를 생성합니다.
316renameat2int renameat2(int olddirfd, const char *oldpath, int newdirfd, const char *newpath, unsigned int flags)RENAME_EXCHANGE로 두 파일을 원자적으로 교환하거나, RENAME_NOREPLACE로 대상이 있으면 실패합니다.
165mountint mount(const char *src, const char *tgt, const char *fstype, unsigned long flags, const void *data)파일시스템을 마운트합니다. CAP_SYS_ADMIN 또는 user namespace mount 권한이 필요합니다.
166umount2int umount2(const char *target, int flags)마운트를 해제합니다. MNT_FORCE로 강제 해제, MNT_DETACH로 지연 해제가 가능합니다.
137statfsint statfs(const char *path, struct statfs *buf)파일시스템의 타입, 블록 크기, 총 블록/여유 블록, inode 수 등 통계를 가져옵니다.
78getdents64int getdents64(int fd, struct linux_dirent64 *dirp, int count)디렉터리 fd에서 항목들을 읽습니다. ls, find, opendir()/readdir() glibc 함수의 기반입니다.
262newfstatatint newfstatat(int dirfd, const char *path, struct stat *st, int flags)dirfd 기준 경로의 파일 메타데이터를 가져옵니다. AT_EMPTY_PATH|AT_SYMLINK_NOFOLLOW로 fd 자체 또는 링크 자체 정보 조회.
332statxint statx(int dirfd, const char *path, int flags, unsigned int mask, struct statx *statxbuf)확장된 파일 메타데이터 조회 (Linux 4.11+). 생성 시각(stx_btime), 마운트 ID, 속성 플래그 등 기존 stat에 없는 정보를 제공합니다.

프로세스 관리

프로세스/스레드 생성, 실행, 종료, 대기에 사용하는 syscall 목록입니다. Linux에서 스레드도 clone()으로 생성되며 스레드 그룹(TGID)으로 묶입니다. fork()는 내부적으로 clone(SIGCHLD, ...)와 동일합니다.

프로세스 생명주기 & fork/exec/exit 흐름 부모 프로세스 RUNNING (PID=N) fork() COW 복제 자식 프로세스 fork() → 0 반환 execve() 이미지 교체 새 프로그램 _start → main() exit_group() 자원 해제 ZOMBIE wait4() 대기 중 wait4() 부모 수거 소멸 PID 반납 clone(CLONE_VM| CLONE_THREAD...) 스레드 메모리/FD 공유 프로세스 상태 전이 RUNNING (R) wait() SLEEPING (S/D) wakeup RUNNABLE (R) SIGSTOP STOPPED (T) exit() ZOMBIE (Z) S=인터럽트 가능 수면 D=인터럽트 불가 (I/O 대기)
관련 문서: 프로세스 관리 — task_struct, fork/clone/execve 경로, CFS | 네임스페이스 — PID/mount/user 격리 | cgroups v1/v2 — 리소스 제어
번호이름시그니처설명
39getpidpid_t getpid(void)현재 프로세스의 PID(=TGID)를 반환합니다. vDSO로 가속되는 경우가 있습니다.
56clonelong clone(unsigned long flags, void *stack, int *ptid, int *ctid, unsigned long tls)세밀한 격리 플래그로 새 실행 단위를 생성합니다. CLONE_VM|CLONE_THREAD 조합이면 스레드, 아니면 프로세스입니다. 컨테이너 생성에는 CLONE_NEWPID|CLONE_NEWNS 등을 사용합니다.
57forkpid_t fork(void)현재 프로세스를 COW 방식으로 복제합니다. 부모에는 자식 PID, 자식에는 0을 반환합니다. 내부적으로 clone(SIGCHLD)입니다.
58vforkpid_t vfork(void)주소 공간 복사 없이 자식을 생성합니다. 자식이 execve/exit 호출 전까지 부모는 블록됩니다. 페이지 테이블 복사가 없어 fork보다 빠르지만 사용이 제한적입니다.
59execveint execve(const char *path, char *const argv[], char *const envp[])현재 프로세스 이미지를 새 프로그램으로 교체합니다. 성공 시 반환하지 않습니다. argv[0]은 관례상 프로그램 이름, envp는 환경 변수 목록입니다.
60exitvoid exit(int status)현재 스레드만 종료합니다. 커널 내부적으로는 do_exit()를 호출합니다. atexit 핸들러는 glibc 수준에서 호출됩니다.
61wait4pid_t wait4(pid_t pid, int *wstatus, int options, struct rusage *rusage)자식 프로세스의 상태 변화를 기다립니다. pid=-1이면 임의 자식, WNOHANG으로 비블로킹 확인 가능. rusage로 자원 사용량도 조회합니다.
107geteuiduid_t geteuid(void)프로세스의 유효(effective) UID를 반환합니다. 권한 판단에 사용됩니다.
110getppidpid_t getppid(void)부모 프로세스의 PID를 반환합니다. 부모가 죽으면 init(PID=1)이 됩니다.
111getpgrppid_t getpgrp(void)현재 프로세스의 프로세스 그룹 ID를 반환합니다.
112setsidpid_t setsid(void)새 세션을 생성하고 제어 터미널에서 분리됩니다. daemon 프로세스 구현 시 사용합니다.
155pivot_rootint pivot_root(const char *new_root, const char *put_old)루트 파일시스템을 교체합니다. 컨테이너 초기화 시 initramfs → 실제 루트 전환에 사용합니다.
157prctlint prctl(int option, unsigned long arg2, ...)프로세스 속성을 제어합니다. PR_SET_NAME(이름 설정), PR_SET_DUMPABLE(코어 덤프), PR_SET_SECCOMP(seccomp 활성화), PR_SET_NO_NEW_PRIVS(권한 상승 방지), PR_SET_CHILD_SUBREAPER 등.
231exit_groupvoid exit_group(int status)프로세스 내 모든 스레드를 종료합니다. glibc의 exit()가 실제로 이 syscall을 호출합니다.
247waitidint waitid(idtype_t idtype, id_t id, siginfo_t *infop, int options, struct rusage *ru)wait4보다 세밀한 옵션을 제공합니다. idtype으로 P_PID/P_PGID/P_ALL 선택, WNOWAIT으로 상태를 소비하지 않고 조회만 가능합니다.
322execveatint execveat(int dirfd, const char *path, char *const argv[], char *const envp[], int flags)dirfd 기준 상대 경로로 execve를 수행합니다. AT_EMPTY_PATH 플래그로 fd를 직접 실행할 수 있습니다.
435clone3long clone3(struct clone_args *args, size_t size)구조체로 인자를 전달하는 clone의 확장 버전입니다 (Linux 5.3+). CLONE_INTO_CGROUP으로 생성 즉시 cgroup에 넣거나, set_tid로 PID를 지정할 수 있습니다.

clone() 주요 플래그 (flags 인자)

플래그설명사용 예
CLONE_VM가상 주소 공간 공유 (스레드 핵심)pthread_create 내부
CLONE_FScwd/root/umask 공유스레드
CLONE_FILES파일 디스크립터 테이블 공유스레드 (fork는 미사용)
CLONE_SIGHAND시그널 핸들러 공유스레드
CLONE_THREAD같은 스레드 그룹(TGID)에 추가 — CLONE_VM|CLONE_SIGHAND 필요pthread_create
CLONE_NEWPID새 PID 네임스페이스 생성컨테이너
CLONE_NEWNET새 네트워크 네임스페이스 생성컨테이너
CLONE_NEWNS새 마운트 네임스페이스 생성컨테이너, unshare
CLONE_NEWUSER새 사용자 네임스페이스 생성 (UID/GID 매핑)rootless 컨테이너
CLONE_NEWUTS새 UTS(hostname/domainname) 네임스페이스컨테이너
CLONE_NEWIPC새 IPC(SysV, POSIX MQ) 네임스페이스컨테이너
CLONE_NEWCGROUP새 cgroup 네임스페이스컨테이너
CLONE_VFORKvfork처럼 부모 실행 정지vfork 구현
CLONE_PTRACEptrace 연결 유지 (디버거)strace, gdb
CLONE_SETTLS스레드 로컬 스토리지(TLS) 포인터 설정pthread_create (fs/gs 기반)
CLONE_CHILD_CLEARTID자식 종료 시 ctid 주소를 0으로 클리어 후 futex 깨움pthread_join 구현

메모리 관리

가상 메모리 매핑, 보호, 조언에 사용하는 syscall 목록입니다. malloc()은 내부적으로 작은 할당에는 brk()를, 큰 할당(≥128KB)에는 mmap(MAP_ANONYMOUS)를 사용합니다.

x86_64 프로세스 가상 주소 공간 레이아웃 (128TB) 커널 공간 (ffff800000000000~) non-canonical 접근 금지 영역 스택 (↓ 증가) RLIMIT_STACK (기본 8MB) mmap 영역 (↓ 증가) 공유 라이브러리, mmap() 파일 익명 mmap (큰 malloc) 힙 (↑ 증가) brk() / sbrk() 로 끝 주소 이동 BSS (초기화되지 않은 전역 변수) Data (초기화된 전역/정적 변수) Text (코드 영역, read-only) PROT_READ|PROT_EXEC NULL (0x0000) ~ 0x10000 접근 금지 0xffff800000000000 0x7fffffffffff (최대) mmap_base (ASLR 적용) brk → program_break 0x400000 (일반적) 관련 syscall mprotect() — 스택 보호 mmap(), munmap(), msync() madvise(), mlock(), mremap() brk() — 힙 크기 조절 mprotect(PROT_READ|EXEC) ASLR: 스택/힙/mmap 기준 주소를 무작위화 KASLR: 커널 주소도 무작위화 (Spectre 완화)
관련 문서: 메모리 관리 — Buddy, SLUB, OOM | 메모리 심화 — mmap, VMA, 페이지 폴트 | VMA/mmap 심화 — MAP_SHARED vs MAP_PRIVATE, userfaultfd
번호이름시그니처설명
9mmapvoid *mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset)파일이나 익명 메모리를 가상 주소 공간에 매핑합니다. 성공 시 매핑된 주소 반환, 실패 시 MAP_FAILED((void*)-1). 페이지 경계(4KB) 정렬 필요.
10mprotectint mprotect(void *addr, size_t len, int prot)메모리 영역의 접근 보호를 변경합니다. PROT_READ|PROT_WRITE|PROT_EXEC 조합. JIT 컴파일러에서 PROT_WRITE → PROT_EXEC 전환에 사용합니다.
11munmapint munmap(void *addr, size_t len)mmap으로 생성된 매핑을 해제합니다. 중간 영역만 해제하면 원래 영역이 분할됩니다.
12brkint brk(void *addr)힙 세그먼트 끝 주소(program break)를 변경합니다. addr=NULL이면 현재 끝 주소를 반환합니다. glibc malloc이 내부에서 사용합니다.
25mremapvoid *mremap(void *old_addr, size_t old_len, size_t new_len, int flags, ...)기존 매핑의 크기나 위치를 변경합니다. MREMAP_MAYMOVE로 이동 허용, MREMAP_FIXED로 목적지 지정. realloc의 큰 블록 처리에 활용됩니다.
26msyncint msync(void *addr, size_t len, int flags)mmap 매핑의 변경 내용을 파일에 반영합니다. MS_SYNC(동기), MS_ASYNC(비동기), MS_INVALIDATE(다른 매핑 무효화).
27mincoreint mincore(void *addr, size_t len, unsigned char *vec)각 페이지의 RAM 상주 여부를 확인합니다. vec[i]의 최하위 비트가 1이면 상주. 프리패치 판단이나 메모리 pressure 분석에 사용합니다.
28madviseint madvise(void *addr, size_t len, int advice)메모리 사용 패턴을 커널에 힌트로 전달합니다. 아래 표 참조.
149mlockint mlock(const void *addr, size_t len)지정 영역을 RAM에 고정합니다 (swap 불가). 실시간 처리, 암호화 키 보호에 사용합니다. RLIMIT_MEMLOCK 제한 있음.
150munlockint munlock(const void *addr, size_t len)mlock 잠금을 해제합니다. 해당 영역은 다시 swap 대상이 됩니다.
151mlockallint mlockall(int flags)현재 및 미래의 모든 매핑을 잠급니다. MCL_CURRENT(현재)+MCL_FUTURE(미래). 실시간 프로세스에 사용합니다.
237mbindlong mbind(void *addr, unsigned long len, int mode, const unsigned long *nodemask, ...)NUMA 메모리 정책을 설정합니다. MPOL_BIND(특정 노드 강제), MPOL_PREFERRED, MPOL_INTERLEAVE(노드 간 분산).

mmap() prot / flags 인자

인자값/상수설명
prot
(보호)
PROT_NONE접근 불가 (가드 페이지, NULL 역참조 감지)
PROT_READ읽기 가능
PROT_WRITE쓰기 가능
PROT_EXEC실행 가능 (W^X 정책: PROT_WRITE와 동시 사용 지양)
flags
(매핑 유형)
MAP_SHARED파일 변경이 다른 프로세스에게도 보임 (msync로 플러시)
MAP_PRIVATECOW 사본 — 변경이 파일에 반영되지 않음
MAP_ANONYMOUS파일과 무관한 익명 메모리 (fd=-1 필요)
MAP_FIXEDaddr을 정확히 사용 (기존 매핑 덮어씀 — 위험)
MAP_FIXED_NOREPLACEaddr이 이미 사용 중이면 EEXIST 반환 (Linux 4.17+)
MAP_HUGETLBHugePage(2MB/1GB) 사용. 대량 데이터 성능 향상.
MAP_POPULATE매핑 즉시 페이지 테이블을 채움 (나중의 페이지 폴트 방지)
MAP_LOCKEDmmap+mlock 효과 (mlockall 대신)
MAP_NORESERVEswap 예약 없이 오버커밋 허용

madvise() 힌트 (advice 인자)

advice설명
MADV_NORMAL기본 동작 (보통 readahead 적용)
MADV_SEQUENTIAL순차 접근 예상 — readahead 크게 증가
MADV_RANDOM임의 접근 예상 — readahead 끄기
MADV_WILLNEED곧 접근 예정 — 미리 읽기(prefault)
MADV_DONTNEED더 이상 필요 없음 — 페이지 캐시 해제 가능 (메모리 즉시 반납)
MADV_FREElazy 해제 — 메모리 압박 시에만 반납 (zero 초기화 보장 안 됨)
MADV_HUGEPAGETHP(Transparent Huge Page) 사용 요청
MADV_NOHUGEPAGETHP 사용 금지
MADV_DONTFORKfork 시 자식에게 매핑 상속하지 않음
MADV_DONTDUMP코어 덤프에서 이 영역 제외 (민감한 데이터 보호)
MADV_COLDLRU 리스트에서 cold 위치로 이동 (Linux 5.4+)
MADV_PAGEOUT즉시 swap out 요청 (Linux 5.4+)
MADV_POPULATE_READ읽기 권한으로 페이지 미리 채움 — 폴트 없이 접근 가능 (Linux 5.14+)

네트워크 소켓

소켓은 파일 디스크립터로 표현되며, socket()으로 생성한 후 TCP 서버는 bind→listen→accept, 클라이언트는 connect 순서로 진행합니다. UDP는 connect 없이 sendto/recvfrom을 직접 사용합니다.

TCP 서버/클라이언트 syscall 시퀀스 서버 (Server) 클라이언트 (Client) socket(AF_INET, SOCK_STREAM, 0) setsockopt(SO_REUSEADDR) bind(addr:port) listen(backlog=128) accept4() ← 블로킹 recv() / send() close(conn_fd) socket(AF_INET, SOCK_STREAM, 0) connect(서버 addr:port) send() / recv() close() TCP 3-way handshake (SYN→SYN-ACK→ACK) accept() 반환 → 새 conn_fd 데이터 교환 FIN 교환 (4-way)
관련 문서: 네트워크 스택 — sk_buff, TCP 내부, 소켓 계층 | TCP 프로토콜 심화 | UDP 프로토콜 | Netfilter 프레임워크
번호이름시그니처설명
41socketint socket(int domain, int type, int protocol)소켓 파일 디스크립터를 생성합니다. SOCK_NONBLOCK|SOCK_CLOEXEC을 type에 OR할 수 있습니다 (Linux 2.6.27+).
42connectint connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen)원격 주소에 연결을 시작합니다. TCP의 경우 3-way handshake를 완료 후 반환. 비블로킹 소켓에서는 EINPROGRESS 반환 후 epoll/select로 완료를 기다립니다.
43acceptint accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen)완료된 연결 큐에서 하나를 꺼내 새 소켓 fd를 반환합니다. 연결 없으면 블로킹. accept4 권장.
44sendtossize_t sendto(int sockfd, const void *buf, size_t len, int flags, const struct sockaddr *dest, socklen_t addrlen)UDP에서 목적지를 지정하여 데이터그램을 전송합니다. TCP에서는 dest_addr/addrlen을 NULL/0으로 사용합니다.
45recvfromssize_t recvfrom(int sockfd, void *buf, size_t len, int flags, struct sockaddr *src, socklen_t *addrlen)데이터를 수신하고 송신자 주소를 함께 받습니다. MSG_PEEK로 소비 없이 미리보기 가능합니다.
46sendmsgssize_t sendmsg(int sockfd, const struct msghdr *msg, int flags)scatter/gather 버퍼와 제어 메시지(cmsg — IP_PKTINFO, SCM_RIGHTS 등)를 함께 전송합니다.
47recvmsgssize_t recvmsg(int sockfd, struct msghdr *msg, int flags)scatter/gather 수신 + 보조 데이터(cmsg). MSG_CMSG_CLOEXEC로 fd 수신 시 자동 CLOEXEC 설정.
48shutdownint shutdown(int sockfd, int how)소켓의 일부 또는 전체 방향을 종료합니다. SHUT_RD/WR/RDWR. close()와 달리 fd를 닫지 않습니다.
49bindint bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen)소켓에 로컬 주소/포트를 할당합니다. IP=INADDR_ANY(0.0.0.0)이면 모든 인터페이스에서 수신합니다.
50listenint listen(int sockfd, int backlog)소켓을 수신 대기 상태로 만듭니다. backlog는 완료된 연결 큐의 최대 길이입니다 (실제는 /proc/sys/net/core/somaxconn으로 제한).
51getsocknameint getsockname(int sockfd, struct sockaddr *addr, socklen_t *addrlen)소켓에 할당된 로컬 주소/포트를 가져옵니다. bind(포트 0) 후 실제 할당된 포트 확인에 사용합니다.
52getpeernameint getpeername(int sockfd, struct sockaddr *addr, socklen_t *addrlen)연결된 원격 소켓의 주소/포트를 가져옵니다.
53socketpairint socketpair(int domain, int type, int protocol, int sv[2])연결된 소켓 쌍을 생성합니다 (AF_UNIX만 지원). pipe보다 양방향 통신에 적합합니다.
54setsockoptint setsockopt(int sockfd, int level, int optname, const void *optval, socklen_t optlen)소켓 옵션을 설정합니다. 중요 옵션은 아래 표를 참고하세요.
55getsockoptint getsockopt(int sockfd, int level, int optname, void *optval, socklen_t *optlen)소켓 옵션의 현재 값을 조회합니다.
288accept4int accept4(int sockfd, struct sockaddr *addr, socklen_t *addrlen, int flags)accept에 SOCK_NONBLOCK/SOCK_CLOEXEC을 원자적으로 설정합니다 (현대 서버에서 권장).

socket() domain / type 조합

domaintypeprotocol용도
AF_INETSOCK_STREAM0 (TCP)TCP/IPv4 — 연결 지향, 신뢰성
AF_INETSOCK_DGRAM0 (UDP)UDP/IPv4 — 비연결, 고속
AF_INETSOCK_RAWIPPROTO_ICMP 등Raw 소켓 — 패킷 직접 제어 (CAP_NET_RAW 필요)
AF_INET6SOCK_STREAM0TCP/IPv6 (v4-mapped 지원)
AF_UNIXSOCK_STREAM0Unix Domain Socket — 로컬 IPC, 고속
AF_UNIXSOCK_DGRAM0Unix 데이터그램 소켓
AF_UNIXSOCK_SEQPACKET0메시지 경계 보존 신뢰 IPC
AF_NETLINKSOCK_RAWNETLINK_ROUTE 등커널↔유저 제어 채널 (iproute2, nftables 등)
AF_PACKETSOCK_RAWhtons(ETH_P_ALL)L2 원시 패킷 캡처 (tcpdump, Wireshark)
AF_XDPSOCK_RAW0XDP 소켓 — NIC에서 직접 패킷 처리

setsockopt() 주요 옵션

leveloptname설명
SOL_SOCKETSO_REUSEADDRTIME_WAIT 상태의 포트 즉시 재사용 허용 (서버 재시작 시 필수)
SOL_SOCKETSO_REUSEPORT여러 프로세스/스레드가 동일 포트를 bind 가능 (로드밸런싱)
SOL_SOCKETSO_KEEPALIVETCP keepalive 활성화 (유휴 연결 감지)
SOL_SOCKETSO_RCVBUF / SO_SNDBUF수신/송신 버퍼 크기 설정
SOL_SOCKETSO_LINGERclose() 시 미전송 데이터 처리 정책 설정
IPPROTO_TCPTCP_NODELAYNagle 알고리즘 비활성화 — 지연 없는 소량 데이터 전송
IPPROTO_TCPTCP_CORK데이터를 모았다가 한 번에 전송 (sendfile과 조합)
IPPROTO_TCPTCP_FASTOPENTFO — SYN 패킷에 데이터를 포함하여 왕복 시간 절감
IPPROTO_TCPTCP_KEEPIDLE/INTVL/CNTkeepalive 파라미터 세부 조정
IPPROTO_IPIP_TOSDSCP/QoS 마킹 설정
IPPROTO_IPIP_MULTICAST_JOIN_GROUP멀티캐스트 그룹 가입

시그널

시그널은 프로세스에게 비동기적으로 이벤트를 알리는 메커니즘입니다. 시그널 전달은 커널이 프로세스를 스케줄링할 때 처리됩니다 — 즉각적인 중단이 아닙니다. SIGKILLSIGSTOP은 프로세스가 블록하거나 무시할 수 없습니다.

시그널 전달 흐름 (발신 → 수신 프로세스) 발신자 kill(pid, sig) 커널 시그널 처리 signal_wake_up() pending 큐에 추가 수신 프로세스 syscall 복귀 또는 스케줄링 시 처리 SIG_DFL → 기본 동작 (종료/중지) SIG_IGN → 무시 핸들러 → rt_sigreturn() 시그널 마스크 처리 rt_sigprocmask(): 블록 집합 변경 rt_sigsuspend(): 마스크 교체 후 대기 signalfd4(): fd로 동기 수신 SIGKILL(9)/SIGSTOP(19): 블록/무시 불가 — 커널이 강제 처리 실시간 시그널 SIGRTMIN~SIGRTMAX(34~64): 큐잉(queuing) 보장, 순서 보장
관련 문서: IPC — 시그널 내부 동작, signalfd, eventfd | 시스템 콜 — seccomp/ptrace 훅
번호이름시그니처설명
13rt_sigactionint rt_sigaction(int sig, const struct sigaction *act, struct sigaction *oldact, size_t sigsetsize)시그널 핸들러를 등록/조회합니다. sa_flags에 SA_RESTART(중단된 syscall 자동 재시작), SA_SIGINFO(siginfo_t 핸들러), SA_NODEFER(핸들러 내 동일 시그널 허용) 등을 설정합니다.
14rt_sigprocmaskint rt_sigprocmask(int how, const sigset_t *set, sigset_t *oldset, size_t sigsetsize)블록할 시그널 집합을 변경합니다. how=SIG_BLOCK(추가)/SIG_UNBLOCK(제거)/SIG_SETMASK(교체). 블록된 시그널은 마스크 해제 시 전달됩니다.
15rt_sigreturnlong rt_sigreturn(void)시그널 핸들러 종료 후 인터럽트된 컨텍스트를 복원합니다. 직접 호출하지 않고 커널이 시그널 스택 프레임에 자동 삽입합니다.
37alarmunsigned int alarm(unsigned int seconds)seconds 초 후 SIGALRM을 발생시킵니다. 0이면 예약을 취소합니다. 이전 예약의 남은 시간을 반환합니다.
62killint kill(pid_t pid, int sig)프로세스(pid>0), 프로세스 그룹(pid<-1), 자신(-1 또는 0)에게 시그널을 전송합니다. sig=0으로 프로세스 존재 확인 가능.
127rt_sigpendingint rt_sigpending(sigset_t *set, size_t sigsetsize)현재 블록된 상태로 대기 중인 시그널 집합을 가져옵니다.
128rt_sigtimedwaitint rt_sigtimedwait(const sigset_t *set, siginfo_t *info, const struct timespec *timeout, size_t sigsetsize)set에 포함된 시그널 중 하나가 도달할 때까지 대기합니다. timeout으로 최대 대기 시간 지정.
130rt_sigsuspendint rt_sigsuspend(const sigset_t *mask, size_t sigsetsize)시그널 마스크를 mask로 원자적으로 교체하고 시그널을 기다립니다. EINTR로 반환 후 마스크가 복원됩니다. 경쟁 조건 없는 대기에 사용합니다.
131sigaltstackint sigaltstack(const stack_t *ss, stack_t *oss)시그널 처리용 대체 스택을 설정합니다. 스택 오버플로우(SIGSEGV) 처리에 필수입니다.
234tgkillint tgkill(pid_t tgid, pid_t tid, int sig)멀티스레드 프로세스에서 특정 스레드에 시그널을 전송합니다. kill(tid)와 달리 tid 재사용에 의한 경쟁 없이 안전합니다.
289signalfd4int signalfd4(int fd, const sigset_t *mask, size_t sizemask, int flags)mask의 시그널을 fd에서 read()로 동기 수신합니다. epoll과 통합하여 이벤트 루프로 처리 가능합니다 (SFD_NONBLOCK, SFD_CLOEXEC).

표준 시그널 참조 (x86_64)

번호이름기본 동작설명 / 주요 발생 원인
1SIGHUP종료제어 터미널 연결 해제, 데몬의 설정 재로드 관례로 사용
2SIGINT종료Ctrl+C — 포그라운드 프로세스 그룹에 전달
3SIGQUIT코어덤프+종료Ctrl+\ — SIGINT와 유사하나 코어 생성
4SIGILL코어덤프+종료잘못된 CPU 명령어 실행
5SIGTRAP코어덤프+종료디버거 breakpoint, ptrace 트랩
6SIGABRT코어덤프+종료abort() 호출, assert() 실패
7SIGBUS코어덤프+종료버스 오류 — 정렬되지 않은 메모리 접근, mmap 영역 접근 오류
8SIGFPE코어덤프+종료부동 소수점/정수 나누기 0, 오버플로우
9SIGKILL종료 (강제)즉시 종료 — 블록/무시 불가. OOM killer가 사용
10SIGUSR1종료사용자 정의 — Nginx worker 재로드, 로그 로테이션 등
11SIGSEGV코어덤프+종료잘못된 메모리 접근 (NULL 역참조, 스택 오버플로우 등)
12SIGUSR2종료사용자 정의 — 애플리케이션별 커스텀 용도
13SIGPIPE종료읽는 쪽이 닫힌 파이프/소켓에 쓰기 — SIG_IGN 처리 관례
14SIGALRM종료alarm() 타이머 만료
15SIGTERM종료정상 종료 요청 — systemd stop, kill 기본값
17SIGCHLD무시자식 프로세스 종료/중지 알림 — waitpid() 연계
18SIGCONT계속SIGSTOP/SIGTSTP로 중지된 프로세스 재개
19SIGSTOP중지 (강제)프로세스 일시 정지 — 블록/무시 불가
20SIGTSTP중지Ctrl+Z — 블록/무시 가능
29SIGIO종료비동기 I/O 완료 알림 (F_SETOWN + O_ASYNC)
30SIGPWR종료전원 이상 알림 (UPS 등)
31SIGSYS코어덤프+종료잘못된 syscall 호출 — seccomp 필터가 활용
34~64SIGRTMIN~SIGRTMAX종료실시간 시그널 — 큐잉 보장, 순서 보장, 추가 데이터 전달 가능

IPC (프로세스 간 통신)

파이프, 공유 메모리, 세마포어, 메시지 큐, 이벤트 fd 등 IPC syscall 목록입니다. Linux에서 IPC 메커니즘은 특성에 따라 선택하고, 현대적 설계에서는 futex(잠금), Unix socket(메시지), memfd+mmap(대용량 공유 메모리)을 조합합니다.

관련 문서: IPC 심화 — pipe/Unix socket, futex, System V IPC | 동기화 기법
IPC 메커니즘 선택 기준 메커니즘 대역폭 지연 복사 횟수 사용 시나리오 pipe/pipe2 낮음 2회 (kernel buf) 부모-자식 간 스트림 데이터 Unix socket 중-고 낮음 2회 + SCM_RIGHTS fd 전달, 데이터그램/스트림 SysV shm 최고 최저 0회 (공유 페이지) 레거시 코드, ipcs로 관리 memfd+mmap 최고 최저 0회 (공유 페이지) 현대적 공유 메모리 (fd 전달) futex N/A 나노초 커널 진입 최소화 mutex/condvar/semaphore 기반 futex 동작: 경쟁 없음(fast) vs 경쟁 있음(slow) 사용자 공간 커널 공간 atomic CAS *uaddr 0→1 성공 잠금 획득! syscall 없음 CAS 실패(경쟁) FUTEX_WAIT 커널 대기 큐 삽입 FUTEX_WAKE 대기 스레드 깨우기 잠금 해제 → wake atomic store(*uaddr=0) + FUTEX_WAKE 재획득 CAS 재시도
번호이름시그니처설명
22pipeint pipe(int pipefd[2])단방향 통신용 파이프를 생성합니다. fd[0]은 읽기 전용, fd[1]은 쓰기 전용이며 최대 64KiB(Linux 3.11+)의 커널 버퍼를 사용합니다.
293pipe2int pipe2(int pipefd[2], int flags)O_CLOEXEC(exec 시 자동 닫기), O_NONBLOCK(비블로킹) 플래그를 원자적으로 지정하여 파이프를 생성합니다. 모던 코드에서 pipe 대신 권장됩니다.
29shmgetint shmget(key_t key, size_t size, int shmflg)System V 공유 메모리 세그먼트를 생성하거나 기존 것을 가져옵니다. IPC_CREAT|0666 플래그로 생성하며, 반환된 shmid로 shmat에서 연결합니다.
30shmatvoid *shmat(int shmid, const void *shmaddr, int shmflg)공유 메모리 세그먼트를 프로세스 주소 공간에 매핑합니다. shmaddr=NULL이면 커널이 적절한 주소를 선택합니다. SHM_RDONLY로 읽기 전용 연결 가능.
67shmdtint shmdt(const void *shmaddr)프로세스 주소 공간에서 공유 메모리 세그먼트의 연결을 해제합니다. 세그먼트 자체는 삭제되지 않습니다.
31shmctlint shmctl(int shmid, int cmd, struct shmid_ds *buf)공유 메모리 세그먼트를 제어합니다. IPC_RMID로 삭제, IPC_STAT으로 상태 조회, IPC_SET으로 권한 변경.
64semgetint semget(key_t key, int nsems, int semflg)System V 세마포어 집합을 생성하거나 가져옵니다. nsems개의 세마포어가 하나의 집합을 이룹니다.
65semopint semop(int semid, struct sembuf *sops, size_t nsops)세마포어 집합에 P(sem_op 음수)/V(sem_op 양수) 연산을 수행합니다. SEM_UNDO 플래그로 프로세스 종료 시 자동 롤백됩니다.
220semtimedopint semtimedop(int semid, struct sembuf *sops, size_t nsops, const struct timespec *timeout)타임아웃을 지정할 수 있는 semop의 확장입니다. NULL 타임아웃이면 semop와 동일하게 동작합니다.
68msggetint msgget(key_t key, int msgflg)System V 메시지 큐를 생성하거나 가져옵니다. 타입 필드로 우선순위 기반 수신이 가능합니다.
69msgsndint msgsnd(int msqid, const void *msgp, size_t msgsz, int msgflg)메시지 큐에 메시지를 전송합니다. msgplong mtype으로 시작하는 구조체이며, IPC_NOWAIT로 비블로킹 송신이 가능합니다.
70msgrcvssize_t msgrcv(int msqid, void *msgp, size_t msgsz, long msgtyp, int msgflg)메시지 큐에서 메시지를 수신합니다. msgtyp=0이면 첫 메시지, 양수면 특정 타입, 음수면 절댓값 이하 중 가장 낮은 타입을 수신합니다.
240mq_openmqd_t mq_open(const char *name, int oflag, mode_t mode, struct mq_attr *attr)POSIX 메시지 큐를 생성하거나 엽니다. /name 형식의 이름으로 식별되며 fd처럼 사용합니다.
243mq_timedsendint mq_timedsend(mqd_t mqdes, const char *msg_ptr, size_t msg_len, unsigned msg_prio, const struct timespec *abs_timeout)POSIX 메시지 큐에 우선순위와 타임아웃을 지정하여 메시지를 전송합니다.
244mq_timedreceivessize_t mq_timedreceive(mqd_t mqdes, char *msg_ptr, size_t msg_len, unsigned *msg_prio, const struct timespec *abs_timeout)POSIX 메시지 큐에서 가장 높은 우선순위 메시지를 타임아웃을 지정하여 수신합니다.
290eventfd2int eventfd2(unsigned int initval, int flags)64비트 카운터를 fd로 추상화한 이벤트 알림 메커니즘입니다. write(fd, &1, 8)로 신호, read(fd, &v, 8)로 수신합니다. epoll과 조합하여 사용합니다.
202futexlong futex(uint32_t *uaddr, int futex_op, uint32_t val, ...)사용자 공간 원자 연산과 커널 대기 큐를 결합한 빠른 잠금 원시 연산입니다. pthread_mutex, pthread_cond, Go runtime의 기반. FUTEX_WAIT/FUTEX_WAKE가 핵심 오퍼레이션입니다.

시간 & 타이머

시간 조회, 설정, 타이머 생성에 사용하는 syscall 목록입니다. clock_gettimegettimeofday는 vDSO(virtual Dynamic Shared Object)를 통해 커널 진입 없이 사용자 공간에서 직접 실행되므로 일반 syscall 대비 3~10배 빠릅니다. 고해상도 타이머가 필요할 때는 CLOCK_MONOTONIC을 우선 사용하세요.

관련 문서: 타이머 — hrtimer, timer wheel | ktime/Clock 심화 — clocksource, vDSO, NTP/PTP
vDSO 가속 (clock_gettime) vs timerfd 이벤트 흐름 ▶ vDSO 경로 (syscall 없음) 응용 프로그램 clock_gettime() 직접 호출 vDSO 페이지 공유 읽기 전용 맵 커널 시계 데이터 (MMIO 공유, 읽기전용) ~ns 지연, 링3 실행 ▶ timerfd 이벤트 흐름 timerfd_create TFD_NONBLOCK timerfd_settime 만료 시각 설정 epoll_wait fd 이벤트 대기 read(timerfd) 만료 횟수 8바이트

Clock ID 참조

Clock ID특성사용 시나리오
CLOCK_REALTIME0실제 시각 (UTC 기준), settable, NTP 조정 영향타임스탬프, 로그 시각 기록
CLOCK_MONOTONIC1단조 증가, 재부팅 후 0 초기화, NTP 조정 영향 없음경과 시간 측정, 타임아웃 계산 (권장)
CLOCK_PROCESS_CPUTIME_ID2프로세스의 CPU 사용 시간 합산CPU 프로파일링, 벤치마크
CLOCK_THREAD_CPUTIME_ID3현재 스레드의 CPU 사용 시간스레드별 CPU 사용량 측정
CLOCK_MONOTONIC_RAW4NTP/adjtime 조정 없는 순수 하드웨어 클럭정밀 지연 측정 (NTP 간섭 배제)
CLOCK_REALTIME_COARSE5낮은 정밀도지만 매우 빠름 (vDSO 최적화)정밀도가 중요하지 않은 빈번한 시각 조회
CLOCK_MONOTONIC_COARSE6낮은 정밀도의 단조 클럭정밀도 불필요한 경과 시간 측정
CLOCK_BOOTTIME7시스템 부팅 후 경과 시간 (suspend 포함)절전 포함 경과 시간, 타이머 정확도 필요 시
CLOCK_TAI11Atomic International Time (윤초 없음)통신 프로토콜, 금융 타임스탬프
번호이름시그니처설명
228clock_gettimeint clock_gettime(clockid_t clkid, struct timespec *tp)지정된 시계의 현재 시간을 나노초 정밀도로 가져옵니다. CLOCK_MONOTONIC/CLOCK_REALTIME은 vDSO로 가속됩니다. 가장 널리 쓰이는 시간 syscall.
229clock_getresint clock_getres(clockid_t clkid, struct timespec *res)시계의 해상도(최소 분해능)를 가져옵니다. 일반적으로 1ns이지만 COARSE 클럭은 ~4ms.
227clock_settimeint clock_settime(clockid_t clkid, const struct timespec *tp)시스템 실시간 시계를 설정합니다. CAP_SYS_TIME이 필요하며, CLOCK_REALTIME만 설정 가능합니다.
230clock_nanosleepint clock_nanosleep(clockid_t clkid, int flags, const struct timespec *req, struct timespec *rem)지정된 시계 기준으로 절대(TIMER_ABSTIME) 또는 상대 시각까지 고해상도 슬립합니다. 시그널 중단 후 나머지 시간은 rem에 반환됩니다.
35nanosleepint nanosleep(const struct timespec *req, struct timespec *rem)CLOCK_MONOTONIC 기반 상대 시간 슬립. 실제 수면 시간은 타이머 해상도에 따라 달라질 수 있습니다.
96gettimeofdayint gettimeofday(struct timeval *tv, struct timezone *tz)마이크로초 정밀도로 현재 시각과 시간대를 가져옵니다. vDSO로 가속. tz는 deprecated, NULL 권장.
222timer_createint timer_create(clockid_t clkid, struct sigevent *sevp, timer_t *timerid)POSIX 인터벌 타이머를 생성합니다. 만료 시 시그널 전달(SIGEV_SIGNAL) 또는 스레드 함수 호출(SIGEV_THREAD) 방식 선택 가능.
223timer_settimeint timer_settime(timer_t timerid, int flags, const struct itimerspec *new_value, struct itimerspec *old_value)POSIX 타이머의 만료 시각과 인터벌을 설정합니다. it_interval을 0이 아니면 반복 타이머로 동작합니다.
224timer_gettimeint timer_gettime(timer_t timerid, struct itimerspec *curr_value)POSIX 타이머의 현재 만료까지 남은 시간과 인터벌을 조회합니다.
283timerfd_createint timerfd_create(clockid_t clkid, int flags)타이머 만료를 fd로 읽을 수 있는 타이머 fd를 생성합니다. epoll/select와 조합하여 이벤트 루프에 타이머를 통합할 때 이상적입니다. TFD_NONBLOCK|TFD_CLOEXEC 권장.
286timerfd_settimeint timerfd_settime(int fd, int flags, const struct itimerspec *new_value, struct itimerspec *old_value)timerfd의 만료 시각과 인터벌을 설정합니다. TFD_TIMER_ABSTIME으로 절대 시각 설정도 가능합니다.
287timerfd_gettimeint timerfd_gettime(int fd, struct itimerspec *curr_value)timerfd의 현재 설정(남은 시간, 인터벌)을 조회합니다.
159adjtimexint adjtimex(struct timex *buf)NTP 데몬이 사용하는 커널 시계 조정 인터페이스입니다. 주파수 오차, 시간 오프셋, PPS 신호 등을 설정합니다. (CAP_SYS_TIME 필요)

보안 & 권한

UID/GID 변경, capabilities, seccomp, 네임스페이스 분리 등 보안 관련 syscall 목록입니다. Linux 보안은 DAC(소유자/그룹/others 권한), Capabilities(세분화된 권한), LSM(SELinux/AppArmor), seccomp(syscall 필터링), Namespaces(자원 격리)의 다층 구조로 이루어집니다.

관련 문서: 네임스페이스 — PID/user/mount 격리 | Linux Containers 심화 — seccomp, capabilities | eBPF 기반 보안 정책
seccomp-BPF 필터 동작 흐름 프로세스 syscall 발생 BPF 필터 nr, args 검사 ALLOW 커널 처리 정상 실행 ERRNO 오류 반환 -EPERM 등 KILL_PROCESS 프로세스 종료 SIGSYS 또는 kill TRAP SIGSYS → ptrace 감사/에뮬레이션 seccomp 필터는 BPF 바이트코드로 작성 — Docker, Chrome, systemd, sshd 등이 사용

주요 Linux Capabilities

Capability번호허용 행위
CAP_CHOWN0임의로 파일 소유자/그룹 변경 (chown)
CAP_DAC_OVERRIDE1파일 권한 검사 우회 (읽기/쓰기/실행)
CAP_DAC_READ_SEARCH2읽기 권한 및 디렉터리 탐색 권한 우회
CAP_FOWNER3소유자 아닌 파일의 권한 변경 허용
CAP_KILL5임의 프로세스에 시그널 전송
CAP_NET_BIND_SERVICE101024 미만 포트에 바인드 (HTTP, HTTPS 등)
CAP_NET_RAW13RAW/PACKET 소켓 사용, ARP 스푸핑, tcpdump
CAP_SYS_ADMIN21mount, chroot, sethostname 등 광범위한 관리 권한
CAP_SYS_PTRACE19다른 프로세스를 ptrace로 추적/검사
CAP_SYS_TIME25시스템 시계 설정 (clock_settime, adjtimex)
CAP_SYS_MODULE16커널 모듈 로드/언로드 (init_module, finit_module)
CAP_MKNOD27특수 파일(디바이스) 생성
CAP_SETUID7임의 UID로 변경 (su, sudo)
CAP_SETGID6임의 GID로 변경
CAP_SETPCAP8허용 집합의 capabilities를 타 프로세스에 부여/회수
CAP_SYS_RAWIO17ioperm/iopl, /dev/mem, /dev/kmem 직접 접근

Linux Namespaces 종류

네임스페이스clone 플래그격리 대상사용 예
Mount (mnt)CLONE_NEWNS파일시스템 마운트 트리컨테이너별 루트 파일시스템
UTSCLONE_NEWUTS호스트명, 도메인명컨테이너별 hostname
IPCCLONE_NEWIPCSystem V IPC, POSIX MQIPC 자원 격리
PIDCLONE_NEWPID프로세스 ID 공간컨테이너 내 PID 1
NetworkCLONE_NEWNET네트워크 인터페이스, 라우팅, 포트가상 네트워크 스택, veth
UserCLONE_NEWUSERUID/GID 매핑루트리스 컨테이너
CgroupCLONE_NEWCGROUPcgroup 루트 뷰컨테이너별 cgroup 계층
TimeCLONE_NEWTIME시스템 시계 오프셋 (Linux 5.6+)컨테이너별 시간 격리
번호이름시그니처설명
102getuiduid_t getuid(void)현재 프로세스의 실제 UID를 반환합니다. 프로세스가 root인지 확인할 때 사용합니다.
104getgidgid_t getgid(void)현재 프로세스의 실제 GID를 반환합니다.
107geteuiduid_t geteuid(void)현재 프로세스의 유효 UID를 반환합니다. setuid 비트가 설정된 실행 파일에서 달라집니다.
108getegidgid_t getegid(void)현재 프로세스의 유효 GID를 반환합니다.
105setuidint setuid(uid_t uid)프로세스의 실제/유효 UID를 변경합니다. root에서 일반 사용자로 권한 강하 시 사용 (복귀 불가).
106setgidint setgid(gid_t gid)프로세스의 실제/유효/저장 GID를 변경합니다.
117setresuidint setresuid(uid_t ruid, uid_t euid, uid_t suid)실제/유효/저장 UID를 한 번에 설정합니다. -1은 변경 없음. 권한 강하 후 복귀가 필요한 서버에 사용.
118getresuidint getresuid(uid_t *ruid, uid_t *euid, uid_t *suid)실제/유효/저장 UID를 모두 조회합니다.
119setresgidint setresgid(gid_t rgid, gid_t egid, gid_t sgid)실제/유효/저장 GID를 한 번에 설정합니다.
157prctlint prctl(int option, unsigned long arg2, ...)프로세스 속성을 제어합니다. PR_SET_NAME(이름 설정), PR_SET_DUMPABLE(coredump 허용), PR_SET_NO_NEW_PRIVS(권한 상승 금지), PR_CAP_AMBIENT(Ambient capabilities) 등.
101ptracelong ptrace(enum __ptrace_request request, pid_t pid, void *addr, void *data)프로세스를 추적/검사합니다. 디버거(GDB), strace, 샌드박스의 기반. PTRACE_ATTACH/PTRACE_SYSCALL/PTRACE_PEEKDATA 등의 요청을 사용합니다.
125capgetint capget(cap_user_header_t hdrp, cap_user_data_t datap)스레드의 capabilities 집합(Effective, Permitted, Inheritable)을 조회합니다.
126capsetint capset(cap_user_header_t hdrp, const cap_user_data_t datap)스레드의 capabilities를 설정합니다. Permitted 집합 내에서만 Effective/Inheritable을 변경할 수 있습니다.
317seccompint seccomp(unsigned int operation, unsigned int flags, void *args)syscall 필터링을 설정합니다. SECCOMP_SET_MODE_STRICT(read/write/exit/_exit만 허용), SECCOMP_SET_MODE_FILTER(BPF 필터 지정). PR_SET_NO_NEW_PRIVS 후에만 사용 가능.
272unshareint unshare(int flags)새 네임스페이스를 생성하여 현재 프로세스를 격리합니다. CLONE_NEWNS|CLONE_NEWNET|CLONE_NEWPID 등의 플래그 조합. unshare(1) 명령어의 기반.
308setnsint setns(int fd, int nstype)/proc/<pid>/ns/<type>를 열어 기존 네임스페이스에 가입합니다. 컨테이너 exec 기능의 기반.
250keyctllong keyctl(int operation, unsigned long arg2, ...)커널 키링을 관리합니다. KEYCTL_ADD_KEY로 암호화 키 저장, KEYCTL_SEARCH로 조회. LUKS, Kerberos 인증 등에 사용.
444landlock_create_rulesetint landlock_create_ruleset(const struct landlock_ruleset_attr *attr, size_t size, __u32 flags)Landlock LSM(Linux 5.13+)으로 파일시스템 접근 규칙 집합을 생성합니다. unprivileged 샌드박싱 가능.
445landlock_add_ruleint landlock_add_rule(int ruleset_fd, enum landlock_rule_type rule_type, const void *rule_attr, __u32 flags)Landlock 규칙 집합에 허용 규칙을 추가합니다. LANDLOCK_RULE_PATH_BENEATH로 특정 디렉터리 이하만 허용.
446landlock_restrict_selfint landlock_restrict_self(int ruleset_fd, __u32 flags)현재 스레드에 Landlock 규칙 집합을 적용하여 파일시스템 접근을 제한합니다. 적용 후 철회 불가.

비동기 I/O & 이벤트

이벤트 다중화, 비동기 I/O, io_uring 관련 syscall 목록입니다. epoll은 현대 이벤트 루프(nginx, libuv, tokio)의 핵심이며, io_uring(Linux 5.1+)은 syscall 자체를 제거하여 극한의 성능을 달성합니다.

관련 문서: IPC — eventfd, epoll 통합 패턴 | 성능 최적화 — io_uring 배치 처리, 오버헤드 분석
io_uring 구조: SQ Ring (제출) / CQ Ring (완료) 공유 메모리 사용자 공간 (mmap으로 매핑) SQ Ring (Submit Queue) head/tail 인덱스 + sqe[] 배열 사용자가 tail 증가 → 요청 추가 SQE 배열 struct io_uring_sqe op, fd, addr, len, off, flags CQ Ring (Completion Queue) head/tail 인덱스 + cqe[] 배열 커널이 tail 증가 → 완료 알림 커널 공간 io-wq 워커 풀 비동기 블로킹 작업 처리 io_uring_enter() 또는 SQ Poll 제출 완료 SQPOLL 모드: 커널 폴링 스레드가 SQ를 능동적으로 읽음 io_uring_enter() syscall조차 불필요 — 완전한 zero-syscall I/O IORING_SETUP_SQPOLL 플래그로 활성화 (CAP_SYS_NICE 필요)

epoll / poll / select / io_uring 비교

방식최대 fd시간 복잡도커널→사용자 복사특징
select1024 (FD_SETSIZE)O(n) 매 호출fd_set 비트맵 전체레거시, POSIX 표준
poll무제한O(n) 매 호출pollfd 배열 전체레거시, select보다 개선
epoll백만+O(1) 이벤트 수발생된 이벤트만레벨/엣지 트리거, 현대 표준
io_uring무제한O(1) 배치공유 링 버퍼(복사 없음)제출+완료 분리, zero-syscall 가능

io_uring 주요 오퍼레이션 타입 (IORING_OP_*)

오퍼레이션설명
IORING_OP_READ / IORING_OP_WRITE파일 읽기/쓰기 (scatter/gather 지원)
IORING_OP_READV / IORING_OP_WRITEV분산/집합 I/O (iovec 배열)
IORING_OP_RECV / IORING_OP_SEND소켓 수신/송신
IORING_OP_ACCEPT연결 수락 (서버 소켓)
IORING_OP_CONNECT서버에 연결 (클라이언트)
IORING_OP_OPENAT / IORING_OP_CLOSE파일 열기/닫기
IORING_OP_STATX파일 메타데이터 조회
IORING_OP_FSYNC / IORING_OP_FDATASYNCfsync/fdatasync 비동기 실행
IORING_OP_TIMEOUT타임아웃 이벤트 등록
IORING_OP_POLL_ADDepoll 스타일 fd 이벤트 등록
IORING_OP_NOP아무 동작 없음 (링 테스트 용도)
IORING_OP_SPLICE데이터 복사 없이 파이프 간 이동
IORING_OP_FIXED_FD_INSTALL고정 파일 fd 설치 (5.19+)
번호이름시그니처설명
23selectint select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout)여러 fd를 동시에 감시합니다. fd 수가 1024로 제한되며 매 호출 시 전체 집합을 복사합니다. 레거시, epoll 사용을 권장합니다.
7pollint poll(struct pollfd *fds, nfds_t nfds, int timeout)select의 개선판으로 fd 수 제한이 없습니다. 매 호출 시 전체 pollfd 배열을 커널로 복사하는 단점이 있습니다.
270pselect6int pselect6(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, const struct timespec *timeout, const sigset_t *sigmask)시그널 마스크와 nanosecond 타임아웃을 지원하는 select 확장입니다. 시그널과 I/O를 원자적으로 처리할 때 사용합니다.
271ppollint ppoll(struct pollfd *fds, nfds_t nfds, const struct timespec *tmo_p, const sigset_t *sigmask)시그널 마스크와 nanosecond 타임아웃을 지원하는 poll 확장입니다.
291epoll_create1int epoll_create1(int flags)새 epoll 인스턴스를 생성합니다. EPOLL_CLOEXEC 플래그를 항상 지정하는 것을 권장합니다. O(1) 이벤트 통지, 백만 이상의 fd를 효율적으로 처리합니다.
233epoll_ctlint epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)epoll 관심 목록에 fd를 추가(EPOLL_CTL_ADD), 수정(EPOLL_CTL_MOD), 삭제(EPOLL_CTL_DEL)합니다. EPOLLET으로 엣지 트리거 모드 설정.
232epoll_waitint epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout)준비된 이벤트가 있을 때까지 대기합니다. 반환값은 준비된 fd 수이며, events[]에만 결과가 채워집니다.
206io_setupint io_setup(unsigned nr_events, aio_context_t *ctx_idp)Linux AIO 비동기 I/O 컨텍스트를 생성합니다. O_DIRECT 파일에서만 진정한 비동기가 보장됩니다 (일반 파일은 실제로 블로킹).
209io_submitlong io_submit(aio_context_t ctx_id, long nr, struct iocb **iocbpp)Linux AIO 요청을 제출합니다. 실제 커널 비동기 I/O 제출.
208io_geteventslong io_getevents(aio_context_t ctx_id, long min_nr, long nr, struct io_event *events, struct timespec *timeout)완료된 AIO 이벤트를 수집합니다. min_nr개 이상 완료될 때까지 대기합니다.
425io_uring_setupint io_uring_setup(u32 entries, struct io_uring_params *params)고성능 비동기 I/O를 위한 io_uring 인스턴스를 설정합니다 (Linux 5.1+). SQ/CQ 링을 mmap으로 매핑하여 syscall 없이 요청/완료 처리가 가능합니다.
426io_uring_enterint io_uring_enter(unsigned int fd, u32 to_submit, u32 min_complete, u32 flags, const sigset_t *sig, size_t sigsz)SQ에 추가된 요청을 커널에 제출하고 완료를 대기합니다. SQPOLL 모드에서는 이 syscall도 불필요합니다.
427io_uring_registerint io_uring_register(unsigned int fd, unsigned int opcode, void *arg, unsigned int nr_args)io_uring 인스턴스에 파일/버퍼를 미리 등록하여 매 요청 시 참조 카운팅 오버헤드를 제거합니다 (IORING_REGISTER_BUFFERS, IORING_REGISTER_FILES 등).

기타 시스템 콜

시스템 정보 조회, 리소스 제한, BPF, 커널 모듈 로딩 등 기타 syscall 목록입니다. bpf()perf_event_open()은 커널 내부 관찰 및 성능 분석 도구(BCC, bpftrace, perf, 시스템 모니터링)의 기반이며, prlimit64는 데몬/서버 프로세스의 리소스 튜닝에 필수입니다.

RLIMIT 리소스 종류

리소스단위설명
RLIMIT_CPU0CPU 시간 제한. 초과 시 SIGXCPU 전달
RLIMIT_FSIZE1바이트파일 크기 최대값. 초과 시 SIGXFSZ
RLIMIT_DATA2바이트데이터 세그먼트(힙+BSS) 크기 한도
RLIMIT_STACK3바이트스택 크기 한도 (기본 8MiB)
RLIMIT_CORE4바이트코어 덤프 파일 크기 한도 (0이면 생성 안함)
RLIMIT_NOFILE7개수열 수 있는 최대 파일 디스크립터 수 (기본 1024)
RLIMIT_AS9바이트가상 주소 공간 최대 크기
RLIMIT_NPROC6개수사용자가 생성할 수 있는 최대 프로세스/스레드 수
RLIMIT_MEMLOCK8바이트메모리에 잠글 수 있는 최대 바이트 수 (mlock)
RLIMIT_LOCKS10개수파일 잠금/lease 최대 수
RLIMIT_SIGPENDING11개수대기 시그널 최대 수
RLIMIT_MSGQUEUE12바이트POSIX 메시지 큐 총 바이트 한도
RLIMIT_NICE13우선순위nice 값의 최대 상향 한도
RLIMIT_RTPRIO14우선순위실시간 스케줄링 최대 우선순위
RLIMIT_RTTIME15마이크로초실시간 프로세스 연속 CPU 시간 한도

eBPF 프로그램 타입 (bpf() 주요 용도)

프로그램 타입연결점주요 사용 시나리오
BPF_PROG_TYPE_SOCKET_FILTER소켓패킷 필터링, tcpdump 대체
BPF_PROG_TYPE_KPROBE커널 함수 진입/반환함수 추적, 인자/반환값 감시
BPF_PROG_TYPE_TRACEPOINT커널 트레이스포인트syscall 진입/반환, 스케줄러 이벤트
BPF_PROG_TYPE_XDPNIC 드라이버 레벨초고속 패킷 처리, DDoS 완화
BPF_PROG_TYPE_TCTC (traffic control)네트워크 QoS, 패킷 리다이렉트
BPF_PROG_TYPE_PERF_EVENTperf 이벤트PMU 카운터, CPU 프로파일링
BPF_PROG_TYPE_CGROUP_SKBcgroup 소켓컨테이너별 네트워크 정책
BPF_PROG_TYPE_LSMLSM 훅커널 보안 정책 (BPF-LSM, Linux 5.7+)
BPF_PROG_TYPE_SK_LOOKUP소켓 룩업소켓 선택 정책 커스터마이즈
BPF_PROG_TYPE_SYSCALLsyscall 추적syscall 인자 검사, seccomp 보완
번호이름시그니처설명
63unameint uname(struct utsname *buf)커널 이름(sysname), 호스트명(nodename), 릴리즈(release), 버전(version), 아키텍처(machine) 정보를 가져옵니다.
99sysinfoint sysinfo(struct sysinfo *info)메모리 총량/여유, 스왑 총량/여유, 1/5/15분 부하 평균, 업타임, 프로세스 수를 한 번에 가져옵니다.
97getrlimitint getrlimit(int resource, struct rlimit *rlim)프로세스의 리소스 소프트/하드 제한값을 조회합니다. prlimit64 사용을 권장합니다.
160setrlimitint setrlimit(int resource, const struct rlimit *rlim)프로세스의 리소스 제한값을 설정합니다. 소프트 한도는 하드 한도 이하, 하드 한도는 CAP_SYS_RESOURCE가 있어야만 상향 가능합니다.
302prlimit64int prlimit64(pid_t pid, int resource, const struct rlimit64 *new, struct rlimit64 *old)64비트 리소스 제한을 조회/설정합니다. pid=0이면 자신에게, 타 PID에는 CAP_SYS_RESOURCE가 필요합니다. 서비스 소켓 수 등 튜닝에 사용합니다.
98getrusageint getrusage(int who, struct rusage *usage)사용자/시스템 CPU 시간, 메이저/마이너 페이지 폴트 수, 최대 RSS, I/O 횟수 등 리소스 사용 통계를 가져옵니다. RUSAGE_SELF/RUSAGE_CHILDREN/RUSAGE_THREAD로 범위 선택.
103syslogint syslog(int type, char *bufp, int len)커널 로그 링 버퍼를 제어합니다. SYSLOG_ACTION_READ로 읽기, SYSLOG_ACTION_CLEAR로 버퍼 지우기, SYSLOG_ACTION_SIZE_BUFFER로 크기 조회. dmesg 명령어의 기반.
298perf_event_openint perf_event_open(struct perf_event_attr *attr, pid_t pid, int cpu, int group_fd, unsigned long flags)하드웨어 PMU 카운터, 소프트웨어 이벤트(page fault, context switch 등), 트레이스포인트를 fd로 접근합니다. perf, BCC, BPFTrace의 기반.
321bpfint bpf(int cmd, union bpf_attr *attr, unsigned int size)eBPF 서브시스템을 제어합니다. BPF_PROG_LOAD로 프로그램 로드, BPF_MAP_CREATE로 맵 생성, BPF_PROG_ATTACH로 훅 연결. BCC/libbpf/bpftrace의 기반.
175init_moduleint init_module(void *module_image, unsigned long len, const char *param_values)메모리의 ELF 이미지를 커널 모듈로 로드합니다. CAP_SYS_MODULE 필요. 서명 확인(CONFIG_MODULE_SIG) 가능.
313finit_moduleint finit_module(int fd, const char *param_values, int flags)파일 디스크립터에서 직접 커널 모듈을 로드합니다. init_module보다 보안적으로 우월합니다 (fd 기반이므로 경로 기반 TOCTOU 없음).
176delete_moduleint delete_module(const char *name, unsigned int flags)커널 모듈을 언로드합니다. 사용 중인 모듈은 EBUSY를 반환합니다.
169rebootint reboot(int magic1, int magic2, int cmd, void *arg)시스템 재시작, 전원 끄기, halt, kexec 로드/실행 등을 수행합니다. 실수 방지를 위해 magic1=0xfee1dead, magic2=0x28121969 등 매직 넘버가 필요합니다.
334rseqint rseq(struct rseq *rseq, uint32_t rseq_len, int flags, uint32_t sig)Restartable Sequence를 등록합니다. 시그널/선점으로 중단된 임계 구간을 재시작하는 lock-free 패턴 구현에 사용합니다 (Linux 4.18+).
435clone3long clone3(struct clone_args *cl_args, size_t size)확장된 clone syscall입니다. pidfd 직접 생성, cgroup 지정, 스택 자동 설정 등의 새 기능을 구조체로 전달합니다 (Linux 5.3+).

시스템 콜의 동작 원리와 각 서브시스템 심화 내용을 담은 문서 목록입니다.

문서내용
시스템 콜 (System Call) x86_64/ARM64 진입 경로, SYSCALL_DEFINE, vDSO, seccomp/ptrace/audit 훅, compat ABI — "어떻게 동작하는가"
VFS 계층 파일 I/O syscall의 커널 내부 경로: superblock, dentry, inode, 페이지 캐시, writeback
프로세스 관리 fork/clone/execve 내부, task_struct 생명주기, CFS 스케줄러, PID 네임스페이스
메모리 관리 심화 mmap/VMA 구조, 페이지 폴트, madvise/mprotect 처리 경로, swap
네트워크 스택 소켓 syscall의 커널 내부: sk_buff, TCP 상태 머신, NAPI, 라우팅
IPC 심화 pipe, futex, System V IPC, eventfd/signalfd/timerfd+epoll 통합
타이머 hrtimer, timer wheel, jiffies, tickless — 시간 syscall의 기반
Linux Containers 심화 seccomp 필터, capabilities, clone 플래그를 활용한 컨테이너 격리
BPF/eBPF/XDP bpf() syscall 상세: eBPF 프로그램 로드, 맵 API, 검증기
성능 최적화 perf_event_open 활용, io_uring 배치 처리, syscall 오버헤드 분석