Readahead & Prefetch

Linux 커널의 Readahead(선행 읽기) 메커니즘을 캐시(Cache) 효율과 스토리지 대역폭(Bandwidth) 활용 관점에서 심층 분석합니다. 커널의 순차 접근 감지 로직과 파일 단위 상태 추적, 워크로드 변화에 따라 선행 읽기 윈도우를 키우거나 줄이는 적응형 정책, posix_fadvise()/madvise()/readahead() 시스템 콜(System Call)을 통한 사용자 공간(User Space) 힌트 전달, 랜덤 I/O와 대용량 스트리밍에서 발생하는 캐시 오염 문제, VM 재활용(Recycling) 압력과의 상호작용, 튜닝 파라미터와 관측 지표를 이용한 정량 최적화 절차까지 운영 환경에서 바로 적용할 수 있도록 종합적으로 다룹니다.

전제 조건: 커널 아키텍처 문서를 먼저 읽으세요. CPU, 메모리, 인터럽트(Interrupt)의 기본 흐름을 알고 있으면 본 문서를 더 빠르게 이해할 수 있습니다.

일상 비유: Readahead는 식당 주방이 다음 주문 재료를 미리 꺼내 두는 것과 비슷합니다. 손님이 계속 같은 방향으로 주문하면 필요한 재료를 먼저 준비해 대기 시간(Latency)을 줄이지만, 예측이 빗나가면 냉장고 공간과 손길을 낭비합니다.

핵심 요약

Readahead Algorithm — 순차 접근 패턴을 감지하여 미래에 필요할 페이지(Page)를 미리 디스크에서 Page Cache로 읽어 들이는 예측 알고리즘입니다.
file_ra_state — 파일별 readahead 상태를 추적하는 구조체(Struct)로, 현재 윈도우 시작 위치(start), 크기(size), 비동기 트리거 지점(async_size) 등을 보유합니다.
Readahead Window — 한 번에 미리 읽는 페이지 범위로, 순차 읽기가 계속되면 윈도우 크기가 점진적으로 확장됩니다. read_ahead_kb로 최대 크기를 제한합니다.
Async Readahead — 현재 윈도우의 비동기 경계에 도달하면 다음 윈도우를 미리 요청하여, 애플리케이션이 I/O 대기 없이 연속 읽기를 할 수 있게 합니다.
mmap Readahead — mmap()으로 매핑(Mapping)된 파일의 page fault 시 do_sync_mmap_readahead()를 통해 주변 페이지를 함께 로드합니다.
Page Cache 상호작용 — readahead로 로드된 페이지는 Page Cache에 PG_readahead 마크가 설정되며, 이 마크가 발견되면 비동기 readahead를 트리거합니다.
POSIX_FADV_SEQUENTIAL — fadvise()로 순차 접근 힌트를 주면 readahead 윈도우가 2배로 확장되어 더 공격적인 선행 읽기가 수행됩니다.

단계별 이해

Readahead 기본 원리 이해 — 디스크 I/O에서 탐색 지연(seek latency)이 가장 비싸므로, 작은 요청 여러 개를 큰 순차 요청 하나로 합치는 것이 핵심입니다.
page_cache_sync_readahead()와 page_cache_async_readahead()가 동기/비동기 readahead의 진입점(Entry Point)입니다.
file_ra_state와 윈도우 확장 추적 — 초기 윈도우 크기가 작게 시작하여 순차 패턴이 확인되면 점진적으로 확장되는 과정을 따라갑니다.
ondemand_readahead()에서 순차/랜덤 판별과 윈도우 크기 결정 로직을 확인합니다.
비동기 readahead 트리거 메커니즘 파악 — PG_readahead 플래그가 설정된 페이지에 접근하면 다음 윈도우를 미리 요청하는 파이프라인(Pipeline) 구조를 이해합니다.
이 메커니즘 덕분에 순차 읽기 시 애플리케이션은 I/O 완료를 기다리지 않고 연속으로 데이터를 처리할 수 있습니다.
sysfs 튜닝과 fadvise 활용 — /sys/block/<dev>/queue/read_ahead_kb로 디바이스별 최대 readahead 크기를 조정합니다.
POSIX_FADV_SEQUENTIAL, POSIX_FADV_RANDOM, POSIX_FADV_WILLNEED 힌트가 readahead 동작에 미치는 영향을 실험합니다.
성능 관측과 진단 — ftrace의 readahead 이벤트, /proc/vmstat의 pgmajfault/pgfault 비율로 readahead 효율을 측정합니다.
major fault가 빈번하면 readahead 윈도우가 부족하거나 랜덤 접근 패턴인지 확인하고, 워크로드에 맞게 튜닝합니다.

개요

Readahead(선행 읽기)는 미래에 읽을 데이터를 예측해서 미리 Page Cache에 로드하는 최적화 기법입니다. 디스크 I/O의 가장 큰 비용은 탐색(seek) 지연과 회전 대기(rotational latency)이며, readahead는 작은 요청 여러 개를 큰 순차 요청 하나로 합쳐 이 비용을 상쇄합니다.

Readahead 핵심 원리

Readahead의 핵심은 CPU와 I/O의 파이프라이닝입니다. 애플리케이션이 현재 페이지(Page)를 처리하는 동안, 커널은 다음에 필요할 페이지를 미리 디스크에서 읽어 페이지 캐시(Page Cache)에 넣어둡니다. 이렇게 하면 read() 시스템 콜이 디스크 대기 없이 즉시 반환될 수 있습니다.

소스 위치: mm/readahead.c, include/linux/pagemap.h, include/linux/fs.h

Readahead의 이점

왜 Readahead가 중요한가?

I/O 병렬화: 애플리케이션이 데이터를 처리하는 동안 백그라운드로 다음 데이터 로드
디스크 효율: 작은 랜덤 I/O 여러 번 → 큰 순차 I/O 한 번 (HDD에서 특히 효과적)
처리량(Throughput) 향상: 순차 읽기 시 5-10배 성능 향상
응답성: read() 호출 시 즉시 반환 (디스크 대기 없음)

예시: 1GB 파일을 4KB씩 순차 읽기

Readahead 없음: 262,144회 디스크 I/O (각 10ms) = 약 40분
Readahead 있음: 128KB씩 미리 읽기 → 8,192회 I/O = 약 80초

Readahead 트리거

자동 감지: 순차 읽기 패턴 감지 시 자동 활성화
명시적 요청: posix_fadvise(POSIX_FADV_SEQUENTIAL)
메모리 매핑(Mapping): madvise(MADV_SEQUENTIAL)
시스템 콜: readahead() 직접 호출

Readahead 진화 역사

Linux 커널의 readahead 알고리즘은 여러 차례의 주요 리팩토링을 거쳐 현재의 형태에 이르렀습니다.

커널 버전	변경 사항	핵심 기여자	영향
2.4.x	단순 고정 크기 readahead	-	32KB 고정 윈도우
2.6.0	적응형 readahead 도입	Andrew Morton	순차 감지 + 동적 윈도우
2.6.23	on-demand readahead	Fengguang Wu	readahead marker 기반 비동기 트리거
2.6.24	mmap readahead 개선	Fengguang Wu	mmap fault 경로 readahead
5.9	readahead() → readahead_folio() 전환 시작	Matthew Wilcox	folio 기반 batched readahead
5.18	page_cache_ra_order() 도입	Matthew Wilcox	large folio readahead 지원
6.0	IORING_OP_FADVISE	Jens Axboe	io_uring 비동기 readahead 힌트
6.4	netfs readahead 통합	David Howells	NFS/CIFS/9P 통합 readahead

on-demand readahead의 혁신

Fengguang Wu의 on-demand readahead(2.6.23)는 readahead 알고리즘의 패러다임을 바꿨습니다. 이전의 "push" 모델(미리 정해진 크기만큼 읽기)에서 "pull" 모델(실제 필요할 때 비동기로 다음 배치 트리거)로 전환하여, 메모리 낭비를 줄이면서도 파이프라이닝 효과를 극대화했습니다.

자동 Readahead

커널은 파일 읽기 패턴을 추적하여 자동으로 Readahead를 수행합니다. 핵심은 file_ra_state 구조체(Struct)로 파일별 읽기 상태를 추적하고, ondemand_readahead()로 동적 의사결정을 수행하는 것입니다.

file_ra_state 구조체

/* include/linux/fs.h */
struct file_ra_state {
    pgoff_t start;              /* Readahead 시작 위치 */
    unsigned int size;        /* 현재 Readahead 크기 */
    unsigned int async_size;  /* 비동기 Readahead 트리거 */
    unsigned int ra_pages;    /* 최대 Readahead 크기 */
    unsigned int mmap_miss;   /* mmap miss 카운터 */
    loff_t prev_pos;            /* 이전 읽기 위치 (순차 감지용) */
};

순차 읽기 패턴 감지

/* mm/readahead.c */
unsigned long page_cache_sync_readahead(struct address_space *mapping,
                                           struct file_ra_state *ra,
                                           struct file *file,
                                           pgoff_t index,
                                           unsigned long req_count)
{
    /* 순차 읽기 감지 */
    if (index == ra->start + ra->size) {
        /* 순차 읽기 계속 → Readahead 확대 */
        return ondemand_readahead(mapping, ra, file, false,
                                      index, req_count);
    }

    /* 랜덤 읽기 → Readahead 축소 또는 비활성화 */
    ra->size = 0;
    return 0;
}

Ondemand Readahead 알고리즘

/* mm/readahead.c */
static unsigned long ondemand_readahead(struct address_space *mapping,
                                             struct file_ra_state *ra,
                                             struct file *file,
                                             bool hit_readahead_marker,
                                             pgoff_t index,
                                             unsigned long req_count)
{
    unsigned long max_pages = ra->ra_pages;
    pgoff_t start;

    /* 첫 읽기 */
    if (!ra->size) {
        ra->start = index;
        ra->size = get_init_ra_size(req_count, max_pages);
        ra->async_size = ra->size > req_count ? ra->size - req_count : ra->size / 2;
        goto readit;
    }

    /* 비동기 Readahead 트리거 지점 도달 */
    if (hit_readahead_marker) {
        /* 순차 읽기 지속 → 크기 2배 증가 */
        ra->start = ra->start + ra->size;
        ra->size = min(ra->size * 2, max_pages);
        ra->async_size = ra->size / 2;
        goto readit;
    }

readit:
    /* 실제 Readahead 수행 */
    return __do_page_cache_readahead(mapping, file, ra->start, ra->size, ra->async_size);
}

Readahead 상태 머신

Readahead 엔진은 파일 접근 패턴을 관찰하여 5가지 주요 상태 사이를 전이합니다.

상태	조건	ra->size	동작
INITIAL	첫 읽기 또는 리셋 후	0	초기 크기 계산 (get_init_ra_size)
SEQUENTIAL	index == ra->start + ra->size	증가 중	윈도우 2배 확장
ASYNC_TRIGGER	readahead marker 페이지 접근	현재 크기	다음 윈도우 비동기 제출
STEADY	ra->size == ra_pages	최대	최대 크기 유지, 마커 반복
RANDOM	index != ra->start + ra->size	0으로 리셋	readahead 비활성화

동기 vs 비동기 Readahead

커널의 readahead는 두 가지 모드로 동작합니다: 동기(sync)와 비동기(async).

구분	동기 Readahead (Sync)	비동기 Readahead (Async)
트리거	cache miss (페이지 없음)	readahead marker 페이지 접근
호출 함수	page_cache_sync_readahead()	page_cache_async_readahead()
블로킹	I/O 완료까지 대기 가능	제출만 하고 즉시 반환
윈도우 위치	현재 읽기 위치부터	현재 윈도우 다음부터
크기 결정	get_init_ra_size() 또는 이전 크기	이전 크기 × 2 (최대 ra_pages)
성능 영향	첫 접근 시 약간의 지연	파이프라이닝으로 지연 최소화

/* mm/readahead.c - 동기 readahead 진입점 */
void page_cache_sync_readahead(struct address_space *mapping,
                                struct file_ra_state *ra,
                                struct file *file,
                                pgoff_t index, unsigned long req_count)
{
    /* POSIX_FADV_RANDOM → readahead 비활성화 */
    if (!ra->ra_pages)
        return;

    /* 순차 읽기가 아니면 initial readahead */
    if (blk_cgroup_congested())
        return;  /* 블록 장치 혼잡 시 skip */

    ondemand_readahead(ra, mapping, file, false, index, req_count);
}

/* mm/readahead.c - 비동기 readahead 진입점 */
void page_cache_async_readahead(struct address_space *mapping,
                                 struct file_ra_state *ra,
                                 struct file *file,
                                 struct folio *folio,
                                 pgoff_t index, unsigned long req_count)
{
    /* 이 folio가 readahead marker인지 확인 */
    if (!folio_test_readahead(folio))
        return;

    /* marker 해제 */
    folio_clear_readahead(folio);

    /* 다음 윈도우 비동기 제출 */
    ondemand_readahead(ra, mapping, file, true, index, req_count);
}

Readahead Marker 메커니즘

readahead 마커(PG_readahead 플래그)는 비동기 readahead의 핵심입니다. 커널은 readahead 윈도우의 마지막 async_size 페이지 중 첫 번째에 이 플래그를 설정합니다. 애플리케이션이 이 페이지에 접근하면 — 아직 이전 윈도우를 읽는 중이지만 — 커널이 다음 윈도우를 미리 제출합니다. 이것이 I/O 파이프라이닝의 본질입니다.

Readahead 윈도우 성장 알고리즘

초기 윈도우 크기 결정과 성장 패턴을 상세히 분석합니다.

/* mm/readahead.c - 초기 readahead 크기 계산 */
static unsigned long get_init_ra_size(unsigned long size,
                                         unsigned long max)
{
    unsigned long newsize = roundup_pow_of_two(size);

    if (newsize <= max / 32)
        newsize = newsize * 4;    /* 작은 요청 → 4배로 시작 */
    else if (newsize <= max / 4)
        newsize = newsize * 2;    /* 중간 요청 → 2배로 시작 */
    else
        newsize = max;             /* 큰 요청 → 바로 최대 */

    return newsize;
}

/* mm/readahead.c - 다음 readahead 크기 계산 */
static unsigned long get_next_ra_size(struct file_ra_state *ra,
                                         unsigned long max)
{
    unsigned long cur = ra->size;

    if (cur < max / 16)
        return 4 * cur;    /* 빠른 ramp-up: ×4 */
    if (cur <= max / 2)
        return 2 * cur;    /* 느린 ramp-up: ×2 */
    return max;
}

ra_pages 제한값

ra_pages는 /sys/block/<dev>/queue/read_ahead_kb를 페이지 단위로 변환한 값입니다. 기본값 128KB = 32 pages (4KB 페이지 기준). FADV_SEQUENTIAL 설정 시 실효 최대값이 2배로 증가합니다. ra_pages를 0으로 설정하면 해당 블록 장치(Block Device)의 readahead가 완전히 비활성화됩니다.

적응형 크기 조정

Readahead 크기는 동적으로 조정됩니다.

크기 증가 패턴

순차 읽기 횟수	Readahead 크기	설명
0 (최초)	4 pages (16KB)	초기 크기
1	8 pages (32KB)	2배 증가
2	16 pages (64KB)	2배 증가
3	32 pages (128KB)	2배 증가
4+	최대 128 pages (512KB)	ra_pages 제한

크기 감소 조건

랜덤 읽기 감지: prev_pos와 현재 pos가 불연속 → size = 0
메모리 부족: Page 할당 실패 시 크기 축소
Cache miss: Readahead한 페이지를 안 읽음 → 크기 축소

스래싱 감지와 Readahead 축소

메모리 압력이 높아지면 readahead한 페이지가 사용되기도 전에 회수(reclaim)될 수 있습니다. 이를 readahead 스래싱이라 하며, 커널은 이를 감지하여 readahead 크기를 자동으로 줄입니다.

/* mm/workingset.c - shadow entry를 이용한 스래싱 감지 */
void workingset_refault(struct folio *folio, void *shadow)
{
    int memcgid;
    unsigned long refault_distance;
    unsigned long refault;
    struct mem_cgroup *memcg;
    struct lruvec *lruvec;

    /* shadow entry에서 eviction 정보 복원 */
    unpack_shadow(shadow, &memcgid, &refault);

    /* refault distance 계산:
     * 페이지가 evict된 후 다시 fault되기까지
     * 얼마나 많은 다른 페이지가 활동했는지 */
    refault_distance = refault - eviction_generation();

    /* 거리가 active list 크기보다 작으면 → 스래싱
     * 이 페이지는 충분히 자주 접근되므로 active 목록에 승격 */
    if (refault_distance <= lruvec->nr_active) {
        folio_set_active(folio);
        folio_set_workingset(folio);
        /* readahead 스래싱 카운터 증가 */
        if (folio_test_readahead(folio))
            lruvec->readahead_thrash++;
    }
}

스래싱 지표	위치	의미	대응
workingset_refault_anon	/proc/vmstat	anonymous 페이지 재접근	swap 공간 확인
workingset_refault_file	/proc/vmstat	file-backed 페이지 재접근	readahead 축소 고려
workingset_activate_file	/proc/vmstat	readahead → active 승격	정상 작동 중
pgscan_kswapd	/proc/vmstat	kswapd 스캔 횟수	메모리 압력 지표
pgsteal_kswapd	/proc/vmstat	kswapd 회수 횟수	회수 경쟁 정도

과도한 Readahead의 위험

read_ahead_kb를 너무 크게 설정하면 메모리 부족 상황에서 역효과가 발생합니다:

readahead된 페이지가 사용되기 전에 회수 → 디스크 I/O 낭비
다른 프로세스(Process)의 작업 세트(working set)를 밀어냄 → 전체 시스템 성능 저하
OOM killer 트리거 가능성 증가 (캐시 오염으로 가용 메모리 감소)

경험 법칙: read_ahead_kb × 동시 순차 읽기 스트림 수 < 가용 메모리의 10%를 유지합니다.

Folio 기반 Readahead (커널 5.18+)

커널 5.18부터 readahead 서브시스템이 folio 기반으로 전환되었습니다. folio는 compound page를 감싸는 추상화로, large folio를 활용한 더 효율적인 readahead를 가능하게 합니다.

/* mm/readahead.c - folio 기반 readahead (5.18+) */
static void page_cache_ra_order(struct readahead_control *ractl,
                                   struct file_ra_state *ra,
                                   unsigned int new_order)
{
    struct address_space *mapping = ractl->mapping;
    pgoff_t index = readahead_index(ractl);
    pgoff_t limit = (i_size_read(mapping->host) - 1) >> PAGE_SHIFT;
    pgoff_t mark = index + ra->size - ra->async_size;

    /* large folio로 readahead 수행 */
    while (index <= limit) {
        unsigned int order = new_order;

        /* 정렬 보장: folio 크기의 배수로 정렬 */
        if (index & ((1UL << order) - 1))
            order = __ffs(index);

        struct folio *folio = filemap_alloc_folio(
            ractl->_gfp_mask, order);
        if (!folio)
            break;

        /* readahead marker 설정 */
        if (index == mark)
            folio_set_readahead(folio);

        filemap_add_folio(mapping, folio, index,
                          ractl->_gfp_mask);
        index += 1UL << folio_order(folio);
    }

    /* 블록 레이어에 일괄 제출 */
    read_pages(ractl);
}

항목	Page 기반 (5.17 이전)	Folio 기반 (5.18+)	개선 효과
할당 단위	4KB (단일 page)	4KB~2MB (가변 folio)	할당 횟수 16-512배 감소
XArray 삽입	페이지당 1회	folio당 1회	잠금 경합(Lock Contention) 대폭 감소
I/O 제출	페이지별 bio 세그먼트	folio별 bio 세그먼트	bio 병합 오버헤드(Overhead) 감소
TLB 효율	4KB 매핑	huge page 매핑 가능	TLB miss 감소
reclaim 효율	페이지별 LRU 조작	folio별 LRU 조작	batch 처리 가능
readahead 콜백(Callback)	readpages(pages list)	readahead(ractl iterator)	파일시스템(Filesystem) 구현 단순화

Large Folio Readahead의 실무 효과

XFS/ext4에서 large folio readahead는 순차 읽기 처리량을 10-20% 향상시킵니다. 특히 NVMe SSD에서 효과가 큽니다 — 4KB I/O 수천 개보다 64KB I/O 수십 개가 훨씬 효율적이기 때문입니다. cat /sys/kernel/mm/transparent_hugepage/enabled에서 THP가 활성화되어 있으면 readahead도 자동으로 large folio를 활용합니다.

mapping_min_folio_order (bs>ps) — 커널 6.11/6.12+

커널 6.11~6.12에서 주소 공간별 최소 폴리오(Folio) 차수(mapping_min_folio_order)가 도입되면서, 페이지 크기보다 큰 블록 크기를 쓰는 파일시스템(bs>ps: block size > page size)이 정식으로 지원됩니다. 대표적으로 XFS 16K 블록을 ARM64 4K/64K, x86_64 4K 페이지 위에서 구동할 때, 페이지 캐시와 readahead가 모두 최소 16K 폴리오를 보장해야 파일 시스템의 블록 단위 원자성이 유지됩니다.

/* include/linux/pagemap.h — 주소 공간 초기화 시 최소 차수 지정 */
static inline void mapping_set_folio_min_order(
    struct address_space *m, unsigned int min)
{
    m->flags = (m->flags & ~AS_FOLIO_ORDER_MIN_MASK) |
               (min << AS_FOLIO_ORDER_MIN);
}

/* mm/readahead.c — 최소 차수를 강제하며 폴리오 할당 */
unsigned int min_order = mapping_min_folio_order(mapping);
unsigned int order    = max(new_order, min_order);

/* page_cache_ra_order(): 첫 폴리오 정렬도 min_order 기준으로 수행 */
if (index & ((1UL << order) - 1))
    order = max(__ffs(index), min_order);

XFS bs=16k on 4K page: mkfs.xfs -b size=16384로 생성한 파일시스템을 ARM64(64K 페이지)가 아닌 x86_64에서도 마운트(Mount)할 수 있게 되었습니다. (이전에는 페이지 크기 이하 블록만 허용.)
NVMe LBA > 4K: 16K LBA 포맷 NVMe 드라이브가 DIO/Buffered 모두에서 정상 동작하기 위한 전제 조건입니다.
PG_readahead 중복 수정: "Avoid multiple marked readahead pages"(Jan Kara, 6.11) 패치로 대형 폴리오에서 readahead marker가 중복 설정되는 문제가 수정되어, async readahead 트리거가 정확히 한 번만 발화합니다.
madvise(WILLNEED): force_page_cache_readahead() 경로도 mapping_min_folio_order를 존중하도록 업데이트되어, 사용자 요청 readahead에서도 블록 단위가 깨지지 않습니다.

# 16K 블록 XFS — x86_64 (4K 페이지)에서도 6.12+로 마운트 가능
$ mkfs.xfs -b size=16384 /dev/nvme0n1p1
$ mount -t xfs /dev/nvme0n1p1 /mnt/xfs

# /proc/meminfo — 대형 폴리오 할당 현황
$ grep -E "FilePmd|ThpPmdMapped" /proc/meminfo

# 주소 공간별 최소 차수 — bpftrace로 관측
$ bpftrace -e 'kprobe:filemap_alloc_folio { @ord[arg2] = count(); }'

⚠️

호환성 주의: bs>ps 지원은 2026년 현재 XFS에서 완성도가 가장 높고, ext4·Btrfs는 점진적으로 따라오는 단계입니다. 6.10 이하 커널로 내려가면 해당 파일시스템을 마운트할 수 없으므로, 듀얼 부팅 혹은 마이그레이션 환경에서는 커널 버전을 반드시 확인해야 합니다. 또한 readahead가 할당하는 폴리오가 커지므로 메모리 압력이 높은 시스템에서 /proc/sys/vm/min_free_kbytes 상향이 필요할 수 있습니다.

파일시스템별 Readahead 구현

각 파일시스템은 address_space_operations.readahead 콜백을 통해 자체 readahead 로직을 구현합니다.

파일시스템	readahead 콜백	특징	최적 설정
ext4	ext4_readahead()	mpage 기반, 블록 매핑 배치 처리	read_ahead_kb=256 (SSD)
XFS	xfs_vm_readahead()	iomap 기반, extent 연속성 활용	read_ahead_kb=256-512
Btrfs	btrfs_readahead()	extent 기반, 압축/암호화(Encryption) 인식	read_ahead_kb=512
NFS	nfs_readahead()	RPC 페이징, 네트워크 지연 고려	rsize 기반, 네트워크 대역폭 의존
CIFS	cifs_readahead()	multicredit read, 서버 캐시 인식	rsize=4MB, read_ahead_kb=2048
tmpfs	shmem_readahead()	swap 기반, 디스크 I/O 없을 수 있음	해당 없음
FUSE	fuse_readahead()	사용자 공간 서버 요청	max_read 기반

/* fs/ext4 - ext4 readahead 구현 (iomap 기반, 6.x) */
static void ext4_readahead(struct readahead_control *rac)
{
    struct inode *inode = rac->mapping->host;

    /* inline data는 readahead 불필요 */
    if (ext4_has_inline_data(inode))
        return;

    /* verity (무결성 검증) 파일은 별도 경로 */
    if (IS_VERITY(inode))
        return ext4_readahead_verity(rac);

    /* iomap readahead: extent 맵 조회 → bio 구성 → 제출 */
    iomap_readahead(rac, &ext4_iomap_ops);
}

/* fs/btrfs - btrfs readahead (압축 파일 처리) */
static void btrfs_readahead(struct readahead_control *rac)
{
    struct btrfs_bio_ctrl bio_ctrl = { 0 };
    struct folio *folio;

    while ((folio = readahead_folio(rac)) != NULL) {
        if (btrfs_inode_is_compressed(rac->mapping->host)) {
            /* 압축 extent 전체를 읽어야 함
             * readahead 범위를 extent 경계에 맞춤 */
            btrfs_readahead_compressed(folio, &bio_ctrl);
        } else {
            btrfs_do_readpage(folio, &bio_ctrl);
        }
    }
    submit_one_bio(&bio_ctrl);
}

iomap 기반 readahead의 장점

최신 커널에서 ext4, XFS 등은 iomap_readahead()를 사용합니다. iomap은 파일시스템의 extent 매핑을 직접 조회하여 연속된 블록을 하나의 대형 bio로 구성합니다. 이는 이전의 mpage_readahead()(블록별 매핑)보다 훨씬 효율적입니다.

mmap Readahead

mmap()된 파일의 page fault 경로에서도 readahead가 수행됩니다. 일반 read() 경로와는 다른 메커니즘을 사용합니다.

/* mm/filemap.c - mmap fault 시 readahead */
static struct folio *filemap_fault_readahead(
    struct vm_fault *vmf)
{
    struct file *file = vmf->vma->vm_file;
    struct file_ra_state *ra = &file->f_ra;
    pgoff_t index = vmf->pgoff;

    /* mmap miss 카운터 기반 적응
     * 순차 접근: mmap_miss 감소 → readahead 유지
     * 랜덤 접근: mmap_miss 증가 → readahead 축소 */
    if (ra->mmap_miss > MMAP_LOTSAMISS) {
        /* 랜덤 접근 패턴: 해당 페이지만 로드 */
        return filemap_get_folio(mapping, index);
    }

    /* 순차 패턴 감지: readahead 수행 */
    page_cache_sync_readahead(mapping, ra, file,
                              index, ra_pages(ra));
    return filemap_get_folio(mapping, index);
}

항목	read() Readahead	mmap Readahead
트리거	read() 시스템 콜	page fault (major/minor)
패턴 감지	prev_pos vs 현재 index	mmap_miss 카운터
적응 속도	빠름 (바로 감지)	느림 (MMAP_LOTSAMISS=100 횟수)
비동기 지원	완전 지원 (marker 기반)	부분 지원
큰 읽기	req_count로 크기 힌트	fault 1개 = 1 page 요청
주요 소스	mm/readahead.c	mm/filemap.c (filemap_fault)

mmap_miss 카운터의 의미

ra->mmap_miss는 readahead 예측이 맞았는지를 추적합니다. readahead한 페이지에 fault가 발생하면 감소(적중), readahead하지 않은 페이지에 fault가 발생하면 증가(실패). 이 값이 MMAP_LOTSAMISS(100)를 초과하면 커널은 해당 파일의 접근 패턴이 랜덤이라고 판단하고 readahead를 중단합니다.

posix_fadvise() - 파일 접근 힌트

posix_fadvise()는 애플리케이션이 커널에 파일 접근 패턴을 알려줍니다.

fadvise 플래그

플래그	효과	사용 사례
POSIX_FADV_NORMAL	기본 동작	패턴 알 수 없음
POSIX_FADV_SEQUENTIAL	Readahead 크기 2배	대용량 순차 읽기 (로그 분석)
POSIX_FADV_RANDOM	Readahead 비활성화	DB 랜덤 읽기
POSIX_FADV_WILLNEED	지정 범위 미리 로드	사전 로딩 (게임 레벨)
POSIX_FADV_DONTNEED	Page Cache에서 제거	대용량 백업 후 캐시 정리
POSIX_FADV_NOREUSE	일회성 읽기 힌트	스트리밍, 로그 수집

사용 예제

#define _XOPEN_SOURCE 600
#include <fcntl.h>

/* 순차 읽기 최적화 */
int fd = open("bigfile.dat", O_RDONLY);
posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);

/* 전체 파일 읽기 */
while ((read(fd, buf, sizeof(buf))) > 0) {
    process(buf);
}

/* 특정 범위 미리 로드 (비동기) */
off_t offset = 1024 * 1024 * 100;  /* 100MB */
size_t len = 1024 * 1024 * 10;    /* 10MB */
posix_fadvise(fd, offset, len, POSIX_FADV_WILLNEED);

/* ... 다른 작업 ... */

/* 이제 읽으면 이미 캐시에 있음 */
pread(fd, buf, len, offset);

/* 백업 완료 후 캐시 해제 */
posix_fadvise(fd, 0, 0, POSIX_FADV_DONTNEED);

FADV_SEQUENTIAL vs FADV_WILLNEED

FADV_SEQUENTIAL: Readahead 크기만 증가 (2배), 자동 감지와 함께 동작
FADV_WILLNEED: 지정한 범위를 즉시 미리 읽기 (블로킹 안 함)
조합: 둘 다 사용 가능 (SEQUENTIAL 설정 + WILLNEED로 사전 로딩)

madvise() - 메모리 맵(Memory Map) 힌트

madvise()는 mmap()된 영역에 대한 접근 힌트를 제공합니다.

madvise 플래그

플래그	효과	사용 사례
MADV_NORMAL	기본 동작	패턴 알 수 없음
MADV_SEQUENTIAL	Readahead 증가 + 뒤 페이지 해제	대용량 파일 한 번 순회
MADV_RANDOM	Readahead 비활성화	DB 인덱스 스캔
MADV_WILLNEED	즉시 페이지 로드	사전 로딩
MADV_DONTNEED	페이지 해제 (즉시)	메모리 절약
MADV_FREE	페이지 재사용 허용	malloc/free 최적화

사용 예제

#include <sys/mman.h>

/* 파일 mmap */
int fd = open("data.bin", O_RDONLY);
size_t size = 1024 * 1024 * 1024;  /* 1GB */
void *addr = mmap(NULL, size, PROT_READ, MAP_PRIVATE, fd, 0);

/* 순차 읽기 힌트 */
madvise(addr, size, MADV_SEQUENTIAL);

/* 순차 처리 */
for (size_t i = 0; i < size; i += PAGE_SIZE) {
    process((char*)addr + i);
}

/* 특정 범위 사전 로드 */
void *region = (char*)addr + (100 * 1024 * 1024);
madvise(region, 10 * 1024 * 1024, MADV_WILLNEED);

/* 사용 완료 후 메모리 해제 */
madvise(addr, size, MADV_DONTNEED);
munmap(addr, size);

fadvise vs madvise

항목	posix_fadvise()	madvise()
대상	파일 디스크립터(File Descriptor) (fd)	메모리 맵 영역 (mmap)
표준	POSIX (이식성 높음)	BSD 유래 (비표준)
접근 방식	read/write	메모리 접근
DONTNEED	Page Cache 힌트 (보수적)	즉시 페이지 해제 (적극적)
사용 빈도	높음 (일반 파일 I/O)	중간 (mmap 최적화)

io_uring 기반 Readahead

io_uring은 비동기 I/O를 위한 최신 인터페이스로, readahead와 함께 사용하면 시스템 콜 오버헤드 없이 고성능 파일 읽기를 구현할 수 있습니다.

#include <liburing.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>

#define QUEUE_DEPTH  32
#define BLOCK_SIZE   (128 * 1024)  /* 128KB per read */
#define PREFETCH_DIST 4           /* 4 blocks ahead */

struct io_context {
    struct io_uring ring;
    int fd;
    off_t file_size;
    off_t current_offset;
    int pending;
};

/* io_uring으로 비동기 readahead 구현 */
static void submit_read(struct io_context *ctx,
                         void *buf, off_t offset)
{
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ctx->ring);
    io_uring_prep_read(sqe, ctx->fd, buf, BLOCK_SIZE, offset);
    io_uring_sqe_set_data(sqe, buf);
    ctx->pending++;
}

/* 수동 readahead + io_uring 파이프라이닝 */
void sequential_read_uring(const char *filename)
{
    struct io_context ctx = {};
    ctx.fd = open(filename, O_RDONLY | O_DIRECT);

    struct stat st;
    fstat(ctx.fd, &st);
    ctx.file_size = st.st_size;

    io_uring_queue_init(QUEUE_DEPTH, &ctx.ring, 0);

    /* fadvise로 커널 readahead도 활성화 */
    posix_fadvise(ctx.fd, 0, 0, POSIX_FADV_SEQUENTIAL);

    /* 초기 prefetch: PREFETCH_DIST 블록 미리 제출 */
    void *bufs[QUEUE_DEPTH];
    for (int i = 0; i < PREFETCH_DIST &&
         ctx.current_offset < ctx.file_size; i++) {
        bufs[i] = aligned_alloc(4096, BLOCK_SIZE);
        submit_read(&ctx, bufs[i], ctx.current_offset);
        ctx.current_offset += BLOCK_SIZE;
    }
    io_uring_submit(&ctx.ring);

    /* 메인 루프: 완료 수확 + 새 요청 제출 */
    while (ctx.pending > 0) {
        struct io_uring_cqe *cqe;
        io_uring_wait_cqe(&ctx.ring, &cqe);

        void *buf = io_uring_cqe_get_data(cqe);
        process_data(buf, cqe->res);
        io_uring_cqe_seen(&ctx.ring, cqe);
        ctx.pending--;

        /* 다음 블록 prefetch */
        if (ctx.current_offset < ctx.file_size) {
            submit_read(&ctx, buf, ctx.current_offset);
            ctx.current_offset += BLOCK_SIZE;
            io_uring_submit(&ctx.ring);
        } else {
            free(buf);
        }
    }

    io_uring_queue_exit(&ctx.ring);
    close(ctx.fd);
}

접근 방식	시스템 콜/블록	파이프라이닝	DIO 호환	처리량 (NVMe)
read() + 커널 RA	1회	커널 자동	불가	~3 GB/s
mmap + 커널 RA	0회 (fault)	커널 자동	불가	~2.5 GB/s
io_uring + DIO	0회 (SQ poll)	사용자 제어	가능	~5.5 GB/s
io_uring + buffered	0회 (SQ poll)	사용자+커널	불가	~4 GB/s

io_uring + readahead 조합 전략

순차 대용량 읽기: io_uring + O_DIRECT + 수동 prefetch가 최고 성능
혼합 워크로드: io_uring + buffered I/O + 커널 readahead가 편의성 최고
IORING_OP_FADVISE: io_uring SQE로 비동기 fadvise 가능 (커널 6.0+)
IORING_OP_MADVISE: io_uring SQE로 비동기 madvise 가능

블록 계층 병합과 Readahead

readahead가 생성한 I/O 요청은 블록 계층에서 인접한 요청과 병합되어 더 큰 I/O로 변환됩니다.

/* mm/readahead.c - readahead 페이지를 bio로 구성 */
static void read_pages(struct readahead_control *rac)
{
    const struct address_space_operations *aops =
        rac->mapping->a_ops;

    if (aops->readahead) {
        /* 최신 인터페이스: readahead 콜백 직접 호출
         * 파일시스템이 bio를 직접 구성 */
        aops->readahead(rac);
    } else if (aops->readpages) {
        /* 레거시 인터페이스 (deprecated)
         * page 리스트를 파일시스템에 전달 */
        aops->readpages(rac->file, rac->mapping,
                       &rac->_pages, rac->_nr_pages);
    } else {
        /* 폴백: 페이지별 read_folio 호출 */
        struct folio *folio;
        while ((folio = readahead_folio(rac)))
            aops->read_folio(rac->file, folio);
    }

    /* blk_finish_plug: plug 리스트의 요청을 드라이버에 flush
     * 여기서 인접 bio 병합이 발생 */
    blk_finish_plug(&rac->_plug);
}

병합 단계	위치	메커니즘	효과
bio 세그먼트 병합	bio_add_page()	연속 페이지를 하나의 bio에 추가	bio 수 감소
Plug list 병합	blk_mq_bio_to_request()	동일 프로세스의 연속 bio 병합	request 수 감소
스케줄러(Scheduler) 병합	elevator merge	서로 다른 프로세스의 인접 request 병합	디스크 seek 감소
드라이버 SGL	NVMe scatter-gather	비연속 물리 페이지도 단일 명령	DMA 효율 극대화

Plug 메커니즘과 Readahead

readahead는 blk_start_plug()와 blk_finish_plug() 사이에서 모든 bio를 제출합니다. plug가 활성화된 동안 bio는 현재 프로세스의 plug 리스트에 쌓이며, blk_finish_plug() 호출 시 한꺼번에 병합되어 드라이버에 전달됩니다. 이것이 readahead의 I/O 효율을 극대화하는 핵심 메커니즘입니다.

readahead() 시스템 콜

Linux 전용 시스템 콜로 명시적으로 Readahead를 요청합니다.

사용 예제

#define _GNU_SOURCE
#include <fcntl.h>

/* 100MB 오프셋부터 10MB 미리 읽기 */
int fd = open("video.mp4", O_RDONLY);
off64_t offset = 100 * 1024 * 1024;
size_t count = 10 * 1024 * 1024;

/* 비동기 Readahead (즉시 반환) */
if (readahead(fd, offset, count) == -1) {
    perror("readahead");
}

/* 백그라운드에서 로드 중... */
sleep(1);  /* 다른 작업 */

/* 이제 읽으면 이미 캐시에 있음 */
pread(fd, buffer, count, offset);

튜닝 파라미터

Readahead 동작을 조정하는 시스템 파라미터입니다.

블록 디바이스 Readahead 크기

# 현재 설정 확인 (KB 단위)
cat /sys/block/sda/queue/read_ahead_kb
# 128  (기본값)

# 증가 (순차 읽기 워크로드)
echo 512 > /sys/block/sda/queue/read_ahead_kb

# 감소 (랜덤 읽기 워크로드)
echo 64 > /sys/block/sda/queue/read_ahead_kb

# blockdev 명령으로 설정
blockdev --setra 1024 /dev/sda  # 512KB (섹터 수 = KB*2)

워크로드별 권장값

워크로드	read_ahead_kb	이유
데스크톱	128	균형 (기본값)
웹 서버	256	중간 파일 캐싱
대용량 순차 읽기	512-2048	비디오 스트리밍, 로그 분석
데이터베이스	64-128	랜덤 읽기 중심
SSD	128-256	랜덤 읽기 빠름, 적당한 Readahead
HDD	256-512	순차 읽기 최대한 활용

모니터링

Readahead 효과를 측정하는 방법입니다.

/proc/vmstat - Readahead 통계

grep readahead /proc/vmstat
# readahead_hit:        12345678   ← Readahead 성공 (캐시 히트)
# readahead_miss:          12345   ← Readahead 실패 (안 읽음)
# readahead_pages:       9876543   ← Readahead한 총 페이지 수

/proc/[pid]/io - 프로세스별 I/O

cat /proc/$$/io
# rchar:          1234567890   ← 읽은 바이트 (Readahead 포함)
# read_bytes:      123456789   ← 실제 디스크 읽기
# syscr:              123456   ← read() 시스템 콜 횟수

# Readahead 효과 = (rchar - read_bytes) / rchar

dd로 Readahead 효과 측정

# Readahead 비활성화
echo 0 > /sys/block/sda/queue/read_ahead_kb
dd if=bigfile of=/dev/null bs=4k
# 50 MB/s

# Readahead 활성화
echo 512 > /sys/block/sda/queue/read_ahead_kb
dd if=bigfile of=/dev/null bs=4k
# 450 MB/s  ← 9배 향상!

네트워크 파일시스템 Readahead

NFS/CIFS 등 네트워크 파일시스템에서는 readahead가 특히 중요합니다. 네트워크 왕복 지연(RTT)이 디스크 지연보다 훨씬 크기 때문에, 충분히 큰 윈도우로 미리 읽어야 대역폭을 채울 수 있습니다.

네트워크 환경	RTT	대역폭	BDP	권장 rsize / read_ahead_kb
로컬 네트워크 (1Gbps)	0.5ms	125 MB/s	62 KB	rsize=1MB, RA=512KB
로컬 네트워크 (10Gbps)	0.2ms	1.2 GB/s	240 KB	rsize=1MB, RA=2048KB
WAN (100Mbps, 50ms)	50ms	12.5 MB/s	625 KB	rsize=1MB, RA=4096KB
클라우드 간 (1Gbps, 20ms)	20ms	125 MB/s	2.5 MB	rsize=4MB, RA=8192KB
RDMA (25Gbps)	0.01ms	3.1 GB/s	31 KB	rsize=1MB, RA=256KB

# NFS readahead 설정 (클라이언트)
mount -t nfs -o rsize=1048576,wsize=1048576,async server:/export /mnt

# 블록 장치 readahead (NFS backing dev)
echo 4096 > /sys/class/bdi/0:*/read_ahead_kb

# NFS 마운트별 readahead 확인
cat /sys/class/bdi/0:*/read_ahead_kb

# nconnect로 병렬 TCP 연결 (5.3+)
mount -t nfs -o nconnect=8,rsize=1048576 server:/export /mnt

# NFS I/O 통계 확인
nfsstat -c
mountstats /mnt

NFS readahead의 함정

NFS에서 readahead를 과도하게 늘리면:

서버 부하 증가: 모든 클라이언트가 큰 readahead를 사용하면 서버 메모리/IOPS 포화
네트워크 혼잡: 큰 readahead 윈도우가 TCP 혼잡 윈도우를 초과하면 재전송(Retransmission) 급증
stale 캐시: 미리 읽은 데이터가 서버에서 변경되면 일관성 문제

경험 법칙: read_ahead_kb = BDP × 2, rsize = min(1MB, 네트워크 MTU에 맞춘 값)

Readahead 커널 내부 구현

readahead의 핵심 함수 호출 경로를 상세히 분석합니다.

/* include/linux/pagemap.h - readahead_control 구조체 */
struct readahead_control {
    struct file *file;              /* 파일 포인터 */
    struct address_space *mapping;   /* address_space */
    struct file_ra_state *ra;        /* readahead 상태 */

    /* 내부 상태 */
    pgoff_t _index;                  /* 현재 folio 인덱스 */
    unsigned int _nr_pages;          /* 총 페이지 수 */
    unsigned int _batch_count;       /* 현재 배치 folio 수 */
    struct blk_plug _plug;           /* I/O plug */
};

/* 파일시스템이 사용하는 readahead iterator API */
static inline pgoff_t readahead_index(
    struct readahead_control *rac)
{
    return rac->_index;
}

static inline unsigned int readahead_count(
    struct readahead_control *rac)
{
    return rac->_nr_pages;
}

static inline loff_t readahead_length(
    struct readahead_control *rac)
{
    return (loff_t)rac->_nr_pages * PAGE_SIZE;
}

/* 다음 folio 반복자 — 파일시스템 readahead 콜백에서 사용 */
struct folio *readahead_folio(
    struct readahead_control *rac);

Readahead 페이지의 생명 주기

readahead로 읽은 페이지는 Page Cache에서 특별한 생명 주기를 거칩니다.

단계	플래그 상태	LRU 위치	조건
할당	PG_locked	없음	메모리 할당 성공
캐시 등록	PG_locked	없음	XArray 삽입 성공
I/O 완료	PG_uptodate, PG_readahead*	inactive file LRU	DMA 완료
앱 읽기 (히트)	PG_referenced → PG_active	active file LRU	2번 접근 시 승격
미사용 (낭비)	PG_readahead만	inactive LRU tail	접근 없음
회수	없음 (shadow entry)	없음	메모리 압력
재접근 (refault)	PG_workingset, PG_active	active LRU (직접)	shadow 기간 내 재접근

Readahead 페이지의 LRU 특성

readahead로 읽은 페이지는 inactive LRU에 바로 들어갑니다 (active가 아님). 이는 의도적 설계입니다: readahead 예측이 틀렸을 경우 빠르게 회수되어야 하기 때문입니다. 실제로 읽혀야만(referenced) active LRU로 승격됩니다. 이 "on-probation" 메커니즘은 readahead의 메모리 낭비를 최소화하는 핵심입니다.

BPF 기반 Readahead 관측

bpftrace/BCC를 사용하면 readahead 동작을 실시간(Real-time)으로 관측할 수 있습니다.

# bpftrace: readahead 이벤트 추적
bpftrace -e '
kprobe:page_cache_sync_readahead {
    @sync[comm] = count();
}
kprobe:page_cache_async_readahead {
    @async[comm] = count();
}
interval:s:5 {
    printf("\n--- Readahead Stats (5s) ---\n");
    print(@sync);
    print(@async);
    clear(@sync);
    clear(@async);
}'

# readahead 크기 분포 히스토그램
bpftrace -e '
kprobe:do_page_cache_ra {
    @size = hist(arg2);  /* nr_to_read 인자 */
}
interval:s:10 { exit(); }'

# readahead hit/miss 비율 추적
bpftrace -e '
tracepoint:filemap:mm_filemap_add_to_page_cache {
    @add = count();
}
kprobe:page_cache_async_readahead {
    @hit = count();
}
interval:s:10 {
    printf("Pages added: %d, Async triggers: %d\n",
           @add, @hit);
    clear(@add);
    clear(@hit);
}'

# BCC: readahead 효율 분석 스크립트
cat <<'EOF' > ra_monitor.py
from bcc import BPF

prog = """
#include <linux/fs.h>

BPF_HASH(ra_start, u32, u64);
BPF_HISTOGRAM(ra_sizes);
BPF_HASH(ra_hit, u32, u64);
BPF_HASH(ra_miss, u32, u64);

int trace_sync_ra(struct pt_regs *ctx,
                  struct address_space *mapping,
                  struct file_ra_state *ra,
                  struct file *file,
                  pgoff_t index,
                  unsigned long req_count) {
    u32 pid = bpf_get_current_pid_tgid();
    u64 ts = bpf_ktime_get_ns();
    ra_start.update(&pid, &ts);
    ra_sizes.increment(bpf_log2l(req_count));
    return 0;
}
"""

b = BPF(text=prog)
b.attach_kprobe(event="page_cache_sync_readahead",
                fn_name="trace_sync_ra")
EOF

관측 도구	추적 대상	오버헤드	사용 시나리오
bpftrace	kprobe/tracepoint	낮음	실시간 디버깅(Debugging), 일회성 분석
BCC	kprobe/tracepoint	낮음	대시보드, 지속 모니터링
/proc/vmstat	readahead 카운터	무시 가능	기본 통계 수집
perf stat	cache hit/miss	낮음	벤치마크
ftrace	함수 호출 추적(Call Trace)	중간	커널 개발, 디버깅
blktrace	블록 I/O 이벤트	중간-높음	I/O 패턴 분석

빠른 readahead 효율 점검

# 1. 기본 통계 (재부팅 이후 누적)
awk '/pgpgin|pgpgout|workingset_refault/' /proc/vmstat

# 2. 특정 프로세스의 readahead 효과
cat /proc/<PID>/io
# rchar (read bytes) vs read_bytes (actual disk reads)
# 차이가 클수록 cache hit율 높음 = readahead 효과적

# 3. 실시간 page cache 적중률
perf stat -e cache-references,cache-misses -p <PID> -- sleep 10

Readahead 트러블슈팅

readahead가 예상대로 동작하지 않을 때의 진단 절차입니다.

증상	가능한 원인	진단 방법	해결책
순차 읽기가 느림	read_ahead_kb가 너무 작음	`cat /sys/block/*/queue/read_ahead_kb`	256-1024로 증가
순차 읽기가 느림	블록 디바이스 혼잡	`iostat -x 1`으로 await 확인	I/O 스케줄러/QoS 조정
랜덤 읽기가 느림	readahead 낭비 (불필요한 I/O)	vmstat의 readahead 카운터	read_ahead_kb=0 또는 FADV_RANDOM
메모리 부족	readahead가 메모리 압박	`vmstat -w 1`의 active/inactive file	read_ahead_kb 축소
mmap 읽기 느림	mmap_miss 임계값 초과	ftrace로 filemap_fault 추적	MADV_SEQUENTIAL 힌트
NFS 순차 읽기 느림	rsize 부족 또는 네트워크 BDP 미달	`nfsstat -c`, `mountstats`	rsize 증가, nconnect
readahead가 전혀 안됨	FADV_RANDOM 설정됨	strace로 fadvise 호출 확인	FADV_NORMAL로 리셋
반복 읽기 시 cache miss	readahead 스래싱	vmstat의 workingset_refault	메모리 증설 또는 read_ahead_kb 축소

# 진단 1: readahead 상태 확인
echo "=== Block device readahead ==="
for dev in /sys/block/*/queue/read_ahead_kb; do
    echo "$(dirname $(dirname $dev) | xargs basename): $(cat $dev) KB"
done

# 진단 2: readahead 효율 (10초 동안)
echo "=== Readahead stats (before) ==="
grep -E 'workingset_refault|pgpgin|readahead' /proc/vmstat
sleep 10
echo "=== Readahead stats (after) ==="
grep -E 'workingset_refault|pgpgin|readahead' /proc/vmstat

# 진단 3: 특정 파일의 readahead 추적
bpftrace -e '
kprobe:ondemand_readahead {
    $ra = (struct file_ra_state *)arg1;
    printf("%s: start=%lu size=%u async_size=%u\n",
           comm, $ra->start, $ra->size, $ra->async_size);
}'

# 진단 4: readahead가 I/O 병목인지 확인
perf record -g -e block:block_rq_issue -a -- sleep 10
perf report --sort=comm,dso

고급 성능 튜닝

워크로드 유형에 따른 세밀한 readahead 최적화 전략입니다.

워크로드	read_ahead_kb	fadvise/madvise	I/O 모드	추가 설정
OLTP 데이터베이스	0-64	FADV_RANDOM	O_DIRECT	자체 buffer pool 사용
OLAP 스캔	512-2048	FADV_SEQUENTIAL	Buffered	DONTNEED 후처리
로그 수집	256	FADV_SEQUENTIAL	Buffered	NOREUSE 힌트
비디오 스트리밍	2048-4096	WILLNEED (30s)	Buffered	큰 rsize, 사전 로드
빌드 시스템(Build System)	128-256	기본	Buffered	컴파일러 순차 읽기 활용
ML 학습 데이터	1024-4096	FADV_SEQUENTIAL	io_uring+DIO	NUMA-aware 버퍼(Buffer)
메일 서버	64-128	기본	Buffered	많은 작은 파일
정적 웹 서버	256-512	WILLNEED (인기 파일)	sendfile	splice 활용
가상화(Virtualization) 호스트	128	기본	O_DIRECT (QEMU)	VM 내부에서 별도 RA
객체 스토리지	128-512	WILLNEED (GET 요청 시)	io_uring	객체 크기별 분기

/* 워크로드별 readahead 최적화 라이브러리 */
#include <fcntl.h>
#include <sys/stat.h>

enum workload_type {
    WL_SEQUENTIAL,     /* 순차 대용량 읽기 */
    WL_RANDOM,         /* 랜덤 작은 읽기 */
    WL_STREAMING,      /* 실시간 스트리밍 */
    WL_MIXED,          /* 혼합 패턴 */
};

void optimize_readahead(int fd, enum workload_type wl)
{
    switch (wl) {
    case WL_SEQUENTIAL:
        posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);
        break;

    case WL_RANDOM:
        posix_fadvise(fd, 0, 0, POSIX_FADV_RANDOM);
        break;

    case WL_STREAMING: {
        /* 30초 앞 미리 로드 */
        struct stat st;
        fstat(fd, &st);
        size_t prefetch = min(st.st_size / 10,
                               (size_t)(32 * 1024 * 1024));
        posix_fadvise(fd, 0, prefetch, POSIX_FADV_WILLNEED);
        posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);
        break;
    }

    case WL_MIXED:
        /* 기본 설정 유지, 커널 자동 감지에 의존 */
        posix_fadvise(fd, 0, 0, POSIX_FADV_NORMAL);
        break;
    }
}

/* 읽기 완료 후 캐시 정리 (대용량 일회성 처리) */
void cleanup_after_read(int fd, off_t start, size_t len)
{
    posix_fadvise(fd, start, len, POSIX_FADV_DONTNEED);
}

FADV_DONTNEED 사용 시 주의

FADV_DONTNEED는 해당 범위의 페이지를 Page Cache에서 즉시 제거합니다. 다른 프로세스가 같은 파일을 읽고 있다면 그 프로세스에도 영향을 미칩니다. 공유 파일에서는 사용에 주의해야 합니다. madvise(MADV_DONTNEED)는 해당 프로세스의 매핑만 해제하므로 더 안전합니다.

Readahead 벤치마크

다양한 readahead 설정에 따른 성능 비교입니다.

read_ahead_kb	HDD (MB/s)	SATA SSD (MB/s)	NVMe (MB/s)	비고
0 (비활성화)	50	200	800	디바이스 기본 순차 성능
128 (기본)	100	400	2,500	대부분 워크로드에 적합
256	130	500	3,200	순차 중심에 권장
512	150	530	3,600	대용량 스트리밍
1024	160	540	3,800	NVMe 포화 근접
2048	160	540	3,800	추가 이득 미미

벤치마크 해석 가이드

HDD에서는 read_ahead_kb=512 이상에서 디스크 대역폭 포화로 추가 이득이 없습니다. NVMe SSD는 256-512에서 큰 폭의 성능 향상을 보이며, 1024 이상에서 포화됩니다. 핵심 인사이트: readahead의 최적값은 디바이스의 최대 순차 읽기 대역폭과 메모리 여유에 의해 결정됩니다.

최적화 사례

실전에서 Readahead를 활용하는 예제입니다.

사례 1: 대용량 로그 분석

#include <fcntl.h>
#include <stdio.h>

void analyze_logs(const char *filename)
{
    int fd = open(filename, O_RDONLY);
    char buf[8192];

    /* 순차 읽기 힌트 (Readahead 2배) */
    posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);

    while ((read(fd, buf, sizeof(buf))) > 0) {
        parse_log_line(buf);
    }

    /* 분석 완료 후 캐시 해제 (메모리 절약) */
    posix_fadvise(fd, 0, 0, POSIX_FADV_DONTNEED);
    close(fd);
}

사례 2: 비디오 플레이어

/* 현재 재생 위치 + 30초 앞 미리 로드 */
void prefetch_video(int fd, off_t current_pos, int bitrate_kbps)
{
    size_t lookahead = bitrate_kbps * 1024 * 30 / 8;  /* 30초 분량 */

    readahead(fd, current_pos, lookahead);
    /* 비동기로 로드하므로 재생 계속 가능 */
}

사례 3: 게임 레벨 로딩

/* 다음 레벨 에셋을 백그라운드로 로드 */
void preload_next_level(const char *level_file)
{
    int fd = open(level_file, O_RDONLY);
    struct stat st;
    fstat(fd, &st);

    /* 전체 파일 미리 로드 (비동기) */
    posix_fadvise(fd, 0, st.st_size, POSIX_FADV_WILLNEED);

    /* 플레이어가 현재 레벨 플레이하는 동안 로드됨 */
    close(fd);
}

랜덤 읽기에서의 주의사항

Readahead는 순차 읽기에만 효과적입니다:

랜덤 읽기: Readahead한 페이지를 사용하지 않음 → 메모리 낭비, 캐시 오염
해결책: POSIX_FADV_RANDOM 또는 read_ahead_kb=0 설정
데이터베이스: 자체 버퍼 풀이 있으므로 Readahead 비활성화 권장

순차 vs 랜덤 판단 기준: 연속된 읽기의 80% 이상이 순차적이면 Readahead 유용

사례 4: 데이터베이스 readahead 최적화

#include <fcntl.h>
#include <unistd.h>

/* PostgreSQL 스타일: 테이블 순차 스캔 최적화 */
void seqscan_prefetch(int fd, off_t current_block,
                        int block_size, int prefetch_blocks)
{
    /* 순차 스캔 → readahead 힌트 */
    posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);

    /* effective_io_concurrency 블록 미리 로드 */
    off_t prefetch_start = (current_block + 1) * block_size;
    size_t prefetch_size = prefetch_blocks * block_size;
    posix_fadvise(fd, prefetch_start, prefetch_size,
                  POSIX_FADV_WILLNEED);
}

/* B-tree 인덱스 스캔: 랜덤 접근 패턴 */
void index_scan_setup(int fd)
{
    /* 인덱스 스캔은 랜덤이므로 readahead 비활성화 */
    posix_fadvise(fd, 0, 0, POSIX_FADV_RANDOM);
}

/* VACUUM (테이블 정리): 순차 + 캐시 비우기 */
void vacuum_strategy(int fd, off_t offset, size_t len)
{
    posix_fadvise(fd, offset, len, POSIX_FADV_SEQUENTIAL);

    /* VACUUM은 일회성 → 처리 후 캐시 해제 */
    /* shared_buffers에 있는 페이지와 충돌 주의 */
    posix_fadvise(fd, offset, len, POSIX_FADV_DONTNEED);
}

사례 5: 대용량 백업/복원

#include <fcntl.h>
#include <stdio.h>

/* 백업: 순차 읽기 + 캐시 오염 방지 */
void backup_file(const char *src, const char *dst)
{
    int src_fd = open(src, O_RDONLY);
    int dst_fd = open(dst, O_WRONLY | O_CREAT | O_TRUNC, 0644);

    /* 소스: 순차 읽기 + 일회성 힌트 */
    posix_fadvise(src_fd, 0, 0, POSIX_FADV_SEQUENTIAL);
    posix_fadvise(src_fd, 0, 0, POSIX_FADV_NOREUSE);

    char buf[1024 * 1024];  /* 1MB 버퍼 */
    ssize_t n;
    off_t done = 0;

    while ((n = read(src_fd, buf, sizeof(buf))) > 0) {
        write(dst_fd, buf, n);
        done += n;

        /* 100MB마다 이미 읽은 부분 캐시 해제
         * → 캐시 오염 방지, 다른 서비스 보호 */
        if (done % (100 * 1024 * 1024) == 0) {
            posix_fadvise(src_fd, 0, done,
                          POSIX_FADV_DONTNEED);
        }
    }

    /* 나머지 캐시 해제 */
    posix_fadvise(src_fd, 0, 0, POSIX_FADV_DONTNEED);

    close(src_fd);
    close(dst_fd);
}

FADV_NOREUSE의 실제 효과

최근 Linux 커널 계열에서도 FADV_NOREUSE는 사실상 FADV_NORMAL과 동일하게 동작합니다. 명시적인 캐시 해제가 필요하면 FADV_DONTNEED를 사용해야 합니다. 다만 미래 커널에서 NOREUSE 구현이 개선될 수 있으므로 의도를 명확히 하기 위해 NOREUSE를 설정하는 것은 좋은 관행입니다.

사례 6: ML 학습 데이터 로딩

#include <fcntl.h>
#include <sys/mman.h>
#include <pthread.h>

#define NUM_WORKERS 4
#define CHUNK_SIZE  (256 * 1024 * 1024)  /* 256MB per chunk */

struct prefetch_args {
    int fd;
    off_t offset;
    size_t size;
};

/* 백그라운드 prefetch 스레드 */
void *prefetch_thread(void *arg)
{
    struct prefetch_args *pa = arg;

    /* 다음 에포크의 데이터를 미리 로드 */
    posix_fadvise(pa->fd, pa->offset, pa->size,
                  POSIX_FADV_WILLNEED);
    return NULL;
}

/* ML 학습 데이터 파이프라인 */
void train_epoch(int fd, size_t total_size)
{
    posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);

    for (off_t off = 0; off < total_size;
         off += CHUNK_SIZE) {
        /* 현재 청크를 GPU에 전송하는 동안
         * 다음 청크를 prefetch */
        if (off + CHUNK_SIZE < total_size) {
            struct prefetch_args pa = {
                .fd = fd,
                .offset = off + CHUNK_SIZE,
                .size = CHUNK_SIZE
            };
            pthread_t t;
            pthread_create(&t, NULL,
                          prefetch_thread, &pa);
            pthread_detach(t);
        }

        /* 현재 청크 처리 (이미 캐시에 있으므로 빠름) */
        void *chunk = mmap(NULL, CHUNK_SIZE,
                          PROT_READ, MAP_PRIVATE,
                          fd, off);
        feed_to_gpu(chunk, CHUNK_SIZE);
        munmap(chunk, CHUNK_SIZE);

        /* 처리 완료된 청크 캐시 해제 */
        posix_fadvise(fd, off, CHUNK_SIZE,
                      POSIX_FADV_DONTNEED);
    }
}

사례 7: 로그 수집/전송 파이프라인(Pipeline)

# tail -f 스타일 로그 수집에서의 readahead 최적화

# 1. 로그 파일용 readahead 축소 (많은 작은 append)
echo 64 > /sys/block/sda/queue/read_ahead_kb

# 2. 로그 분석 (대용량 순차 읽기)
# fluentd/logstash가 처리할 때는 큰 readahead 유리
echo 512 > /sys/block/sdb/queue/read_ahead_kb

# 3. inotify + readahead 조합
# 새 데이터 감지 → 해당 부분만 WILLNEED
inotifywait -m -e modify /var/log/app.log |
while read path action file; do
    # 새로 추가된 부분만 미리 읽기
    dd if=/var/log/app.log of=/dev/null bs=64k \
       skip=$((LAST_OFFSET/65536)) 2>/dev/null
done

커널 빌드 설정

readahead 관련 커널 빌드 옵션입니다.

CONFIG 옵션	기본값	영향
CONFIG_TRANSPARENT_HUGEPAGE	y	large folio readahead 활성화
CONFIG_READ_ONLY_THP_FOR_FS	y	파일시스템 read 전용 THP 지원
CONFIG_MIGRATION	y	페이지 마이그레이션 (NUMA readahead)
CONFIG_COMPACTION	y	large folio 할당을 위한 컴팩션
CONFIG_FSCACHE	m	네트워크 FS 로컬 캐시 (readahead 보완)
CONFIG_BLK_DEV_IO_TRACE	m	blktrace (readahead I/O 패턴 분석)
CONFIG_MEMCG	y	cgroup 메모리 제어 (readahead 계정)

DAX와 Readahead

DAX(Direct Access)는 persistent memory(PMEM)에서 Page Cache를 우회하여 직접 접근하는 모드입니다. DAX 모드에서는 readahead가 동작하지 않습니다.

항목	일반 파일	DAX 파일	이유
Page Cache 사용	예	아니오	PMEM에 직접 접근
readahead 동작	예	아니오	캐시할 필요 없음
mmap 페이지 폴트(Page Fault)	Page Cache에서 해결	PMEM에 직접 매핑	PTE가 PMEM 물리 주소(Physical Address) 직접 가리킴
read() 동작	Page Cache → user buffer 복사	PMEM → user buffer 직접 복사	중간 캐시 불필요
대역폭	스토리지 제한 (NVMe ~7GB/s)	메모리 대역폭 (~50GB/s)	PMEM은 메모리 버스(Bus) 직접 접근
지연	마이크로초 (NVMe)	나노초 (PMEM)	소프트웨어 스택 최소화

/* DAX 파일 접근 예시 */
#include <sys/mman.h>
#include <fcntl.h>

void access_dax_file(const char *path)
{
    int fd = open(path, O_RDONLY);
    struct stat st;
    fstat(fd, &st);

    /* DAX mmap: PMEM에 직접 매핑
     * readahead 불필요 — 메모리 접근 속도 */
    void *addr = mmap(NULL, st.st_size,
                      PROT_READ, MAP_SHARED, fd, 0);

    /* fadvise는 DAX 파일에서 무시됨 */
    posix_fadvise(fd, 0, 0, POSIX_FADV_SEQUENTIAL);
    /* ↑ 효과 없음 (Page Cache 미사용) */

    /* 직접 메모리 접근 (PMEM) */
    process_data(addr, st.st_size);

    munmap(addr, st.st_size);
    close(fd);
}

DAX + CXL 메모리의 readahead 전략

CXL 연결 메모리(Type 3)는 PMEM과 유사하게 DAX 모드로 접근할 수 있습니다. 다만 CXL 메모리는 로컬 DRAM보다 지연이 높으므로(~200ns vs ~100ns), prefetch가 여전히 도움이 됩니다. 이 경우 소프트웨어 prefetch 명령(__builtin_prefetch)이나 하드웨어 프리페처를 활용합니다.

Readahead ftrace 이벤트

커널의 ftrace를 사용하면 readahead의 모든 내부 동작을 추적할 수 있습니다.

# ftrace: readahead 관련 함수 추적
cd /sys/kernel/tracing

# readahead 함수 필터 설정
echo 'page_cache_sync_readahead' > set_ftrace_filter
echo 'page_cache_async_readahead' >> set_ftrace_filter
echo 'ondemand_readahead' >> set_ftrace_filter
echo 'do_page_cache_ra' >> set_ftrace_filter
echo 'page_cache_ra_order' >> set_ftrace_filter

# function_graph 트레이서로 호출 그래프 확인
echo function_graph > current_tracer
echo 1 > tracing_on

# 테스트 워크로드 실행
dd if=/tmp/testfile of=/dev/null bs=4k count=1000

echo 0 > tracing_on
cat trace | head -50
# 출력 예:
#  dd-1234  |   0.482 us  |  page_cache_sync_readahead();
#  dd-1234  |             |  ondemand_readahead() {
#  dd-1234  |   0.125 us  |    do_page_cache_ra();
#  dd-1234  |   5.234 us  |  }

# tracepoint 기반 이벤트 추적
cd /sys/kernel/tracing

# Page Cache 관련 tracepoint 확인
ls events/filemap/
# mm_filemap_add_to_page_cache
# mm_filemap_delete_from_page_cache

# readahead로 추가된 페이지 추적
echo 1 > events/filemap/mm_filemap_add_to_page_cache/enable

# 특정 프로세스만 추적
echo 'common_pid == 1234' > \
    events/filemap/mm_filemap_add_to_page_cache/filter

echo 1 > tracing_on
# ... 워크로드 실행 ...
echo 0 > tracing_on

cat trace | head -20
# dd-1234  mm_filemap_add_to_page_cache:
#   dev 259:0 ino 1234 pfn=0x12345 ofs=0x0

ftrace 이벤트	경로	용도
mm_filemap_add_to_page_cache	events/filemap/	Page Cache에 페이지 추가 (readahead 포함)
mm_filemap_delete_from_page_cache	events/filemap/	Page Cache에서 페이지 제거
mm_vmscan_lru_shrink_inactive	events/vmscan/	inactive LRU 회수 (readahead 페이지 포함)
workingset_refault	events/workingset/	readahead 스래싱 감지
block_rq_issue	events/block/	실제 블록 I/O 요청 (readahead 병합 결과)
block_rq_complete	events/block/	I/O 완료 (readahead 지연 측정)

perf trace로 간단한 readahead 분석

# 프로세스의 readahead 관련 시스템 콜 추적
perf trace -e fadvise64,readahead,madvise -p <PID>

# readahead I/O 크기 분포 확인
perf trace -e read -p <PID> --duration 10 2>&1 | \
    awk '{print $NF}' | sort -n | uniq -c | sort -rn

Readahead sysfs 인터페이스 상세

블록 디바이스와 BDI(Backing Device Info)의 readahead 관련 sysfs 파일 완전 참조입니다.

경로	읽기/쓰기	단위	설명
/sys/block/<dev>/queue/read_ahead_kb	R/W	KB	블록 디바이스 최대 readahead 크기
/sys/block/<dev>/queue/max_sectors_kb	R/W	KB	단일 I/O 최대 크기 (readahead 상한)
/sys/block/<dev>/queue/rotational	R	bool	회전 디스크 여부 (RA 크기 힌트)
/sys/block/<dev>/queue/optimal_io_size	R	bytes	최적 I/O 크기 (RA 정렬 힌트)
/sys/class/bdi/<bdi>/read_ahead_kb	R/W	KB	BDI별 readahead 상한 (NFS 등)
/sys/class/bdi/<bdi>/min_ratio	R/W	%	이 BDI의 최소 dirty ratio
/sys/class/bdi/<bdi>/max_ratio	R/W	%	이 BDI의 최대 dirty ratio

# 모든 BDI의 readahead 설정 확인
for bdi in /sys/class/bdi/*/read_ahead_kb; do
    echo "$(dirname $bdi | xargs basename): $(cat $bdi) KB"
done

# blockdev로 readahead 설정 (섹터 단위)
blockdev --getra /dev/sda     # 현재 값 (512-byte 섹터 수)
blockdev --setra 1024 /dev/sda # 512KB (1024 × 512 bytes)

# LVM/dm 디바이스의 readahead
lvs -o+lv_read_ahead
lvchange --readahead 512 /dev/vg0/lv_data  # KB 단위

# mdadm RAID의 readahead
blockdev --setra 4096 /dev/md0  # RAID: stripe size × disk count

# 확인: 실제 적용된 값
cat /sys/block/md0/queue/read_ahead_kb

RAID/LVM readahead 설정 주의

RAID 어레이에서는 readahead를 stripe 크기의 배수로 설정하는 것이 중요합니다. 예: 4-disk RAID-0, stripe 64KB → readahead = 256KB 이상. LVM은 기본적으로 "auto"이며 하위 디바이스의 설정을 상속합니다. dm-striped의 경우 stripe_cache_size도 함께 조정해야 합니다.

Readahead 구현 비교 (OS별)

Linux readahead를 다른 운영체제와 비교합니다.

항목	Linux	FreeBSD	Windows	macOS
기본 readahead	128KB	64KB	192KB (NTFS)	64KB
적응형 크기	지수적 성장	선형 성장	적응형 (Superfetch)	적응형
비동기 트리거	readahead marker	window 70%	Prefetch Trace	B-tree hint
스래싱 감지	shadow entry	없음	Superfetch 학습	제한적
Large page RA	folio (5.18+)	superpage	large section	cluster
사용자 힌트	fadvise/madvise	fadvise/madvise	FILE_FLAG_SEQUENTIAL	F_RDADVISE
cgroup-aware	예 (memcg)	아니오	Job Object (제한적)	아니오

sendfile/splice과 Readahead

제로카피 I/O인 sendfile()과 splice()는 readahead와 밀접하게 연동됩니다. 정적 파일 서빙 등에서 커널의 readahead가 성능에 핵심 역할을 합니다.

/* 정적 웹 서버: sendfile + readahead 최적화 */
#include <sys/sendfile.h>
#include <fcntl.h>

void serve_static_file(int client_fd, const char *path)
{
    int file_fd = open(path, O_RDONLY);
    struct stat st;
    fstat(file_fd, &st);

    /* 작은 파일: 전체를 미리 읽기 */
    if (st.st_size < 1024 * 1024) {
        posix_fadvise(file_fd, 0, st.st_size,
                      POSIX_FADV_WILLNEED);
    } else {
        /* 큰 파일: 순차 읽기 힌트 */
        posix_fadvise(file_fd, 0, 0,
                      POSIX_FADV_SEQUENTIAL);
    }

    /* 제로카피 전송: 커널 Page Cache → TCP 버퍼 */
    off_t offset = 0;
    while (offset < st.st_size) {
        ssize_t sent = sendfile(client_fd, file_fd,
                                &offset,
                                st.st_size - offset);
        if (sent <= 0)
            break;
    }

    /* 대용량 일회성 파일: 캐시 정리 */
    if (st.st_size > 100 * 1024 * 1024)
        posix_fadvise(file_fd, 0, 0,
                      POSIX_FADV_DONTNEED);

    close(file_fd);
}

방법	복사 횟수	컨텍스트 스위치	readahead 활용	CPU 사용률
read() + write()	4	4	가능	높음
mmap + write()	3	4	가능	중간
sendfile()	0-1 (SG-DMA)	2	핵심 의존	매우 낮음
splice()	0	2	핵심 의존	매우 낮음

sendfile과 readahead의 시너지

sendfile()은 Page Cache의 페이지를 직접 NIC에 DMA하므로, readahead가 미리 캐시에 준비해놓은 페이지가 있으면 즉시 전송됩니다. 정적 파일 서버(nginx, Apache)에서 sendfile과 커널 readahead를 함께 활용하면 단일 서버로 10Gbps 이상의 정적 콘텐츠 서빙이 가능합니다.

Readahead와 cgroup 메모리 제어

컨테이너(Container)/cgroup 환경에서 readahead는 메모리 계정(accounting)에 영향을 받습니다.

항목	cgroup v2 동작	주의점
readahead 페이지 과금	해당 cgroup의 memory.current에 포함	readahead가 과도하면 cgroup OOM 유발
memory.high 초과 시	readahead 스로틀링 (reclaim 우선)	순차 읽기 성능 저하 가능
memory.max 도달 시	readahead 페이지 우선 회수	readahead 스래싱 발생
공유 파일 캐시	첫 접근 cgroup에 과금	같은 파일을 여러 컨테이너가 읽으면 불균형
POSIX_FADV_DONTNEED	cgroup의 memory.current 감소	다른 cgroup의 캐시 히트에도 영향

# 컨테이너 내부에서 readahead 최적화

# 1. 현재 cgroup의 메모리 사용량 확인
cat /sys/fs/cgroup/memory.current
cat /sys/fs/cgroup/memory.max

# 2. file cache 사용량 확인 (readahead 포함)
grep 'file' /sys/fs/cgroup/memory.stat
# file 524288000   ← file cache (500MB, readahead 포함)
# file_mapped 10485760  ← mmap된 부분만

# 3. cgroup 내 readahead 튜닝 전략
#   - memory limit이 작으면 read_ahead_kb 축소
#   - 대용량 파일 처리 후 FADV_DONTNEED로 해제
#   - PSI 모니터링으로 메모리 압력 감시
cat /sys/fs/cgroup/cpu.pressure
cat /sys/fs/cgroup/memory.pressure

컨테이너 환경의 readahead 함정

메모리 제한이 있는 컨테이너에서 기본 readahead(128KB)는 과도할 수 있습니다. 256MB 메모리 제한 컨테이너에서 10개 파일을 동시에 순차 읽기하면, readahead만으로 128KB × 10 × 파이프라인 깊이 = 수십 MB의 Page Cache를 소비합니다. 이는 OOM이나 심각한 스래싱을 유발할 수 있습니다.

가상화와 Readahead

하이퍼바이저(Hypervisor)/VM 환경에서는 readahead가 이중으로 동작할 수 있어 특별한 고려가 필요합니다.

계층	readahead	권장 설정	이유
게스트 커널	기본 유지 (128KB)	워크로드에 맞게 조정	게스트 내부 최적화
호스트 커널 (QEMU O_DIRECT)	비활성화	read_ahead_kb=0	게스트 readahead가 역할 수행
호스트 커널 (QEMU cache=writeback)	활성화	기본값	호스트 Page Cache 활용
virtio-blk	게스트 제어	게스트에서 조정	가상 블록 디바이스
virtio-fs (virtiofsd)	호스트+게스트	DAX 모드 권장	이중 캐시 방지

이중 readahead 문제

QEMU가 cache=writeback 모드에서 동작하면 게스트와 호스트 모두 readahead를 수행합니다. 게스트의 4KB read가 호스트에서는 128KB readahead로 확장되고, 이것이 다시 게스트 readahead 128KB를 트리거하면 실제 필요량의 수십 배가 읽힐 수 있습니다. 이를 방지하려면 호스트에서 O_DIRECT를 사용하거나, 호스트의 readahead를 축소합니다.

커널 파라미터 참조

readahead 관련 커널 파라미터와 sysfs 인터페이스의 완전한 참조입니다.

파라미터	경로	기본값	범위	설명
read_ahead_kb	/sys/block/<dev>/queue/	128	0~max	블록 디바이스별 최대 readahead 크기
read_ahead_kb (BDI)	/sys/class/bdi/<bdi>/	128	0~max	파일시스템별 readahead 상한 (NFS 등)
vm.dirty_ratio	/proc/sys/vm/	20	0~100	dirty 비율 (readahead 간접 영향)
vm.vfs_cache_pressure	/proc/sys/vm/	100	0~10000	inode/dentry 캐시 회수 압력
vm.page-cluster	/proc/sys/vm/	3	0~8	swap readahead 크기 (2^n pages)
vm.min_free_kbytes	/proc/sys/vm/	자동	-	최소 여유 메모리 (readahead 공간 확보)

# 모든 블록 디바이스의 readahead 일괄 설정
for dev in /sys/block/sd*/queue/read_ahead_kb; do
    echo 256 > "$dev"
done

# NVMe 디바이스의 readahead 설정
for dev in /sys/block/nvme*/queue/read_ahead_kb; do
    echo 512 > "$dev"
done

# 영구 설정 (udev 규칙)
cat <<EOF > /etc/udev/rules.d/60-readahead.rules
# SSD에 512KB readahead 설정
ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="0", \
    ATTR{queue/read_ahead_kb}="512"

# HDD에 256KB readahead 설정
ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="1", \
    ATTR{queue/read_ahead_kb}="256"

# NVMe에 512KB readahead 설정
ACTION=="add|change", KERNEL=="nvme[0-9]n[0-9]", \
    ATTR{queue/read_ahead_kb}="512"
EOF
udevadm control --reload-rules

실전 케이스 스터디: Readahead 튜닝

실제 프로덕션 환경에서의 readahead 튜닝 과정을 단계별로 설명합니다.

케이스 1: nginx 정적 파일 서버 최적화

환경

NVMe SSD, 10Gbps 네트워크, 평균 파일 크기 5MB, 동시 접속 10,000, CPU 사용률 30%

# 1. 현재 상태 진단
echo "=== Block device readahead ==="
cat /sys/block/nvme0n1/queue/read_ahead_kb
# 128 (기본값)

echo "=== Page Cache 상태 ==="
free -h
# buff/cache: 12G (32GB 중 37% 캐시)

echo "=== Readahead 효율 ==="
grep -E 'workingset_refault|pgpgin' /proc/vmstat
# workingset_refault_file 245678  ← 스래싱 있음!

# 2. 문제 분석
# 10,000 동시 접속 × 128KB readahead = 1.25GB readahead 동시 진행
# 가용 메모리 20GB 중 6% → 적절하지만 refault 발생
# → 인기 파일이 readahead에 의해 밀려나고 있음

# 3. 튜닝 적용
# sendfile 활성화 확인 (nginx.conf)
grep sendfile /etc/nginx/nginx.conf
# sendfile on;

# readahead를 256KB로 증가 (NVMe이므로 큰 I/O 효율적)
echo 256 > /sys/block/nvme0n1/queue/read_ahead_kb

# 인기 파일 사전 로딩 (nginx startup script)
find /var/www/static -type f -size +1M -size -50M \
    -exec dd if={} of=/dev/null bs=1M 2>/dev/null \;

# 4. 효과 측정 (1시간 후)
grep -E 'workingset_refault' /proc/vmstat
# workingset_refault_file 245890  ← 212 증가 (이전: 시간당 ~5000)
# → 스래싱 96% 감소!

케이스 2: PostgreSQL 혼합 워크로드

환경

SATA SSD RAID-10, shared_buffers=8GB, 총 메모리 32GB, OLTP 70% + OLAP 30%

# 1. 현재 문제: sequential scan이 shared_buffers를 오염
cat /sys/block/md0/queue/read_ahead_kb
# 128 (기본)

# OLAP 쿼리 시 readahead가 shared_buffers 외부 캐시를 소비
# OLTP 쿼리의 인덱스 캐시가 밀려남

# 2. PostgreSQL 설정 확인
psql -c "SHOW effective_io_concurrency;"
# 1 (SSD이므로 200으로 증가 가능)
psql -c "SHOW random_page_cost;"
# 4 (SSD이므로 1.1로 감소 필요)

# 3. 튜닝
# RAID-10 (4 disk, stripe 64KB): 최적 readahead = 256KB
echo 256 > /sys/block/md0/queue/read_ahead_kb

# PostgreSQL 설정 변경
cat <<EOF >> /etc/postgresql/15/main/conf.d/tuning.conf
effective_io_concurrency = 200
random_page_cost = 1.1
# seq scan 시 OS 캐시 활용 최적화
effective_cache_size = 24GB
EOF

# 4. VACUUM/ANALYZE는 DONTNEED 자동 사용
# PostgreSQL은 ring buffer로 대형 스캔 시 캐시 오염 방지
# vacuum_cost_delay와 연동하여 readahead 부하 제어

# 5. 벤치마크
pgbench -c 32 -T 300 -r testdb
# TPS: 이전 12,345 → 이후 15,678 (+27%)

케이스 3: Hadoop/Spark 대용량 데이터 처리

# Hadoop DataNode: 대용량 순차 읽기 특화

# 1. 데이터 디스크 readahead 최대화
for disk in sd{b..l}; do
    echo 4096 > /sys/block/$disk/queue/read_ahead_kb
    echo "$disk: $(cat /sys/block/$disk/queue/read_ahead_kb) KB"
done

# 2. OS 디스크는 기본값 유지
echo 128 > /sys/block/sda/queue/read_ahead_kb

# 3. 메모리 할당 최적화
# Hadoop은 대용량 파일 순차 읽기 → 큰 readahead 효과적
# 단, 데이터 디스크가 12개이고 각각 4MB readahead면
# 동시 map task × 12 disk × 4MB = 상당한 메모리 사용

# 4. vm.dirty_ratio 조정 (write 워크로드 병행 시)
sysctl vm.dirty_ratio=40
sysctl vm.dirty_background_ratio=10

# 5. HDFS block size와 readahead 정렬
# dfs.blocksize=128MB → readahead가 블록 경계와 정렬
# short-circuit local reads 활성화 시 readahead 직접 활용

대규모 클러스터에서의 readahead 자동화

# Ansible로 클러스터 전체 readahead 설정
# playbook: readahead-tuning.yml
- hosts: datanodes
  tasks:
    - name: Set data disk readahead
      shell: |
        for dev in /sys/block/sd[b-z]/queue/read_ahead_kb; do
            echo {{ readahead_data_kb | default(2048) }} > "$dev"
        done

    - name: Set OS disk readahead
      shell: echo 128 > /sys/block/sda/queue/read_ahead_kb

    - name: Create persistent udev rules
      copy:
        dest: /etc/udev/rules.d/60-readahead.rules
        content: |
          ACTION=="add|change", KERNEL=="sd[b-z]", \
              ATTR{queue/read_ahead_kb}="{{ readahead_data_kb }}"

용어 사전

용어	설명
Readahead	미래에 읽을 데이터를 예측하여 미리 Page Cache에 로드하는 최적화 기법
file_ra_state	파일별 readahead 상태를 추적하는 커널 구조체 (start, size, async_size, ra_pages)
on-demand readahead	readahead marker 기반 비동기 트리거 방식. 커널 2.6.23에서 도입
readahead marker	PG_readahead 플래그가 설정된 페이지. 이 페이지에 접근하면 다음 readahead 배치를 트리거
async_size	readahead 윈도우에서 비동기 트리거 영역의 크기. 윈도우 끝에서 이 크기만큼 앞에 marker 배치
ra_pages	readahead 최대 크기 (페이지 단위). read_ahead_kb / 4
스래싱 (thrashing)	readahead 페이지가 사용되기 전에 메모리 부족으로 회수되는 현상
shadow entry	회수된 페이지의 위치 정보를 XArray에 남겨 refault 감지에 사용
folio	compound page를 추상화하는 구조체. 5.18+에서 readahead 단위로 사용
BDP (Bandwidth-Delay Product)	네트워크 대역폭 × RTT. NFS readahead 최적 크기 결정에 사용
readahead_control	readahead 실행 컨텍스트를 담는 구조체. 파일시스템 콜백에 전달
mmap_miss	mmap 경로에서 readahead 예측 실패 횟수. 100 초과 시 readahead 비활성화
plug	블록 I/O를 일시 정지하여 병합 기회를 제공하는 메커니즘
iomap	extent 기반 I/O 매핑 프레임워크. 최신 readahead 구현의 기반

자주 묻는 질문 (FAQ)

Q: readahead를 비활성화하면 어떤 영향이 있나요?

readahead를 비활성화하면(read_ahead_kb=0) 순차 읽기 성능이 급격히 저하됩니다. HDD에서는 10배 이상 느려질 수 있습니다. 다만 순수 랜덤 I/O 워크로드에서는 불필요한 I/O를 줄여 약간의 성능 향상이 있을 수 있습니다. 데이터베이스처럼 자체 버퍼 관리를 하는 애플리케이션에서는 비활성화가 유리할 수 있습니다.

Q: SSD에서도 readahead가 효과적인가요?

네, 효과적입니다. SSD는 랜덤 읽기가 빠르지만, 순차 읽기가 랜덤보다 여전히 빠릅니다. 또한 readahead는 시스템 콜 오버헤드, Page Cache 삽입 오버헤드, bio 구성 오버헤드를 줄이는 효과도 있습니다. NVMe SSD에서 readahead=0 vs 256KB는 순차 읽기에서 3-4배 차이가 납니다.

Q: POSIX_FADV_WILLNEED와 readahead() 시스템 콜의 차이는?

기능적으로 거의 동일합니다. 둘 다 지정 범위를 비동기로 Page Cache에 로드합니다. 차이점:

posix_fadvise(WILLNEED): POSIX 표준, 이식성 높음, hint이므로 무시될 수 있음
readahead(): Linux 전용, 더 직접적, 보통 무시하지 않음
커널 내부적으로 둘 다 force_page_cache_readahead()를 호출

Q: O_DIRECT 모드에서 readahead가 동작하나요?

아니요. O_DIRECT는 Page Cache를 우회하므로 커널의 readahead가 동작하지 않습니다. O_DIRECT 워크로드에서 파이프라이닝이 필요하면 io_uring을 사용하여 애플리케이션 수준에서 prefetch를 구현해야 합니다. 혹은 io_uring의 IORING_OP_FADVISE로 사전에 buffered readahead를 트리거한 후 O_DIRECT로 읽는 하이브리드 방식도 가능하지만 복잡합니다.

Q: 여러 프로세스가 같은 파일을 동시에 순차 읽기하면?

각 프로세스는 독립적인 file_ra_state를 가지므로 각자의 readahead 상태를 유지합니다. 장점: 각 프로세스가 다른 속도로 읽어도 개별 최적화. 단점: 같은 범위를 중복 readahead할 수 있어 메모리 낭비. 다만 Page Cache에 이미 있는 페이지는 다시 읽지 않으므로 실제 디스크 I/O는 중복되지 않습니다.

Q: read_ahead_kb를 매우 크게 설정하면 (예: 16MB)?

몇 가지 부작용이 있습니다:

메모리 낭비: 파일 끝부분이나 패턴 변경 시 불필요한 대량 I/O
I/O 지연 증가: 첫 번째 동기 readahead가 16MB이므로 첫 read() 응답 시간 증가
다른 I/O 방해: 큰 readahead I/O가 디바이스 큐를 점유하여 다른 프로세스의 I/O 지연
캐시 오염: 사용하지 않는 readahead 페이지가 유용한 캐시를 밀어냄

일반적으로 2048KB(2MB) 이상은 특수 워크로드(대용량 순차 스트리밍)에서만 권장됩니다.

Swap Readahead

디스크로 스왑(Swap) 아웃된 anonymous 페이지에도 readahead가 적용됩니다. swap readahead는 파일 readahead와는 다른 메커니즘을 사용합니다.

/* mm/swap_state.c - swap readahead */
struct folio *swap_cluster_readahead(
    swp_entry_t entry, gfp_t gfp_mask,
    struct vm_fault *vmf)
{
    struct swap_info_struct *si = swp_swap_info(entry);
    unsigned long offset = swp_offset(entry);
    unsigned long mask;
    struct swap_cluster_info *ci;

    /* page-cluster 파라미터로 readahead 크기 결정
     * 기본값 3 → 2^3 = 8 pages = 32KB */
    mask = (1UL << page_cluster) - 1;
    unsigned long start = offset & ~mask;
    unsigned long end = start + mask + 1;

    /* 클러스터 내 연속 swap entry를 한 번에 읽기 */
    for (unsigned long i = start; i < end; i++) {
        if (swap_entry_free(si, i))
            continue;
        __read_swap_cache_async(
            swp_entry(swp_type(entry), i),
            gfp_mask, NULL, NULL, NULL);
    }

    /* 요청된 페이지 반환 */
    return __read_swap_cache_async(entry,
                                   gfp_mask, vmf->vma,
                                   vmf->address, NULL);
}

항목	File Readahead	Swap Readahead	VMA-based Swap RA
대상	파일 데이터	anonymous 페이지 (swap)	VMA 내 순차 접근
크기 결정	file_ra_state 적응형	vm.page-cluster (고정)	VMA 순차 감지 적응형
기본 크기	128KB (동적 증가)	32KB (2^3 pages, 고정)	8~256 pages (적응형)
트리거	read()/mmap fault	swap fault	swap fault + VMA hint
설정	read_ahead_kb	vm.page-cluster	자동 (커널 5.14+)
소스	mm/readahead.c	mm/swap_state.c	mm/swap_state.c

# Swap readahead 설정
cat /proc/sys/vm/page-cluster
# 3  (기본값: 2^3 = 8 pages = 32KB)

# SSD → 줄이거나 0으로 (랜덤 읽기 빠름)
echo 0 > /proc/sys/vm/page-cluster

# HDD → 기본값 유지 또는 증가
echo 4 > /proc/sys/vm/page-cluster  # 64KB

# zram/zswap → 0 (이미 메모리 내 압축)
echo 0 > /proc/sys/vm/page-cluster

VMA-based Swap Readahead (커널 5.14+)

전통적인 swap readahead는 swap 장치의 물리 오프셋(Offset) 기반이었으나, 5.14부터 VMA 기반 swap readahead가 도입되었습니다. 이는 프로세스의 가상 주소 공간(Address Space)에서 순차 접근 패턴을 감지하여 readahead합니다. SSD에서 물리 연속성이 중요하지 않으므로 VMA 기반이 더 효과적입니다.

Readahead 프로그래밍 패턴 요약

readahead를 활용하는 주요 프로그래밍 패턴을 요약합니다.

패턴	API 조합	사용 사례	핵심 코드
순차 읽기 가속	fadvise(SEQUENTIAL)	로그 분석, 스캔	`posix_fadvise(fd, 0, 0, FADV_SEQUENTIAL)`
랜덤 읽기 보호	fadvise(RANDOM)	DB 인덱스 스캔	`posix_fadvise(fd, 0, 0, FADV_RANDOM)`
사전 로딩	fadvise(WILLNEED) / readahead()	게임 레벨, 스트리밍	`posix_fadvise(fd, off, len, FADV_WILLNEED)`
캐시 정리	fadvise(DONTNEED)	백업 후, 일회성 처리	`posix_fadvise(fd, 0, 0, FADV_DONTNEED)`
mmap 순차	madvise(SEQUENTIAL)	큰 파일 mmap 스캔	`madvise(addr, len, MADV_SEQUENTIAL)`
mmap 사전 로드	madvise(WILLNEED)	공유 라이브러리(Shared Library) 프리로드	`madvise(addr, len, MADV_WILLNEED)`
파이프라인	io_uring + DIO	고성능 스트리밍	`io_uring_prep_read(sqe, fd, buf, sz, off)`
제로카피 서빙	sendfile + fadvise	정적 웹 서버	`sendfile(client_fd, file_fd, &off, sz)`

Readahead 안티패턴

readahead 관련 흔한 실수와 최적이 아닌 패턴들입니다.

안티패턴	문제	올바른 접근
모든 디바이스에 큰 readahead 설정	랜덤 워크로드에서 캐시 오염	워크로드별 개별 설정
O_DIRECT + fadvise(SEQUENTIAL)	DIO는 Page Cache 우회하므로 효과 없음	io_uring으로 수동 prefetch
작은 read() + 큰 readahead	read(fd, buf, 1)은 매번 1바이트 시스템콜	적절한 버퍼 크기 사용 (8-128KB)
WILLNEED 후 즉시 read	WILLNEED는 비동기이므로 즉시 ready 아님	미리 호출하고 다른 작업 후 read
DONTNEED를 메모리 해제로 사용	dirty 페이지는 먼저 write 필요	dirty 데이터는 sync 후 DONTNEED
lseek 빈번한 파일에 SEQUENTIAL	seek마다 readahead 리셋	NORMAL 또는 WILLNEED 사용
fadvise 없이 큰 파일 mmap	기본 readahead가 비효율적	접근 패턴에 맞는 madvise 설정

성능 측정 없이 readahead 튜닝하지 마세요

readahead 설정은 항상 벤치마크 기반으로 결정해야 합니다. 직감이나 이론적 계산만으로는 최적값을 찾을 수 없습니다. 반드시 실제 워크로드를 대상으로 /proc/vmstat의 readahead 카운터, iostat의 throughput, perf의 cache hit rate를 측정한 후 설정을 변경하세요.

다중 스트림 Readahead

하나의 프로세스가 여러 파일을 동시에 순차 읽기하는 경우, 각 파일은 독립적인 readahead 상태를 유지합니다.

/* 다중 파일 동시 순차 읽기 최적화 */
#include <fcntl.h>
#include <poll.h>

#define MAX_STREAMS 16
#define BUF_SIZE    (256 * 1024)

struct read_stream {
    int fd;
    off_t offset;
    off_t size;
    char buf[BUF_SIZE];
};

void multi_stream_read(const char *files[],
                        int nfiles)
{
    struct read_stream streams[MAX_STREAMS];

    /* 모든 스트림 초기화 */
    for (int i = 0; i < nfiles; i++) {
        streams[i].fd = open(files[i], O_RDONLY);
        struct stat st;
        fstat(streams[i].fd, &st);
        streams[i].size = st.st_size;
        streams[i].offset = 0;

        /* 각 파일에 순차 읽기 힌트 */
        posix_fadvise(streams[i].fd, 0, 0,
                      POSIX_FADV_SEQUENTIAL);

        /* 첫 256KB 사전 로드 */
        posix_fadvise(streams[i].fd, 0, BUF_SIZE,
                      POSIX_FADV_WILLNEED);
    }

    /* 라운드 로빈으로 읽기 */
    int active = nfiles;
    while (active > 0) {
        for (int i = 0; i < nfiles; i++) {
            if (streams[i].offset >= streams[i].size)
                continue;

            ssize_t n = pread(streams[i].fd,
                              streams[i].buf, BUF_SIZE,
                              streams[i].offset);
            if (n <= 0) {
                active--;
                continue;
            }

            process_stream(i, streams[i].buf, n);
            streams[i].offset += n;

            /* 다음 청크 prefetch */
            if (streams[i].offset + BUF_SIZE <
                streams[i].size) {
                posix_fadvise(streams[i].fd,
                    streams[i].offset + BUF_SIZE,
                    BUF_SIZE, POSIX_FADV_WILLNEED);
            }
        }
    }

    /* 정리 */
    for (int i = 0; i < nfiles; i++) {
        posix_fadvise(streams[i].fd, 0, 0,
                      POSIX_FADV_DONTNEED);
        close(streams[i].fd);
    }
}

다중 스트림의 메모리 영향

N개의 순차 스트림이 동시에 활성화되면 readahead가 사용하는 Page Cache는 N × read_ahead_kb × 파이프라인 깊이입니다. 100개 스트림 × 256KB = 25MB의 readahead 캐시가 필요합니다. 스트림 수가 많으면 개별 스트림의 readahead 크기를 줄이거나, 애플리케이션에서 동시 스트림 수를 제한해야 합니다.

성능 카운터 참조

readahead 모니터링에 사용되는 주요 성능 카운터를 정리합니다.

카운터	소스	의미	높을 때 의미	대응
pgpgin	/proc/vmstat	디스크에서 읽은 페이지 수	I/O 빈번	readahead 크기 확인
pgpgout	/proc/vmstat	디스크에 쓴 페이지 수	dirty writeback 활발	dirty ratio 조정
pgfault	/proc/vmstat	총 page fault	mmap 접근 빈번	madvise 힌트 확인
pgmajfault	/proc/vmstat	major fault (디스크 I/O)	readahead 실패	readahead 크기 증가
workingset_refault_file	/proc/vmstat	file 페이지 재접근	캐시 스래싱	메모리 증설/RA 축소
workingset_activate_file	/proc/vmstat	refault → active 승격	hot 페이지 경쟁	작업 세트 분석
nr_file_pages	/proc/vmstat	file-backed 페이지 수	캐시 사용 높음	정상 (캐시 활용)
nr_inactive_file	/proc/vmstat	inactive file LRU 크기	readahead 대기 중	접근 빈도 확인
nr_active_file	/proc/vmstat	active file LRU 크기	hot 캐시	정상 (자주 접근)

# 실시간 readahead 효율 대시보드
watch -n 1 'echo "=== Readahead Efficiency ==="; \
  awk "/pgpgin|pgmajfault|workingset_refault_file|nr_file_pages|nr_inactive_file|nr_active_file/ \
  {printf \"%-30s %12s\n\", \$1, \$2}" /proc/vmstat; \
  echo ""; \
  echo "=== Per-device Readahead ==="; \
  for d in /sys/block/*/queue/read_ahead_kb; do \
    echo "$(dirname $(dirname $d) | xargs basename): $(cat $d) KB"; \
  done'

커널 6.12~6.14 Readahead 주요 변경

mapping_set_folio_order_range() — 최소/최대 폴리오 차수 범위 설정 (6.13)

커널 6.13에서 mapping_set_folio_order_range() 함수가 추가되어, 주소 공간(address space)별로 최소 폴리오 차수(min folio order)와 최대 폴리오 차수(max folio order)를 동시에 지정할 수 있게 되었습니다. 기존 mapping_set_folio_min_order()는 하한만 설정했으나, 범위 지정으로 파일시스템이 readahead 폴리오 크기를 더욱 세밀하게 제어할 수 있습니다.

커널 6.13부터: 파일시스템이 address_space->flags를 통해 min/max 폴리오 차수 범위를 지정합니다. readahead 경로(do_page_cache_ra())는 이 범위 안에서 가능한 가장 큰 폴리오를 할당해 I/O 요청을 통합합니다.

/* include/linux/pagemap.h (6.13+) */
void mapping_set_folio_order_range(struct address_space *mapping,
                                   unsigned int min,
                                   unsigned int max);

/* 사용 예: XFS, 블록 크기 = 16K → 최소 order 2 (4K*4=16K), 최대 order 9 (PMD) */
mapping_set_folio_order_range(mapping, 2, 9);

tmpfs/shmem 대형 폴리오 readahead (6.14)

커널 6.14에서 tmpfs(shmem)가 대형 폴리오를 지원합니다. 이전에는 tmpfs read 경로가 항상 4K 페이지 단위로 동작했으나, 이제 충분히 큰 read()나 fallocate() 요청이 들어오면 PMD 크기(x86_64에서 2 MB)까지의 대형 폴리오가 할당됩니다.

성능 향상: 임시 파일을 대량 읽는 작업(예: 빌드 시스템 캐시, tmpfs 기반 RAMDisk 처리)에서 readahead 폴리오 횟수와 TLB 미스가 감소합니다.
읽기 경로: shmem_read_folio_gfp()가 요청 크기와 mapping_min_folio_order에 따라 대형 폴리오를 할당합니다.
mmap 연동: tmpfs 파일을 mmap으로 매핑하면 대형 폴리오가 PTE 다중 매핑에 활용되어 THP와 유사한 효과를 냅니다.

커널 6.14부터: tmpfs에 대형 폴리오가 적용됩니다. /proc/meminfo의 AnonHugePages 및 ShmemHugePages 항목으로 활성화 여부를 확인할 수 있습니다. tmpfs 대형 폴리오 허용 여부는 마운트 옵션 huge= 또는 /sys/kernel/mm/transparent_hugepage/shmem_enabled sysfs 인터페이스로 제어합니다.

zswap 대형 폴리오 스왑아웃 (6.13)

커널 6.13에서 zswap이 대형 폴리오 스왑아웃을 지원합니다. 이전에는 zswap_store()가 단일 페이지 단위로만 동작하여 대형 폴리오를 스왑아웃할 때 분할하는 오버헤드가 있었으나, 이제 폴리오 전체를 하나의 압축 단위로 처리합니다. readahead와 연관하여, swap-in 시 swap_cluster_readahead()가 대형 폴리오 단위로 미리 읽어 swap 접근 시 TLB 친화적인 결과를 얻습니다.

커널 6.13부터: zswap과 zram 경로가 대형 폴리오를 인식합니다. /proc/vmstat의 zswpout/zswpin 카운터가 폴리오 단위로 갱신됩니다.

폴리오 분할 (split to lower order) 지원 (6.13)

커널 6.13에서 대형 폴리오를 더 낮은 차수의 폴리오로 분할하는 기능(folio_split())이 추가되었습니다. readahead가 대형 폴리오를 미리 할당했으나 일부만 접근된 경우, 또는 truncate·punch_hole 시 폴리오 경계에 맞지 않는 범위를 처리할 때, 불필요한 데이터를 보유한 큰 폴리오를 작은 단위로 분할하여 메모리 회수(Memory Reclaim) 효율을 높입니다.

커널 6.13부터: folio_split(folio, new_order, page, list)를 사용해 대형 폴리오를 new_order 크기로 분할합니다. readahead로 가져온 폴리오 중 일부만 사용되는 패턴이 있으면, workingset refault 통계를 통해 분할 효과를 측정할 수 있습니다.

Readahead 발전 방향

Linux readahead 서브시스템의 진행 중인 개선과 미래 방향입니다.

방향	상태	기대 효과	관련 패치(Patch)/논의
ML 기반 readahead 예측	연구 단계	비순차 패턴도 예측 가능	Google readahead ML 논문
per-VMA readahead 상태	진행 중	mmap 경로 readahead 개선	mm/filemap.c 리팩토링
NUMA-aware readahead	부분 구현	올바른 NUMA 노드에 페이지 할당	mpol + readahead 연동
io_uring native readahead	기본 지원	시스템 콜 없는 readahead 제어	IORING_OP_FADVISE (6.0+)
netfs 통합 readahead	6.4+ 통합	NFS/CIFS/9P 코드 공유	netfs library (David Howells)
multi-actuator 디스크 RA	초기 단계	병렬 readahead 스트림	multi-queue 연동
CXL 메모리 tier readahead	설계 단계	적절한 메모리 계층에 배치	tiered memory readahead

참고 자료 및 출처

본 문서의 내용은 Linux 커널 소스 코드, 공식 문서, 개발자 논문을 기반으로 작성되었습니다.

핵심 소스 코드 경로

mm/readahead.c — readahead 핵심 알고리즘 (ondemand_readahead, do_page_cache_ra)
mm/filemap.c — Page Cache 연동, mmap readahead (filemap_fault)
mm/workingset.c — 스래싱 감지 (workingset_refault, shadow entry)
mm/swap_state.c — swap readahead (swap_cluster_readahead)
include/linux/pagemap.h — readahead_control, readahead 매크로(Macro)
include/linux/fs.h — file_ra_state 구조체

docs.kernel.org/filesystems/vfs.html — VFS 개요 및 address_space 설명
LWN: Fengguang Wu's adaptive readahead — on-demand readahead 설계 논문
LWN: Large folios for the page cache — folio 기반 readahead 전환
LWN: Readahead and page-cache interactions — readahead와 Page Cache 상호작용
소스 코드: mm/readahead.c, mm/filemap.c, mm/workingset.c
커널 문서: Documentation/admin-guide/mm/
Mel Gorman, "Understanding the Linux Virtual Memory Manager" — 메모리 관리(Memory Management) 참고서
mm/readahead.c — Bootlin Elixir — readahead 핵심 알고리즘 소스 코드입니다.
mm/filemap.c — Bootlin Elixir — Page Cache 파일 매핑과 readahead 연동 소스 코드입니다.
mm/workingset.c — Bootlin Elixir — 워킹셋 감지와 스래싱 판별 구현체입니다.
include/linux/pagemap.h — Bootlin Elixir — readahead_control 구조체 및 관련 매크로 정의입니다.
docs.kernel.org — Memory Management — 커널 메모리 관리 공식 문서 인덱스입니다.
LWN: On-demand readahead — Fengguang Wu의 on-demand readahead 패치 분석 기사입니다.
LWN: Readahead: the documentation I wanted to read — readahead 내부 동작에 대한 상세 해설입니다.
man readahead(2) — readahead 시스템 콜 매뉴얼 페이지입니다.
man posix_fadvise(2) — POSIX_FADV_SEQUENTIAL 등 readahead 힌트 매뉴얼입니다.
man madvise(2) — MADV_SEQUENTIAL, MADV_WILLNEED 등 readahead 관련 힌트 매뉴얼입니다.