Scatter/Gather I/O

Scatter/Gather I/O는 물리적으로 비연속적인 메모리 영역을 하나의 논리적 전송 단위로 묶어 DMA 전송, 블록 I/O, 네트워크 패킷(Packet) 처리, 사용자 공간(User Space) 벡터 I/O 등 리눅스 커널 전반에서 핵심적으로 활용되는 메커니즘입니다. scatterlist 구조체(Struct)와 sg_table 관리 API부터 DMA 매핑(Mapping), IOMMU 통합, 블록 계층 bio_vec, 네트워크 스택(Network Stack) skb_frag_t, NVMe SGL/PRP, readv/writev, splice 제로 카피, Crypto API 연동, 드라이버 구현 패턴, 성능 최적화와 디버깅(Debugging)까지 전 영역을 상세히 다룹니다.

관련 문서: DMA 기초는 DMA, IOMMU 상세는 IOMMU, 블록 I/O 계층은 Block I/O, 네트워크 버퍼(Buffer)는 sk_buff, NVMe 상세는 NVMe, io_uring은 io_uring 페이지(Page)를 참조하십시오.

커널 버전: 이 문서는 Linux 6.x 안정 커널 기준으로 작성되었습니다. API 변경 사항은 각 섹션에서 별도로 표기합니다.

전제 조건: DMA와 메모리 관리(Memory Management) 문서를 먼저 읽으세요. Scatter/Gather I/O는 물리 메모리(Physical Memory) 구조, 페이지 할당, DMA 주소 변환(Address Translation)에 대한 이해가 필요합니다.

일상 비유: Scatter/Gather는 택배 묶음 배송과 비슷합니다. 택배 기사가 여러 건물(비연속 주소)에 있는 물건을 한 번의 트럭 운행으로 모두 수거(Gather)하거나, 한 트럭 분량의 물건을 여러 건물에 나눠 배달(Scatter)합니다. 각 건물의 주소와 물건 크기를 목록으로 만들어 기사에게 전달하면, 기사(DMA 엔진)는 목록만 보고 독립적으로 작업을 완료합니다.

핵심 요약

Scatter/Gather -- 비연속 메모리 조각들을 하나의 논리적 버퍼로 묶어 한 번의 DMA 전송으로 처리하는 기법
scatterlist -- 페이지, 오프셋(Offset), 길이로 메모리 조각 하나를 기술하는 커널 구조체
sg_table -- scatterlist 배열과 메타데이터를 관리하는 컨테이너(Container) 구조체
DMA 매핑 -- dma_map_sg()로 scatterlist를 디바이스가 접근 가능한 DMA 주소로 변환
IOMMU 병합 -- 물리적으로 비연속인 여러 세그먼트를 IOMMU가 하나의 연속 DMA 주소로 병합 가능

단계별 이해

메모리 단편화(Fragmentation) 인식
커널이 오래 실행되면 연속된 큰 메모리를 할당하기 어렵습니다. 대신 흩어진 페이지들을 모아서 사용합니다.
SG 리스트 구성
sg_alloc_table()로 테이블을 할당하고, 각 엔트리에 페이지와 오프셋, 길이를 설정합니다.
DMA 매핑 수행
dma_map_sgtable()으로 모든 엔트리를 한 번에 DMA 주소로 변환합니다. IOMMU가 있으면 인접한 엔트리를 병합합니다.
디바이스 전송
디바이스에 DMA 주소 목록(디스크립터 링 등)을 전달하면, 디바이스가 독립적으로 모든 조각을 순회하며 데이터를 전송합니다.
매핑 해제 및 정리
전송 완료 후 dma_unmap_sgtable()로 매핑을 해제하고, sg_free_table()로 테이블을 반환합니다.

Scatter/Gather 개요

Scatter/Gather I/O(이하 SG I/O)는 물리적으로 연속되지 않은 여러 메모리 영역을 단일 I/O 작업으로 처리하는 기법입니다. "Scatter"는 하나의 데이터 소스를 여러 대상 버퍼에 분산하여 기록하는 것이고, "Gather"는 여러 소스 버퍼의 데이터를 모아 하나의 대상으로 전송하는 것입니다.

왜 Scatter/Gather가 필요한가

운영체제가 오래 실행되면 물리 메모리는 점차 단편화됩니다. 대규모 연속 메모리 할당은 실패할 확률이 높아지므로, 커널은 흩어진 페이지 단위의 메모리를 활용해야 합니다. 만약 SG I/O가 없다면 다음과 같은 비효율이 발생합니다:

방식	문제점	성능 영향
바운스 버퍼 복사	비연속 페이지를 연속 버퍼에 복사 후 DMA	CPU 시간 낭비, 메모리 대역폭(Bandwidth) 2배 소모
페이지별 개별 DMA	각 페이지마다 별도 DMA 요청 발행	DMA 설정 오버헤드(Overhead) N배, 인터럽트(Interrupt) 폭풍
연속 메모리 강제 할당	CMA/대형 order 할당 시도	단편화 시 할당 실패, OOM 위험
Scatter/Gather DMA	비연속 페이지 목록을 하드웨어에 전달	복사 없음, 단일 DMA 전송, 최소 오버헤드

SG I/O가 활용되는 커널 하위 시스템

서브시스템	SG 표현	핵심 구조체	용도
DMA 매핑 계층	`scatterlist` / `sg_table`	`struct scatterlist`	디바이스 DMA 주소 매핑
블록 I/O	`bio_vec`	`struct bio`	디스크 I/O 요청의 페이지 벡터
네트워크	`skb_frag_t`	`struct sk_buff`	패킷 paged data, GSO/GRO
NVMe	SGL / PRP	`struct nvme_sgl_desc`	NVMe 명령 데이터 전송
사용자 공간 벡터 I/O	`iovec` / `iov_iter`	`struct iov_iter`	readv/writev, splice, sendmsg
Crypto API	`scatterlist`	`struct scatterlist`	암호화(Encryption)/해시(Hash) 입출력(I/O) 버퍼
DRM/GPU	`sg_table`	`struct sg_table`	GEM 객체 페이지 매핑

커널 소스 트리 위치

경로	역할
`include/linux/scatterlist.h`	scatterlist, sg_table 정의 및 인라인 헬퍼
`lib/scatterlist.c`	sg_alloc_table, sg_free_table, sg_copy 등 구현
`include/linux/dma-mapping.h`	dma_map_sg, dma_unmap_sg 등 DMA SG API
`kernel/dma/mapping.c`	DMA 매핑 코어 구현
`include/linux/uio.h`	iovec, iov_iter 정의
`lib/iov_iter.c`	iov_iter 순회/복사 구현
`include/linux/bio.h`	bio_vec, bio 구조체 정의
`fs/splice.c`	splice, tee, vmsplice 구현

핵심 개념: 비연속 메모리 전송

리눅스 커널에서 물리 메모리는 페이지(일반적으로 4KB) 단위로 관리됩니다. 버디 할당자(buddy allocator)가 연속된 물리 페이지를 반환하지만, 시스템이 오래 실행될수록 고차(high-order) 할당은 점점 어려워집니다. Scatter/Gather는 이 문제를 근본적으로 해결합니다.

물리 메모리 단편화와 SG 전송

64KB 데이터를 디바이스에 전송해야 하는 상황을 가정합니다. 물리 메모리가 단편화되어 16개의 연속 페이지(order-4)를 얻을 수 없다면, 커널은 4KB 페이지 16개를 개별적으로 할당합니다. 이 16개 페이지는 물리 주소(Physical Address)가 비연속적이지만, SG 리스트로 묶으면 하드웨어가 한 번의 DMA 작업으로 모두 전송할 수 있습니다.

연속 vs 비연속 메모리 DMA 비교

특성	연속 메모리 DMA	Scatter/Gather DMA
메모리 요구	물리적 연속 버퍼 필수	비연속 페이지 허용
할당 실패 확률	높음 (고차 할당)	매우 낮음 (페이지 단위)
DMA API	`dma_map_single()`	`dma_map_sg()`
하드웨어 요구	기본 DMA	SG 지원 DMA 엔진
전송 효율	단일 전송	단일 전송 (SG 목록 전체)
CPU 복사	바운스 버퍼 시 필요	불필요 (제로 카피)
IOMMU 활용	단일 매핑	병합 매핑으로 세그먼트 수 감소

Gather 방향과 Scatter 방향

용어 사용에 주의가 필요합니다. "Gather"는 여러 소스로부터 데이터를 수집하는 방향이고, "Scatter"는 하나의 소스에서 여러 대상으로 분배하는 방향입니다. DMA에서는 양 방향 모두 같은 scatterlist 구조체를 사용하며, DMA_TO_DEVICE(Gather)와 DMA_FROM_DEVICE(Scatter)로 방향만 구분합니다.

scatterlist 구조체

struct scatterlist은 리눅스 커널에서 SG I/O의 기본 빌딩 블록입니다. 각 엔트리는 하나의 메모리 조각(페이지 + 오프셋 + 길이)을 기술하며, DMA 매핑 후에는 DMA 주소와 DMA 길이 필드가 추가로 설정됩니다.

구조체 정의

/* include/linux/scatterlist.h */
struct scatterlist {
    unsigned long   page_link;    /* 페이지 포인터 + 플래그 (하위 2비트) */
    unsigned int    offset;       /* 페이지 내 시작 오프셋 */
    unsigned int    length;       /* 바이트 단위 데이터 길이 */
    dma_addr_t      dma_address;  /* DMA 매핑 후 디바이스 주소 */
#ifdef CONFIG_NEED_SG_DMA_LENGTH
    unsigned int    dma_length;   /* DMA 매핑 후 길이 (병합 시 length와 다름) */
#endif
#ifdef CONFIG_NEED_SG_DMA_FLAGS
    unsigned int    dma_flags;    /* DMA 플래그 (6.0+) */
#endif
};

코드 설명

3행 page_link는 struct page * 포인터의 상위 비트와 하위 2비트 플래그를 합친 값입니다. 비트 0(SG_CHAIN)은 체이닝 마커, 비트 1(SG_END)은 리스트 종료 마커로 사용됩니다.
4행 페이지 내에서 데이터가 시작되는 바이트 오프셋입니다. 0부터 PAGE_SIZE - 1까지 가능합니다.
5행 이 scatterlist 엔트리가 기술하는 데이터의 바이트 길이입니다. 페이지 경계를 넘어갈 수 없습니다(단일 페이지 기준).
6행 dma_map_sg() 호출 후 설정되는 디바이스가 볼 수 있는 DMA 버스(Bus) 주소입니다.
8행 IOMMU가 여러 SG 엔트리를 병합하면 DMA 길이가 원래 length와 달라지므로 별도 필드가 필요합니다.

page_link 필드의 비트 레이아웃

page_link 필드는 단순 포인터가 아니라, 하위 2비트를 플래그로 활용합니다. struct page는 최소 4바이트 정렬이므로 하위 2비트가 항상 0이라는 점을 이용합니다.

비트	매크로(Macro)	값	의미
비트 0	`SG_CHAIN`	`0x01`	이 엔트리는 다음 scatterlist 배열을 가리키는 체인 포인터
비트 1	`SG_END`	`0x02`	이 엔트리가 scatterlist의 마지막 엔트리
비트 2~63	-	-	실제 `struct page *` 포인터 (마스킹으로 추출)

체이닝 메커니즘

커널은 대규모 SG 리스트를 위해 체이닝(chaining)을 지원합니다. 하나의 scatterlist 배열이 가득 차면 마지막 엔트리에 SG_CHAIN 플래그를 설정하고 page_link에 다음 scatterlist 배열의 주소를 저장합니다. 이를 통해 연결 리스트(Linked List)처럼 여러 배열을 이어 붙일 수 있으며, SG_ALLOC_SIZE (기본 PAGE_SIZE) 크기의 배열을 여러 개 연결하여 수천 개의 엔트리를 관리합니다.

체이닝 핵심 함수 구현 분석

체이닝 메커니즘의 핵심은 sg_chain(), sg_is_chain(), sg_chain_ptr() 세 함수입니다. 이 함수들이 page_link의 하위 비트를 활용하여 연결 리스트를 구성하는 방식을 소스 레벨에서 분석합니다.

/* include/linux/scatterlist.h — 체이닝 핵심 함수 */

/* SG_CHAIN 비트 확인 */
static inline bool sg_is_chain(struct scatterlist *sg)
{
    return (sg->page_link & SG_CHAIN);  /* 비트 0 확인 */
}

/* SG_END 비트 확인 */
static inline bool sg_is_last(struct scatterlist *sg)
{
    return (sg->page_link & SG_END);    /* 비트 1 확인 */
}

/* 체인 엔트리에서 다음 배열 포인터 추출 */
static inline struct scatterlist *sg_chain_ptr(
    struct scatterlist *sg)
{
    return (struct scatterlist *)
        (sg->page_link & ~(SG_CHAIN | SG_END));
}

/* 두 scatterlist 배열을 체이닝으로 연결 */
static inline void sg_chain(
    struct scatterlist *prv,   /* 이전 배열 */
    unsigned int prv_nents,    /* 이전 배열 엔트리 수 */
    struct scatterlist *sgl)   /* 다음 배열 */
{
    /* 이전 배열의 마지막 엔트리 위치 */
    prv[prv_nents - 1].offset = 0;
    prv[prv_nents - 1].length = 0;
    prv[prv_nents - 1].page_link =
        ((unsigned long)sgl | SG_CHAIN)
        & ~SG_END;  /* SG_END 비트 해제 */
}

/* SG 엔트리에 종료 마커 설정 */
static inline void sg_mark_end(
    struct scatterlist *sg)
{
    sg->page_link |= SG_END;
    sg->page_link &= ~SG_CHAIN;
}

코드 설명

4-7행 sg_is_chain()은 page_link의 비트 0(SG_CHAIN = 0x01)을 검사합니다. 이 비트가 1이면 해당 엔트리는 데이터가 아니라 다음 scatterlist 배열을 가리키는 체인 포인터입니다.
10-13행 sg_is_last()는 비트 1(SG_END = 0x02)을 검사합니다. 이 비트가 1이면 전체 SG 리스트의 마지막 엔트리로, sg_next()가 NULL을 반환합니다.
16-20행 sg_chain_ptr()은 하위 2비트(SG_CHAIN | SG_END = 0x03)를 마스킹하여 순수한 포인터 값을 추출합니다. struct page *가 아니라 다음 struct scatterlist * 배열 주소입니다.
23-33행 sg_chain()은 이전 배열의 마지막 엔트리를 체인 엔트리로 변환합니다. offset과 length를 0으로 초기화하고, page_link에 다음 배열 주소 + SG_CHAIN 비트를 설정합니다. 동시에 SG_END 비트를 해제하여 순회가 계속되도록 합니다.
36-40행 sg_mark_end()는 SG_END 비트를 설정하고 SG_CHAIN 비트를 해제합니다. 이 두 비트는 상호 배타적이어야 합니다. 하나의 엔트리가 체인 포인터이면서 동시에 종료 마커일 수는 없습니다.

설계 핵심: struct page는 최소 sizeof(unsigned long)(보통 8바이트) 정렬이므로 하위 2비트가 항상 0입니다. 이 점을 활용하여 단일 unsigned long 필드에 포인터와 2개 플래그를 동시에 저장합니다. 이 기법은 커널 전반에서 태그드 포인터(tagged pointer)로 널리 사용됩니다 (struct page의 compound_head, 레드-블랙 트리의 부모 노드 등).

핵심 인라인 헬퍼 함수

/* 페이지 포인터 추출 (하위 2비트 마스킹) */
static inline struct page *sg_page(struct scatterlist *sg)
{
    return (struct page *)((sg->page_link) & ~(0x3));
}

/* 페이지 설정 */
static inline void sg_set_page(struct scatterlist *sg,
                               struct page *page,
                               unsigned int len,
                               unsigned int offset)
{
    sg->page_link = (unsigned long)page | (sg->page_link & 0x3);
    sg->offset = offset;
    sg->length = len;
}

/* 커널 가상 주소로 직접 설정 */
static inline void sg_set_buf(struct scatterlist *sg,
                              const void *buf,
                              unsigned int buflen)
{
    sg_set_page(sg, virt_to_page(buf), buflen,
                offset_in_page(buf));
}

/* 가상 주소 변환 */
static inline void *sg_virt(struct scatterlist *sg)
{
    return page_address(sg_page(sg)) + sg->offset;
}

/* DMA 주소 접근 */
#define sg_dma_address(sg)    ((sg)->dma_address)
#define sg_dma_len(sg)        ((sg)->dma_length)

코드 설명

2-5행 sg_page()는 page_link의 하위 2비트를 마스킹하여 실제 struct page * 포인터를 추출합니다.
8-15행 sg_set_page()는 기존 플래그(SG_CHAIN, SG_END)를 보존하면서 페이지, 길이, 오프셋을 설정합니다.
18-23행 sg_set_buf()는 커널 가상 주소(Virtual Address)를 페이지+오프셋으로 변환하여 설정하는 편의 함수입니다. kmalloc 버퍼 등에 유용합니다.
26-29행 sg_virt()는 scatterlist에서 커널 가상 주소를 역으로 계산합니다. lowmem 페이지에서만 안전합니다.
32-33행 sg_dma_address()와 sg_dma_len()은 DMA 매핑 후에만 유효한 값을 반환합니다. 매핑 전에는 사용하면 안 됩니다.

sg_table과 SG 관리 API

struct sg_table은 scatterlist 배열과 관련 메타데이터를 하나로 묶는 컨테이너입니다. 체이닝된 여러 scatterlist 배열을 투명하게 관리하며, DMA 매핑 전후의 엔트리 수를 별도로 추적합니다.

sg_table 구조체

/* include/linux/scatterlist.h */
struct sg_table {
    struct scatterlist *sgl;      /* 첫 번째 scatterlist 엔트리 포인터 */
    unsigned int       nents;     /* 실제 scatterlist 엔트리 수 */
    unsigned int       orig_nents;/* 원래 엔트리 수 (체인 포함하기 전) */
};

코드 설명

3행 sgl은 체이닝된 scatterlist의 첫 번째 엔트리를 가리킵니다. 이 포인터부터 순회를 시작합니다.
4행 nents는 DMA 매핑 후 실제 DMA 세그먼트 수입니다. IOMMU 병합으로 orig_nents보다 작을 수 있습니다.
5행 orig_nents는 DMA 매핑 전 원래 scatterlist 엔트리 수입니다. dma_unmap_sg() 호출 시 이 값을 전달합니다.

sg_alloc_table_from_pages와 자동 병합

sg_alloc_table_from_pages()는 페이지 배열을 받아 sg_table을 생성할 때 물리적으로 인접한 페이지를 자동으로 하나의 SG 엔트리로 병합합니다. 이를 통해 SG 엔트리 수를 최소화하여 DMA 디스크립터 오버헤드를 줄입니다. 6.x 커널에서는 __sg_alloc_table_from_pages()에 max_segment 파라미터가 추가되어 디바이스별 최대 세그먼트 크기 제한을 준수합니다.

SG 관리 API 총정리

함수	용도	반환/효과
`sg_alloc_table(sgt, nents, gfp)`	sg_table 할당 및 초기화	0 성공, 음수 오류. 체이닝 자동 처리
`sg_free_table(sgt)`	sg_table 해제	체이닝된 모든 배열 해제
`sg_alloc_table_from_pages(sgt, pages, n, off, size, max_seg, gfp)`	페이지 배열로부터 sg_table 생성	인접 페이지 자동 병합, 최대 세그먼트 크기 제한
`sg_init_table(sgl, nents)`	정적 scatterlist 배열 초기화	모든 엔트리 0으로 초기화, 마지막에 SG_END 설정
`sg_init_one(sgl, buf, buflen)`	단일 버퍼용 scatterlist 초기화	1개 엔트리의 scatterlist 설정
`sg_set_page(sg, page, len, off)`	개별 엔트리에 페이지 설정	플래그 보존하면서 page/len/off 설정
`sg_set_buf(sg, buf, buflen)`	개별 엔트리에 가상 주소 설정	virt_to_page + offset_in_page로 변환
`sg_mark_end(sg)`	엔트리를 마지막으로 표시	SG_END 비트 설정
`sg_unmark_end(sg)`	SG_END 표시 제거	리스트 확장 시 사용

SG 테이블 생성 전체 예제

/* 4개 페이지로 구성된 SG 테이블 생성 예제 */
struct sg_table sgt;
struct scatterlist *sg;
struct page *pages[4];
int i, ret;

/* 1. 페이지 할당 */
for (i = 0; i < 4; i++) {
    pages[i] = alloc_page(GFP_KERNEL);
    if (!pages[i])
        goto err_free_pages;
}

/* 2. SG 테이블 할당 (4개 엔트리) */
ret = sg_alloc_table(&sgt, 4, GFP_KERNEL);
if (ret)
    goto err_free_pages;

/* 3. 각 엔트리에 페이지 설정 */
for_each_sgtable_sg(&sgt, sg, i)
    sg_set_page(sg, pages[i], PAGE_SIZE, 0);

/* 4. DMA 매핑 */
ret = dma_map_sgtable(dev, &sgt, DMA_TO_DEVICE, 0);
if (ret)
    goto err_free_sgt;

/* 5. DMA 전송 수행... */
for_each_sgtable_dma_sg(&sgt, sg, i) {
    dma_addr_t addr = sg_dma_address(sg);
    unsigned int len = sg_dma_len(sg);
    /* 디바이스 디스크립터에 addr, len 설정 */
    setup_dma_descriptor(desc++, addr, len);
}

/* 6. 정리 */
dma_unmap_sgtable(dev, &sgt, DMA_TO_DEVICE, 0);
err_free_sgt:
sg_free_table(&sgt);
err_free_pages:
for (i = 0; i < 4; i++)
    if (pages[i])
        __free_page(pages[i]);

코드 설명

8-11행 4개의 개별 페이지를 할당합니다. 각 페이지는 물리적으로 비연속일 수 있습니다.
15행 sg_alloc_table()이 4개 엔트리의 scatterlist 배열을 할당하고 체이닝/종료 마커를 자동 설정합니다.
20-21행 for_each_sgtable_sg()로 원본 SG 엔트리를 순회하며 각각에 페이지를 설정합니다.
24행 dma_map_sgtable()은 모든 엔트리를 한 번에 DMA 매핑합니다. IOMMU가 인접 엔트리를 병합할 수 있어 DMA 세그먼트 수가 줄어들 수 있습니다.
29행 for_each_sgtable_dma_sg()는 DMA 매핑 후의 세그먼트를 순회합니다. 병합이 발생하면 원본보다 엔트리 수가 적습니다.
37행 DMA 매핑 해제 후 sg_free_table()로 SG 테이블을 해제하고, 페이지도 개별 반환합니다.

sg_alloc_table_from_pages 활용

/* 페이지 배열로부터 최적화된 SG 테이블 생성 */
struct sg_table sgt;
struct page **pages;
int num_pages = 256;  /* 1MB (256 x 4KB) */
int ret;

pages = kvmalloc_array(num_pages, sizeof(*pages), GFP_KERNEL);
if (!pages)
    return -ENOMEM;

/* 페이지 할당 (예: pin_user_pages 등) */
for (int i = 0; i < num_pages; i++)
    pages[i] = alloc_page(GFP_KERNEL);

/* 인접한 물리 페이지를 자동으로 병합하여 SG 엔트리 최소화 */
ret = sg_alloc_table_from_pages(&sgt, pages, num_pages,
                                0,           /* 시작 오프셋 */
                                (size_t)num_pages << PAGE_SHIFT,
                                GFP_KERNEL);
if (ret) {
    pr_err("SG table alloc failed: %d\n", ret);
    goto err;
}

/* 결과: 256 페이지가 물리적으로 연속이면 엔트리 1개,
   완전히 분산되면 최대 256개 엔트리 */
pr_info("orig_nents=%u (최대 %d에서 병합)\n",
        sgt.orig_nents, num_pages);

코드 설명

16행 sg_alloc_table_from_pages()는 인접한 물리 페이지를 자동 감지하여 하나의 SG 엔트리로 병합합니다. 256개 페이지가 전부 연속이면 엔트리 1개만 생성됩니다.
27행 orig_nents는 병합 후의 실제 SG 엔트리 수를 반영합니다. 물리 메모리 단편화 수준에 따라 달라집니다.

__sg_alloc_table_from_pages 인접 페이지 병합 구현 분석

__sg_alloc_table_from_pages()는 페이지 배열을 받아 물리적으로 인접한 페이지를 자동으로 병합하여 최소한의 SG 엔트리를 생성합니다. 이 병합 로직의 핵심 알고리즘을 분석합니다.

/* lib/scatterlist.c — 인접 페이지 병합 핵심 로직 (간략화) */
int __sg_alloc_table_from_pages(
    struct sg_table *sgt,
    struct page **pages,
    unsigned int n_pages,
    unsigned int offset,
    unsigned long size,
    unsigned int max_segment,
    struct scatterlist *prv,
    unsigned int left_pages,
    gfp_t gfp_mask)
{
    unsigned int chunks, cur_page, seg_len, i;
    struct scatterlist *s, *cur;

    /* 1단계: 병합 후 필요한 SG 엔트리 수 계산 */
    chunks = 1;
    seg_len = 0;
    for (i = 1; i < n_pages; i++) {
        seg_len += PAGE_SIZE;

        /* 현재 페이지가 이전 페이지와 물리적으로 연속인지 확인 */
        if (page_to_pfn(pages[i]) !=
            page_to_pfn(pages[i - 1]) + 1 ||
            seg_len >= max_segment) {
            /* 불연속이거나 max_segment 초과 → 새 엔트리 */
            chunks++;
            seg_len = 0;
        }
    }

    /* 2단계: 계산된 엔트리 수만큼 SG 테이블 할당 */
    if (!prv) {
        ret = sg_alloc_table(sgt, chunks, gfp_mask);
        if (ret)
            return ret;
    }

    /* 3단계: 인접 페이지를 병합하며 SG 엔트리 채우기 */
    cur = sgt->sgl;
    cur_page = 0;
    for (i = 0; i < chunks; i++, cur = sg_next(cur)) {
        unsigned int j, chunk_size;

        /* 연속 페이지 범위 계산 */
        for (j = cur_page + 1; j < n_pages; j++) {
            if (page_to_pfn(pages[j]) !=
                page_to_pfn(pages[j - 1]) + 1)
                break;
            if ((j - cur_page + 1) * PAGE_SIZE > max_segment)
                break;
        }

        chunk_size = min(size,
            (unsigned long)(j - cur_page) * PAGE_SIZE
            - offset);
        sg_set_page(cur, pages[cur_page], chunk_size, offset);

        size -= chunk_size;
        offset = 0;   /* 첫 엔트리만 오프셋 적용 */
        cur_page = j;
    }
    return 0;
}

코드 설명

17-30행 1단계 — 청크 수 계산: 전체 페이지 배열을 순회하며 PFN(Page Frame Number)이 연속인지 확인합니다. page_to_pfn(pages[i]) != page_to_pfn(pages[i-1]) + 1이면 물리적으로 불연속이므로 새 청크를 시작합니다. 또한 max_segment를 초과하면 디바이스 제한 때문에 분할합니다.
33-37행 2단계 — 테이블 할당: 병합 후 실제 필요한 엔트리 수(chunks)로 SG 테이블을 할당합니다. 256개 페이지가 전부 연속이면 chunks = 1이 되어 엔트리 1개만 할당됩니다.
40-61행 3단계 — 엔트리 채우기: 각 청크의 시작 페이지를 sg_set_page()로 설정하고, 길이는 연속 페이지 수 × PAGE_SIZE입니다. offset은 첫 엔트리에만 적용되고, 이후 엔트리는 페이지 시작(0)부터 시작합니다.
23-25행 PFN 연속성 검사: 핵심 비교식입니다. 인접 배열 인덱스의 PFN 차이가 정확히 1이면 같은 물리 영역에 연속으로 배치된 페이지입니다. 이 조건이 참인 동안 동일 SG 엔트리에 누적합니다.

병합 효과 예시: 시스템에 메모리 단편화가 적으면 alloc_pages(GFP_KERNEL, 0)로 256개 페이지를 할당해도 대부분 물리적으로 연속입니다. 이 경우 sg_alloc_table_from_pages()는 256개 페이지를 1~3개의 SG 엔트리로 병합하여 DMA 디스크립터 오버헤드를 극적으로 줄입니다. 반대로 메모리 단편화가 심한 시스템에서는 병합 효과가 감소합니다.

SG 리스트 순회

scatterlist 순회에는 여러 매크로가 제공됩니다. 커널 5.x 이후에는 for_each_sgtable_* 계열을 권장하며, 이전의 for_each_sg()도 여전히 사용 가능합니다.

순회 매크로 비교

매크로	순회 대상	용도
`for_each_sg(sglist, sg, nents, i)`	원본 SG 엔트리	레거시: 직접 sglist와 nents를 전달
`for_each_sgtable_sg(sgt, sg, i)`	원본 SG 엔트리	sg_table 기반: sgt->sgl, sgt->orig_nents 사용
`for_each_sgtable_dma_sg(sgt, sg, i)`	DMA 매핑된 세그먼트	DMA 매핑 후: sgt->sgl, sgt->nents 사용
`for_each_sgtable_page(sgt, piter, i)`	개별 페이지	각 SG 엔트리를 페이지 단위로 분해하여 순회
`for_each_sgtable_dma_page(sgt, diter, i)`	DMA 매핑된 페이지	DMA 세그먼트를 페이지 단위로 분해하여 순회

순회 매크로 내부 구현

/* for_each_sg: 기본 순회 매크로 */
#define for_each_sg(sglist, sg, nr, __i)   \
    for (__i = 0, sg = (sglist); __i < (nr); __i++, sg = sg_next(sg))

/* sg_next: 체이닝을 투명하게 처리하는 다음 엔트리 반환 */
static inline struct scatterlist *sg_next(struct scatterlist *sg)
{
    if (sg_is_last(sg))
        return NULL;

    sg++;

    if (sg_is_chain(sg))
        sg = sg_chain_ptr(sg);  /* 체인 포인터 따라감 */

    return sg;
}

/* sg_table 전용 매크로 (권장) */
#define for_each_sgtable_sg(sgt, sg, i) \
    for_each_sg((sgt)->sgl, sg, (sgt)->orig_nents, i)

#define for_each_sgtable_dma_sg(sgt, sg, i) \
    for_each_sg((sgt)->sgl, sg, (sgt)->nents, i)

코드 설명

2-3행 for_each_sg()는 매 반복마다 sg_next()를 호출하여 체이닝을 투명하게 처리합니다.
6-16행 sg_next()는 다음 엔트리로 이동할 때 SG_CHAIN 비트를 확인하고, 체인 엔트리면 포인터를 따라 다음 배열로 점프합니다.
20-21행 for_each_sgtable_sg()는 orig_nents를 사용하여 원본 SG 엔트리를 순회합니다.
23-24행 for_each_sgtable_dma_sg()는 nents(DMA 매핑 후 세그먼트 수)를 사용합니다. IOMMU 병합으로 nents <= orig_nents입니다.

주의 -- orig_nents vs nents 혼동: DMA 매핑 전에는 for_each_sgtable_sg()로 원본 엔트리를 순회하고, DMA 매핑 후 디바이스 디스크립터를 설정할 때는 반드시 for_each_sgtable_dma_sg()를 사용하십시오. for_each_sgtable_sg()로 DMA 주소를 읽으면 IOMMU 병합 시 잘못된 주소/길이를 참조합니다.

실전 순회 패턴: 디바이스 디스크립터 설정

/* DMA 매핑 후 디바이스 디스크립터 링에 SG 엔트리 기록 */
struct scatterlist *sg;
struct my_dma_desc *desc;
int i, nents;

nents = dma_map_sgtable(dev, &sgt, DMA_TO_DEVICE, 0);
if (nents < 0)
    return nents;

desc = ring->next_free;
for_each_sgtable_dma_sg(&sgt, sg, i) {
    desc->dma_addr = sg_dma_address(sg);
    desc->dma_len  = sg_dma_len(sg);
    desc->flags    = (i == sgt.nents - 1) ? DESC_LAST : 0;
    desc = next_desc(ring, desc);
}

/* 디바이스에 전송 시작 알림 */
writel(sgt.nents, dev->regs + DOORBELL_REG);

DMA SG 매핑

DMA SG 매핑은 CPU가 보는 물리 주소를 디바이스가 접근 가능한 DMA 버스 주소로 변환하는 과정입니다. IOMMU 유무에 따라 매핑 결과가 크게 달라지며, IOMMU가 있으면 비연속 물리 페이지를 연속된 DMA 주소 공간(Address Space)으로 병합할 수 있습니다.

DMA SG 매핑 API

API	용도	비고
`dma_map_sg(dev, sglist, nents, dir)`	레거시 SG 매핑	매핑된 DMA 세그먼트 수 반환
`dma_unmap_sg(dev, sglist, nents, dir)`	레거시 SG 매핑 해제	nents는 원본 엔트리 수 (dma_map_sg 반환값 아님)
`dma_map_sgtable(dev, sgt, dir, attrs)`	sg_table 기반 매핑 (권장)	sgt->nents에 DMA 세그먼트 수 저장, 오류 코드 반환
`dma_unmap_sgtable(dev, sgt, dir, attrs)`	sg_table 기반 매핑 해제 (권장)	sgt->orig_nents를 자동 사용
`dma_sync_sgtable_for_cpu(dev, sgt, dir)`	CPU 접근 전 동기화	캐시(Cache) 무효화(Invalidation) (DMA_FROM_DEVICE)
`dma_sync_sgtable_for_device(dev, sgt, dir)`	디바이스 접근 전 동기화	캐시 플러시(Flush) (DMA_TO_DEVICE)

DMA 방향 플래그

방향	의미	예시
`DMA_TO_DEVICE`	메모리 → 디바이스 (Gather)	네트워크 송신, 디스크 쓰기
`DMA_FROM_DEVICE`	디바이스 → 메모리 (Scatter)	네트워크 수신, 디스크 읽기
`DMA_BIDIRECTIONAL`	양방향	명령 + 응답이 같은 버퍼
`DMA_NONE`	디버깅/검증용	실제 DMA 전송 없음

dma_map_sgtable 내부 동작

/* kernel/dma/mapping.c (간략화) */
int dma_map_sgtable(struct device *dev, struct sg_table *sgt,
                    enum dma_data_direction dir,
                    unsigned long attrs)
{
    int nents;

    /* 백엔드별 매핑 수행 (직접/IOMMU/SWIOTLB) */
    nents = dma_map_sg_attrs(dev, sgt->sgl,
                              sgt->orig_nents, dir, attrs);
    if (nents < 0)
        return nents;
    if (nents == 0)
        return -EIO;

    sgt->nents = nents;  /* DMA 세그먼트 수 저장 */
    return 0;
}

모범 사례: 레거시 dma_map_sg()/dma_unmap_sg() 대신 dma_map_sgtable()/dma_unmap_sgtable()을 사용하십시오. sg_table 기반 API는 orig_nents/nents 관리가 자동이므로 unmap 시 잘못된 엔트리 수를 전달하는 흔한 버그를 방지합니다.

IOMMU와 SG 통합

IOMMU(Input/Output Memory Management Unit)는 디바이스의 DMA 주소를 물리 주소로 변환하는 하드웨어입니다. SG I/O에서 IOMMU의 가장 중요한 역할은 세그먼트 병합(coalescing)입니다. 물리적으로 비연속인 여러 페이지를 IOMMU 페이지 테이블(Page Table)에서 연속 IOVA(I/O Virtual Address)로 매핑하면, 디바이스는 하나의 연속된 DMA 주소 범위로 인식합니다.

IOMMU SG 병합 원리

단계	동작	결과
1. IOVA 할당	전체 SG 크기 합산 → IOVA 범위 할당	연속 IOVA 구간 확보
2. 페이지 테이블 매핑	각 물리 페이지를 IOVA 페이지 테이블에 순서대로 매핑	비연속 물리 → 연속 IOVA
3. IOTLB 플러시	IOMMU TLB 무효화하여 새 매핑 반영	디바이스가 새 주소 사용 가능
4. SG 엔트리 병합	연속 IOVA의 SG 엔트리들을 하나로 합침	nents 감소, 디바이스 처리 효율 증가

IOMMU 백엔드별 특성

IOMMU	플랫폼	SG 병합	최대 DMA 세그먼트 크기
Intel VT-d	x86 (Intel)	지원	IOVA 연속이면 무제한 (디바이스 max_segment_size까지)
AMD-Vi	x86 (AMD)	지원	동일
ARM SMMU v3	ARM64	지원	동일
SWIOTLB	모든 (IOMMU 없을 때)	미지원	바운스 버퍼 크기 제한
직접 매핑	IOMMU 비활성	미지원	DMA 주소 = 물리 주소

SWIOTLB 바운스 버퍼와 SG

IOMMU가 없고 디바이스의 DMA 주소 마스크가 물리 메모리보다 작은 경우(예: 32비트 디바이스가 4GB 이상 메모리에 접근), SWIOTLB(Software I/O TLB)가 바운스 버퍼를 사용합니다. 이 경우 SG 엔트리마다 별도의 바운스 버퍼가 필요하며, 병합이 일어나지 않습니다. CPU가 데이터를 바운스 버퍼로 복사하므로 제로 카피 이점이 사라집니다.

SWIOTLB 성능 경고: SWIOTLB 바운스 버퍼는 SG I/O의 제로 카피 이점을 무효화합니다. CONFIG_DMA_API_DEBUG를 활성화하고 dmesg에서 "using SWIOTLB buffer" 메시지가 나타나는지 확인하십시오. 가능하면 64비트 DMA를 지원하는 디바이스를 사용하거나 IOMMU를 활성화하십시오.

IOMMU 병합(coalescing) 상세 과정

dma_map_sg()가 IOMMU 백엔드를 통해 호출되면, 커널의 IOMMU 드라이버는 다음과 같은 단계를 거쳐 비연속 물리 페이지를 연속 IOVA로 매핑하고 SG 엔트리를 병합합니다. 이 과정은 iommu_dma_map_sg() 함수에서 수행됩니다.

iommu_dma_map_sg 구현 분석

dma_map_sg()가 IOMMU 백엔드를 통해 호출될 때 실행되는 핵심 함수인 iommu_dma_map_sg()의 내부 로직을 분석합니다. IOVA 할당, 페이지 테이블 매핑, SG 엔트리 병합까지의 전체 경로를 보여줍니다.

/* drivers/iommu/dma-iommu.c — iommu_dma_map_sg (간략화) */
static int iommu_dma_map_sg(
    struct device *dev,
    struct scatterlist *sg,
    int nents,
    enum dma_data_direction dir)
{
    struct iommu_domain *domain = iommu_get_dma_domain(dev);
    struct iommu_dma_cookie *cookie = domain->iova_cookie;
    struct iova_domain *iovad = &cookie->iovad;
    struct scatterlist *s, *prev = NULL;
    dma_addr_t iova;
    size_t iova_len = 0;
    unsigned long mask = dma_get_seg_boundary(dev);
    ssize_t mapped;
    int i;

    /* 1단계: 필요한 총 IOVA 크기 계산 */
    for_each_sg(sg, s, nents, i) {
        size_t s_iova_len = iova_align(iovad,
            s->length + s->offset);

        /* 세그먼트 경계 정렬 검사 */
        if (iova_len + s_iova_len > mask + 1) {
            iova_len = iova_align(iovad, iova_len);
        }
        iova_len += s_iova_len;
    }

    /* 2단계: 연속 IOVA 범위 할당 */
    iova = iommu_dma_alloc_iova(domain, iova_len,
        dma_get_mask(dev), dev);
    if (!iova)
        goto out_restore_sg;

    /* 3단계: 각 SG 엔트리의 물리 페이지를 IOVA에 매핑 */
    mapped = iommu_map_sg(domain, iova, sg, nents,
        dma_direction_to_prot(dir, true));
    if (mapped < iova_len)
        goto out_free_iova;

    /* 4단계: SG 엔트리에 DMA 주소 기록 + 병합 */
    prev = NULL;
    for_each_sg(sg, s, nents, i) {
        s->dma_address = iova + s->offset;
        s->dma_length = s->length;

        /* 이전 세그먼트와 IOVA 연속이면 병합 */
        if (prev &&
            sg_dma_address(prev) + sg_dma_len(prev) ==
            s->dma_address) {
            prev->dma_length += s->dma_length;
            s->dma_length = 0;  /* 병합됨 — 무효화 */
        } else {
            prev = s;
        }
        iova += iova_align(iovad,
            s->length + s->offset);
    }

    /* 5단계: 병합 결과 — 유효 DMA 세그먼트 수 반환 */
    return __finalise_sg(dev, sg, nents, iova);

out_free_iova:
    iommu_dma_free_iova(cookie, iova, iova_len, NULL);
out_restore_sg:
    return -EIO;
}

코드 설명

19-28행 1단계 — IOVA 크기 계산: 모든 SG 엔트리의 길이를 IOVA 정렬 단위로 올림하여 합산합니다. 세그먼트 경계(dma_get_seg_boundary)를 초과하면 정렬 패딩(Padding)을 추가합니다. 이 총 크기만큼의 연속 IOVA 공간이 필요합니다.
31-34행 2단계 — IOVA 할당: iommu_dma_alloc_iova()는 IOVA 할당자(rcache 또는 rb-tree 기반)에서 연속 주소 범위를 확보합니다. 6.5+ 커널의 rcache 최적화로 자주 사용되는 크기의 할당이 최대 30% 빠릅니다.
37-40행 3단계 — IOMMU 페이지 테이블 매핑: iommu_map_sg()는 각 SG 엔트리의 물리 주소를 IOVA 공간에 순서대로 매핑합니다. 물리적으로 비연속인 페이지들이 IOVA 공간에서는 연속으로 배치됩니다.
43-58행 4단계 — SG 병합: IOVA가 연속으로 배치되었으므로, 인접한 SG 엔트리의 DMA 주소가 연속이면 이전 엔트리의 dma_length에 현재 길이를 더하고 현재 엔트리의 dma_length를 0으로 만듭니다. 이것이 nents < orig_nents가 되는 핵심 메커니즘입니다.
61행 __finalise_sg()는 dma_length == 0인 병합된 엔트리를 건너뛰고 유효한 DMA 세그먼트 수만 반환합니다. 이 반환값이 sgt->nents에 저장됩니다.

SG 리스트와 IOMMU 병합 최적화

IOMMU 병합 효율을 극대화하려면 다음 원칙을 따릅니다:

최적화 기법	효과	구현 방법
물리 인접 페이지 먼저 병합	IOMMU 매핑 전에 SG 엔트리 수 감소	`sg_alloc_table_from_pages()` 사용
IOVA 캐싱	IOVA 할당 지연(Latency) 감소	커널 6.x `IOVA rcache` 자동 활용
대형 IOVA 정렬	IOTLB 히트율 증가	2MB/1GB 단위 IOVA 정렬 (대형 전송)
lazy IOTLB 플러시	매핑 해제 지연 감소	`iommu=lazy` 또는 `intel_iommu=sp_off`
PASID 활용	프로세스별 독립 주소 공간	`CONFIG_IOMMU_SVA`, `iommu.passthrough=0`

블록 I/O에서의 Scatter/Gather

블록 계층은 struct bio와 struct bio_vec를 사용하여 디스크 I/O 요청을 구성합니다. bio_vec는 본질적으로 scatterlist와 동일한 역할을 하며, 하나의 bio는 여러 비연속 페이지에 걸친 I/O 요청을 표현합니다.

bio_vec 구조체

/* include/linux/bvec.h */
struct bio_vec {
    struct page  *bv_page;    /* 페이지 포인터 */
    unsigned int  bv_len;     /* 바이트 길이 */
    unsigned int  bv_offset;  /* 페이지 내 오프셋 */
};

/* scatterlist와 대응 관계:
 * bio_vec.bv_page   ↔ scatterlist.page_link (sg_page)
 * bio_vec.bv_len    ↔ scatterlist.length
 * bio_vec.bv_offset ↔ scatterlist.offset
 */

bio 구조체의 SG 특성

/* include/linux/bio.h (핵심 필드만) */
struct bio {
    struct block_device  *bi_bdev;     /* 대상 블록 디바이스 */
    sector_t             bi_iter.bi_sector; /* 시작 섹터 */
    unsigned short       bi_vcnt;      /* bio_vec 배열 엔트리 수 */
    unsigned short       bi_max_vecs;  /* bio_vec 배열 최대 크기 */
    struct bio_vec      *bi_io_vec;    /* bio_vec 배열 포인터 */
    /* ... */
};

blk_rq_map_sg 변환 과정

/* 블록 드라이버에서 request → scatterlist 변환 */
static int my_blk_queue_rq(struct blk_mq_hw_ctx *hctx,
                            const struct blk_mq_queue_data *bd)
{
    struct request *rq = bd->rq;
    struct scatterlist sglist[MAX_SG_ENTRIES];
    int nents;

    sg_init_table(sglist, MAX_SG_ENTRIES);

    /* bio_vec → scatterlist 변환 + 인접 세그먼트 병합 */
    nents = blk_rq_map_sg(rq->q, rq, sglist);

    /* DMA 매핑 */
    nents = dma_map_sg(dev, sglist, nents, rq_dma_dir(rq));
    if (!nents)
        return BLK_STS_RESOURCE;

    /* 디바이스 전송... */
    return BLK_STS_OK;
}

blk_rq_map_sg 세그먼트 병합 구현 분석

blk_rq_map_sg()는 블록 I/O 요청의 bio_vec 배열을 scatterlist로 변환하면서, 물리적으로 인접한 세그먼트를 병합하고 디바이스 제한(max_segments, max_segment_size, seg_boundary_mask)을 자동으로 준수합니다. 이 함수의 핵심 병합 로직을 분석합니다.

/* block/blk-merge.c — blk_rq_map_sg 핵심 로직 (간략화) */
int blk_rq_map_sg(struct request_queue *q,
                  struct request *rq,
                  struct scatterlist *sglist)
{
    struct scatterlist *sg = NULL;
    struct bio_vec bvec, bvprv = { NULL };
    struct req_iterator iter;
    int nsegs = 0;

    /* request의 모든 bio → bio_vec을 순회 */
    rq_for_each_bvec(bvec, rq, iter) {
        /* 이전 세그먼트와 병합 가능한지 확인 */
        if (bvprv.bv_page &&
            __blk_segment_map_sg_merge(q, &bvec,
                                       &bvprv, sg)) {
            /* 병합 성공: sg->length만 증가, 새 엔트리 불필요 */
            goto next;
        }

        /* 병합 불가: 새 SG 엔트리 생성 */
        if (sg)
            sg = sg_next(sg);
        else
            sg = sglist;

        sg_set_page(sg, bvec.bv_page, bvec.bv_len,
                    bvec.bv_offset);
        nsegs++;
next:
        bvprv = bvec;
    }

    if (sg)
        sg_mark_end(sg);
    return nsegs;
}

/* 세그먼트 병합 조건 검사 */
static bool __blk_segment_map_sg_merge(
    struct request_queue *q,
    struct bio_vec *bvec,
    struct bio_vec *bvprv,
    struct scatterlist *sg)
{
    unsigned long mask = queue_segment_boundary(q);
    phys_addr_t addr1 = page_to_phys(bvprv->bv_page)
                        + bvprv->bv_offset + bvprv->bv_len;
    phys_addr_t addr2 = page_to_phys(bvec->bv_page)
                        + bvec->bv_offset;

    /* 조건 1: 물리 주소가 연속이어야 함 */
    if (addr1 != addr2)
        return false;

    /* 조건 2: 병합 후 max_segment_size 초과 불가 */
    if (sg->length + bvec->bv_len >
        queue_max_segment_size(q))
        return false;

    /* 조건 3: 세그먼트 경계 마스크 검사 */
    if ((sg_dma_address(sg) | mask) !=
        ((sg_dma_address(sg) + sg->length +
          bvec->bv_len - 1) | mask))
        return false;

    /* 모든 조건 충족: 기존 SG 엔트리에 길이 추가 */
    sg->length += bvec->bv_len;
    return true;
}

코드 설명

12행 rq_for_each_bvec()는 request에 포함된 모든 bio의 bio_vec을 순서대로 순회합니다. 하나의 request는 여러 bio가 병합된 것이므로, bio 경계를 넘어 연속적인 bio_vec 순회가 가능합니다.
14-18행 __blk_segment_map_sg_merge()가 true를 반환하면 현재 bio_vec이 이전 SG 엔트리에 병합되었으므로 새 엔트리를 만들지 않고 건너뜁니다. 이것이 SG 엔트리 수를 줄이는 핵심입니다.
52-53행 병합 조건 1 — 물리 연속성: 이전 bio_vec의 끝 물리 주소와 현재 bio_vec의 시작 물리 주소가 정확히 일치해야 합니다. page_to_phys()로 물리 주소를 계산하고 오프셋/길이를 더해 비교합니다.
56-58행 병합 조건 2 — 최대 세그먼트 크기: 병합 후 SG 엔트리의 총 길이가 max_segment_size(기본 64KB)를 초과하면 안 됩니다. 디바이스 하드웨어가 단일 디스크립터로 처리 가능한 최대 전송 크기입니다.
61-64행 병합 조건 3 — 세그먼트 경계: 병합된 세그먼트가 하드웨어 주소 경계(예: 4GB)를 넘으면 안 됩니다. seg_boundary_mask를 사용하여 시작 주소와 끝 주소가 같은 경계 영역 안에 있는지 확인합니다.
67-68행 세 조건을 모두 통과하면 기존 SG 엔트리의 length에 현재 bio_vec의 길이를 더합니다. 새 SG 엔트리가 만들어지지 않으므로 nsegs는 증가하지 않습니다.

블록 디바이스 SG 제한 파라미터

파라미터	설정 함수	기본값	의미
`max_segments`	`blk_queue_max_segments()`	128	하나의 요청에 허용되는 최대 SG 세그먼트 수
`max_segment_size`	`blk_queue_max_segment_size()`	65536	단일 세그먼트의 최대 바이트 크기
`max_hw_sectors`	`blk_queue_max_hw_sectors()`	255	하나의 요청에 허용되는 최대 섹터 수
`seg_boundary_mask`	`blk_queue_segment_boundary()`	0xFFFFFFFF	SG 세그먼트가 넘을 수 없는 주소 경계
`virt_boundary_mask`	`blk_queue_virt_boundary()`	0	가상 주소 연속성 보장을 위한 마스크 (NVMe)

네트워크 스택의 Scatter/Gather

네트워크 스택은 struct sk_buff의 paged data 영역에서 SG를 활용합니다. skb_frag_t는 패킷의 비선형(non-linear) 데이터를 기술하며, NETIF_F_SG 피처를 지원하는 NIC은 이 조각들을 하드웨어 레벨에서 직접 처리합니다.

skb_frag_t 구조체

/* include/linux/skbuff.h */
typedef struct skb_frag {
    struct {
        struct page *p;       /* 페이지 포인터 */
    } bv_page;
    __u32 bv_len;              /* 조각 길이 */
    __u32 bv_offset;           /* 페이지 내 오프셋 */
} skb_frag_t;

/* sk_buff의 paged data:
 * skb->data_len   = sum of all frag lengths
 * skb->nr_frags   = 실제 사용 중인 frag 수
 * skb_shinfo(skb)->frags[0..nr_frags-1] = skb_frag_t 배열
 */

피처	의미	SG와의 관계
`NETIF_F_SG`	NIC이 SG DMA 지원	skb frag들을 개별 DMA 매핑하여 전송
`NETIF_F_GSO`	Generic Segmentation Offload	대형 패킷을 SG 조각으로 분할하여 NIC 전달
`NETIF_F_GRO`	Generic Receive Offload	수신 패킷을 SG 리스트로 병합
`NETIF_F_HIGHDMA`	HIGHMEM 페이지 DMA 가능	SG frag가 HIGHMEM에 있어도 바운스 버퍼 불필요
`NETIF_F_SG_ENCRYPTED`	kTLS SG 지원	암호화된 SG 데이터를 NIC이 직접 처리

네트워크 드라이버 SG 송신 코드 패턴

/* NIC 드라이버 ndo_start_xmit 핵심 SG 처리 */
static netdev_tx_t my_nic_xmit(struct sk_buff *skb,
                                struct net_device *ndev)
{
    struct my_tx_ring *ring = &priv->tx_ring;
    int nr_frags = skb_shinfo(skb)->nr_frags;
    int i;

    /* 1. linear 데이터 (헤더) 매핑 */
    ring->desc[ring->head].addr =
        dma_map_single(dev, skb->data, skb_headlen(skb),
                       DMA_TO_DEVICE);
    ring->desc[ring->head].len = skb_headlen(skb);
    ring->head = (ring->head + 1) % RING_SIZE;

    /* 2. paged frag 매핑 (SG) */
    for (i = 0; i < nr_frags; i++) {
        const skb_frag_t *frag = &skb_shinfo(skb)->frags[i];

        ring->desc[ring->head].addr =
            skb_frag_dma_map(dev, frag, 0,
                             skb_frag_size(frag),
                             DMA_TO_DEVICE);
        ring->desc[ring->head].len = skb_frag_size(frag);
        ring->desc[ring->head].flags =
            (i == nr_frags - 1) ? TX_DESC_EOP : 0;
        ring->head = (ring->head + 1) % RING_SIZE;
    }

    /* 3. 도어벨: 하드웨어에 전송 알림 */
    writel(ring->head, priv->regs + TX_DOORBELL);
    return NETDEV_TX_OK;
}

skb_to_sgvec: 네트워크 패킷 → SG 변환

skb_to_sgvec()는 sk_buff의 모든 데이터(linear + paged frags + frag_list)를 scatterlist 배열로 변환합니다. 이 함수는 주로 IPSec(esp_output), kTLS, 암호화 서브시스템에서 네트워크 패킷 데이터를 Crypto API에 전달할 때 사용됩니다.

skb_to_sgvec vs skb_frag_dma_map: skb_to_sgvec()는 패킷 전체를 SG 배열로 변환하여 Crypto API에 전달하는 용도이고, skb_frag_dma_map()은 NIC 드라이버가 개별 frag를 직접 DMA 매핑하는 용도입니다. 전자는 CPU 기반 암호화에, 후자는 하드웨어 DMA 전송에 사용됩니다.

NVMe SGL과 PRP

NVMe 프로토콜은 호스트와 컨트롤러 간 데이터 전송을 위해 두 가지 주소 지정 방식을 정의합니다: PRP(Physical Region Page)와 SGL(Scatter Gather List). PRP는 NVMe 1.0부터 지원되는 기본 방식이고, SGL은 NVMe 1.1에서 추가된 보다 유연한 방식입니다.

PRP vs SGL 비교

특성	PRP (Physical Region Page)	SGL (Scatter Gather List)
도입	NVMe 1.0	NVMe 1.1
주소 단위	페이지 정렬 필수 (첫 PRP 제외)	임의 오프셋/길이 가능
엔트리 크기	8바이트 (주소만)	16바이트 (주소 + 길이 + 타입)
체이닝	PRP 리스트 포인터	SGL 세그먼트 디스크립터
최소 지원	모든 NVMe 컨트롤러 필수	선택적 (SGLS 필드 확인)
효율성	페이지 정렬이면 효율적	비정렬 데이터에 유리
커널 기본	NVMe 블록 드라이버 기본	NVMe-oF(Fabrics)에서 주로 사용

NVMe SGL 디스크립터 구조

/* include/linux/nvme.h */
struct nvme_sgl_desc {
    __le64  addr;     /* 데이터 또는 세그먼트 주소 */
    __le32  length;   /* 바이트 길이 */
    __u8    rsvd[3];
    __u8    type;     /* SGL 디스크립터 타입 */
};

/* SGL 디스크립터 타입 */
#define NVME_SGL_FMT_DATA_DESC      0x00  /* 데이터 블록 */
#define NVME_SGL_FMT_SEG_DESC       0x02  /* SGL 세그먼트 (체이닝) */
#define NVME_SGL_FMT_LAST_SEG_DESC  0x03  /* 마지막 세그먼트 */

/* PRP 엔트리 (비교용) */
struct nvme_prp_entry {
    __le64  prp;  /* 물리 주소 (8바이트) */
};

scatterlist에서 PRP/SGL 변환

/* drivers/nvme/host/pci.c (간략화) */
static blk_status_t nvme_map_data(struct nvme_dev *dev,
                                     struct request *req,
                                     struct nvme_command *cmnd)
{
    struct nvme_iod *iod = blk_mq_rq_to_pdu(req);
    int nr_mapped;

    /* bio_vec → scatterlist 변환 */
    iod->sg = mempool_alloc(dev->iod_mempool, GFP_ATOMIC);
    sg_init_table(iod->sg, blk_rq_nr_phys_segments(req));
    iod->nents = blk_rq_map_sg(req->q, req, iod->sg);

    /* DMA 매핑 */
    nr_mapped = dma_map_sg_attrs(dev->dev, iod->sg,
                                  iod->nents, rq_dma_dir(req),
                                  DMA_ATTR_NO_WARN);

    /* 컨트롤러 능력에 따라 PRP 또는 SGL 선택 */
    if (nvme_pci_use_sgls(dev, req, nr_mapped))
        return nvme_pci_setup_sgls(dev, req, cmnd, nr_mapped);
    else
        return nvme_pci_setup_prps(dev, req, cmnd);
}

nvme_pci_setup_prps: scatterlist → PRP 리스트 구축 구현 분석

NVMe PCI 드라이버에서 scatterlist를 PRP 리스트로 변환하는 nvme_pci_setup_prps()의 핵심 로직을 분석합니다. 이 함수는 DMA 매핑된 SG 엔트리를 NVMe 명령의 PRP Entry 1/2와 PRP 리스트 페이지로 변환합니다.

/* drivers/nvme/host/pci.c — PRP 리스트 구축 (간략화) */
static blk_status_t nvme_pci_setup_prps(
    struct nvme_dev *dev,
    struct request *req,
    struct nvme_rw_command *cmnd)
{
    struct nvme_iod *iod = blk_mq_rq_to_pdu(req);
    dma_addr_t dma_addr = sg_dma_address(iod->sg);
    int dma_len = sg_dma_len(iod->sg);
    int offset = dma_addr & (NVME_CTRL_PAGE_SIZE - 1);
    __le64 *prp_list;
    dma_addr_t prp_dma;
    int nprps, i;

    /* PRP Entry 1: 명령에 직접 삽입 */
    cmnd->dptr.prp1 = cpu_to_le64(dma_addr);
    dma_len -= (NVME_CTRL_PAGE_SIZE - offset);
    dma_addr += (NVME_CTRL_PAGE_SIZE - offset);

    /* 1페이지 이하: PRP1만으로 충분 */
    if (dma_len <= 0) {
        cmnd->dptr.prp2 = 0;
        return BLK_STS_OK;
    }

    /* 2페이지 이하: PRP2에 직접 삽입 */
    if (dma_len <= NVME_CTRL_PAGE_SIZE) {
        cmnd->dptr.prp2 = cpu_to_le64(dma_addr);
        return BLK_STS_OK;
    }

    /* 3페이지 이상: PRP 리스트 페이지 할당 */
    nprps = DIV_ROUND_UP(dma_len, NVME_CTRL_PAGE_SIZE);
    prp_list = dma_pool_alloc(dev->prp_page_pool,
                              GFP_ATOMIC, &prp_dma);
    if (!prp_list)
        return BLK_STS_RESOURCE;

    cmnd->dptr.prp2 = cpu_to_le64(prp_dma);
    iod->first_dma = prp_dma;

    /* PRP 리스트 엔트리 채우기 */
    i = 0;
    for (;;) {
        if (dma_len <= 0)
            break;

        /* 현재 SG 세그먼트 소진 → 다음 SG 엔트리 */
        if (dma_len <= 0) {
            iod->sg = sg_next(iod->sg);
            dma_addr = sg_dma_address(iod->sg);
            dma_len = sg_dma_len(iod->sg);
        }

        /* PRP 리스트 페이지가 가득 차면 체이닝 */
        if (i == NVME_CTRL_PAGE_SIZE / sizeof(__le64) - 1) {
            __le64 *old_prp_list = prp_list;
            prp_list = dma_pool_alloc(dev->prp_page_pool,
                                      GFP_ATOMIC, &prp_dma);
            old_prp_list[i] = cpu_to_le64(prp_dma);
            i = 0;
        }

        prp_list[i++] = cpu_to_le64(dma_addr);
        dma_len -= NVME_CTRL_PAGE_SIZE;
        dma_addr += NVME_CTRL_PAGE_SIZE;
    }
    return BLK_STS_OK;
}

코드 설명

16행 PRP Entry 1: NVMe 명령(SQE)의 DPTR 필드에 첫 번째 DMA 주소를 직접 삽입합니다. PRP1은 페이지 내 임의 오프셋을 가질 수 있는 유일한 PRP 엔트리입니다.
21-24행 1페이지 이하 전송: PRP1만으로 충분합니다. PRP2를 0으로 설정하여 리스트가 없음을 표시합니다. 4KB 랜덤 I/O는 대부분 이 경로를 탑니다.
27-30행 2페이지 이하 전송: PRP2에 두 번째 DMA 주소를 직접 삽입합니다. PRP 리스트 할당이 불필요하므로 매우 효율적입니다.
33-40행 3페이지 이상: DMA 풀에서 PRP 리스트 페이지를 할당합니다. PRP2는 이 리스트 페이지의 DMA 주소를 가리킵니다. 4KB 페이지에 512개의 PRP 엔트리(8바이트 × 512)가 들어갑니다.
54-60행 PRP 리스트 체이닝: 한 PRP 리스트 페이지(512 엔트리)가 가득 차면 마지막 엔트리를 다음 PRP 리스트 페이지의 주소로 설정합니다. 이는 scatterlist의 SG_CHAIN과 유사한 체이닝 메커니즘입니다.
62-64행 SG 엔트리의 DMA 주소를 NVMe 컨트롤러 페이지 크기(보통 4KB) 단위로 분할하여 PRP 리스트에 채웁니다. IOMMU 병합으로 하나의 SG 엔트리가 여러 PRP 엔트리로 분할될 수 있습니다.

SGL vs PRP 선택 기준: 커널의 nvme_pci_use_sgls()는 다음 조건에서 SGL을 선택합니다: (1) 컨트롤러가 SGL을 지원하고 (SGLS 레지스터(Register) 확인), (2) NVMe-oF 전송이거나, (3) 데이터가 페이지 정렬되지 않아 PRP로 표현하기 비효율적인 경우. 일반적인 로컬 NVMe SSD에서는 PRP가 기본이며, 네트워크 기반 NVMe-oF에서는 SGL이 기본입니다.

readv/writev와 사용자 공간 SG

사용자 공간에서도 Scatter/Gather I/O를 직접 활용할 수 있습니다. readv()/writev() 시스템 콜(System Call)은 struct iovec 배열을 통해 비연속 버퍼에 대한 벡터 I/O를 수행합니다. 커널 내부에서는 struct iov_iter로 다양한 벡터 타입(iovec, bvec, kvec, pipe, xarray)을 통합하여 처리합니다.

iovec 구조체

/* include/uapi/linux/uio.h */
struct iovec {
    void __user *iov_base;  /* 사용자 공간 버퍼 시작 주소 */
    __kernel_size_t iov_len;/* 버퍼 길이 */
};

/* 사용자 공간 사용 예:
 * struct iovec iov[3];
 * iov[0] = { .iov_base = header_buf, .iov_len = 64 };
 * iov[1] = { .iov_base = data_buf,   .iov_len = 4096 };
 * iov[2] = { .iov_base = footer_buf, .iov_len = 32 };
 * writev(fd, iov, 3);
 */

iov_iter 구조체 (커널 내부 통합 순회자)

/* include/linux/uio.h */
struct iov_iter {
    u8             iter_type;   /* ITER_IOVEC, ITER_BVEC, ITER_KVEC, ... */
    bool           nofault;     /* 페이지 폴트 허용 여부 */
    bool           data_source; /* 0=읽기(from iter), 1=쓰기(to iter) */
    size_t         iov_offset;  /* 현재 iov 내 소비된 바이트 */
    size_t         count;       /* 남은 총 바이트 수 */
    union {
        const struct iovec  *__iov;  /* 사용자 공간 벡터 */
        const struct kvec   *kvec;   /* 커널 공간 벡터 */
        const struct bio_vec *bvec;   /* 페이지 벡터 */
        struct xarray        *xarray; /* XArray 기반 */
        void __user          *ubuf;   /* 단일 사용자 버퍼 */
    };
    union {
        unsigned long  nr_segs;    /* 세그먼트 수 */
    };
};

코드 설명

3행 iter_type은 어떤 종류의 벡터를 순회하는지 결정합니다. 타입에 따라 union의 다른 멤버가 활성화됩니다.
6행 iov_offset은 현재 벡터 엔트리에서 이미 처리된 바이트 수를 추적합니다. 부분 I/O 시 중간부터 재개할 수 있습니다.
7행 count는 전체 남은 바이트 수입니다. I/O가 진행될수록 감소합니다.
9-13행 union으로 다양한 벡터 타입을 지원합니다. iovec(사용자), kvec(커널), bvec(블록), xarray(페이지 캐시(Page Cache)) 등을 동일한 인터페이스로 처리합니다.

iov_iter 타입별 사용 문맥

타입	매크로	사용 문맥	버퍼 위치
IOVEC	`ITER_IOVEC`	readv/writev, sendmsg/recvmsg	사용자 공간
KVEC	`ITER_KVEC`	커널 내부 벡터 I/O	커널 공간(Kernel Space)
BVEC	`ITER_BVEC`	블록 I/O (bio)	페이지 기반
XARRAY	`ITER_XARRAY`	페이지 캐시 직접 접근	페이지 캐시
UBUF	`ITER_UBUF`	단일 사용자 버퍼 (read/write)	사용자 공간

사용자 공간 벡터 I/O 예제

/* 사용자 공간에서 writev() 활용 예제 */
#include <sys/uio.h>

struct iovec iov[3];
char header[] = "HTTP/1.1 200 OK\r\nContent-Length: 4096\r\n\r\n";
char body[4096];
char footer[] = "\r\n--END--\r\n";

/* 3개의 비연속 버퍼를 하나의 write로 전송 */
iov[0].iov_base = header;
iov[0].iov_len  = sizeof(header) - 1;
iov[1].iov_base = body;
iov[1].iov_len  = sizeof(body);
iov[2].iov_base = footer;
iov[2].iov_len  = sizeof(footer) - 1;

ssize_t n = writev(sockfd, iov, 3);
/* 커널은 3개 iovec을 iov_iter로 변환하여 소켓 계층에 전달
 * TCP는 SG를 활용하여 복사 없이 skb frag로 매핑 가능 */

splice와 제로 카피

splice() 시스템 콜은 파이프를 매개체로 사용하여 두 파일 디스크립터(File Descriptor) 사이에서 데이터를 전송합니다. 핵심은 실제 데이터 복사 없이 페이지 참조만 이동시키는 제로 카피(zero-copy) 방식입니다. 이는 본질적으로 Scatter/Gather 개념의 사용자 공간 확장입니다.

제로 카피 시스템 콜 비교

시스템 콜	프로토타입	동작
`splice()`	`splice(fd_in, off_in, fd_out, off_out, len, flags)`	파이프 ↔ 파일/소켓(Socket) 간 페이지 참조 이동
`tee()`	`tee(fd_in, fd_out, len, flags)`	파이프 간 데이터 복제 (페이지 참조 공유)
`vmsplice()`	`vmsplice(fd, iov, nr_segs, flags)`	사용자 버퍼(iovec) → 파이프 (제로 카피 또는 복사)
`sendfile()`	`sendfile(out_fd, in_fd, offset, count)`	파일 → 소켓 전송 (내부적으로 splice 사용)
`copy_file_range()`	`copy_file_range(fd_in, off_in, fd_out, off_out, len, flags)`	파일 → 파일 (서버 사이드 복사 가능)

splice 구현 핵심 경로

/* fs/splice.c (간략화) — sendfile → splice 내부 경로 */

/* 파일 → 파이프: 페이지 캐시 참조를 파이프 버퍼에 삽입 */
static ssize_t splice_read(struct file *in,
                           struct pipe_inode_info *pipe, ...)
{
    /* 페이지 캐시에서 페이지 참조 획득 */
    struct page *page = find_get_page(mapping, index);

    /* 파이프 버퍼에 페이지 참조 저장 (복사 없음) */
    buf->page = page;
    buf->offset = offset;
    buf->len = len;
    buf->ops = &page_cache_pipe_buf_ops;
    pipe->nrbufs++;
}

/* 파이프 → 소켓: 파이프 버퍼의 페이지를 skb frag로 매핑 */
static ssize_t splice_to_socket(struct pipe_inode_info *pipe,
                                struct socket *sock, ...)
{
    /* 파이프 버퍼의 페이지를 skb의 paged frag로 전달 */
    skb_fill_page_desc(skb, frag_idx,
                       buf->page, buf->offset, buf->len);
    /* NIC이 NETIF_F_SG 지원 시 이 페이지를 직접 DMA 전송 */
}

실전 활용: 정적 파일 서빙 웹 서버(nginx, Apache)는 sendfile()을 사용하여 디스크에서 네트워크로 파일을 전송할 때 CPU 복사를 제거합니다. 이는 Scatter/Gather의 대표적인 사용자 공간 활용 사례입니다.

do_splice_direct 콜 체인 구현 분석

sendfile() 시스템 콜의 커널 내부 호출 경로를 분석합니다. do_sendfile() → do_splice_direct() → splice_direct_to_actor()까지의 핵심 경로에서 페이지 참조가 어떻게 제로 카피로 전달되는지 보여줍니다.

/* fs/splice.c — sendfile → splice 내부 콜 체인 (간략화) */

/* 1. sendfile 시스템 콜 진입점 */
ssize_t do_sendfile(int out_fd, int in_fd,
                    loff_t *ppos, size_t count)
{
    struct fd in = fdget(in_fd);
    struct fd out = fdget(out_fd);

    /* splice 경로로 위임 */
    return do_splice_direct(in.file, ppos,
                             out.file, NULL, count, 0);
}

/* 2. splice 직접 전송 — 내부 파이프 생성 */
long do_splice_direct(struct file *in, loff_t *ppos,
                      struct file *out, loff_t *opos,
                      size_t len, unsigned int flags)
{
    struct splice_desc sd = {
        .total_len  = len,
        .flags      = flags,
        .pos        = *ppos,
        .u.file     = out,
        .opos       = opos,
    };

    /* 커널 내부 임시 파이프 생성 (user-visible 아님) */
    struct pipe_inode_info *pipe = current->splice_pipe;
    if (!pipe) {
        pipe = alloc_pipe_info();
        current->splice_pipe = pipe;  /* 스레드별 캐시 */
    }

    return splice_direct_to_actor(in, &sd,
                                    direct_splice_actor);
}

/* 3. actor 패턴: 입력 → 파이프 → 출력 루프 */
ssize_t splice_direct_to_actor(
    struct file *in,
    struct splice_desc *sd,
    splice_direct_actor *actor)
{
    struct pipe_inode_info *pipe = current->splice_pipe;
    ssize_t ret, bytes = 0;

    while (sd->total_len) {
        /* 입력 파일 → 파이프: 페이지 캐시 참조 삽입
         * (CPU 복사 없음 — 페이지 refcount만 증가) */
        ret = do_splice_to(in, &sd->pos, pipe,
                            sd->total_len, sd->flags);
        if (ret <= 0)
            break;

        /* 파이프 → 출력 파일(소켓): 페이지를 skb frag로 매핑
         * (NETIF_F_SG 지원 시 CPU 복사 없음) */
        ret = actor(pipe, sd);  /* → splice_to_socket() */
        if (ret <= 0)
            break;

        bytes += ret;
        sd->total_len -= ret;
    }
    return bytes;
}

코드 설명

3-13행 do_sendfile()은 사실상 do_splice_direct()의 래퍼입니다. sendfile() 시스템 콜은 커널 내부적으로 splice 메커니즘을 사용합니다.
29-33행 내부 파이프: do_splice_direct()는 사용자에게 보이지 않는 커널 내부 파이프를 생성합니다. 이 파이프는 스레드(Thread)의 task_struct에 캐시되어 매번 할당하는 오버헤드를 방지합니다. 파이프는 페이지 참조의 중간 저장소 역할만 합니다.
49-52행 입력 단계 (Gather): do_splice_to()는 파일시스템(Filesystem)의 splice_read 핸들러(Handler)를 호출하여 페이지 캐시의 struct page 참조를 파이프 버퍼에 삽입합니다. 데이터 복사가 아닌 페이지 참조 카운트(Reference Count)만 증가시킵니다.
56행 출력 단계 (Scatter): actor 콜백(Callback)(splice_to_socket())은 파이프 버퍼의 페이지를 sk_buff의 skb_frag_t에 매핑합니다. NIC가 NETIF_F_SG를 지원하면 이 페이지를 직접 DMA 전송하므로 CPU 복사가 완전히 제거됩니다.

vmsplice와 사용자 공간 제로 카피 구현 예제

vmsplice()를 사용하면 사용자 공간에서 커널로 데이터를 제로 카피로 전달할 수 있습니다. 사용자 버퍼의 페이지를 파이프에 직접 삽입한 후, splice()로 소켓에 전송합니다.

/* 사용자 공간: vmsplice + splice 제로 카피 전송 */
#include <fcntl.h>
#include <sys/uio.h>

int zero_copy_send(int sockfd,
                   void *buf, size_t len)
{
    int pipefd[2];
    struct iovec iov;
    ssize_t written, spliced;

    /* 1. 파이프 생성 */
    if (pipe(pipefd) < 0)
        return -1;

    /* 2. 사용자 버퍼 → 파이프 (제로 카피)
     *    SPLICE_F_GIFT: 페이지 소유권을 커널에 양도
     *    → 커널이 페이지를 직접 DMA 전송 가능 */
    iov.iov_base = buf;
    iov.iov_len  = len;
    written = vmsplice(pipefd[1], &iov, 1,
                        SPLICE_F_GIFT);
    if (written <= 0)
        goto out;

    /* 3. 파이프 → 소켓 (제로 카피)
     *    NIC NETIF_F_SG 지원 시 DMA 직접 전송 */
    spliced = splice(pipefd[0], NULL,
                     sockfd, NULL, written,
                     SPLICE_F_MOVE);

out:
    close(pipefd[0]);
    close(pipefd[1]);
    return spliced;
}

/* 주의: SPLICE_F_GIFT 사용 시 vmsplice 후
 * buf의 내용을 수정하면 안 됩니다.
 * 커널이 DMA 전송을 완료하기 전에 수정하면
 * 네트워크로 손상된 데이터가 전송될 수 있습니다. */

코드 설명

20-22행 vmsplice()는 사용자 버퍼의 페이지를 파이프에 삽입합니다. SPLICE_F_GIFT 플래그는 커널에 페이지 소유권을 양도하여 바운스 버퍼 복사를 방지합니다. 이 플래그 없이도 동작하지만 커널이 버퍼를 복사할 수 있습니다.
28-30행 splice()는 파이프에서 소켓으로 데이터를 전송합니다. 내부적으로 파이프 버퍼의 페이지 참조를 sk_buff의 SG frag로 매핑합니다. NIC SG DMA 지원 시 전체 경로에서 CPU 복사가 0회입니다.
37-40행 중요 주의사항: SPLICE_F_GIFT 사용 후 원본 버퍼를 즉시 재사용하면 안 됩니다. 커널이 DMA 전송을 완료할 때까지 버퍼 내용이 유지되어야 합니다. 실전에서는 더블 버퍼링으로 이 문제를 해결합니다.

Crypto API의 SG 활용

리눅스 Crypto API는 암호화, 해시, 압축 등의 입출력 버퍼로 scatterlist를 직접 사용합니다. 이를 통해 비연속 메모리에 분산된 데이터를 한 번의 암호화 작업으로 처리할 수 있습니다. 특히 네트워크(IPSec, kTLS)와 스토리지(dm-crypt) 암호화에서 SG는 필수적입니다.

Crypto API의 SG 사용 패턴

알고리즘 타입	API	SG 사용
대칭 암호 (skcipher)	`crypto_skcipher_encrypt/decrypt()`	src_sg, dst_sg (입출력 SG 별도)
AEAD	`crypto_aead_encrypt/decrypt()`	AAD + 평문/암호문 + 태그를 하나의 SG로
해시	`crypto_shash_digest()`	입력 버퍼를 SG로 전달
AHASH (비동기 해시)	`crypto_ahash_digest()`	SG 기반 비동기 처리

SG 기반 대칭 암호화 예제

/* scatterlist를 활용한 AES-GCM 암호화 예제 */
struct crypto_aead *tfm;
struct aead_request *req;
struct scatterlist sg_src[3], sg_dst[3];
u8 *aad, *plaintext, *tag;
u8 iv[12];

/* 1. 변환 할당 */
tfm = crypto_alloc_aead("gcm(aes)", 0, 0);
crypto_aead_setkey(tfm, key, key_len);
crypto_aead_setauthsize(tfm, 16);  /* 128비트 태그 */

/* 2. SG 설정: AAD + 평문 + 태그 공간 */
sg_init_table(sg_src, 3);
sg_set_buf(&sg_src[0], aad, aad_len);        /* AAD */
sg_set_buf(&sg_src[1], plaintext, pt_len);   /* 평문 */
sg_set_buf(&sg_src[2], tag, 16);             /* 태그 출력 공간 */

sg_init_table(sg_dst, 3);
sg_set_buf(&sg_dst[0], aad, aad_len);
sg_set_buf(&sg_dst[1], ciphertext, pt_len);  /* 암호문 출력 */
sg_set_buf(&sg_dst[2], tag, 16);

/* 3. 요청 설정 및 암호화 */
req = aead_request_alloc(tfm, GFP_KERNEL);
aead_request_set_crypt(req, sg_src, sg_dst, pt_len, iv);
aead_request_set_ad(req, aad_len);

int ret = crypto_aead_encrypt(req);
/* ret == 0: 성공, 암호문과 태그가 sg_dst에 기록됨
 * ret == -EINPROGRESS: 비동기 처리 중 (하드웨어 가속) */

SG 매핑 반복자(sg_miter) 패턴

Crypto API의 소프트웨어 구현은 sg_miter(SG mapping iterator)를 사용하여 SG 리스트의 각 세그먼트를 순차적으로 kmap/kunmap하며 처리합니다. 이는 HIGHMEM 페이지를 안전하게 접근하면서도 한 번에 하나의 매핑만 유지하여 메모리를 절약합니다.

/* sg_miter를 사용한 SG 데이터 처리 패턴 */
struct sg_mapping_iter miter;
unsigned int flags = SG_MITER_FROM_SG | SG_MITER_ATOMIC;

sg_miter_start(&miter, sgl, nents, flags);

while (sg_miter_next(&miter)) {
    /* miter.addr = 현재 세그먼트의 커널 가상 주소 (kmap됨) */
    /* miter.length = 현재 세그먼트의 바이트 길이 */
    process_data(miter.addr, miter.length);
}

sg_miter_stop(&miter);  /* 마지막 kmap 해제 */

SG_MITER_ATOMIC vs SG_MITER_TO_SG: SG_MITER_ATOMIC은 kmap_atomic()을 사용하여 선점(Preemption) 비활성 상태에서 매핑합니다 (인터럽트 컨텍스트 안전). SG_MITER_TO_SG는 SG 리스트에 쓰기 방향을 설정합니다. 읽기 전용(Read-Only)이면 SG_MITER_FROM_SG를 사용하십시오.

SG 유틸리티 함수

함수	용도
`sg_copy_to_buffer(sgl, nents, buf, buflen)`	SG 리스트 → 연속 버퍼 복사
`sg_copy_from_buffer(sgl, nents, buf, buflen)`	연속 버퍼 → SG 리스트 복사
`sg_pcopy_to_buffer(sgl, nents, buf, buflen, skip)`	SG 리스트에서 오프셋 건너뛰고 복사
`sg_pcopy_from_buffer(sgl, nents, buf, buflen, skip)`	연속 버퍼에서 SG 리스트로 오프셋 건너뛰고 복사
`sg_nents(sgl)`	SG 리스트의 총 엔트리 수 계산
`sg_nents_for_len(sgl, len)`	지정 길이를 커버하는 데 필요한 엔트리 수
`sg_miter_start(miter, sgl, nents, flags)`	SG 매핑 반복자 시작 (kmap 기반)
`sg_miter_next(miter)`	다음 SG 세그먼트로 이동 (자동 kmap/kunmap)

디바이스 드라이버 SG 구현 패턴

디바이스 드라이버에서 SG I/O를 구현할 때는 일관된 패턴을 따라야 합니다. DMA 디스크립터 링과 SG 리스트의 연동, 오류 처리, 매핑 해제 순서 등을 정확히 지켜야 메모리 누수와 데이터 손상을 방지할 수 있습니다.

완전한 DMA SG 드라이버 패턴

/* 범용 DMA SG 전송 함수 패턴 */
struct my_sg_request {
    struct sg_table       sgt;
    struct my_dma_desc   *first_desc;
    int                   desc_count;
    enum dma_data_direction dir;
    void                 (*callback)(void *data);
    void                 *cb_data;
};

static int my_submit_sg_transfer(struct device *dev,
                                  struct my_sg_request *sgr,
                                  struct page **pages,
                                  int num_pages,
                                  enum dma_data_direction dir)
{
    struct scatterlist *sg;
    struct my_dma_desc *desc;
    int i, ret;

    /* 1. SG 테이블 할당 */
    ret = sg_alloc_table_from_pages(&sgr->sgt, pages, num_pages,
                                    0, (size_t)num_pages << PAGE_SHIFT,
                                    GFP_KERNEL);
    if (ret)
        return ret;

    /* 2. DMA 매핑 */
    ret = dma_map_sgtable(dev, &sgr->sgt, dir, 0);
    if (ret)
        goto err_free_sgt;

    /* 3. DMA 디스크립터 설정 */
    sgr->desc_count = 0;
    sgr->dir = dir;
    desc = alloc_dma_descs(dev, sgr->sgt.nents);
    if (!desc) {
        ret = -ENOMEM;
        goto err_unmap;
    }
    sgr->first_desc = desc;

    for_each_sgtable_dma_sg(&sgr->sgt, sg, i) {
        desc[i].src_addr = sg_dma_address(sg);
        desc[i].length   = sg_dma_len(sg);
        desc[i].next     = (i < sgr->sgt.nents - 1)
                           ? &desc[i + 1] : NULL;
        desc[i].flags    = (i == sgr->sgt.nents - 1)
                           ? DESC_IRQ | DESC_LAST : 0;
        sgr->desc_count++;
    }

    /* 4. 하드웨어에 전송 시작 */
    writel(desc_dma_addr(sgr->first_desc),
           priv->regs + DMA_DESC_ADDR_REG);
    writel(DMA_START, priv->regs + DMA_CTRL_REG);

    return 0;

err_unmap:
    dma_unmap_sgtable(dev, &sgr->sgt, dir, 0);
err_free_sgt:
    sg_free_table(&sgr->sgt);
    return ret;
}

/* DMA 완료 인터럽트 핸들러 */
static irqreturn_t my_dma_irq(int irq, void *data)
{
    struct my_sg_request *sgr = data;

    /* CPU에서 데이터 읽기 전 동기화 (DMA_FROM_DEVICE) */
    if (sgr->dir == DMA_FROM_DEVICE)
        dma_sync_sgtable_for_cpu(dev, &sgr->sgt, sgr->dir);

    /* 콜백 호출 */
    if (sgr->callback)
        sgr->callback(sgr->cb_data);

    /* 정리: 반드시 unmap → free 순서 */
    dma_unmap_sgtable(dev, &sgr->sgt, sgr->dir, 0);
    sg_free_table(&sgr->sgt);
    free_dma_descs(dev, sgr->first_desc, sgr->desc_count);

    return IRQ_HANDLED;
}

코드 설명

22-26행 sg_alloc_table_from_pages()로 페이지 배열을 최적화된 SG 테이블로 변환합니다. 인접 페이지는 자동 병합됩니다.
29-31행 DMA 매핑 실패 시 SG 테이블을 해제하고 반환합니다. 오류 경로에서 자원 누수를 방지합니다.
41-50행 for_each_sgtable_dma_sg()로 DMA 매핑 후의 세그먼트를 순회하며 하드웨어 디스크립터를 설정합니다. 마지막 디스크립터에 인터럽트 플래그를 설정합니다.
69-71행 DMA_FROM_DEVICE 방향에서 CPU가 데이터를 읽기 전에 dma_sync_sgtable_for_cpu()로 캐시를 무효화합니다.
77-79행 정리 순서가 중요합니다: DMA 매핑 해제 → SG 테이블 해제 → 디스크립터 해제. 순서가 바뀌면 use-after-free가 발생할 수 있습니다.

흔한 SG 드라이버 버그와 해결책

버그	증상	해결책
orig_nents로 DMA 순회	IOMMU 병합 시 잘못된 주소/길이 참조	`for_each_sgtable_dma_sg()` 사용
dma_map_sg 반환값으로 unmap	일부 엔트리 매핑 해제 누락	orig_nents (또는 `dma_unmap_sgtable()`) 사용
매핑 해제 전 SG 테이블 해제	DMA 매핑 누수, IOMMU 자원 고갈	반드시 unmap 먼저, free 나중에
DMA 동기화 누락	캐시 비일관성으로 데이터 손상	`dma_sync_sgtable_for_cpu/device()` 호출
max_segments 초과	DMA 전송 실패 또는 하드웨어 오류	디바이스 큐 파라미터 올바르게 설정
sg_set_page에 복합(compound) 페이지	DMA 매핑 시 페이지 경계 오류	복합 페이지는 개별 하위 페이지로 분할하거나 길이 주의

사용자 공간 버퍼 → SG DMA 전송 완전한 구현 예제

사용자 공간 프로세스(Process)가 전달한 비연속 버퍼를 커널에서 SG 리스트로 변환하고 DMA 전송을 수행하는 전체 경로를 보여주는 완전한 구현 예제입니다. pin_user_pages()로 사용자 페이지를 고정하고, SG 테이블을 구성하여 DMA 매핑 후 디바이스로 전송합니다.

/* 사용자 공간 버퍼 → SG DMA 전송 전체 경로 */
struct my_dma_xfer {
    struct sg_table     sgt;
    struct page       **pages;
    int                npages;
    enum dma_data_direction dir;
};

static int my_dma_transfer_from_user(
    struct device *dev,
    void __user *ubuf,
    size_t len,
    enum dma_data_direction dir)
{
    struct my_dma_xfer *xfer;
    unsigned long start = (unsigned long)ubuf & PAGE_MASK;
    unsigned int offset = (unsigned long)ubuf & ~PAGE_MASK;
    int npages, pinned, ret;
    struct scatterlist *sg;
    int i;

    xfer = kzalloc(sizeof(*xfer), GFP_KERNEL);
    if (!xfer)
        return -ENOMEM;

    /* 1. 사용자 버퍼에 필요한 페이지 수 계산 */
    npages = DIV_ROUND_UP(offset + len, PAGE_SIZE);
    xfer->pages = kvmalloc_array(npages,
        sizeof(struct page *), GFP_KERNEL);
    if (!xfer->pages) {
        ret = -ENOMEM;
        goto err_free_xfer;
    }

    /* 2. 사용자 페이지 고정 (pin)
     *    DMA 전송 중 페이지가 swap-out되는 것을 방지 */
    pinned = pin_user_pages_fast(start, npages,
        dir == DMA_FROM_DEVICE ? FOLL_WRITE : 0,
        xfer->pages);
    if (pinned < 0) {
        ret = pinned;
        goto err_free_pages_array;
    }
    if (pinned != npages) {
        ret = -EFAULT;
        goto err_unpin;
    }
    xfer->npages = pinned;
    xfer->dir = dir;

    /* 3. SG 테이블 생성 (인접 페이지 자동 병합) */
    ret = sg_alloc_table_from_pages(&xfer->sgt,
        xfer->pages, npages, offset, len, GFP_KERNEL);
    if (ret)
        goto err_unpin;

    /* 4. DMA 매핑 */
    ret = dma_map_sgtable(dev, &xfer->sgt, dir, 0);
    if (ret)
        goto err_free_sgt;

    /* 5. 디바이스 DMA 디스크립터 설정 */
    for_each_sgtable_dma_sg(&xfer->sgt, sg, i) {
        dev_dbg(dev, "DMA seg[%d]: addr=0x%llx len=%u\n",
                i, sg_dma_address(sg), sg_dma_len(sg));
        my_hw_add_descriptor(dev,
            sg_dma_address(sg), sg_dma_len(sg),
            i == xfer->sgt.nents - 1);  /* 마지막 플래그 */
    }

    /* 6. 하드웨어 전송 시작 */
    my_hw_start_transfer(dev);

    /* ... 전송 완료 대기 (인터럽트 또는 폴링) ... */

    /* 7. 정리 (반드시 역순) */
    if (dir == DMA_FROM_DEVICE)
        dma_sync_sgtable_for_cpu(dev, &xfer->sgt, dir);
    dma_unmap_sgtable(dev, &xfer->sgt, dir, 0);
    sg_free_table(&xfer->sgt);
    unpin_user_pages(xfer->pages, xfer->npages);
    kvfree(xfer->pages);
    kfree(xfer);
    return 0;

err_free_sgt:
    sg_free_table(&xfer->sgt);
err_unpin:
    unpin_user_pages(xfer->pages, pinned);
err_free_pages_array:
    kvfree(xfer->pages);
err_free_xfer:
    kfree(xfer);
    return ret;
}

코드 설명

16-17행 사용자 포인터에서 페이지 정렬된 시작 주소와 페이지 내 오프셋을 분리합니다. 사용자 버퍼가 0x7FFE1234에서 시작하면 start=0x7FFE1000, offset=0x234입니다.
36-44행 pin_user_pages_fast()는 사용자 공간 페이지를 물리 메모리에 고정(pin)합니다. DMA 전송 중 커널이 해당 페이지를 swap-out하거나 migrate하는 것을 방지합니다. FOLL_WRITE 플래그는 DMA가 페이지에 쓸 경우(디바이스→메모리) COW(Copy-on-Write) 페이지를 미리 복사합니다.
51-54행 sg_alloc_table_from_pages()는 고정된 사용자 페이지 배열에서 물리적으로 인접한 페이지를 자동 병합하여 SG 테이블을 생성합니다. 사용자 버퍼가 hugepage(2MB)로 할당되었다면 매우 적은 SG 엔트리만 생성됩니다.
63-68행 for_each_sgtable_dma_sg()로 DMA 매핑 후의 세그먼트를 순회합니다. IOMMU 병합으로 원본보다 엔트리가 적을 수 있습니다. 마지막 디스크립터에 완료 인터럽트 플래그를 설정합니다.
76-81행 정리 순서가 핵심입니다: DMA 동기화 → DMA 매핑 해제 → SG 테이블 해제 → 사용자 페이지 unpin → 메모리 해제. 이 순서가 바뀌면 use-after-free 또는 데이터 손상이 발생합니다.

사용자 공간 ioctl 인터페이스 구현 예제

위 DMA 전송 함수를 캐릭터 디바이스의 ioctl 인터페이스에서 호출하는 완전한 예제입니다. 사용자 프로그램이 임의 버퍼를 전달하면 커널이 SG DMA로 디바이스에 전송합니다.

/* 사용자 공간과 커널 공유 헤더 */
struct my_dma_ioctl {
    __u64   buf;     /* 사용자 버퍼 포인터 */
    __u32   len;     /* 바이트 길이 */
    __u32   dir;     /* 0=TO_DEVICE, 1=FROM_DEVICE */
};

#define MY_IOC_DMA_XFER  _IOW('M', 1, struct my_dma_ioctl)

/* 커널 ioctl 핸들러 */
static long my_ioctl(struct file *filp,
                    unsigned int cmd,
                    unsigned long arg)
{
    struct my_device *mydev = filp->private_data;
    struct my_dma_ioctl req;
    enum dma_data_direction dir;

    if (cmd != MY_IOC_DMA_XFER)
        return -ENOTTY;

    if (copy_from_user(&req, (void __user *)arg,
                       sizeof(req)))
        return -EFAULT;

    /* 입력 검증 */
    if (!req.buf || req.len == 0 ||
        req.len > MAX_DMA_SIZE)
        return -EINVAL;
    if (req.dir > 1)
        return -EINVAL;

    dir = req.dir ? DMA_FROM_DEVICE : DMA_TO_DEVICE;

    return my_dma_transfer_from_user(
        mydev->dev, (void __user *)req.buf,
        req.len, dir);
}

/* 사용자 공간 호출 예제 */
/*
 * char buf[8192];
 * struct my_dma_ioctl req = {
 *     .buf = (uint64_t)buf,
 *     .len = sizeof(buf),
 *     .dir = 0,  // TO_DEVICE
 * };
 * ioctl(fd, MY_IOC_DMA_XFER, &req);
 */

코드 설명

2-6행 사용자와 커널이 공유하는 ioctl 구조체입니다. buf은 64비트 정수로 선언하여 32/64비트 호환성을 유지합니다. dir은 DMA 방향을 지정합니다.
27-31행 입력 검증: 사용자 입력을 반드시 검증합니다. NULL 포인터, 0 길이, 과도한 크기, 잘못된 방향 값을 거부합니다. 커널 드라이버에서 사용자 입력 검증을 빠뜨리면 보안 취약점(Vulnerability)이 됩니다.
35-37행 검증된 파라미터로 앞서 구현한 my_dma_transfer_from_user()를 호출합니다. 이 함수가 사용자 페이지 고정, SG 테이블 생성, DMA 매핑, 전송, 정리까지 전체 경로를 처리합니다.

성능 최적화와 튜닝

Scatter/Gather I/O의 성능은 SG 엔트리 수, 세그먼트 크기, IOMMU 매핑 오버헤드, 디바이스 하드웨어 능력 등 여러 요소에 의해 결정됩니다. 적절한 튜닝으로 처리량(Throughput)을 크게 향상시킬 수 있습니다.

SG 세그먼트 병합 최적화

최적화 기법	효과	적용 방법
인접 페이지 병합	SG 엔트리 수 감소 → 디스크립터 오버헤드 감소	`sg_alloc_table_from_pages()` 사용
IOMMU 병합 활용	비연속 페이지도 단일 DMA 세그먼트로	IOMMU 활성화, `iommu=on`
대형 페이지 사용	2MB/1GB 페이지로 SG 엔트리 수 대폭 감소	hugepage 할당, compound page
max_segment_size 증가	단일 세그먼트에 더 많은 데이터	`blk_queue_max_segment_size()`
max_segments 증가	더 큰 I/O 요청 가능	`blk_queue_max_segments()`
DMA 주소 연속성 힌트	IOMMU 매핑 최적화	`DMA_ATTR_FORCE_CONTIGUOUS`

SG 처리 성능 벤치마크 참고 데이터

시나리오	SG 엔트리 수	전송 크기	처리량 (참고값)	비고
NVMe 4KB 랜덤 읽기	1	4 KB	~7 GB/s (Gen4)	단일 PRP, 최소 오버헤드
NVMe 128KB 순차 읽기	32 (4KB 페이지)	128 KB	~7 GB/s (Gen4)	PRP 리스트 사용
NVMe 128KB (IOMMU 병합)	1 (32에서 병합)	128 KB	~7 GB/s (Gen4)	IOMMU 병합으로 PRP 오버헤드 감소
10GbE 64KB TSO	16 (skb frags)	64 KB	~1.2 GB/s	NETIF_F_SG + TSO
sendfile 정적 파일	가변	가변	~9.5 GB/s (메모리 대역폭)	제로 카피, CPU 복사 없음
dm-crypt AES-XTS	32 (128KB)	128 KB	~3 GB/s (AES-NI)	SG 기반 in-place 암호화

참고: 위 수치는 일반적인 서버급 하드웨어(Intel Xeon, PCIe Gen4 NVMe, 10GbE NIC)에서의 참고 수치이며, 실제 성능은 하드웨어, 워크로드, 시스템 구성에 따라 크게 달라집니다.

IOMMU 성능 영향

IOMMU는 SG 병합이라는 큰 이점을 제공하지만, 페이지 테이블 관리와 IOTLB 미스로 인한 오버헤드도 존재합니다. 다음은 IOMMU 관련 성능 튜닝 옵션입니다:

커널 파라미터	효과	장단점
`iommu=on`	IOMMU 활성화	SG 병합 가능, 약간의 IOTLB 오버헤드
`iommu=pt`	패스스루 모드	DMA 주소 = 물리 주소, 병합 불가
`iommu.forcedac=1`	64비트 DMA 강제	ZONE_DMA 회피, 바운스 버퍼 방지
`intel_iommu=sm_on`	확장 모드 활성화	PASID/SVA 지원, 오버헤드 증가 가능

블록 장치(Block Device) SG 파라미터 확인 및 튜닝

/* sysfs를 통한 블록 디바이스 SG 파라미터 확인 */
$ cat /sys/block/nvme0n1/queue/max_segments
128

$ cat /sys/block/nvme0n1/queue/max_segment_size
65536

$ cat /sys/block/nvme0n1/queue/max_hw_sectors_kb
512

/* IOMMU 그룹 확인 */
$ ls /sys/kernel/iommu_groups/
0  1  2  3  ...

/* 특정 디바이스의 IOMMU 그룹 */
$ readlink /sys/bus/pci/devices/0000:03:00.0/iommu_group
../../kernel/iommu_groups/15

/* DMA 매핑 통계 (DMA_API_DEBUG 활성 시) */
$ cat /sys/kernel/debug/dma-api/driver_filter
$ cat /sys/kernel/debug/dma-api/num_errors

디버깅과 트러블슈팅

SG I/O 관련 버그는 데이터 손상, DMA 매핑 누수, IOMMU 폴트 등 심각한 문제를 유발합니다. 커널은 이를 진단하기 위한 다양한 디버깅 도구를 제공합니다.

DMA-debug 프레임워크

CONFIG_DMA_API_DEBUG를 활성화하면 커널이 모든 DMA 매핑/해제 작업을 추적하고 다음과 같은 오류를 자동으로 감지합니다:

감지 항목	오류 메시지 (dmesg)	원인
이중 매핑 해제	`DMA-API: device driver tries to free DMA memory it has not allocated`	`dma_unmap_sg()` 중복 호출
매핑 누수	`DMA-API: leak, device driver has X mappings`	`dma_unmap_sg()` 호출 누락
잘못된 방향	`DMA-API: device driver maps memory with wrong direction`	매핑 시 방향과 해제 시 방향 불일치
동기화 없이 접근	`DMA-API: device driver accesses DMA mapped region without sync`	`dma_sync_*` 호출 누락
해제 후 접근	`DMA-API: device driver frees DMA memory with different size`	매핑과 해제의 크기/주소 불일치

ftrace를 활용한 DMA SG 추적

# DMA 매핑 이벤트 추적 활성화
$ echo 1 > /sys/kernel/debug/tracing/events/dma/enable

# SG 매핑 이벤트만 필터링
$ echo 1 > /sys/kernel/debug/tracing/events/dma/map_sg/enable

# 추적 로그 확인
$ cat /sys/kernel/debug/tracing/trace

# 출력 예시:
#  kworker/0:1-123  [000] .... 1234.567: map_sg: nvme0n1 
#    nents=32 mapped=4 dir=DMA_TO_DEVICE
#    sg[0]: dma=0xfffe0000 len=32768
#    sg[1]: dma=0xffff0000 len=32768
#    sg[2]: dma=0x100000000 len=32768
#    sg[3]: dma=0x100010000 len=32768

IOMMU 폴트 디버깅

# IOMMU 폴트 메시지 (dmesg)
# DMAR: [DMA Read] Request device [03:00.0] PASID ffffffff
#   fault addr 7f800000 [fault reason 06] PTE Read access is not set

# IOMMU 디버깅 활성화
$ echo 1 > /sys/kernel/debug/iommu/intel/dmar_perf

# IOMMU 매핑 덤프
$ cat /sys/kernel/debug/iommu/intel/dmar0/domain_translation_struct

# IOMMU 통계
$ cat /sys/kernel/debug/iommu/intel/ir_translation_struct

경고 메시지	의미	조치
`WARNING: sg_alloc_table failed`	메모리 할당 실패	GFP 플래그 확인, 메모리 부족 조사
`BUG: scatter list overflow`	SG 엔트리 수 초과	max_segments 설정 확인
`WARNING: at lib/scatterlist.c`	SG API 잘못된 사용	SG_END/SG_CHAIN 설정 확인
`swiotlb buffer is full`	SWIOTLB 바운스 버퍼 고갈	`swiotlb=65536` 또는 IOMMU 활성화

커널 설정

Scatter/Gather I/O와 관련된 커널 설정 옵션들입니다. 올바른 설정이 성능과 안정성에 직접적인 영향을 미칩니다.

필수/권장 커널 설정

설정	기본값	설명
`CONFIG_NEED_SG_DMA_LENGTH`	자동	IOMMU 병합 시 dma_length 필드 활성화. IOMMU 사용 시 자동 설정
`CONFIG_NEED_SG_DMA_FLAGS`	자동	DMA SG 플래그 필드 활성화 (6.0+)
`CONFIG_DMA_API_DEBUG`	N	DMA 매핑 디버깅. 개발 중 Y 권장, 프로덕션에서는 오버헤드 유의
`CONFIG_DMA_API_DEBUG_SG`	N	SG 전용 추가 디버깅 검사
`CONFIG_IOMMU_SUPPORT`	Y	IOMMU 프레임워크 (SG 병합에 필수)
`CONFIG_INTEL_IOMMU`	Y (x86)	Intel VT-d IOMMU 드라이버
`CONFIG_AMD_IOMMU`	Y (x86 AMD)	AMD-Vi IOMMU 드라이버
`CONFIG_ARM_SMMU_V3`	Y (ARM64)	ARM SMMU v3 드라이버
`CONFIG_SWIOTLB`	자동	소프트웨어 I/O TLB (IOMMU 없을 때 폴백)
`CONFIG_CRYPTO_USER_API_AEAD`	M	사용자 공간 AEAD crypto (SG 기반)
`CONFIG_BLK_DEV_INTEGRITY`	Y	블록 무결성(Integrity) 확장 (SG 기반 메타데이터)

부팅 파라미터

파라미터	효과
`iommu=on`	IOMMU 활성화 (SG 병합 가능)
`iommu=pt`	IOMMU 패스스루 (주소 변환 없음, 병합 불가)
`iommu=off`	IOMMU 비활성화
`iommu.strict=0`	lazy IOTLB 플러시 (성능 향상, 보안 약간 감소)
`swiotlb=65536`	SWIOTLB 버퍼 크기 증가 (슬롯 수)
`intel_iommu=on`	Intel VT-d 명시적 활성화
`amd_iommu=on`	AMD-Vi 명시적 활성화

SG 풀(Pool) 관리와 메모리 효율성

커널의 sg_alloc_table()은 내부적으로 sg_pool 메모리 풀을 사용하여 scatterlist 배열을 효율적으로 할당합니다. 이 풀은 mempool 기반으로 구현되어 메모리 부족 상황에서도 최소한의 SG 할당을 보장합니다.

SG 풀 아키텍처

풀 크기 그룹	엔트리 수	메모리	용도
`SG_MEMPOOL_NR = 0`	8	256B	소규모 DMA 전송 (단일 블록)
`SG_MEMPOOL_NR = 1`	32	1KB	중규모 전송 (NVMe 명령)
`SG_MEMPOOL_NR = 2`	128	4KB (PAGE_SIZE)	대규모 전송 (SCSI 명령)
체이닝	128+	4KB * N	초대규모 전송 (DRM, RDMA)

SG 풀 할당 흐름

/* sg_alloc_table 내부 할당 로직 (단순화) */
int sg_alloc_table(struct sg_table *table, unsigned int nents,
                   gfp_t gfp_mask)
{
    struct scatterlist *sg, *prv;
    unsigned int left;

    memset(table, 0, sizeof(*table));

    left = nents;
    prv = NULL;
    do {
        unsigned int sg_size;
        unsigned int alloc_size = min(left, SG_MAX_SINGLE_ALLOC);

        /* kmalloc 또는 sg_pool에서 배열 할당 */
        sg = sg_kmalloc(alloc_size, gfp_mask);
        if (!sg)
            return -ENOMEM;

        sg_init_table(sg, alloc_size);
        table->nents = table->orig_nents += alloc_size;

        if (prv)
            sg_chain(prv, sg_size, sg);  /* 이전 배열과 체이닝 */
        else
            table->sgl = sg;

        left -= alloc_size;
        prv = sg;
        sg_size = alloc_size;
    } while (left);

    return 0;
}

sg_kmalloc/sg_pool 메모리 할당 구현 분석

sg_alloc_table() 내부에서 호출되는 sg_kmalloc()의 구현을 분석합니다. 이 함수는 요청 크기에 따라 일반 kmalloc() 또는 mempool 기반 SG 풀에서 할당합니다.

/* lib/scatterlist.c — SG 메모리 할당 (간략화) */

/* SG 풀 정의: mempool + kmem_cache 기반 */
struct sg_pool {
    size_t           size;    /* 엔트리 수 */
    char            *name;
    struct kmem_cache *slab;   /* slab 캐시 */
    mempool_t       *pool;    /* 최소 보장 풀 */
};

/* 풀 크기 그룹: 8, 32, 128 엔트리 */
#define SG_MEMPOOL_NR  ARRAY_SIZE(sg_pools)
#define SG_MEMPOOL_SIZE 2  /* 각 풀 최소 보장 개수 */

static struct sg_pool sg_pools[] = {
    { .size = 8   },  /* 256B — 소규모 DMA */
    { .size = 32  },  /* 1KB — NVMe 명령 */
    { .size = 128 },  /* 4KB (PAGE_SIZE) — SCSI 명령 */
};

/* sg_kmalloc: 크기별 최적 할당 전략 선택 */
static struct scatterlist *sg_kmalloc(
    unsigned int nents, gfp_t gfp_mask)
{
    /* SG_MAX_SINGLE_ALLOC 이하: 풀에서 할당 */
    if (nents <= SG_MAX_SINGLE_ALLOC) {
        /* 적합한 풀 크기 그룹 선택 (올림) */
        int idx = sg_pool_index(nents);
        struct sg_pool *sgp = sg_pools + idx;

        /* mempool에서 할당 — 메모리 부족 시에도 보장 */
        return mempool_alloc(sgp->pool, gfp_mask);
    }

    /* 초대형: 페이지 단위 직접 할당 */
    return kmalloc_array(nents, sizeof(struct scatterlist),
                         gfp_mask);
}

/* sg_kfree: 할당 방식에 맞는 해제 */
static void sg_kfree(struct scatterlist *sgl,
                     unsigned int nents)
{
    if (nents <= SG_MAX_SINGLE_ALLOC) {
        int idx = sg_pool_index(nents);
        mempool_free(sgl, sg_pools[idx].pool);
    } else {
        kfree(sgl);
    }
}

/* 초기화: 부팅 시 SG 풀 생성 */
static int __init sg_pool_init(void)
{
    int i;
    for (i = 0; i < SG_MEMPOOL_NR; i++) {
        struct sg_pool *sgp = &sg_pools[i];

        /* slab 캐시: scatterlist 배열 전용 */
        sgp->slab = kmem_cache_create(sgp->name,
            sgp->size * sizeof(struct scatterlist),
            0, SLAB_HWCACHE_ALIGN, NULL);

        /* mempool: 최소 SG_MEMPOOL_SIZE개 사전 할당 */
        sgp->pool = mempool_create_slab_pool(
            SG_MEMPOOL_SIZE, sgp->slab);
    }
    return 0;
}

코드 설명

3-9행 struct sg_pool은 특정 크기의 scatterlist 배열을 효율적으로 할당하기 위한 풀 구조체입니다. kmem_cache(slab 캐시)로 고정 크기 객체를 빠르게 할당하고, mempool로 메모리 부족 시에도 최소 할당을 보장합니다.
15-19행 3단계 풀: 8, 32, 128 엔트리 크기의 풀을 제공합니다. 예를 들어 10개 엔트리가 필요하면 32 엔트리 풀에서 할당합니다. 128 엔트리(= PAGE_SIZE)를 초과하면 체이닝으로 여러 배열을 연결합니다.
26-33행 sg_kmalloc()은 요청 크기가 SG_MAX_SINGLE_ALLOC(보통 128) 이하이면 SG 풀에서 할당합니다. mempool_alloc()은 slab 할당이 실패해도 미리 예약된 풀에서 할당을 보장합니다. 이는 I/O 경로에서 메모리 할당 실패를 방지하는 핵심 메커니즘입니다.
53-63행 부팅 시 초기화: 각 풀 크기 그룹에 대해 slab 캐시를 생성하고, SG_MEMPOOL_SIZE(2)개의 객체를 미리 할당합니다. SLAB_HWCACHE_ALIGN 플래그는 캐시 라인(Cache Line) 정렬을 보장하여 false sharing을 방지합니다.

devm 기반 SG 관리

디바이스 드라이버에서는 devm_ 접두사 API를 활용하여 디바이스 해제 시 SG 리소스가 자동으로 정리되도록 할 수 있습니다:

/* devm 기반 SG 테이블 관리 패턴 */
struct sg_table *sgt;

/* devm_kzalloc으로 sg_table 할당 */
sgt = devm_kzalloc(dev, sizeof(*sgt), GFP_KERNEL);
if (!sgt)
    return -ENOMEM;

ret = sg_alloc_table(sgt, nents, GFP_KERNEL);
if (ret)
    return ret;

/* devm_add_action_or_reset으로 정리 콜백 등록 */
ret = devm_add_action_or_reset(dev, my_sg_cleanup, sgt);

/* 정리 콜백 */
static void my_sg_cleanup(void *data)
{
    struct sg_table *sgt = data;
    dma_unmap_sgtable(dev, sgt, dir, 0);
    sg_free_table(sgt);
}

커널 6.x 변경사항

리눅스 커널 6.x 시리즈에서는 Scatter/Gather 관련 API와 내부 구현에 여러 중요한 변경이 있었습니다. 새로운 드라이버를 작성하거나 기존 코드를 업데이트할 때 이 변경사항을 반영해야 합니다.

버전	변경사항	영향
6.0	`dma_flags` 필드 추가 (`CONFIG_NEED_SG_DMA_FLAGS`)	DMA SG 매핑에 추가 플래그 전달 가능 (P2P DMA 등)
6.0	`dma_map_sgtable()`에 `attrs` 파라미터 추가	`DMA_ATTR_*` 플래그로 매핑 동작 세밀 제어
6.1	IOMMU 기본 DMA 도메인: `lazy` → `strict`	보안 강화, IOTLB 플러시 지연 감소. 성능 영향 가능
6.2	`sg_alloc_table_from_pages_segment()` 폐기	`sg_alloc_table_from_pages()`에 max_segment 통합
6.3	SWIOTLB 동적 슬랏 확장	SWIOTLB 바운스 버퍼 고갈 시 자동 확장, OOM 감소
6.4	DMA 디버그 경고 개선	stack trace 포함, 잘못된 SG 사용 시 더 명확한 메시지
6.5	IOVA rcache 성능 개선	IOMMU SG 매핑 시 IOVA 할당 지연 감소 (최대 30%)
6.6	`dma_need_sync()` API 추가	동기화 필요 여부를 사전 확인하여 불필요한 sync 호출 제거
6.8	folio 기반 SG 지원 강화	`sg_set_folio()` 등 folio 친화적 API 도입
6.10	P2P DMA SG 경로 최적화	GPU-NVMe 직접 전송 시 불필요한 IOMMU 매핑 생략
6.13~6.15	`dma_iova_*()` 초기 계열 정리	SG 테이블 대신 IOVA 구간을 직접 등록하는 저수준 API 노출
6.16~	물리 주소 기반 DMA 매핑 RFC 진행	struct page 없는 메모리(CXL/GPU VRAM/pKVM) 표현 가능성 확보

phyr / 물리 주소 기반 API 전환 (2025~)

Scatterlist는 20여 년 동안 Linux 커널 DMA의 사실상 표준이었지만, struct page를 필수로 요구한다는 근본적 한계가 있습니다. 2023 LSFMM에서 Jason Gunthorpe가 제기한 이후 phyr(Physical Range, 별칭 rlist)라는 대체 자료구조 논의가 이어졌고, 2025년에는 이것이 DMA 매핑 API를 물리 주소 기반으로 리팩터링하는 실제 패치(Patch) 시리즈로 구체화되었습니다.

왜 필요한가: 아래와 같은 메모리는 struct page가 존재하지 않거나 제한됩니다. 이 메모리들을 scatterlist에 끼워 넣으려면 fake page 트릭, devmap, ZONE_DEVICE, pfn_to_online_page() 우회 등 여러 비표준 경로를 거쳐야 했습니다.

CXL 메모리 풀 / HBM / GPU VRAM
pKVM 호스트 외부 비공개 페이지(Private Pages)
파일 오프셋 / LBA 등 메모리 외 주소 공간
Confidential Computing(TDX/SEV-SNP)용 암호화 메모리

항목	기존 scatterlist	phyr / IOVA 기반 신설 API
구성 요소	`struct page *` + 오프셋 + 길이	`phys_addr_t` + 길이
이터레이터	`for_each_sg()`, `sg_miter_*`	range CPU/range DMA 이터레이터
DMA 매핑	`dma_map_sgtable()`	`dma_iova_alloc/link/sync`
P2P DMA	`pci_p2pdma_map_sg()`	`DMA_ATTR_PCI_P2PDMA` + IOVA
메모리 표현력	struct page 강제	struct page 없는 메모리 지원

/* 개념: phyr 스타일 이터레이션 (설계 제안)
 * 이 API는 커널 메인라인에 아직 미머지 상태이며, 최종 시그니처는 변경될 수 있습니다.
 */
struct phyr_iter it;
phyr_iter_init(&it, phyr_list, nents);
while (phyr_iter_next(&it)) {
    phys_addr_t pa = phyr_iter_phys(&it);
    size_t    len = phyr_iter_len(&it);
    dma_iova_link(dev, &iov, pa, len, 0);
}
dma_iova_sync(dev, &iov, DMA_BIDIRECTIONAL);

전환은 점진적(Incremental)으로 이루어집니다. 기존 scatterlist 사용 드라이버는 계속 동작하며, 새 API는 NVMe/GPU/RDMA 같은 고성능 경로부터 먼저 채택됩니다. NVMe의 sgl_alloc(), GPU DRM의 GEM 버퍼 매핑, RDMA의 MR 등록 경로가 주요 후보입니다.

작업 현황 확인: 관련 논의는 LKML의 linux-mm/linux-dma-iommu 리스트, 그리고 Jason Gunthorpe의 GitHub 브랜치에서 추적할 수 있습니다. 상위 레벨 동향은 DMA — 물리 주소 API 전환 문서에서도 다룹니다.

레거시 → 최신 API 마이그레이션

레거시 API	최신 API	변경 이유
`dma_map_sg(dev, sgl, nents, dir)`	`dma_map_sgtable(dev, sgt, dir, attrs)`	nents 관리 자동화, attrs 파라미터 추가
`dma_unmap_sg(dev, sgl, nents, dir)`	`dma_unmap_sgtable(dev, sgt, dir, attrs)`	orig_nents 자동 사용으로 해제 버그 방지
`sg_alloc_table_from_pages_segment()`	`sg_alloc_table_from_pages()`	6.2에서 max_segment 파라미터 통합
`sg_page(sg)` + 수동 오프셋	`sg_set_folio(sg, folio, len, off)`	folio 기반 메모리 관리 지원 (6.8+)
`pci_map_sg()`	`dma_map_sgtable()`	PCI 전용 → 범용 DMA API 전환 (오래전 폐기)

마이그레이션 주의: dma_map_sg()에서 dma_map_sgtable()로 전환할 때, 반환값 의미가 다릅니다. dma_map_sg()는 매핑된 세그먼트 수(양수)를 반환하고, dma_map_sgtable()은 0(성공) 또는 음수(오류)를 반환합니다. 매핑된 세그먼트 수는 sgt->nents에서 읽습니다.

흔한 실수와 해결책

SG I/O 프로그래밍에서 자주 발생하는 실수와 그 해결 방법을 정리합니다. 이 실수들은 데이터 손상, 커널 패닉(Kernel Panic), 성능 저하의 직접적인 원인이 됩니다.

#	실수	증상	해결책
1	DMA 매핑 후 `for_each_sgtable_sg()`로 DMA 주소 읽기	IOMMU 병합 시 잘못된 주소/길이 참조	`for_each_sgtable_dma_sg()` 사용
2	`dma_unmap_sg()`에 `nents` 대신 `orig_nents` 전달 또는 그 반대	DMA 매핑 누수 또는 이중 해제(Double Free)	`dma_unmap_sgtable()`로 전환하여 자동 관리
3	SG 테이블 해제 전 DMA 매핑 해제 누락	IOMMU 매핑 누수, 주소 공간 고갈	반드시 `dma_unmap_sgtable()` → `sg_free_table()` 순서
4	`sg_set_buf()`에 vmalloc 주소 전달	잘못된 page 변환, 데이터 손상	vmalloc 메모리는 `vmalloc_to_page()` + `sg_set_page()` 사용
5	SG_END 마킹 없이 순회	무한 루프 또는 메모리 접근 위반	`sg_alloc_table()` 또는 `sg_init_table()`이 자동 설정
6	DMA 동기화 없이 CPU가 DMA 버퍼 접근	캐시 일관성(Cache Coherency) 위반, 데이터 깨짐	`dma_sync_sgtable_for_cpu()` 호출 후 접근
7	max_segments 초과하는 SG 엔트리 수 전달	디바이스가 처리 불가, I/O 오류	블록 레이어 제한 확인, `blk_rq_map_sg()` 사용
8	compound page를 개별 페이지로 분할하지 않고 SG 설정	DMA 매핑 시 경계 오류	compound page 인식 API 사용 또는 하위 페이지 분할
9	GFP_KERNEL으로 원자적(Atomic) 컨텍스트에서 SG 할당	`BUG: sleeping function called from invalid context`	인터럽트/소프트IRQ에서는 `GFP_ATOMIC` 사용
10	SG 리스트를 스택에 대형 배열로 할당	스택 오버플로(Stack Overflow)우	16개 이상은 `sg_alloc_table()`로 힙 할당

vmalloc 메모리 SG 변환 올바른 패턴

/* vmalloc 메모리를 SG 리스트로 올바르게 변환 */
void *vaddr = vmalloc(size);
struct sg_table sgt;
struct scatterlist *sg;
int npages = PAGE_ALIGN(size) / PAGE_SIZE;
int i;

sg_alloc_table(&sgt, npages, GFP_KERNEL);

for_each_sgtable_sg(&sgt, sg, i) {
    struct page *page = vmalloc_to_page(
        vaddr + i * PAGE_SIZE);
    unsigned int len = min_t(unsigned int,
        PAGE_SIZE, size - i * PAGE_SIZE);
    sg_set_page(sg, page, len, 0);
}

/* 주의: vmalloc 페이지는 물리적으로 비연속이므로
 * 반드시 개별 페이지를 vmalloc_to_page()로 변환 */

DMA 동기화 체크리스트

상황	필요한 동기화	API
DMA 전송 완료 후 CPU가 데이터 읽기	for_cpu 동기화	`dma_sync_sgtable_for_cpu(dev, sgt, dir)`
CPU가 데이터 수정 후 DMA 재전송(Retransmission)	for_device 동기화	`dma_sync_sgtable_for_device(dev, sgt, dir)`
양방향 DMA (읽기+쓰기)	매 전환 시 동기화	`DMA_BIDIRECTIONAL` 방향 사용
coherent DMA 버퍼 사용	동기화 불필요	`dma_alloc_coherent()` (SG 대신)

참고자료

커널 공식 문서

DMA API Guide (kernel.org) -- DMA 매핑 API 공식 문서
DMA API HOWTO (kernel.org) -- DMA 매핑 실전 가이드
DMA Attributes (kernel.org) -- DMA 매핑 속성 상세
DMA-BUF (kernel.org) -- DMA 버퍼 공유 프레임워크
Block Layer Documentation (kernel.org) -- 블록 I/O 계층 문서
Crypto API (kernel.org) -- 커널 암호화 프레임워크
Page Pool API (kernel.org) -- 네트워크 SG 지원을 위한 페이지 풀

커널 소스 코드

include/linux/scatterlist.h -- scatterlist, sg_table 정의
lib/scatterlist.c -- SG 관리 함수 구현
include/linux/dma-mapping.h -- DMA 매핑 API 헤더
include/linux/iov_iter.h -- iov_iter 정의
kernel/dma/mapping.c -- DMA 매핑 코어
kernel/dma/direct.c -- 직접 DMA 매핑 (IOMMU 없음)
kernel/dma/swiotlb.c -- SWIOTLB 바운스 버퍼
drivers/iommu/ -- IOMMU 프레임워크 및 드라이버
include/linux/bio.h -- bio, bio_vec 정의
include/linux/skbuff.h -- sk_buff, skb_frag_t 정의
drivers/nvme/host/pci.c -- NVMe PCI 드라이버 (SG/PRP/SGL 변환)
drivers/nvme/host/core.c -- NVMe 코어 (SG 변환 로직)
mm/page_alloc.c -- SG 버퍼를 위한 페이지 할당
fs/splice.c -- splice, sendfile 구현
lib/iov_iter.c -- iov_iter 순회 구현

규격 및 표준

NVMe Base Specification -- NVMe SGL/PRP 상세 규격
Intel VT-d Specification -- Intel IOMMU DMA 리매핑 규격
AMD I/O Virtualization Technology (IOMMU) Specification
SCSI Primary Commands (SPC-6) -- SCSI SG 목록 관련 규격

외부 자료

Scatter-gather I/O (LWN) -- Scatter-Gather I/O 개요
A new DMA mapping API (LWN) -- 새로운 DMA 매핑 API 설계
Phyr: a potential scatterlist replacement (LWN, 2023) -- phyr/rlist 설계 논의 출발점
dma-mapping: migrate to physical address-based API -- 2025 물리 주소 기반 DMA API 패치

DMA (Direct Memory Access) -- DMA 기초 및 전체 API
Block I/O -- 블록 계층 아키텍처
sk_buff -- 네트워크 버퍼 관리
NVMe -- NVMe 드라이버 상세
io_uring -- 비동기 I/O 프레임워크
GSO/GRO -- 네트워크 오프로드
IOMMU -- IOMMU 프레임워크
Crypto API -- 커널 암호화 프레임워크
Direct I/O & Buffered I/O -- 파일 I/O 경로
DMA Engine -- 소프트웨어 DMA 엔진

다음 학습:

DMA -- DMA 매핑 전체 API와 IOMMU 상호작용을 더 깊이 학습
Block I/O -- 블록 계층의 bio/request 처리 흐름을 이해
io_uring -- 최신 비동기 I/O 프레임워크와 SG 활용

Scatter/Gather I/O

핵심 요약

단계별 이해

Scatter/Gather 개요

왜 Scatter/Gather가 필요한가

SG I/O가 활용되는 커널 하위 시스템

커널 소스 트리 위치

핵심 개념: 비연속 메모리 전송

물리 메모리 단편화와 SG 전송

연속 vs 비연속 메모리 DMA 비교

Gather 방향과 Scatter 방향

scatterlist 구조체

구조체 정의

page_link 필드의 비트 레이아웃

체이닝 메커니즘

체이닝 핵심 함수 구현 분석

핵심 인라인 헬퍼 함수

sg_table과 SG 관리 API

sg_table 구조체

sg_alloc_table_from_pages와 자동 병합

SG 관리 API 총정리

SG 테이블 생성 전체 예제

sg_alloc_table_from_pages 활용

__sg_alloc_table_from_pages 인접 페이지 병합 구현 분석

SG 리스트 순회

순회 매크로 비교

순회 매크로 내부 구현

실전 순회 패턴: 디바이스 디스크립터 설정

DMA SG 매핑

DMA SG 매핑 API

DMA 방향 플래그

dma_map_sgtable 내부 동작

IOMMU와 SG 통합

IOMMU SG 병합 원리

IOMMU 백엔드별 특성

SWIOTLB 바운스 버퍼와 SG

IOMMU 병합(coalescing) 상세 과정

iommu_dma_map_sg 구현 분석

SG 리스트와 IOMMU 병합 최적화

블록 I/O에서의 Scatter/Gather

bio_vec 구조체

bio 구조체의 SG 특성

blk_rq_map_sg 변환 과정

blk_rq_map_sg 세그먼트 병합 구현 분석

블록 디바이스 SG 제한 파라미터

네트워크 스택의 Scatter/Gather

skb_frag_t 구조체

네트워크 SG 관련 피처 플래그

네트워크 드라이버 SG 송신 코드 패턴

skb_to_sgvec: 네트워크 패킷 → SG 변환

NVMe SGL과 PRP

PRP vs SGL 비교

NVMe SGL 디스크립터 구조

scatterlist에서 PRP/SGL 변환

nvme_pci_setup_prps: scatterlist → PRP 리스트 구축 구현 분석

readv/writev와 사용자 공간 SG

iovec 구조체

iov_iter 구조체 (커널 내부 통합 순회자)

iov_iter 타입별 사용 문맥

사용자 공간 벡터 I/O 예제

splice와 제로 카피

제로 카피 시스템 콜 비교

splice 구현 핵심 경로

do_splice_direct 콜 체인 구현 분석

vmsplice와 사용자 공간 제로 카피 구현 예제

Crypto API의 SG 활용

Crypto API의 SG 사용 패턴

SG 기반 대칭 암호화 예제

SG 매핑 반복자(sg_miter) 패턴

SG 유틸리티 함수

디바이스 드라이버 SG 구현 패턴

완전한 DMA SG 드라이버 패턴

흔한 SG 드라이버 버그와 해결책

사용자 공간 버퍼 → SG DMA 전송 완전한 구현 예제

사용자 공간 ioctl 인터페이스 구현 예제

성능 최적화와 튜닝

SG 세그먼트 병합 최적화

SG 처리 성능 벤치마크 참고 데이터

IOMMU 성능 영향

블록 장치(Block Device) SG 파라미터 확인 및 튜닝