Linux Crypto Framework (Crypto API)
Linux Crypto Framework(Crypto API)를 커널 암호 연산의 공통 추상화 계층으로 심층 분석합니다. skcipher/aead/hash/rng API 분류와 사용 패턴, synchronous vs asynchronous 요청 경로, 알고리즘 등록과 우선순위 선택, AES-NI·ARM Crypto Extensions·QAT 등 하드웨어 가속 연동, scatterlist 기반 버퍼 처리, dm-crypt/IPsec/tls 등 상위 서브시스템 통합, FIPS 모드 고려사항, 성능 계측과 보안 검증 절차까지 실전 커널 암호화 운영에 필요한 핵심을 다룹니다.
핵심 요약
- 전제 결합 — 보안, 성능, 아키텍처 지식을 함께 적용합니다.
- 경계 명확화 — API 경계와 ABI 영향 범위를 먼저 확인합니다.
- 위험 관리 — UAF, race, side-effect 가능성을 우선 점검합니다.
- 계측 기반 판단 — 추측 대신 데이터로 개선 여부를 판단합니다.
- 점진 적용 — 실험 범위를 작게 시작해 단계적으로 확장합니다.
단계별 이해
- 가설 수립
문제와 개선 목표를 수치로 정의합니다. - 제약 분석
호환성, 안정성, 보안 제약을 먼저 확인합니다. - 실험 적용
최소 변경으로 효과와 부작용을 측정합니다. - 정식 반영
검증된 변경만 문서화해 반영합니다.
Linux Crypto Framework 개요
Linux 커널의 Crypto Framework (Crypto API)는 암호화 알고리즘을 커널 내에서 사용할 수 있도록 하는 통합 프레임워크입니다. 소프트웨어 구현과 하드웨어 가속(AES-NI, SHA Extensions 등)을 동일한 인터페이스로 제공합니다.
Linux Crypto Framework 아키텍처 원리
Crypto Framework (Crypto API)는 알고리즘 구현과 사용을 분리하는 프레임워크 패턴으로 설계되어 있습니다. 핵심 개념은 세 가지입니다:
- Algorithm (알고리즘 등록): 각 암호화 구현체(SW 또는 HW)가
crypto_register_alg()으로 자신을 등록합니다. 같은 알고리즘의 여러 구현이 공존하며, priority 값으로 우선순위를 매깁니다. - Transform (tfm): 사용자가
crypto_alloc_skcipher("cbc(aes)", ...)를 호출하면, 커널이 priority가 가장 높은 구현을 선택하여 인스턴스(tfm)를 생성합니다. 키를 설정하면 이 tfm으로 반복 암호화가 가능합니다. - Request: 실제 데이터 처리 단위. scatterlist(물리 메모리 분산 목록)로 데이터를 전달하여 DMA 친화적인 zero-copy 처리가 가능합니다.
알고리즘 조합 (Template) 원리
Crypto Framework (Crypto API)의 강력한 특성 중 하나는 템플릿 기반 알고리즘 조합입니다. "cbc(aes)"에서 cbc는 운용 모드 템플릿이고 aes는 기본 블록 암호입니다. 커널은 이를 재귀적으로 해석하여:
알고리즘 이름 해석 예시: "authenc(hmac(sha256),cbc(aes))"는 다음과 같이 분해됩니다:
authenc— 인증+암호화 템플릿hmac— MAC 템플릿sha256— 해시 알고리즘cbc— 블록 암호 모드 템플릿aes— 블록 암호 알고리즘
이 구조 덕분에 새 블록 암호(예: SM4)를 추가하면 기존 모든 템플릿(cbc, gcm, xts 등)과 자동 조합됩니다.
Fallback 메커니즘: H/W 가속기가 특정 키 크기나 입력 크기를 지원하지 못하면, 자동으로 priority가 낮은 S/W 구현으로 fallback됩니다. 이는 CRYPTO_ALG_NEED_FALLBACK 플래그와 crypto_alloc_*의 type/mask 매개변수로 제어됩니다.
알고리즘 유형
| 유형 | API | 예시 |
|---|---|---|
| 대칭 암호 (Cipher) | crypto_skcipher | AES-CBC, AES-CTR, ChaCha20 |
| AEAD | crypto_aead | AES-GCM, ChaCha20-Poly1305 |
| 해시 (Hash) | crypto_shash / crypto_ahash | SHA-256, SHA-3, BLAKE2 |
| 비대칭 암/복호화 (AKCIPHER) | crypto_akcipher | RSA |
| 전자서명 (SIG) | crypto_sig | ECDSA, RSA |
| 키 합의 (KPP) | crypto_kpp | ECDH, DH |
| 난수 생성 (RNG) | crypto_rng | DRBG, Jitter RNG |
| 압축 | crypto_comp | LZ4, ZSTD, Deflate |
비대칭 암호와 공개키 연산
커널 Crypto Framework에서 비대칭 연산은 하나의 API로 뭉뚱그리지 않고 암/복호화, 서명/검증, 키 합의를 각각 다른 인터페이스로 분리합니다. 이 구분을 이해하지 못하면 RSA, ECDSA, ECDH를 같은 계층의 대체재처럼 오해하게 됩니다.
| 연산 | 커널 API | 대표 알고리즘 | 커널에서 자주 쓰는 위치 |
|---|---|---|---|
| 공개키 암호화 / 개인키 복호화 | crypto_akcipher | RSA | 세션 키 포장, 키 블롭 보호, 인증서 기반 부트 체인 |
| 개인키 서명 / 공개키 검증 | crypto_sig | ECDSA, RSA | 모듈 서명, 펌웨어 검증, 무결성 검증 |
| 공유 비밀 계산 | crypto_kpp | ECDH, DH | TLS/IPsec 핸드셰이크, 세션 키 합의 |
skcipher 또는 aead로 처리하는 하이브리드 구성이 표준적입니다.
중요한 차이: crypto_akcipher는 공개키로 암호화하고 개인키로 복호화하는 경로를 다루며, crypto_sig는 서명과 검증을 위해 별도 API를 사용합니다. crypto_kpp는 암/복호화가 아니라 양측이 동일한 공유 비밀을 계산하는 용도이므로, 의미상 완전히 다른 계층입니다.
crypto_akcipher_set_pub_key(),
crypto_akcipher_set_priv_key(), crypto_sig_set_pubkey(),
crypto_sig_set_privkey()는 BER/DER 형태의 키와 알고리즘 파라미터를 기대합니다.
즉, 단순히 RSA modulus나 ECC 좌표만 raw 바이트로 넘기는 식의 코드는 바로 맞지 않을 수 있습니다.
RSA AKCIPHER 예제
공개키 암호화 API는 crypto_alloc_akcipher()로 tfm을 얻고, akcipher_request에
입출력 scatterlist를 연결한 뒤 crypto_akcipher_encrypt() 또는
crypto_akcipher_decrypt()를 호출하는 형태입니다. 공개키/개인키는 BER/DER로 인코딩된 형태가
필요하다는 점이 대칭 API와 가장 크게 다릅니다.
#include <crypto/akcipher.h>
#include <linux/scatterlist.h>
static int rsa_encrypt_keyblob(const void *pub_der, unsigned int pub_der_len,
const u8 *plain, unsigned int plain_len,
u8 *cipher, unsigned int *cipher_len)
{
struct crypto_akcipher *tfm;
struct akcipher_request *req;
struct scatterlist src, dst;
int ret;
tfm = crypto_alloc_akcipher("rsa", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
ret = crypto_akcipher_set_pub_key(tfm, pub_der, pub_der_len);
if (ret)
goto out_free_tfm;
req = akcipher_request_alloc(tfm, GFP_KERNEL);
if (!req) {
ret = -ENOMEM;
goto out_free_tfm;
}
sg_init_one(&src, plain, plain_len);
sg_init_one(&dst, cipher, *cipher_len);
akcipher_request_set_crypt(req, &src, &dst, plain_len, *cipher_len);
ret = crypto_akcipher_encrypt(req);
if (!ret)
*cipher_len = req->dst_len;
akcipher_request_free(req);
out_free_tfm:
crypto_free_akcipher(tfm);
return ret;
}
akcipher_request는
src, dst, src_len, dst_len를 갖는 비동기 요청 객체입니다.
소프트웨어 구현은 즉시 완료될 수 있지만, 하드웨어 가속기나 backlog 환경을 고려하면 completion 경로를 염두에 두는 편이 안전합니다.
전자서명 API 예제
서명 API는 request 객체를 쓰지 않고 tfm에 직접 crypto_sig_sign() 또는
crypto_sig_verify()를 호출합니다. 상위 계층이 이미 해시를 계산해 둔 상태에서 digest에 대해
서명/검증을 수행하는 식으로 사용하는 경우가 많습니다.
#include <crypto/sig.h>
static int verify_firmware_digest(const void *pub_der, unsigned int pub_der_len,
const u8 *sig, unsigned int sig_len,
const u8 *digest, unsigned int digest_len)
{
struct crypto_sig *tfm;
int ret;
tfm = crypto_alloc_sig("ecdsa", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
ret = crypto_sig_set_pubkey(tfm, pub_der, pub_der_len);
if (ret)
goto out_free_tfm;
ret = crypto_sig_verify(tfm, sig, sig_len, digest, digest_len);
out_free_tfm:
crypto_free_sig(tfm);
return ret;
}
서명 출력 버퍼는 crypto_sig_maxsize()로 산정하고, 검증에 넘기는 digest 길이는
상위 프로토콜이 정한 해시 길이와 정확히 맞춰야 합니다. 특히 ECDSA는 곡선 종류와 DER 인코딩 길이에 따라
서명 길이가 가변적일 수 있으므로, 고정 길이 배열을 가정하면 구현이 깨질 수 있습니다.
KPP ECDH 예제
crypto_kpp는 암호문을 만드는 API가 아니라 공유 비밀을 계산하는 API입니다.
ECDH에서는 개인키를 struct ecdh로 표현한 뒤 crypto_ecdh_encode_key()로
패킷 형태로 포장해 crypto_kpp_set_secret()에 넘깁니다.
#include <crypto/kpp.h>
#include <crypto/ecdh.h>
#include <linux/scatterlist.h>
#include <linux/slab.h>
static int ecdh_shared_secret(const u8 *priv, unsigned int priv_len,
const u8 *peer_pub, unsigned int peer_pub_len,
u8 *secret, unsigned int *secret_len)
{
struct crypto_kpp *tfm;
struct kpp_request *req;
struct ecdh params = {
.key = (char *)priv,
.key_size = priv_len,
};
struct scatterlist src, dst;
char *packed = NULL;
unsigned int packed_len;
int ret;
tfm = crypto_alloc_kpp("ecdh", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
packed_len = crypto_ecdh_key_len(¶ms);
packed = kmalloc(packed_len, GFP_KERNEL);
if (!packed) {
ret = -ENOMEM;
goto out_free_tfm;
}
ret = crypto_ecdh_encode_key(packed, packed_len, ¶ms);
if (ret)
goto out_free_key;
ret = crypto_kpp_set_secret(tfm, packed, packed_len);
if (ret)
goto out_free_key;
req = kpp_request_alloc(tfm, GFP_KERNEL);
if (!req) {
ret = -ENOMEM;
goto out_free_key;
}
sg_init_one(&src, peer_pub, peer_pub_len);
sg_init_one(&dst, secret, *secret_len);
kpp_request_set_input(req, &src, peer_pub_len);
kpp_request_set_output(req, &dst, *secret_len);
ret = crypto_kpp_compute_shared_secret(req);
if (!ret)
*secret_len = req->dst_len;
kpp_request_free(req);
out_free_key:
kfree(packed);
out_free_tfm:
crypto_free_kpp(tfm);
return ret;
}
| 알고리즘 | 강점 | 제약 | 커널에서 보통 맡는 역할 |
|---|---|---|---|
| RSA | 폭넓은 호환성, AKCIPHER로 직관적 | 키와 서명 크기가 크고 연산 비용이 큼 | 키 포장, 인증서 기반 암/복호화, 일부 서명 검증 |
| ECDSA | 짧은 키와 짧은 서명, 검증 비용 절감 | 곡선/인코딩 관리가 필요 | 모듈, 펌웨어, 이미지 무결성 검증 |
| ECDH | 세션 키 합의에 효율적 | 단독으로 기밀성이나 인증을 주지 않음 | TLS, IPsec, WireGuard 전단의 공유 비밀 생성 |
해시 사용 예제
IS_ERR()/PTR_ERR(), 반환값 점검, 해제 순서를 함께 보여주는 형태입니다.
컴파일 가능한 완전 예제는 커널 트리 대응 구현(crypto/sha256_generic.c, crypto/gcm.c 등)을 함께 확인하세요.
#include <crypto/hash.h>
#include <linux/slab.h>
static int calc_sha256(const u8 *data, unsigned int len, u8 *digest)
{
struct crypto_shash *tfm;
struct shash_desc *desc;
int ret;
tfm = crypto_alloc_shash("sha256", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
desc = kmalloc(sizeof(*desc) + crypto_shash_descsize(tfm), GFP_KERNEL);
if (!desc) {
crypto_free_shash(tfm);
return -ENOMEM;
}
desc->tfm = tfm;
ret = crypto_shash_digest(desc, data, len, digest);
kfree(desc);
crypto_free_shash(tfm);
return ret;
}
/* 스택 할당 대안: SHASH_DESC_ON_STACK 매크로 사용
* 힙 할당 오버헤드 없이 스택에 shash_desc를 직접 배치합니다.
* 단, descsize가 크면 스택 사용량 초과 위험이 있으므로
* CONFIG_FRAME_WARN을 초과하지 않는 작은 알고리즘에 적합합니다. */
static int calc_sha256_stack(const u8 *data, unsigned int len, u8 *digest)
{
struct crypto_shash *tfm = crypto_alloc_shash("sha256", 0, 0);
SHASH_DESC_ON_STACK(desc, tfm); /* 스택에 shash_desc 할당 */
int ret;
if (IS_ERR(tfm))
return PTR_ERR(tfm);
desc->tfm = tfm;
ret = crypto_shash_digest(desc, data, len, digest);
shash_desc_zero(desc); /* 민감 데이터 스택 소거 */
crypto_free_shash(tfm);
return ret;
}
대칭 암호 예제
#include <crypto/skcipher.h>
struct crypto_skcipher *tfm;
struct skcipher_request *req;
struct scatterlist sg;
int err;
tfm = crypto_alloc_skcipher("cbc(aes)", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
err = crypto_skcipher_setkey(tfm, key, key_len);
if (err)
goto out_free_tfm;
req = skcipher_request_alloc(tfm, GFP_KERNEL);
if (!req) {
err = -ENOMEM;
goto out_free_tfm;
}
sg_init_one(&sg, data, data_len);
skcipher_request_set_crypt(req, &sg, &sg, data_len, iv);
/* 암호화 */
err = crypto_skcipher_encrypt(req);
if (err)
goto out_free_req;
/* 복호화 */
err = crypto_skcipher_decrypt(req);
out_free_req:
skcipher_request_free(req);
out_free_tfm:
crypto_free_skcipher(tfm);
return err;
하드웨어 가속
커널은 CPU의 암호화 명령어를 자동으로 활용합니다:
- AES-NI (Intel/AMD): AES 연산을 하드웨어에서 수행, 소프트웨어 대비 10배 이상 빠름
- SHA Extensions (Intel/AMD): SHA-1, SHA-256 하드웨어 가속
- CRC32C: SSE4.2 명령으로 CRC 계산 가속 (btrfs, ext4 체크섬)
- ARM CE: ARM Cryptography Extensions
# 사용 가능한 암호화 알고리즘 확인
cat /proc/crypto | grep -E "^name|^driver|^priority"
# AES-NI가 활성화되었는지 확인
grep -o aes /proc/cpuinfo | head -1
Crypto Framework (Crypto API)는 우선순위(priority)에 따라 알고리즘 구현을 선택합니다. 하드웨어 가속 구현의 우선순위가 소프트웨어보다 높으므로 자동으로 선택됩니다.
비동기 암호화 (Async Crypto)
커널 Crypto Framework (Crypto API)는 비동기 처리를 지원하여 H/W 가속기와 효율적으로 연동합니다:
/* 비동기 대칭 암호 사용 예 */
struct crypto_skcipher *tfm;
struct skcipher_request *req;
tfm = crypto_alloc_skcipher("cbc(aes)", 0, 0);
req = skcipher_request_alloc(tfm, GFP_KERNEL);
/* 비동기 완료 콜백 설정 */
skcipher_request_set_callback(req,
CRYPTO_TFM_REQ_MAY_BACKLOG | CRYPTO_TFM_REQ_MAY_SLEEP,
my_crypto_done, &result);
/* 키 설정 */
crypto_skcipher_setkey(tfm, key, key_len);
/* scatterlist로 데이터 설정 */
struct scatterlist sg;
sg_init_one(&sg, data, data_len);
skcipher_request_set_crypt(req, &sg, &sg, data_len, iv);
/* 비동기 암호화 수행 */
int err = crypto_skcipher_encrypt(req);
if (err == -EINPROGRESS || err == -EBUSY) {
/* H/W 가속기에서 비동기 처리 중 → 콜백으로 완료 통보 */
wait_for_completion(&result.completion);
err = result.err;
}
AEAD (Authenticated Encryption)
AEAD는 암호화와 인증을 동시에 수행합니다 (예: AES-GCM, ChaCha20-Poly1305):
struct crypto_aead *aead;
struct aead_request *req;
int err;
aead = crypto_alloc_aead("gcm(aes)", 0, 0);
if (IS_ERR(aead))
return PTR_ERR(aead);
err = crypto_aead_setkey(aead, key, key_len);
if (err)
goto out_free_aead;
err = crypto_aead_setauthsize(aead, 16); /* 128-bit 인증 태그 */
if (err)
goto out_free_aead;
req = aead_request_alloc(aead, GFP_KERNEL);
if (!req) {
err = -ENOMEM;
goto out_free_aead;
}
aead_request_set_crypt(req, src_sg, dst_sg, plaintext_len, iv);
aead_request_set_ad(req, aad_len); /* 추가 인증 데이터 */
err = crypto_aead_encrypt(req); /* 암호화 + MAC 생성 */
aead_request_free(req);
out_free_aead:
crypto_free_aead(aead);
return err;
커널 난수 생성기
/* 커널 CSPRNG */
#include <linux/random.h>
/* 암호학적으로 안전한 난수 */
get_random_bytes(buf, nbytes);
/* 범위 내 난수 */
u32 val = get_random_u32_below(100); /* 0~99 */
/* /dev/urandom의 커널 구현 */
/* ChaCha20 기반 DRBG, 하드웨어 엔트로피 소스 자동 수집 */
주요 알고리즘 카탈로그
| 카테고리 | 알고리즘 | 커널 이름 | 용도 |
|---|---|---|---|
| 블록 암호 | AES-128/256 | aes | 디스크 암호화, IPsec |
| 스트림 암호 | ChaCha20 | chacha20 | WireGuard, TLS |
| 해시 | SHA-256 | sha256 | 무결성 검증 |
| 해시 | BLAKE2b | blake2b-256 | 고속 해싱 |
| MAC | HMAC-SHA256 | hmac(sha256) | 메시지 인증 |
| AEAD | AES-GCM | gcm(aes) | TLS, IPsec |
| AEAD | ChaCha20-Poly1305 | rfc7539(chacha20,poly1305) | WireGuard |
| KDF | HKDF | hkdf(hmac(sha256)) | 키 유도 |
| 압축 | LZ4, ZSTD | lz4, zstd | zswap, 파일시스템 |
사용자 공간 인터페이스 (AF_ALG)
/* 사용자 공간에서 커널 Crypto Framework (Crypto API) 사용 */
int sockfd = socket(AF_ALG, SOCK_SEQPACKET, 0);
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "hash",
.salg_name = "sha256",
};
bind(sockfd, (struct sockaddr *)&sa, sizeof(sa));
int opfd = accept(sockfd, NULL, NULL);
write(opfd, data, data_len);
read(opfd, digest, 32); /* SHA-256 결과 */
H/W 가속 상세
# 사용 가능한 암호 알고리즘 확인 (H/W 가속 포함)
cat /proc/crypto | head -40
# name : __cbc(aes)
# driver : __cbc-aes-aesni ← AES-NI 하드웨어 가속
# module : aesni_intel
# priority : 400 ← 높은 우선순위 = 자동 선택
# type : skcipher
# AES-NI 지원 확인
grep aes /proc/cpuinfo | head -1
# flags : ... aes ...
커널은 동일 알고리즘의 여러 구현 중 priority가 가장 높은 것을 자동 선택합니다. H/W 가속기 드라이버가 로드되면 자동으로 소프트웨어 구현보다 우선 사용됩니다.
AES-NI 심화
AES-NI(Advanced Encryption Standard New Instructions)는 Intel이 2010년(Westmere)에 도입하고 AMD가 2011년(Bulldozer)부터 지원하는 AES 전용 하드웨어 명령어 세트입니다. 소프트웨어 AES 대비 3~10배 이상 빠른 처리량을 제공하며, 일반적인 테이블 기반 구현 대비 타이밍 기반 부채널 위험을 줄이는 데 유리합니다.
AES-NI 명령어 세트
AES-NI는 6개의 핵심 명령어로 구성됩니다. 모든 명령어는 128-bit XMM 레지스터에서 동작합니다:
| 명령어 | 동작 | 설명 |
|---|---|---|
AESENC | 1라운드 암호화 | ShiftRows → SubBytes → MixColumns → AddRoundKey |
AESENCLAST | 마지막 라운드 암호화 | ShiftRows → SubBytes → AddRoundKey (MixColumns 생략) |
AESDEC | 1라운드 복호화 | InvShiftRows → InvSubBytes → InvMixColumns → AddRoundKey |
AESDECLAST | 마지막 라운드 복호화 | InvShiftRows → InvSubBytes → AddRoundKey |
AESKEYGENASSIST | 키 확장 보조 | 라운드 키 생성에 필요한 SubWord/RotWord 수행 |
AESIMC | 역 MixColumns | 복호화용 라운드 키 변환 (Equivalent Inverse Cipher) |
AES 라운드 수: AES-128은 10라운드, AES-192는 12라운드, AES-256은 14라운드입니다. 각 라운드마다 AESENC 1개 명령어가 전체 라운드 변환을 수행합니다. 소프트웨어 구현에서는 S-Box 테이블 룩업, 행 시프트, 열 혼합, 키 합성을 별도로 수행하지만 AES-NI는 이를 단일 명령어로 처리합니다.
AES-NI 키 확장 (Key Expansion)
AES 키 확장은 원본 키(128/192/256비트)로부터 각 라운드에 사용할 라운드 키를 생성합니다. 커널의 aesni-intel_glue.c는 키 설정 시 모든 라운드 키를 미리 확장하여 crypto_aes_ctx에 저장합니다:
; AES-128 키 확장 (arch/x86/crypto/aesni-intel_asm.S 참고)
; 입력: %xmm0 = 원본 128-bit 키
; 출력: key_schedule[0..10] = 11개 라운드 키
_aesni_key_expansion_128:
movaps %xmm0, (%rdi) ; key_schedule[0] = 원본 키
; 라운드 1: RCON = 0x01
aeskeygenassist $0x01, %xmm0, %xmm1
call _key_expansion_128
movaps %xmm0, 0x10(%rdi) ; key_schedule[1]
; 라운드 2: RCON = 0x02
aeskeygenassist $0x02, %xmm0, %xmm1
call _key_expansion_128
movaps %xmm0, 0x20(%rdi) ; key_schedule[2]
; ... 라운드 3~10까지 반복 (RCON: 0x04,0x08,0x10,0x20,0x40,0x80,0x1b,0x36)
; 키 확장 보조 루틴
_key_expansion_128:
pshufd $0xff, %xmm1, %xmm1 ; AESKEYGENASSIST 결과를 broadcast
shufps $0x10, %xmm0, %xmm4 ; temp = [0,0,key[0],key[1]]
pxor %xmm4, %xmm0 ; key ^= temp
shufps $0x8c, %xmm0, %xmm4
pxor %xmm4, %xmm0 ; key ^= temp (cascade)
pxor %xmm1, %xmm0 ; key ^= RCON 결과
ret
/* 커널 glue 코드: 키 설정 (arch/x86/crypto/aesni-intel_glue.c) */
static int aesni_set_key(struct crypto_aes_ctx *ctx,
const u8 *in_key, unsigned int key_len)
{
if (!crypto_simd_usable())
return aes_expandkey(ctx, in_key, key_len); /* SW fallback */
kernel_fpu_begin();
aesni_set_key_common(ctx, in_key, key_len); /* AES-NI 키 확장 */
kernel_fpu_end();
return 0;
}
/* struct crypto_aes_ctx — 확장된 키 스케줄 저장 */
struct crypto_aes_ctx {
u32 key_enc[AES_MAX_KEYLENGTH_U32]; /* 암호화용 라운드 키 (60 u32) */
u32 key_dec[AES_MAX_KEYLENGTH_U32]; /* 복호화용 라운드 키 (Inv) */
u32 key_length; /* 16, 24, 또는 32 */
};
운용 모드별 AES-NI 구현
커널의 aesni_intel 모듈은 다양한 운용 모드를 AES-NI로 가속합니다. 각 모드의 병렬화 특성에 따라 성능이 크게 달라집니다:
| 모드 | 커널 드라이버 이름 | 병렬 처리 | 특성 |
|---|---|---|---|
| ECB | ecb-aes-aesni | 완전 병렬 | 각 블록이 독립적이라 파이프라인 최대 활용 |
| CBC 암호화 | cbc-aes-aesni | 직렬 (체인) | 이전 블록 암호문이 다음 블록 입력에 필요 |
| CBC 복호화 | cbc-aes-aesni | 완전 병렬 | 복호화는 모든 암호문 블록을 이미 알고 있으므로 병렬 가능 |
| CTR | ctr-aes-aesni | 완전 병렬 | 카운터 값이 독립적, IPsec/TLS에서 주력으로 사용 |
| XTS | xts-aes-aesni | 완전 병렬 | 디스크 암호화(dm-crypt, LUKS) 표준 모드 |
| GCM | gcm-aes-aesni | AES 병렬 + GHASH | AEAD, PCLMULQDQ로 GHASH 가속 포함 |
; AES-CBC 암호화 — 직렬 체인 (arch/x86/crypto/aesni-intel_asm.S 참고)
; 각 블록: C[i] = AES_ENC(P[i] XOR C[i-1])
_aesni_enc_cbc:
movups (%r8), %xmm2 ; IV 로드
.Lcbc_enc_loop:
movups (%rsi), %xmm3 ; 평문 블록 로드
pxor %xmm2, %xmm3 ; P[i] XOR C[i-1] (CBC 체이닝)
; 10라운드 AES-128 암호화
pxor 0x00(%rdi), %xmm3 ; AddRoundKey (라운드 0)
aesenc 0x10(%rdi), %xmm3 ; 라운드 1
aesenc 0x20(%rdi), %xmm3 ; 라운드 2
; ... 라운드 3~9 ...
aesenclast 0xa0(%rdi), %xmm3 ; 라운드 10 (마지막)
movups %xmm3, (%rdx) ; 암호문 저장
movaps %xmm3, %xmm2 ; C[i] → 다음 블록의 IV
add $16, %rsi
add $16, %rdx
dec %ecx
jnz .Lcbc_enc_loop
; AES-CTR 암호화 — 병렬 처리 (4블록 동시)
; C[i] = P[i] XOR AES_ENC(CTR+i)
_aesni_enc_ctr:
; 4개 카운터를 병렬로 준비
movaps %xmm0, %xmm1 ; CTR+0
movaps %xmm0, %xmm2 ; CTR+1 (inc)
movaps %xmm0, %xmm3 ; CTR+2 (inc)
movaps %xmm0, %xmm4 ; CTR+3 (inc)
; ... 각 카운터 증가 ...
; 4블록 동시 AES 라운드 (파이프라인 활용)
pxor (%rdi), %xmm1
pxor (%rdi), %xmm2
pxor (%rdi), %xmm3
pxor (%rdi), %xmm4
aesenc 0x10(%rdi), %xmm1
aesenc 0x10(%rdi), %xmm2
aesenc 0x10(%rdi), %xmm3
aesenc 0x10(%rdi), %xmm4
; ... 나머지 라운드 인터리빙 ...
CTR/ECB 병렬화 핵심: 최신 CPU의 AES-NI 파이프라인은 4사이클 레이턴시, 1사이클 스루풋입니다. AESENC 명령어는 이전 명령어 완료를 기다리지 않고 파이프라인에 투입되므로, 독립적인 블록 4~8개를 인터리빙하면 이론적 최대 스루풋에 도달합니다.
AES-GCM과 PCLMULQDQ
AES-GCM(Galois/Counter Mode)은 TLS 1.3, IPsec에서 가장 널리 사용되는 AEAD 모드입니다. GCM은 CTR 모드 암호화와 GHASH 인증을 결합합니다. 커널은 AES-NI와 PCLMULQDQ(Carry-less Multiplication) 명령어를 함께 사용하여 두 연산을 모두 하드웨어로 가속합니다:
/* GHASH에서 GF(2^128) 곱셈 — PCLMULQDQ 하드웨어 가속 */
/* PCLMULQDQ: Carry-less multiplication (XOR 기반 다항식 곱셈) */
/* 소프트웨어로 구현하면 수십 사이클 걸리는 연산을 단일 명령어로 수행 */
/* arch/x86/crypto/ghash-clmulni-intel_asm.S 에서: */
; GHASH 블록 처리:
; xmm0 = 현재 해시 값 (H_i)
; xmm1 = 해시 키 (H = AES_ENC(0))
; XOR → CLMUL → reduction → 새 해시 값
pxor %xmm2, %xmm0 ; H_i XOR C_i (입력 블록과 XOR)
; Karatsuba 분해를 사용한 128×128 bit carry-less 곱셈
movdqa %xmm0, %xmm3
pclmulqdq $0x00, %xmm1, %xmm3 ; a0 × b0 (하위 64-bit 곱)
movdqa %xmm0, %xmm4
pclmulqdq $0x11, %xmm1, %xmm4 ; a1 × b1 (상위 64-bit 곱)
movdqa %xmm0, %xmm5
pclmulqdq $0x10, %xmm1, %xmm5 ; a0 × b1 (교차 곱)
pclmulqdq $0x01, %xmm1, %xmm0 ; a1 × b0 (교차 곱)
pxor %xmm5, %xmm0 ; 교차 곱 합산
; → GF(2^128) 환원(reduction): x^128 + x^7 + x^2 + x + 1
커널 GCM 구현 구조: generic-gcm-aesni 드라이버(priority 400)는 AES-NI + PCLMULQDQ를 결합한 최적화 구현입니다. CTR 암호화와 GHASH 인증을 인터리빙하여 AES 파이프라인 대기 시간 동안 GHASH를 수행합니다. 이 기법으로 GCM은 CTR 단독 대비 거의 추가 비용 없이 인증을 제공합니다.
aesni_intel 모듈 아키텍처
커널의 AES-NI 지원은 arch/x86/crypto/ 디렉터리에 위치하며, glue 코드와 어셈블리 구현으로 분리됩니다:
/* aesni-intel_glue.c — 주요 알고리즘 등록 구조 */
/* 1. 기본 블록 암호 (AES 단일 블록, 128-bit) */
static struct crypto_alg aesni_cipher_alg = {
.cra_name = "aes",
.cra_driver_name = "aes-aesni",
.cra_priority = 300,
.cra_flags = CRYPTO_ALG_TYPE_CIPHER,
.cra_blocksize = AES_BLOCK_SIZE, /* 16 */
.cra_u.cipher = {
.cia_min_keysize = AES_MIN_KEY_SIZE, /* 16 */
.cia_max_keysize = AES_MAX_KEY_SIZE, /* 32 */
.cia_setkey = aes_set_key,
.cia_encrypt = aesni_encrypt,
.cia_decrypt = aesni_decrypt,
},
};
/* 2. skcipher 알고리즘들 (CBC, CTR, XTS, ECB) */
static struct skcipher_alg aesni_skciphers[] = {
{ /* ECB — 병렬 처리, priority 400 */
.base.cra_name = "__ecb(aes)",
.base.cra_driver_name = "__ecb-aes-aesni",
.base.cra_priority = 400,
.base.cra_flags = CRYPTO_ALG_INTERNAL,
.setkey = aesni_skcipher_setkey,
.encrypt = ecb_encrypt,
.decrypt = ecb_decrypt,
},
{ /* CBC */
.base.cra_name = "__cbc(aes)",
.base.cra_driver_name = "__cbc-aes-aesni",
.base.cra_priority = 400,
.base.cra_flags = CRYPTO_ALG_INTERNAL,
.setkey = aesni_skcipher_setkey,
.encrypt = cbc_encrypt,
.decrypt = cbc_decrypt,
},
{ /* CTR */
.base.cra_name = "__ctr(aes)",
.base.cra_driver_name = "__ctr-aes-aesni",
.base.cra_priority = 400,
.base.cra_flags = CRYPTO_ALG_INTERNAL,
.setkey = aesni_skcipher_setkey,
.encrypt = ctr_crypt,
.decrypt = ctr_crypt, /* CTR 모드: enc == dec */
},
{ /* XTS — 디스크 암호화 (dm-crypt) */
.base.cra_name = "__xts(aes)",
.base.cra_driver_name = "__xts-aes-aesni",
.base.cra_priority = 401,
.setkey = xts_aesni_setkey,
.encrypt = xts_encrypt,
.decrypt = xts_decrypt,
},
};
/* 3. AEAD (GCM) */
static struct aead_alg aesni_aeads[] = {
{
.base.cra_name = "__gcm(aes)",
.base.cra_driver_name = "__generic-gcm-aesni",
.base.cra_priority = 400,
.base.cra_flags = CRYPTO_ALG_INTERNAL,
.setkey = gcm_setkey,
.setauthsize = gcm_setauthsize,
.encrypt = gcm_encrypt,
.decrypt = gcm_decrypt,
.ivsize = GCM_AES_IV_SIZE, /* 12 */
.maxauthsize = 16,
},
};
INTERNAL 플래그와 SIMD 래퍼: __ecb-aes-aesni 등 __ 접두사 알고리즘은 CRYPTO_ALG_INTERNAL 플래그를 가지며 직접 사용할 수 없습니다. simd_register_skciphers_compat()가 이를 감싸서 ecb-aes-aesni(접두사 없음)를 외부에 공개합니다. SIMD 래퍼는 process context에서 직접 SIMD 실행, softirq/hardirq에서는 cryptd kthread로 위임하여 컨텍스트 안전성을 보장합니다.
aesni_intel 모듈 초기화 흐름
/* aesni-intel_glue.c — 모듈 초기화 */
static int __init aesni_init(void)
{
int err;
/* 1. CPU가 AES-NI를 지원하는지 확인 */
if (!boot_cpu_has(X86_FEATURE_AES))
return -ENODEV; /* AES-NI 미지원 → 모듈 로드 실패 → generic 사용 */
/* 2. PCLMULQDQ 지원 여부 확인 (GCM GHASH에 필요) */
if (!boot_cpu_has(X86_FEATURE_PCLMULQDQ))
pr_info("PCLMULQDQ not available, GCM acceleration disabled\\n");
/* 3. 기본 AES 블록 암호 등록 */
err = crypto_register_alg(&aesni_cipher_alg);
if (err)
return err;
/* 4. skcipher 알고리즘 등록 (INTERNAL 버전) */
err = crypto_register_skciphers(aesni_skciphers,
ARRAY_SIZE(aesni_skciphers));
/* 5. SIMD 래퍼 등록 (외부 공개 버전)
* __ecb-aes-aesni → ecb-aes-aesni
* __cbc-aes-aesni → cbc-aes-aesni
* ... */
err = simd_register_skciphers_compat(aesni_skciphers,
ARRAY_SIZE(aesni_skciphers),
aesni_simd_skciphers);
/* 6. AEAD (GCM) 등록 */
if (boot_cpu_has(X86_FEATURE_PCLMULQDQ)) {
err = crypto_register_aeads(aesni_aeads,
ARRAY_SIZE(aesni_aeads));
err = simd_register_aeads_compat(aesni_aeads,
ARRAY_SIZE(aesni_aeads),
aesni_simd_aeads);
}
return 0;
}
VAES: AVX-512 벡터 AES
VAES(Vector AES)는 Intel Ice Lake(2019)부터 도입된 확장으로, AES-NI를 AVX-512 레지스터(512-bit)에서 동작하게 합니다. 128-bit XMM 대신 512-bit ZMM 레지스터를 사용하여 한 명령어로 4개 AES 블록을 동시에 처리합니다:
| 세대 | 레지스터 | 블록/명령어 | 인터리빙 시 최대 |
|---|---|---|---|
| AES-NI (SSE) | XMM (128-bit) | 1블록 | ~4블록 (파이프라인) |
| VAES + AVX2 | YMM (256-bit) | 2블록 | ~8블록 |
| VAES + AVX-512 | ZMM (512-bit) | 4블록 | ~16블록 |
; VAES 예시: 512-bit ZMM 레지스터로 4블록 동시 AES 라운드
; 기존 AES-NI: aesenc %xmm_key, %xmm_data → 1블록 (128-bit)
; VAES: vaesenc %zmm_key, %zmm_data, %zmm_out → 4블록 (512-bit)
vaesenc %zmm1, %zmm0, %zmm0 ; 4블록 × 라운드 1
vaesenc %zmm2, %zmm0, %zmm0 ; 4블록 × 라운드 2
vaesenc %zmm3, %zmm0, %zmm0 ; 4블록 × 라운드 3
; ... 라운드 4~9 ...
vaesenclast %zmm11, %zmm0, %zmm0 ; 4블록 × 라운드 10 (마지막)
; 2개 ZMM을 인터리빙하면 8블록(1024-bit) 동시 처리:
vaesenc %zmm1, %zmm10, %zmm10 ; 블록 0~3
vaesenc %zmm1, %zmm11, %zmm11 ; 블록 4~7 (파이프라인 활용)
# VAES 지원 확인
grep vaes /proc/cpuinfo | head -1
# flags : ... vaes avx512f avx512bw ...
# 커널에서 VAES 가속 드라이버 확인
grep -E "aes.*(vaes|avx512)" /proc/crypto
# driver : xts-aes-vaes-avx512
# driver : gcm-aes-vaes-avx512
커널 VAES 지원: Linux 6.4+ 계열 x86에서는 arch/x86/crypto/aes-xts-avx-x86_64.S 등의 VAES+AVX-512 최적화 경로가 제공됩니다. 실제 선택 여부는 CPU 기능, 커널 설정, 알고리즘 등록 우선순위에 따라 달라질 수 있습니다.
AES-NI를 활용하는 주요 커널 서브시스템
| 서브시스템 | 사용 모드 | 설정/모듈 | 설명 |
|---|---|---|---|
| dm-crypt / LUKS | XTS(AES-256) | CONFIG_DM_CRYPT |
디스크 전체 암호화. cryptsetup으로 설정, 기본 aes-xts-plain64 |
| IPsec (XFRM) | GCM(AES-128/256) | CONFIG_XFRM |
VPN 터널 암호화. ESP 프로토콜에서 AES-GCM이 기본 선택 |
| kTLS | GCM(AES-128/256) | CONFIG_TLS |
커널 내 TLS 오프로드. setsockopt(SOL_TLS)로 활성화 |
| WireGuard | — | CONFIG_WIREGUARD |
ChaCha20-Poly1305 사용 (AES-NI 미사용), 대신 SSSE3/AVX로 가속 |
| eCryptfs | CBC(AES-256) | CONFIG_ECRYPT_FS |
파일 단위 스택 암호화 파일시스템 |
| fscrypt (ext4/f2fs) | XTS(AES-256), CTS-CBC | CONFIG_FS_ENCRYPTION |
파일시스템 레벨 암호화. 파일명은 CTS-CBC, 데이터는 XTS |
| TCP-AO | CMAC(AES-128) | CONFIG_TCP_AO |
TCP 인증 옵션(RFC 5925). BGP 세션 보호 |
# dm-crypt에서 AES-NI 가속 확인 (LUKS 디스크)
cryptsetup luksDump /dev/sda2 | grep cipher
# cipher: aes-xts-plain64
# IPsec GCM 설정 예시 (strongSwan)
# ike=aes256gcm16-sha384-ecp384
# esp=aes256gcm16
# 현재 사용 중인 AES 구현 확인
cat /proc/crypto | grep -A4 "name.*: xts(aes)"
# name : xts(aes)
# driver : xts-aes-aesni
# module : aesni_intel
# priority : 401
# dm-crypt I/O 중 AES-NI CPU 사용 확인
perf top -e cycles -g -- -p $(pgrep -f kcryptd)
# aesni_xts_encrypt ← AES-NI가 사용되고 있음
AES-NI 성능 특성
# tcrypt 모듈로 AES-NI 벤치마크
modprobe tcrypt mode=500 sec=2
# mode=500대: skcipher 계열 벤치마크 (예: CBC/CTR/XTS)
# mode 번호는 커널 버전에 따라 세부 매핑이 달라질 수 있음
dmesg | tail -30
# 참고 결과 예시 (Xeon, AES-NI):
# testing speed of async cbc(aes) (cbc-aes-aesni) encryption
# test 0 (128 bit key, 16 byte blocks): 18742341 operations in 2 seconds (299877456 bytes)
# test 1 (128 bit key, 64 byte blocks): 12952847 operations in 2 seconds (828982208 bytes)
# test 2 (128 bit key, 256 byte blocks): 7348142 operations in 2 seconds (1881124352 bytes)
# test 3 (128 bit key, 1024 byte blocks): 3128904 operations in 2 seconds (3203997696 bytes)
# test 4 (128 bit key, 1472 byte blocks): 2352961 operations in 2 seconds (3463558592 bytes)
# test 5 (128 bit key, 8192 byte blocks): 537420 operations in 2 seconds (4402585600 bytes)
# → ~2.2 GB/s (CBC, 단일 코어)
| 모드 | 구현 | 1KB 블록 | 8KB 블록 | 비고 |
|---|---|---|---|---|
| ECB(AES-128) | aes_generic | ~200 MB/s | ~200 MB/s | 순수 소프트웨어, 테이블 룩업 |
| ECB(AES-128) | aesni | ~3.5 GB/s | ~5.0 GB/s | AES-NI, 4블록 인터리빙 |
| CBC(AES-128) 암호화 | aesni | ~1.5 GB/s | ~2.2 GB/s | 직렬 체인 → 파이프라인 제한 |
| CBC(AES-128) 복호화 | aesni | ~3.5 GB/s | ~4.8 GB/s | 복호화는 병렬 가능 |
| CTR(AES-128) | aesni | ~3.5 GB/s | ~5.0 GB/s | 카운터 병렬 → ECB급 성능 |
| GCM(AES-128) | aesni + clmul | ~3.0 GB/s | ~4.5 GB/s | CTR + GHASH 인터리빙 |
| XTS(AES-256) | aesni | ~2.5 GB/s | ~3.5 GB/s | tweak 연산 + 2배 키 길이 |
- 터보 부스트 영향 — AVX-512/VAES 사용 시 CPU가 다운클럭할 수 있어 순수 AES-NI 대비 의외로 느릴 수 있음. 워크로드 특성에 따라 판단 필요
- kernel_fpu_begin() 오버헤드 — FPU 상태 저장/복원 비용(~수백 나노초)이 있어, 16바이트 단일 블록에서는 소프트웨어 구현이 더 빠를 수 있음
- dm-crypt 실제 성능 — I/O 스택 오버헤드(scatterlist 구성, bio 처리)로 인해 tcrypt 벤치마크의 50~70% 수준이 일반적
- NUMA 고려 — 암호화 워커 스레드가 데이터의 NUMA 노드와 다른 노드에서 실행되면 메모리 접근 지연으로 성능 저하
AES-NI 보안 이점: 부채널 공격 방어
소프트웨어 AES 구현은 S-Box 테이블 룩업을 사용하는데, 이는 cache-timing 부채널 공격에 취약합니다. 공격자는 AES 연산 중 캐시 접근 패턴을 관측하여 키를 추출할 수 있습니다:
/* 소프트웨어 AES — cache-timing 취약점 */
/* crypto/aes_generic.c 의 S-Box 테이블 룩업 */
static const u32 Te0[256] = { ... }; /* 1KB 룩업 테이블 */
static const u32 Te1[256] = { ... };
static const u32 Te2[256] = { ... };
static const u32 Te3[256] = { ... };
/* 키에 의존하는 인덱스로 테이블 접근 → 캐시 라인 접근 패턴 노출 */
s0 = Te0[t0 >> 24] ^ Te1[(t1 >> 16) & 0xff] ^ ...;
/* ↑ 공격자가 cache-line hit/miss 패턴으로 t0, t1 값을 추론 가능 */
/* AES-NI — 하드웨어 경로로 cache-timing 노출면을 축소 */
/* AESENC 명령어는 CPU 내부 회로에서 S-Box를 수행하므로
* 소프트웨어 테이블 룩업 대비 메모리 접근 패턴 노출이 줄어듦
* 전체 부채널 안전성은 마이크로아키텍처/플랫폼 조건을 함께 검토해야 함 */
aesenc %xmm_key, %xmm_state /* 실제 사이클 특성은 구현 경로와 환경에 따라 달라질 수 있음 */
FIPS 및 보안 권장: 보안에 민감한 환경에서는 aes_generic(소프트웨어)이 fallback으로 사용되지 않도록 aesni_intel 모듈이 확실히 로드되었는지 확인하세요. cat /proc/crypto | grep -B1 "aes-aesni"로 확인 가능합니다. 가상 머신(VM)에서는 호스트가 AES-NI CPUID 플래그를 패스스루하는지 확인해야 합니다(QEMU: -cpu host 또는 +aes).
Intel® QuickAssist Technology (Intel® QAT)
Intel QAT는 암호화(Cipher), 해싱(Hash), 압축/해제(Compression)를 하드웨어로 가속하는 기술입니다. 커널 Crypto Framework (Crypto API)에 통합되어 IPsec, TLS(kTLS), dm-crypt, 스토리지 압축 등에서 CPU 오프로드를 제공합니다.
QAT 아키텍처
| QAT 세대 | 디바이스 | 커널 드라이버 | 지원 기능 |
|---|---|---|---|
| QAT 1.x | DH895xCC, C3xxx, C62x | qat_dh895xcc, qat_c62x |
Crypto (AES, SHA, RSA), 압축 (Deflate) |
| QAT 2.0 (4xxx) | 4xxx (Sapphire Rapids 내장) | qat_4xxx |
Crypto + 압축 + SM2/SM3/SM4 + 향상된 RSA |
| QAT 연동 서비스 | IPsec (ESP), kTLS (kernel TLS offload), dm-crypt, zswap 압축, DPDK crypto | ||
QAT 커널 드라이버 설정
# QAT 디바이스 확인
lspci -d :4940 # QAT 4xxx (Sapphire Rapids)
lspci -d :37c8 # QAT C62x
# QAT 드라이버 로드
modprobe qat_4xxx # 또는 qat_c62x, qat_dh895xcc
modprobe intel_qat # 공통 프레임워크
# QAT 서비스 구성 (crypto, compression, 또는 둘 다)
# /etc/4xxx_dev0.conf 설정 파일
# ServicesEnabled = cy;dc (cy=crypto, dc=data compression)
# QAT 인스턴스 확인
cat /sys/kernel/debug/qat_4xxx_0000:6b:00.0/fw_counters
# QAT가 crypto API에 등록된 알고리즘 확인
cat /proc/crypto | grep -A5 qat
# driver: qat_aes_cbc
# priority: 4001 ← S/W(aesni=400)보다 높음 → 자동 선택
# SRIOV VF 생성 (VM에 QAT 인스턴스 직접 할당)
echo 16 > /sys/bus/pci/devices/0000:6b:00.0/sriov_numvfs
QAT + IPsec 연동
# QAT IPsec offload — ESP 암호화/복호화를 QAT로 오프로드
# strongSwan 또는 Libreswan에서 자동 감지
# IPsec SA에서 QAT 사용 확인
ip xfrm state | grep -A2 enc
# enc aes-cbc ... offload dev qat_4xxx
# 성능 비교 (예시: AES-128-CBC + SHA-256)
# SW (AES-NI): ~10 Gbps (CPU 100%)
# QAT offload: ~40 Gbps (CPU ~20%)
# kTLS + QAT (커널 TLS 오프로드)
# KTLS_TX: 송신 데이터를 QAT가 AES-GCM 암호화
# 커널 5.3+ kTLS + QAT crypto 드라이버 자동 연동
QAT 사용 시 주의사항
- 소량 데이터 오버헤드 — 작은 패킷(64B 이하)에서는 QAT 오프로드 지연(~10μs)이 S/W AES-NI(~0.1μs)보다 클 수 있음. 일정 크기 이상에서만 이점
- 큐 깊이 관리 — Ring pair가 포화되면 요청이 거절됨. 비동기 API(crypto_async) 사용 시 완료 콜백에서 에러 처리 필수
- NUMA 인지 — QAT 디바이스가 특정 NUMA 노드에 연결. 다른 노드의 CPU가 사용하면 cross-node 메모리 접근으로 지연 증가
- SR-IOV VF 개수 — VF당 할당되는 Ring pair 수가 줄어들어 VM별 처리량 제한. 적절한 VF 수 계획 필요
- 펌웨어 의존성 — QAT 펌웨어 로딩이 필요하며, 커널 빌드 시
CONFIG_CRYPTO_DEV_QAT_4XXX등 활성화 필요 - fallback 메커니즘 — QAT 장애 시 자동으로 S/W 구현(aesni_intel)으로 fallback. priority 기반 선택
알고리즘 구현 가이드
커널 Crypto Framework (Crypto API)에 새로운 알고리즘을 추가하려면 알고리즘 구조체 정의 → 콜백 구현 → 등록 → 테스트 벡터 추가의 과정을 거칩니다. 이 섹션에서는 각 단계를 상세히 다룹니다.
드라이버 작성자가 먼저 결정할 것: 어떤 인터페이스를 구현할 것인가
Crypto driver 작성에서 가장 먼저 해야 할 일은 "이 하드웨어가 AES를 지원한다"가 아니라 어떤 추상 인터페이스를 커널에 노출할지를 정하는 것입니다. 같은 AES 엔진이라도 단일 블록만 처리하는지, 모드(CBC/CTR/XTS/GCM)까지 자체 처리하는지, AAD와 tag를 함께 계산하는지, DMA로 긴 SG를 직접 읽는지에 따라 등록해야 하는 타입이 달라집니다.
| 인터페이스 | 언제 선택하나 | 장점 | 주의점 |
|---|---|---|---|
struct crypto_alg + cipher_alg | 하드웨어가 "단일 블록 암복호화" primitive만 제공할 때 | 가장 낮은 레벨이라 조합성이 높음 | 대부분의 상위 사용자는 직접 raw block cipher를 안 쓰므로, 보통 skcipher/aead 래퍼를 추가로 제공해야 합니다. |
struct skcipher_alg | CBC/CTR/XTS 같은 대칭 암호 모드를 직접 제공할 때 | dm-crypt, fscrypt, 네트워크 경로가 바로 사용 가능 | IV, alignmask, walksize, fallback 설계를 함께 해야 합니다. |
struct aead_alg | GCM/CCM/ChaCha20-Poly1305처럼 인증 태그까지 한 번에 처리할 때 | IPsec, kTLS, 보안 저장 포맷과 직접 맞닿음 | AAD 길이와 tag 길이 규약을 틀리면 전체가 깨집니다. |
struct shash_alg | 순수 소프트웨어 해시 또는 즉시 계산 가능한 작은 엔진 | 구현이 가장 단순 | SG/DMA 친화성은 약합니다. |
struct ahash_alg | DMA 기반 해시 엔진, 긴 SG 스트림, 비동기 완료가 필요할 때 | 네트워크/파일/펌웨어처럼 조각 난 입력에 강함 | reqsize, 상태 export/import, one-shot 제약을 명확히 해야 합니다. |
struct akcipher_alg | RSA 같은 공개키 암/복호화 또는 서명 primitive를 제공할 때 | 키 설정, max size, 비동기 요청을 통합 제공 | req->dst_len 갱신 계약을 지켜야 합니다. |
struct kpp_alg | DH/ECDH처럼 공개키 생성과 공유 비밀 계산을 제공할 때 | 핸드셰이크 계층과 직접 연결됨 | packed secret 형식과 공개키 출력 길이 계산이 중요합니다. |
struct rng_alg | TRNG/DRBG 엔진을 제공할 때 | FIPS 경계, 정책형 RNG 선택에 유리 | seedsize와 재시드 의미를 명확히 해야 합니다. |
struct acomp_alg | 압축 가속기를 비동기로 제공할 때 | 압축 엔진도 Crypto queue/model을 재사용 가능 | dst == NULL일 때 출력 버퍼 할당/해제를 정확히 구현해야 합니다. |
struct crypto_template | 기존 알고리즘을 감싸 새 이름을 동적으로 만들 때 | 한 구현으로 다수의 조합 인스턴스를 만들 수 있음 | spawn, 이름 조합, instance free 경로를 잘못 짜면 해제 경합이 생깁니다. |
skcipher를 구현할 필요는 없습니다.
어떤 엔진은 먼저 raw block cipher를 안정적으로 올리고, 그 위에 CBC/XTS/GCM glue를 얹는 편이 유지보수에 더 좋습니다.
반대로 하드웨어가 GCM tag까지 완전히 계산한다면 raw block layer를 굳이 외부에 노출하지 않고 aead만 등록하는 편이 더 자연스럽습니다.
struct crypto_alg — 알고리즘 등록의 핵심
모든 암호화 알고리즘은 struct crypto_alg을 기반으로 등록됩니다. 이 구조체는 알고리즘의 메타데이터와 구현 콜백을 담는 컨테이너입니다:
/* include/linux/crypto.h */
struct crypto_alg {
struct list_head cra_list; /* 내부 연결 리스트 */
struct list_head cra_users; /* 이 알고리즘을 사용하는 tfm 목록 */
u32 cra_flags; /* 알고리즘 속성 플래그 */
unsigned int cra_blocksize; /* 블록 크기 (해시: 입력 블록, 암호: 블록 크기) */
unsigned int cra_ctxsize; /* tfm 컨텍스트 크기 (키 상태 등) */
unsigned int cra_alignmask; /* 데이터 정렬 요구사항 (0 = 1바이트 정렬) */
int cra_priority; /* 우선순위: 높을수록 먼저 선택 */
unsigned int cra_refcnt; /* 참조 카운터 */
char cra_name[128]; /* 알고리즘 정규 이름 ("sha256") */
char cra_driver_name[128]; /* 드라이버 고유 이름 ("sha256-avx2") */
const struct crypto_type *cra_type; /* 알고리즘 유형 (skcipher, shash 등) */
union {
struct cipher_alg cipher; /* 단일 블록 암호 (raw block cipher) */
} cra_u;
int (*cra_init)(struct crypto_tfm *tfm); /* tfm 생성 시 초기화 */
void (*cra_exit)(struct crypto_tfm *tfm); /* tfm 해제 시 정리 */
void (*cra_destroy)(struct crypto_alg *alg); /* 알고리즘 등록 해제 시 */
struct module *cra_module; /* 소속 커널 모듈 */
};
주요 필드 상세
| 필드 | 설명 | 예시 값 |
|---|---|---|
cra_name | 사용자가 요청하는 정규 이름. 같은 이름의 여러 구현이 공존 가능 | "sha256", "aes" |
cra_driver_name | 구현체를 고유하게 식별하는 이름 | "sha256-avx2", "aes-aesni" |
cra_priority | 같은 cra_name 중 가장 높은 priority가 선택됨 | generic: 100, AES-NI: 400, QAT: 4001 |
cra_flags | 알고리즘 속성 비트마스크 | CRYPTO_ALG_ASYNC, CRYPTO_ALG_NEED_FALLBACK |
cra_blocksize | 처리 단위 크기 (바이트) | AES: 16, SHA-256: 64, 스트림 암호: 1 |
cra_ctxsize | tfm당 할당할 private 컨텍스트 크기 | sizeof(struct my_alg_ctx) |
cra_alignmask | 데이터 정렬 마스크. 예: 0x3이면 4바이트 정렬 필요 | 보통 0 (S/W) 또는 0xf (H/W) |
cra_flags 주요 플래그
| 플래그 | 설명 |
|---|---|
CRYPTO_ALG_ASYNC | 비동기 알고리즘. 완료 콜백으로 결과를 통보. H/W 가속기에서 주로 사용 |
CRYPTO_ALG_NEED_FALLBACK | 일부 입력을 처리하지 못할 때 S/W fallback이 필요함을 표시 |
CRYPTO_ALG_KERN_DRIVER_ONLY | 커널 내부 드라이버 전용 구현. ISA나 사용자 공간 인터페이스로 직접 노출하는 것을 막고 싶을 때 사용 |
CRYPTO_ALG_INTERNAL | 내부 전용 알고리즘. AF_ALG(사용자 공간)에 노출되지 않음 |
CRYPTO_ALG_ALLOCATES_MEMORY | 요청 처리 중 메모리 할당이 일어날 수 있음을 의미. alignmask/page 경계 제약을 만족하지 못하면 re-align/임시 버퍼가 생길 수 있음 |
CRYPTO_ALG_FIPS_INTERNAL | 자체로는 승인 알고리즘이 아니지만 FIPS 승인 상위 알고리즘의 내부 부품으로만 쓰이게 할 때 사용 |
CRYPTO_ALG_TESTED | testmgr 자가 테스트를 통과한 뒤 커널이 세우는 내부 상태 비트. 드라이버가 직접 넣는 플래그가 아닙니다. |
CRYPTO_ALG_OPTIONAL_KEY | 키 설정이 선택사항 (예: 키 없는 해시) |
CRYPTO_ALG_DEAD | 해제 진행 중인 알고리즘 (내부 사용) |
이름, 우선순위, 모듈 alias를 어떻게 설계할 것인가
실제 driver author 입장에서 가장 먼저 엉키는 지점은 연산 코드가 아니라 이름 체계와 노출 정책입니다. cra_name은 커널 전체가 공유하는 공개 계약이고, cra_driver_name은 특정 구현체를 식별하는 내부 이름입니다. 이 둘을 섞어 쓰면 autoload, fallback, testmgr, 우선순위 선택이 전부 헷갈립니다.
| 항목 | 권장 기준 | 잘못 설계했을 때의 문제 |
|---|---|---|
cra_name | 소비자가 요청할 표준 이름을 그대로 사용합니다. 예: "ctr(aes)", "sha256", "gcm(aes)" | 벤더명을 섞어 "mychip-gcm"처럼 만들면 상위 subsystem이 해당 구현을 자동 선택하지 못합니다. |
cra_driver_name | 벤더/ISA/세부 구현을 식별하도록 구체적으로 씁니다. 예: "gcm-aes-myhw", "sha256-avx2" | driver name이 모호하면 /proc/crypto, 로그, 자가 테스트 실패 메시지에서 원인 추적이 어려워집니다. |
| 내부 helper 이름 | 직접 소비시키고 싶지 않은 primitive는 "__ctr(aes)"처럼 내부 이름을 따로 두고 CRYPTO_ALG_INTERNAL 또는 CRYPTO_ALG_KERN_DRIVER_ONLY로 숨깁니다. | 외부에 노출되면 AF_ALG나 다른 subsystem이 아직 완성되지 않은 내부 primitive를 직접 잡아 버릴 수 있습니다. |
cra_priority | 같은 cra_name을 가진 다른 구현과의 상대 순서만 의미 있습니다. generic보다 조금 높게, SIMD/HW보다 낮거나 높게 일관되게 정합니다. | 과도하게 높게 잡으면 fallback보다 미완성 H/W 경로가 먼저 선택되고, 너무 낮으면 등록은 됐는데 영원히 선택되지 않습니다. |
MODULE_ALIAS_CRYPTO | 최소한 공개 이름과 driver name 둘 다 alias를 추가합니다. | 모듈 자동 로드가 안 되면 crypto_alloc_*()가 "알고리즘 없음"으로 끝나고 사용자는 원인을 못 찾습니다. |
#include <crypto/internal/skcipher.h>
static struct skcipher_alg my_ctr_algs[] = {
{
.setkey = my_ctr_setkey,
.encrypt = my_ctr_encrypt_internal,
.decrypt = my_ctr_decrypt_internal,
.init = my_ctr_init_tfm,
.exit = my_ctr_exit_tfm,
.min_keysize = 16,
.max_keysize = 32,
.ivsize = 16,
.chunksize = 16,
.walksize = 16,
.base = {
.cra_name = "__ctr(aes)",
.cra_driver_name = "__ctr-aes-myhw",
.cra_priority = 400,
.cra_flags = CRYPTO_ALG_ASYNC |
CRYPTO_ALG_INTERNAL |
CRYPTO_ALG_KERN_DRIVER_ONLY,
.cra_blocksize = 1,
.cra_ctxsize = sizeof(struct my_ctr_ctx),
.cra_module = THIS_MODULE,
},
}, {
.setkey = my_ctr_setkey,
.encrypt = my_ctr_encrypt,
.decrypt = my_ctr_decrypt,
.init = my_ctr_init_tfm,
.exit = my_ctr_exit_tfm,
.min_keysize = 16,
.max_keysize = 32,
.ivsize = 16,
.chunksize = 16,
.walksize = 16,
.base = {
.cra_name = "ctr(aes)",
.cra_driver_name = "ctr-aes-myhw",
.cra_priority = 401,
.cra_flags = CRYPTO_ALG_ASYNC | CRYPTO_ALG_NEED_FALLBACK,
.cra_blocksize = 1,
.cra_ctxsize = sizeof(struct my_ctr_ctx),
.cra_module = THIS_MODULE,
},
},
};
MODULE_ALIAS_CRYPTO("ctr(aes)");
MODULE_ALIAS_CRYPTO("ctr-aes-myhw");
include/crypto/algapi.h는
CRYPTO_ALG_ASYNC, CRYPTO_ALG_NEED_FALLBACK, CRYPTO_ALG_ALLOCATES_MEMORY를
"상속돼야 하는 플래그"로 다룹니다. 내부 알고리즘을 감싸는 템플릿이나 래퍼를 만들 때 이 플래그를 지워 버리면 상위 계층이 잘못된 실행 문맥을 가정하게 됩니다.
shash 알고리즘 구현 (동기 해시)
가장 단순한 구현 유형인 shash (synchronous hash)로 시작합니다. 커널 소스의 crypto/sha256_generic.c를 참고한 전체 구현 예제입니다:
#include <crypto/internal/hash.h>
#include <linux/module.h>
#define MY_HASH_DIGEST_SIZE 32 /* 출력 해시 크기 (바이트) */
#define MY_HASH_BLOCK_SIZE 64 /* 내부 처리 블록 크기 */
/* tfm당 할당되는 컨텍스트 (키, 상태 등) */
struct my_hash_tfm_ctx {
u8 key[32];
bool has_key;
};
/* 요청(desc)당 할당되는 상태 (중간 해시 상태 등) */
struct my_hash_desc_ctx {
u64 state[4];
u8 buf[MY_HASH_BLOCK_SIZE];
unsigned int buflen;
u64 count; /* 처리한 총 바이트 수 */
};
/* ① 해시 초기화: 내부 상태를 초기값으로 설정 */
static int my_hash_init(struct shash_desc *desc)
{
struct my_hash_desc_ctx *dctx = shash_desc_ctx(desc);
dctx->state[0] = 0x6a09e667f3bcc908ULL; /* 초기 해시 값 */
dctx->state[1] = 0xbb67ae8584caa73bULL;
dctx->state[2] = 0x3c6ef372fe94f82bULL;
dctx->state[3] = 0xa54ff53a5f1d36f1ULL;
dctx->buflen = 0;
dctx->count = 0;
return 0;
}
/* ② 데이터 입력: 여러 번 호출될 수 있음 (스트리밍 해시) */
static int my_hash_update(struct shash_desc *desc,
const u8 *data, unsigned int len)
{
struct my_hash_desc_ctx *dctx = shash_desc_ctx(desc);
dctx->count += len;
/* 버퍼에 남은 데이터와 새 데이터를 합쳐 블록 단위로 처리 */
if (dctx->buflen + len < MY_HASH_BLOCK_SIZE) {
memcpy(dctx->buf + dctx->buflen, data, len);
dctx->buflen += len;
return 0;
}
/* 블록 단위 처리 (실제 해시 압축 함수 호출) */
/* my_hash_compress(dctx->state, data_blocks, nblocks); */
return 0;
}
/* ③ 최종 해시 값 출력 */
static int my_hash_final(struct shash_desc *desc, u8 *out)
{
struct my_hash_desc_ctx *dctx = shash_desc_ctx(desc);
/* 패딩 적용 + 마지막 블록 처리 */
/* my_hash_final_block(dctx); */
/* 내부 상태를 출력 형식으로 변환 */
memcpy(out, dctx->state, MY_HASH_DIGEST_SIZE);
return 0;
}
/* ④ 선택사항: 한 번에 처리 (init+update+final 최적화) */
static int my_hash_digest(struct shash_desc *desc,
const u8 *data, unsigned int len,
u8 *out)
{
my_hash_init(desc);
my_hash_update(desc, data, len);
return my_hash_final(desc, out);
}
/* ⑤ 선택사항: 키 설정 (HMAC, keyed hash용) */
static int my_hash_setkey(struct crypto_shash *tfm,
const u8 *key, unsigned int keylen)
{
struct my_hash_tfm_ctx *ctx = crypto_shash_ctx(tfm);
if (keylen > 32)
return -EINVAL;
memcpy(ctx->key, key, keylen);
ctx->has_key = true;
return 0;
}
/* ⑥ 상태 import/export (중간 상태 저장/복원, 선택사항) */
static int my_hash_export(struct shash_desc *desc, void *out)
{
struct my_hash_desc_ctx *dctx = shash_desc_ctx(desc);
memcpy(out, dctx, sizeof(*dctx));
return 0;
}
static int my_hash_import(struct shash_desc *desc, const void *in)
{
struct my_hash_desc_ctx *dctx = shash_desc_ctx(desc);
memcpy(dctx, in, sizeof(*dctx));
return 0;
}
/* ⑦ shash_alg 구조체 정의 */
static struct shash_alg my_hash_alg = {
.init = my_hash_init,
.update = my_hash_update,
.final = my_hash_final,
.digest = my_hash_digest, /* 선택: 한 번에 처리 */
.setkey = my_hash_setkey, /* 선택: keyed hash */
.export = my_hash_export, /* 선택: 상태 저장 */
.import = my_hash_import, /* 선택: 상태 복원 */
.descsize = sizeof(struct my_hash_desc_ctx),
.statesize = sizeof(struct my_hash_desc_ctx),
.digestsize = MY_HASH_DIGEST_SIZE,
.base = {
.cra_name = "myhash256",
.cra_driver_name = "myhash256-generic",
.cra_priority = 100,
.cra_blocksize = MY_HASH_BLOCK_SIZE,
.cra_ctxsize = sizeof(struct my_hash_tfm_ctx),
.cra_module = THIS_MODULE,
}
};
/* ⑧ 모듈 초기화/해제 */
static int __init my_hash_mod_init(void)
{
return crypto_register_shash(&my_hash_alg);
}
static void __exit my_hash_mod_exit(void)
{
crypto_unregister_shash(&my_hash_alg);
}
module_init(my_hash_mod_init);
module_exit(my_hash_mod_exit);
MODULE_LICENSE("GPL");
MODULE_DESCRIPTION("Example hash algorithm");
MODULE_ALIAS_CRYPTO("myhash256");
MODULE_ALIAS_CRYPTO("myhash256-generic");
shash vs ahash: shash는 동기(synchronous) 해시로 구현이 단순합니다. S/W 구현은 shash를 사용하세요. ahash는 비동기(async) 해시로, H/W 가속기처럼 처리 완료까지 대기가 필요한 경우 사용합니다. 커널은 내부적으로 shash를 ahash로 자동 래핑하여 비동기 인터페이스에서도 사용할 수 있게 합니다.
shash 콜백 호출 흐름
skcipher 알고리즘 구현 (대칭 암호)
대칭 블록/스트림 암호의 구현입니다. struct skcipher_alg을 사용하여 등록합니다:
#include <crypto/internal/skcipher.h>
#include <linux/module.h>
#define MY_CIPHER_BLOCK_SIZE 16
#define MY_CIPHER_KEY_SIZE 32
#define MY_CIPHER_IV_SIZE 16
/* tfm 컨텍스트: 확장된 키 스케줄 등 */
struct my_cipher_ctx {
u32 enc_key_sched[60]; /* 암호화 키 스케줄 */
u32 dec_key_sched[60]; /* 복호화 키 스케줄 */
unsigned int key_length;
};
/* 키 설정: 키 스케줄(라운드 키) 생성 */
static int my_cipher_setkey(struct crypto_skcipher *tfm,
const u8 *key, unsigned int keylen)
{
struct my_cipher_ctx *ctx = crypto_skcipher_ctx(tfm);
if (keylen != 16 && keylen != 24 && keylen != 32)
return -EINVAL;
ctx->key_length = keylen;
/* 키 스케줄 확장 수행 */
/* my_expand_key(ctx->enc_key_sched, key, keylen); */
/* my_expand_key_dec(ctx->dec_key_sched, key, keylen); */
return 0;
}
/* 암호화: scatterlist 기반 데이터 처리 */
static int my_cipher_encrypt(struct skcipher_request *req)
{
struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
struct my_cipher_ctx *ctx = crypto_skcipher_ctx(tfm);
struct skcipher_walk walk;
int err;
/* skcipher_walk: scatterlist를 선형 버퍼로 순회하는 헬퍼 */
err = skcipher_walk_virt(&walk, req, false);
while (walk.nbytes) {
unsigned int nbytes = walk.nbytes;
const u8 *src = walk.src.virt.addr;
u8 *dst = walk.dst.virt.addr;
u8 *iv = walk.iv;
/* 블록 단위로 CBC 암호화 수행 */
while (nbytes >= MY_CIPHER_BLOCK_SIZE) {
/* XOR plaintext with IV/previous ciphertext (CBC 모드) */
crypto_xor_cpy(dst, src, iv, MY_CIPHER_BLOCK_SIZE);
/* 블록 암호화 */
/* my_encrypt_block(ctx->enc_key_sched, dst, dst); */
iv = dst;
src += MY_CIPHER_BLOCK_SIZE;
dst += MY_CIPHER_BLOCK_SIZE;
nbytes -= MY_CIPHER_BLOCK_SIZE;
}
/* IV 업데이트 (다음 walk 반복을 위해) */
memcpy(walk.iv, iv, MY_CIPHER_IV_SIZE);
err = skcipher_walk_done(&walk, nbytes);
}
return err;
}
/* 복호화 */
static int my_cipher_decrypt(struct skcipher_request *req)
{
/* 암호화와 유사하나 역방향 처리 + 복호화 키 스케줄 사용 */
/* ... */
return 0;
}
static struct skcipher_alg my_cipher_alg = {
.setkey = my_cipher_setkey,
.encrypt = my_cipher_encrypt,
.decrypt = my_cipher_decrypt,
.min_keysize = 16,
.max_keysize = 32,
.ivsize = MY_CIPHER_IV_SIZE,
.chunksize = MY_CIPHER_BLOCK_SIZE, /* 최소 처리 단위 */
.walksize = MY_CIPHER_BLOCK_SIZE, /* walk 반복당 최소 크기 */
.base = {
.cra_name = "cbc(mycipher)",
.cra_driver_name = "cbc-mycipher-generic",
.cra_priority = 100,
.cra_flags = CRYPTO_ALG_ASYNC, /* H/W인 경우 */
.cra_blocksize = MY_CIPHER_BLOCK_SIZE,
.cra_ctxsize = sizeof(struct my_cipher_ctx),
.cra_module = THIS_MODULE,
}
};
static int __init my_cipher_mod_init(void)
{
return crypto_register_skcipher(&my_cipher_alg);
}
static void __exit my_cipher_mod_exit(void)
{
crypto_unregister_skcipher(&my_cipher_alg);
}
module_init(my_cipher_mod_init);
module_exit(my_cipher_mod_exit);
MODULE_LICENSE("GPL");
MODULE_ALIAS_CRYPTO("cbc(mycipher)");
skcipher_walk 상세
skcipher_walk은 scatterlist 기반의 분산된 데이터를 선형 버퍼처럼 순회하는 핵심 헬퍼입니다:
| 함수 | 설명 | 사용 맥락 |
|---|---|---|
skcipher_walk_virt() | 가상 주소 기반 walk 시작 | 일반적인 S/W 구현 |
skcipher_walk_async() | 비동기 요청 컨텍스트에서 walk 시작 | DMA/오프로드 구현 |
skcipher_walk_done() | 현재 chunk 완료, 다음으로 이동 | 반복 루프에서 호출 |
walk.nbytes | 현재 chunk에서 처리 가능한 바이트 수 | 반복 조건 |
walk.src.virt.addr | 입력 데이터 포인터 | 소스 읽기 |
walk.dst.virt.addr | 출력 데이터 포인터 | 결과 쓰기 |
walk.iv | 현재 IV 포인터 | IV 업데이트 |
scatterlist와 zero-copy: 커널의 암호 데이터는 물리적으로 연속되지 않은 페이지에 분산되어 있을 수 있습니다. skcipher_walk은 이런 scatterlist를 임시 선형 버퍼로 매핑하거나, 이미 연속된 경우 직접 포인터를 제공하여 불필요한 복사를 방지합니다.
AEAD 알고리즘 구현
AEAD(Authenticated Encryption with Associated Data)는 암호화와 무결성 검증을 동시에 수행합니다. 구현은 struct aead_alg을 사용합니다:
#include <crypto/internal/aead.h>
#include <crypto/scatterwalk.h>
struct my_aead_ctx {
struct crypto_skcipher *enc_tfm; /* 내부 암호화 tfm */
struct crypto_shash *mac_tfm; /* 내부 MAC tfm */
unsigned int authsize;
};
static int my_aead_setkey(struct crypto_aead *tfm,
const u8 *key, unsigned int keylen)
{
struct my_aead_ctx *ctx = crypto_aead_ctx(tfm);
/* 키를 암호화용과 MAC용으로 분리 */
struct crypto_authenc_keys keys;
if (crypto_authenc_extractkeys(&keys, key, keylen))
return -EINVAL;
/* 각 내부 알고리즘에 키 설정 */
crypto_skcipher_setkey(ctx->enc_tfm, keys.enckey, keys.enckeylen);
crypto_shash_setkey(ctx->mac_tfm, keys.authkey, keys.authkeylen);
return 0;
}
static int my_aead_setauthsize(struct crypto_aead *tfm,
unsigned int authsize)
{
struct my_aead_ctx *ctx = crypto_aead_ctx(tfm);
if (authsize > 16)
return -EINVAL;
ctx->authsize = authsize;
return 0;
}
static int my_aead_encrypt(struct aead_request *req)
{
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_aead_ctx *ctx = crypto_aead_ctx(tfm);
/* 1단계: 평문을 암호화 (cbc, ctr 등) */
/* 2단계: AAD + 암호문에 대해 MAC 계산 */
/* 3단계: 인증 태그를 출력 끝에 추가 */
/* req->src: [AAD | 평문]
* req->dst: [AAD | 암호문 | 인증태그]
* req->assoclen: AAD 길이
* req->cryptlen: 평문 길이
*/
return 0;
}
static int my_aead_decrypt(struct aead_request *req)
{
/* 1단계: AAD + 암호문에 대해 MAC 재계산
* 2단계: 수신된 인증 태그와 비교
* 3단계: 일치하면 복호화, 불일치시 -EBADMSG 반환
*
* req->src: [AAD | 암호문 | 인증태그]
* req->cryptlen: 암호문 + 인증태그 길이
* 실제 암호문 길이 = req->cryptlen - ctx->authsize
*/
return 0;
}
static int my_aead_init_tfm(struct crypto_aead *tfm)
{
struct my_aead_ctx *ctx = crypto_aead_ctx(tfm);
/* 내부 알고리즘 할당 */
ctx->enc_tfm = crypto_alloc_skcipher("cbc(aes)", 0, 0);
if (IS_ERR(ctx->enc_tfm))
return PTR_ERR(ctx->enc_tfm);
ctx->mac_tfm = crypto_alloc_shash("hmac(sha256)", 0, 0);
if (IS_ERR(ctx->mac_tfm)) {
crypto_free_skcipher(ctx->enc_tfm);
return PTR_ERR(ctx->mac_tfm);
}
/* AEAD 요청 크기 설정: 내부 skcipher 요청도 포함 */
crypto_aead_set_reqsize(tfm,
sizeof(struct skcipher_request) +
crypto_skcipher_reqsize(ctx->enc_tfm));
return 0;
}
static void my_aead_exit_tfm(struct crypto_aead *tfm)
{
struct my_aead_ctx *ctx = crypto_aead_ctx(tfm);
crypto_free_skcipher(ctx->enc_tfm);
crypto_free_shash(ctx->mac_tfm);
}
static struct aead_alg my_aead_alg = {
.setkey = my_aead_setkey,
.setauthsize = my_aead_setauthsize,
.encrypt = my_aead_encrypt,
.decrypt = my_aead_decrypt,
.init = my_aead_init_tfm,
.exit = my_aead_exit_tfm,
.ivsize = 16,
.maxauthsize = 16,
.chunksize = 16,
.base = {
.cra_name = "authenc(hmac(sha256),cbc(aes))",
.cra_driver_name = "my-authenc-hmac-sha256-cbc-aes",
.cra_priority = 100,
.cra_flags = CRYPTO_ALG_ASYNC,
.cra_blocksize = 1,
.cra_ctxsize = sizeof(struct my_aead_ctx),
.cra_module = THIS_MODULE,
}
};
AEAD의 scatterlist는 [AAD | 데이터 | 인증태그] 순서입니다. 암호화 시 req->cryptlen은 평문 길이이고 출력에 인증태그가 추가됩니다. 복호화 시 req->cryptlen은 암호문 + 인증태그 길이이므로, 실제 암호문 길이는 req->cryptlen - authsize입니다. 이 비대칭적 규약을 잘못 구현하면 데이터 손상이 발생합니다.
AEAD 하드웨어 드라이버 구현: aead_engine_alg 기반 GCM 예시
위 예시는 "기존 암호 + MAC 조합"을 직접 보여 주기 위한 것입니다. 하지만 실제 SoC/PCIe 가속기는 대개 GCM/CCM tag 생성과 검증을 한 번에 처리합니다. 이런 장치를 driver로 올릴 때는 aead_engine_alg와 crypto_transfer_aead_request_to_engine() 패턴이 가장 실용적입니다. 핵심은 요청 레이아웃을 그대로 하드웨어 명령으로 번역하고, 하드웨어가 못 받는 입력만 fallback으로 보내는 것입니다.
#include <crypto/internal/aead.h>
#include <crypto/engine.h>
struct my_gcm_dev {
struct device *dev;
struct crypto_engine *engine;
struct aead_request *active_req;
};
struct my_gcm_tfm_ctx {
struct my_gcm_dev *dd;
struct crypto_aead *fallback;
unsigned int authsize;
u8 key[32];
unsigned int keylen;
};
struct my_gcm_reqctx {
dma_addr_t src_dma;
dma_addr_t dst_dma;
u8 iv[16];
bool decrypt;
bool mapped;
};
static inline struct aead_request *my_gcm_fallback_req(struct my_gcm_reqctx *rctx)
{
return PTR_ALIGN(rctx + 1, crypto_tfm_ctx_alignment());
}
static int my_gcm_setkey(struct crypto_aead *tfm,
const u8 *key, unsigned int keylen)
{
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
if (keylen != 16 && keylen != 24 && keylen != 32)
return -EINVAL;
memcpy(ctx->key, key, keylen);
ctx->keylen = keylen;
return crypto_aead_setkey(ctx->fallback, key, keylen);
}
static int my_gcm_setauthsize(struct crypto_aead *tfm,
unsigned int authsize)
{
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
switch (authsize) {
case 8:
case 12:
case 16:
ctx->authsize = authsize;
return crypto_aead_setauthsize(ctx->fallback, authsize);
}
return -EINVAL;
}
static int my_gcm_init_tfm(struct crypto_aead *tfm)
{
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
ctx->fallback = crypto_alloc_aead("gcm(aes-generic)", 0, 0);
if (IS_ERR(ctx->fallback))
return PTR_ERR(ctx->fallback);
ctx->authsize = 16;
crypto_aead_setauthsize(ctx->fallback, ctx->authsize);
crypto_aead_set_reqsize_dma(tfm,
sizeof(struct my_gcm_reqctx) +
crypto_tfm_ctx_alignment() +
sizeof(struct aead_request) +
crypto_aead_reqsize(ctx->fallback));
return 0;
}
static void my_gcm_exit_tfm(struct crypto_aead *tfm)
{
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
crypto_free_aead(ctx->fallback);
}
static int my_gcm_do_fallback(struct aead_request *req, bool decrypt)
{
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
struct my_gcm_reqctx *rctx = aead_request_ctx(req);
struct aead_request *subreq = my_gcm_fallback_req(rctx);
aead_request_set_tfm(subreq, ctx->fallback);
aead_request_set_callback(subreq, req->base.flags,
req->base.complete, req->base.data);
aead_request_set_crypt(subreq, req->src, req->dst,
req->cryptlen, req->iv);
aead_request_set_ad(subreq, req->assoclen);
if (decrypt)
return crypto_aead_decrypt(subreq);
return crypto_aead_encrypt(subreq);
}
static int my_gcm_encrypt(struct aead_request *req)
{
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
struct my_gcm_reqctx *rctx = aead_request_ctx(req);
rctx->decrypt = false;
if (!my_gcm_hw_can_handle(req))
return my_gcm_do_fallback(req, false);
return crypto_transfer_aead_request_to_engine(ctx->dd->engine, req);
}
static int my_gcm_decrypt(struct aead_request *req)
{
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
struct my_gcm_reqctx *rctx = aead_request_ctx(req);
rctx->decrypt = true;
if (!my_gcm_hw_can_handle(req))
return my_gcm_do_fallback(req, true);
return crypto_transfer_aead_request_to_engine(ctx->dd->engine, req);
}
static int my_gcm_do_one_request(struct crypto_engine *engine, void *areq)
{
struct crypto_async_request *base = areq;
struct aead_request *req = container_of(base, struct aead_request, base);
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_gcm_tfm_ctx *ctx = crypto_aead_ctx(tfm);
struct my_gcm_reqctx *rctx = aead_request_ctx_dma(req);
(void)engine;
ctx->dd->active_req = req;
memcpy(rctx->iv, req->iv, crypto_aead_ivsize(tfm));
my_gcm_map_req(ctx->dd, req, rctx);
my_gcm_program(ctx->dd, req->assoclen, req->cryptlen,
crypto_aead_authsize(tfm), rctx->iv, rctx->decrypt);
my_gcm_kick(ctx->dd);
return -EINPROGRESS;
}
static irqreturn_t my_gcm_irq(int irq, void *data)
{
struct my_gcm_dev *dd = data;
struct aead_request *req = dd->active_req;
struct crypto_aead *tfm = crypto_aead_reqtfm(req);
struct my_gcm_reqctx *rctx = aead_request_ctx_dma(req);
int err = my_gcm_status(dd);
(void)irq;
(void)tfm;
if (!err && rctx->decrypt && !my_gcm_tag_ok(dd))
err = -EBADMSG;
if (rctx->mapped)
my_gcm_unmap_req(dd, req, rctx);
dd->active_req = NULL;
crypto_finalize_aead_request(dd->engine, req, err);
return IRQ_HANDLED;
}
static struct aead_engine_alg my_gcm_alg = {
.base = {
.setkey = my_gcm_setkey,
.setauthsize = my_gcm_setauthsize,
.encrypt = my_gcm_encrypt,
.decrypt = my_gcm_decrypt,
.init = my_gcm_init_tfm,
.exit = my_gcm_exit_tfm,
.ivsize = 12,
.maxauthsize = 16,
.chunksize = 1,
.base = {
.cra_name = "gcm(aes)",
.cra_driver_name = "gcm-aes-myhw",
.cra_priority = 450,
.cra_flags = CRYPTO_ALG_ASYNC | CRYPTO_ALG_NEED_FALLBACK,
.cra_blocksize = 1,
.cra_ctxsize = sizeof(struct my_gcm_tfm_ctx),
.cra_alignmask = 0xf,
.cra_module = THIS_MODULE,
},
},
.op = {
.do_one_request = my_gcm_do_one_request,
},
};
| 구현 항목 | driver가 반드시 맞춰야 하는 의미 |
|---|---|
setauthsize() | 하드웨어가 지원하는 tag 길이만 허용해야 합니다. 허용 범위를 넓게 잡아 두고 내부에서 임의 절단하면 FIPS, IPsec, TLS 상호운용성이 모두 깨집니다. |
req->assoclen | AAD 길이입니다. AAD는 암호화되지 않지만 tag 계산에는 반드시 포함됩니다. 일부 H/W는 이를 별도 length register로 요구합니다. |
req->cryptlen | 암호화에서는 평문 길이, 복호화에서는 암호문 + tag 길이입니다. decryption 경로에서 tag 길이를 따로 빼지 않으면 DMA length를 잘못 프로그래밍합니다. |
-EBADMSG | 복호화 tag 검증 실패는 일반 I/O 오류가 아니라 반드시 -EBADMSG로 내야 합니다. 상위 계층은 이를 "인증 실패"로 구분합니다. |
| fallback 동기화 | fallback tfm에도 같은 key와 authsize가 들어 있어야 합니다. 그렇지 않으면 특정 입력에서만 결과가 달라지는 가장 나쁜 종류의 버그가 생깁니다. |
[AAD][payload][tag]를 한 덩어리로 받는다고 해서
커널 요청도 그렇게 단순하다고 생각하면 안 됩니다. src와 dst는 동일하거나 다를 수 있고, AAD는 out-of-place에서도 목적지 SG에 "공간은 있지만 실제로는 복사하지 않는" 구간이 될 수 있습니다.
따라서 SG를 단순 linear 버퍼처럼 다루지 말고, 하드웨어가 꼭 contiguous를 요구하면 그때만 bounce buffer로 내리는 편이 안전합니다.
템플릿(Template) 구현
템플릿은 기존 알고리즘을 래핑하여 새로운 알고리즘을 자동 생성하는 메커니즘입니다. 예를 들어 cbc 템플릿은 임의의 블록 암호를 CBC 모드로 래핑합니다:
#include <crypto/internal/skcipher.h>
/* 템플릿 인스턴스의 컨텍스트 */
struct my_tmpl_instance_ctx {
struct crypto_skcipher_spawn spawn; /* 내부 알고리즘 참조 */
};
struct my_tmpl_tfm_ctx {
struct crypto_skcipher *child; /* 실제 내부 tfm */
};
/* 템플릿 인스턴스 생성: "mymode(aes)" 요청 시 호출 */
static int my_tmpl_create(struct crypto_template *tmpl,
struct rtattr **tb)
{
struct skcipher_instance *inst;
struct my_tmpl_instance_ctx *ictx;
struct skcipher_alg_common *alg;
u32 mask;
int err;
/* 내부 알고리즘 이름 추출 (예: "aes" from "mymode(aes)") */
err = crypto_check_attr_type(tb, CRYPTO_ALG_TYPE_SKCIPHER, &mask);
if (err)
return err;
/* 인스턴스 할당 */
inst = kzalloc(sizeof(*inst) + sizeof(*ictx), GFP_KERNEL);
if (!inst)
return -ENOMEM;
ictx = skcipher_instance_ctx(inst);
/* 내부 알고리즘(spawn) 바인딩 */
err = crypto_grab_skcipher(&ictx->spawn,
skcipher_crypto_instance(inst),
crypto_attr_alg_name(tb[1]),
0, mask);
if (err)
goto err_free;
alg = crypto_spawn_skcipher_alg_common(&ictx->spawn);
/* 인스턴스 이름 조합: "mymode(inner_alg_name)" */
err = snprintf(inst->alg.base.cra_name, CRYPTO_MAX_ALG_NAME,
"mymode(%s)", alg->base.cra_name);
err = snprintf(inst->alg.base.cra_driver_name, CRYPTO_MAX_ALG_NAME,
"mymode(%s)", alg->base.cra_driver_name);
/* 내부 알고리즘 속성 상속 */
inst->alg.base.cra_priority = alg->base.cra_priority;
inst->alg.base.cra_blocksize = alg->base.cra_blocksize;
inst->alg.base.cra_alignmask = alg->base.cra_alignmask;
inst->alg.base.cra_ctxsize = sizeof(struct my_tmpl_tfm_ctx);
inst->alg.ivsize = alg->ivsize;
inst->alg.min_keysize = alg->min_keysize;
inst->alg.max_keysize = alg->max_keysize;
/* 콜백 등록 */
inst->alg.setkey = my_tmpl_setkey;
inst->alg.encrypt = my_tmpl_encrypt;
inst->alg.decrypt = my_tmpl_decrypt;
inst->alg.init = my_tmpl_init_tfm;
inst->alg.exit = my_tmpl_exit_tfm;
inst->free = my_tmpl_free_instance;
/* 인스턴스 등록 */
err = skcipher_register_instance(tmpl, inst);
if (err)
goto err_free;
return 0;
err_free:
kfree(inst);
return err;
}
/* 템플릿 등록 */
static struct crypto_template my_tmpl = {
.name = "mymode",
.create = my_tmpl_create,
.module = THIS_MODULE,
};
static int __init my_tmpl_mod_init(void)
{
return crypto_register_template(&my_tmpl);
}
static void __exit my_tmpl_mod_exit(void)
{
crypto_unregister_template(&my_tmpl);
}
Spawn 메커니즘: crypto_spawn은 템플릿이 내부 알고리즘의 생명주기를 추적하도록 합니다. 내부 알고리즘이 해제되면 이를 사용하는 모든 템플릿 인스턴스도 자동으로 무효화됩니다. 이로써 모듈 unload 시 dangling reference를 방지합니다.
드라이버 작성자의 핵심 감각: tfm 컨텍스트와 request 컨텍스트를 분리하라
Crypto API 제공자 입장에서 가장 중요한 설계는 무엇이 tfm에 속하고 무엇이 request에 속하는가입니다. 같은 알고리즘 인스턴스를 여러 CPU가 동시에 사용할 수 있으므로, cra_ctxsize로 잡은 tfm 컨텍스트에는 키 스케줄, 디바이스 포인터, fallback tfm, 정적 capability 같은 장수 상태만 두어야 합니다. 반대로 DMA mapping, bounce buffer, SG walk 상태, IRQ 완료용 descriptor는 요청마다 독립적이어야 하므로 reqsize에 들어가야 합니다.
#include <crypto/internal/skcipher.h>
#include <crypto/internal/hash.h>
struct my_dev {
struct device *dev;
void __iomem *regs;
int irq;
};
/* tfm당 한 번만 살아 있는 상태 */
struct my_skcipher_tfm_ctx {
struct my_dev *dd;
struct crypto_skcipher *fallback;
u32 round_keys[60];
unsigned int keylen;
};
/* 요청마다 새로 필요한 상태 */
struct my_skcipher_reqctx {
dma_addr_t src_dma;
dma_addr_t dst_dma;
u8 iv[16];
bool mapped;
bool use_fallback;
};
static int my_skcipher_init_tfm(struct crypto_skcipher *tfm)
{
struct my_skcipher_tfm_ctx *ctx = crypto_skcipher_ctx(tfm);
ctx->fallback = crypto_alloc_skcipher("cbc(aes-generic)", 0, 0);
if (IS_ERR(ctx->fallback))
return PTR_ERR(ctx->fallback);
/* DMA 정렬까지 고려한 request private area */
crypto_skcipher_set_reqsize_dma(tfm, sizeof(struct my_skcipher_reqctx));
return 0;
}
static void my_skcipher_exit_tfm(struct crypto_skcipher *tfm)
{
struct my_skcipher_tfm_ctx *ctx = crypto_skcipher_ctx(tfm);
crypto_free_skcipher(ctx->fallback);
}
static int my_ahash_init_tfm(struct crypto_ahash *tfm)
{
/* 해시도 동일한 패턴: statesize와 reqsize를 정직하게 설정 */
crypto_ahash_set_statesize(tfm, 32);
crypto_ahash_set_reqsize_dma(tfm, 128);
return 0;
}
| 저장 위치 | 무엇을 넣어야 하나 | 무엇을 넣으면 안 되나 |
|---|---|---|
cra_ctxsize로 확보한 tfm ctx | 키 스케줄, fallback tfm, 디바이스 핸들, capability, queue 선택 정보 | 진행 중 DMA 주소, 현재 요청 포인터, 이번 요청용 IV/nonce |
reqsize로 확보한 request ctx | DMA mapping, descriptor, bounce buffer, 완료 상태, per-request IV 복사본 | 공유 키, 장수 전역 상태, 다른 요청과 공유되는 포인터 |
statesize (해시) | export/import 가능한 중간 hash 상태 | 하드웨어 전용 임시 메타데이터 전체를 그대로 덤프하는 것 |
update()는 같은 transformation object에 대해 병렬 호출될 수 있으므로, tfm ctx를 "현재 진행 중 해시 상태"처럼 사용하면 레이스가 납니다.
드라이버 메타데이터를 대충 정하면 생기는 문제
Crypto driver는 단순히 함수 포인터만 채우는 구조가 아닙니다. blocksize, alignmask, chunksize, walksize, reqsize 같은 메타데이터가 상위 계층의 메모리 배치, bounce buffer 사용, page 경계 처리, zero-copy 가능 여부를 결정합니다.
| 필드 | 드라이버 작성 기준 | 잘못 잡으면 생기는 일 |
|---|---|---|
cra_blocksize | 수학적/프로토콜적 처리 단위입니다. DMA burst 크기가 아닙니다. | 상위 계층이 잘못된 길이 제약을 가정해 부분 블록 처리에서 망가집니다. |
cra_alignmask | 하드웨어가 실제로 요구하는 정렬을 솔직하게 적어야 합니다. | 너무 낮게 적으면 하드웨어 fault, 너무 높게 적으면 불필요한 realign과 복사가 증가합니다. |
chunksize | 알고리즘이 의미 있게 처리할 수 있는 최소 chunk 단위입니다. | skcipher walk가 비효율적으로 쪼개지거나, page 경계에서 fallback이 과도하게 발생합니다. |
walksize | skcipher_walk에 적합한 처리 크기입니다. 디바이스가 한 번에 소비하기 좋은 단위와 맞추는 경우가 많습니다. | 작게 잡으면 loop overhead가 커지고, 너무 크게 잡으면 bounce/re-align 확률이 올라갑니다. |
reqsize | 요청당 필요한 descriptor, DMA 주소, 임시 상태만 넣습니다. | 부족하면 overflow, 과하면 요청 객체가 비대해지고 캐시 locality가 나빠집니다. |
CRYPTO_ALG_ALLOCATES_MEMORY | 요청 처리 중 메모리 할당이 실제로 일어나면 반드시 반영해야 합니다. | 할당이 없다고 믿은 상위 계층이 atomic 경로에서 알고리즘을 사용하다가 경고나 실패를 맞습니다. |
include/linux/crypto.h는 alignmask와 page 경계 조건을 만족하지 못하면
Crypto API가 내부 realign/임시 버퍼를 만들 수 있음을 명시합니다. 따라서 "왜 H/W driver가 빠르지 않지?"라는 문제는 종종 알고리즘 수학이 아니라 메타데이터 부정확성에서 시작합니다.
ahash 드라이버 구현: DMA 해시 엔진 + 소프트웨어 fallback
해시 가속기는 실무에서 가장 다양한 제약을 가집니다. 어떤 엔진은 진짜 스트리밍(init/update/final)을 지원하고, 어떤 엔진은 digest one-shot만 빠르며, 어떤 엔진은 finup는 되지만 중간 상태 export/import는 안 됩니다. 따라서 ahash driver는 하드웨어가 지원하는 가장 강한 연산을 기준으로 구현하고, 그보다 풍부한 API 표면은 소프트웨어 fallback으로 메워야 합니다.
#include <crypto/internal/hash.h>
#include <crypto/engine.h>
#include <linux/dma-mapping.h>
struct my_sha_dev {
struct device *dev;
struct crypto_engine *engine;
struct ahash_request *active_req;
};
struct my_sha_tfm_ctx {
struct my_sha_dev *dd;
struct crypto_shash *fallback;
};
struct my_sha_reqctx {
dma_addr_t src_dma;
dma_addr_t result_dma;
u8 digest[32];
bool mapped;
};
static int my_sha_init_tfm(struct crypto_ahash *tfm)
{
struct my_sha_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
ctx->fallback = crypto_alloc_shash("sha256-generic", 0, 0);
if (IS_ERR(ctx->fallback))
return PTR_ERR(ctx->fallback);
crypto_ahash_set_statesize(tfm, 32);
crypto_ahash_set_reqsize_dma(tfm, sizeof(struct my_sha_reqctx));
return 0;
}
static void my_sha_exit_tfm(struct crypto_ahash *tfm)
{
struct my_sha_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
crypto_free_shash(ctx->fallback);
}
static int my_sha_init(struct ahash_request *req)
{
struct my_sha_reqctx *rctx = ahash_request_ctx(req);
memset(rctx, 0, sizeof(*rctx));
return 0;
}
static int my_sha_fallback_digest(struct ahash_request *req)
{
struct crypto_ahash *tfm = crypto_ahash_reqtfm(req);
struct my_sha_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
SHASH_DESC_ON_STACK(desc, ctx->fallback);
desc->tfm = ctx->fallback;
return shash_ahash_digest(req, desc);
}
static int my_sha_digest(struct ahash_request *req)
{
struct crypto_ahash *tfm = crypto_ahash_reqtfm(req);
struct my_sha_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
/* 하드웨어가 요구하는 SG 조건을 만족하지 않으면 fallback */
if (!my_sha_hw_can_digest(req->src, req->nbytes))
return my_sha_fallback_digest(req);
return crypto_transfer_hash_request_to_engine(ctx->dd->engine, req);
}
static int my_sha_update(struct ahash_request *req)
{
/* 이 예시는 one-shot 하드웨어를 가정하므로 진짜 스트리밍은 fallback 처리 */
return my_sha_fallback_digest(req);
}
static int my_sha_final(struct ahash_request *req)
{
return my_sha_fallback_digest(req);
}
static int my_sha_do_one_request(struct crypto_engine *engine, void *areq)
{
struct crypto_async_request *base = areq;
struct ahash_request *req = ahash_request_cast(base);
struct crypto_ahash *tfm = crypto_ahash_reqtfm(req);
struct my_sha_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
struct my_sha_reqctx *rctx = ahash_request_ctx_dma(req);
(void)engine;
ctx->dd->active_req = req;
rctx->src_dma = dma_map_sgtable(ctx->dd->dev, my_req_to_sgt(req), DMA_TO_DEVICE, 0);
rctx->result_dma = dma_map_single(ctx->dd->dev, rctx->digest, 32, DMA_FROM_DEVICE);
rctx->mapped = true;
/* 레지스터 적재 후 SHA 엔진 시작 */
my_sha_hw_kick(ctx->dd, req, rctx);
return -EINPROGRESS;
}
static irqreturn_t my_sha_irq(int irq, void *data)
{
struct my_sha_dev *dd = data;
struct ahash_request *req = dd->active_req;
struct my_sha_reqctx *rctx = ahash_request_ctx_dma(req);
int err = my_sha_hw_status(dd);
if (!err)
memcpy(req->result, rctx->digest, 32);
if (rctx->mapped)
my_sha_unmap_req(dd, req, rctx);
dd->active_req = NULL;
crypto_finalize_hash_request(dd->engine, req, err);
return IRQ_HANDLED;
}
static struct ahash_engine_alg my_sha_alg = {
.base = {
.init = my_sha_init,
.update = my_sha_update,
.final = my_sha_final,
.digest = my_sha_digest,
.init_tfm = my_sha_init_tfm,
.exit_tfm = my_sha_exit_tfm,
.reqsize = sizeof(struct my_sha_reqctx),
.halg = {
.digestsize = 32,
.statesize = 32,
.base = {
.cra_name = "sha256",
.cra_driver_name = "sha256-myhw",
.cra_priority = 300,
.cra_flags = CRYPTO_ALG_ASYNC | CRYPTO_ALG_KERN_DRIVER_ONLY,
.cra_blocksize = 64,
.cra_ctxsize = sizeof(struct my_sha_tfm_ctx),
.cra_alignmask = 0,
.cra_module = THIS_MODULE,
},
},
},
.op = {
.do_one_request = my_sha_do_one_request,
},
};
| 하드웨어 능력 | 드라이버 구현 전략 |
|---|---|
| 진짜 스트리밍 가능 | init/update/final/export/import를 하드웨어 상태 기계에 맞게 직접 구현합니다. |
finup까지만 가능 | update()는 reqctx에 staging하고, 마지막 final() 또는 finup()에서 실제 장치에 태웁니다. |
one-shot digest만 빠름 | digest()는 H/W, 나머지는 shash fallback으로 보내는 혼합형이 가장 현실적입니다. |
update()는 같은 tfm에 대해 병렬 호출될 수 있으므로
"현재 해시 상태"를 tfm ctx에 저장하면 안 됩니다. 중간 상태는 request ctx나 export/import 버퍼에 있어야 합니다.
RNG 드라이버 구현: TRNG와 DRBG 래퍼를 구분하라
rng_alg는 단순해 보이지만 정책적 의미가 큽니다. 하드웨어 TRNG를 그대로 노출하는지, 내부적으로 DRBG를 돌리는지, 외부에서 seed를 넣어야 하는지에 따라 seed()와 seedsize 의미가 달라집니다. 특히 FIPS 경계 안에서는 "엔트로피를 내는 장치"와 "결정론적으로 바이트를 내는 DRBG"를 혼동하면 안 됩니다.
#include <crypto/rng.h>
#include <crypto/internal/rng.h>
struct my_trng_ctx {
struct my_dev *dd;
bool seeded;
u8 personalization[48];
};
static inline struct my_trng_ctx *my_rng_ctx(struct crypto_rng *tfm)
{
return crypto_tfm_ctx(crypto_rng_tfm(tfm));
}
static int my_trng_seed(struct crypto_rng *tfm,
const u8 *seed, unsigned int slen)
{
struct my_trng_ctx *ctx = my_rng_ctx(tfm);
if (slen != 48)
return -EINVAL;
memcpy(ctx->personalization, seed, slen);
ctx->seeded = true;
return 0;
}
static int my_trng_generate(struct crypto_rng *tfm,
const u8 *src, unsigned int slen,
u8 *dst, unsigned int dlen)
{
struct my_trng_ctx *ctx = my_rng_ctx(tfm);
if (!ctx->seeded)
return -EINVAL;
while (dlen) {
u32 word;
if (!my_hw_rng_ready(ctx->dd))
return -EAGAIN;
word = my_hw_rng_read(ctx->dd);
memcpy(dst, &word, min(dlen, sizeof(word)));
dst += min(dlen, sizeof(word));
dlen -= min(dlen, sizeof(word));
}
if (src && slen)
my_hw_mix_additional_input(ctx->dd, src, slen);
return 0;
}
static struct rng_alg my_trng_alg = {
.generate = my_trng_generate,
.seed = my_trng_seed,
.seedsize = 48,
.base = {
.cra_name = "mytrng",
.cra_driver_name = "mytrng-hw",
.cra_priority = 200,
.cra_ctxsize = sizeof(struct my_trng_ctx),
.cra_module = THIS_MODULE,
},
};
| 유형 | seedsize 설계 | seed() 의미 |
|---|---|---|
| 하드웨어 TRNG | 보통 0 또는 정책상 필요한 personalization 길이 | 대개 optional personalization 또는 내부 mixing 트리거 |
| H/W + DRBG 하이브리드 | DRBG가 요구하는 seed 길이 | DRBG 상태 재초기화 |
| 순수 DRBG 구현 | 필수 seed 길이를 정확히 명시 | 새 내부 상태를 만드는 핵심 콜백 |
seedsize를 애매하게 잡거나, 반대로 외부 시드가 꼭 필요한데 seedsize = 0으로 등록하는 경우입니다.
이 값은 소비자가 crypto_rng_reset()을 언제 불러야 하는지 결정하므로, 정책적으로 정확해야 합니다.
압축 드라이버 구현: acomp는 engine helper가 없다는 점이 핵심
acomp는 비동기 압축 API이지만, skcipher/aead/ahash처럼 crypto_engine 래퍼가 제공되지는 않습니다. 따라서 비동기 압축 드라이버는 자체 queue/workqueue/IRQ 경로를 직접 관리하는 경우가 많습니다. 이것이 암호 드라이버와 압축 드라이버의 큰 차이점입니다.
#include <crypto/internal/acompress.h>
#include <linux/workqueue.h>
struct my_zip_tfm_ctx {
struct my_dev *dd;
};
struct my_zip_reqctx {
struct work_struct work;
struct acomp_req *req;
bool allocated_dst;
};
static void my_zip_dst_free(struct scatterlist *dst)
{
my_sg_free(dst);
}
static void my_zip_do_work(struct work_struct *work)
{
struct my_zip_reqctx *rctx = container_of(work, struct my_zip_reqctx, work);
struct acomp_req *req = rctx->req;
int err;
err = my_zip_hw_run(req);
if (!err)
req->dlen = my_zip_result_len(req);
acomp_request_complete(req, err);
}
static int my_zip_compress(struct acomp_req *req)
{
struct crypto_acomp *tfm = crypto_acomp_reqtfm(req);
struct my_zip_tfm_ctx *ctx = acomp_tfm_ctx(tfm);
struct my_zip_reqctx *rctx = acomp_request_ctx(req);
memset(rctx, 0, sizeof(*rctx));
rctx->req = req;
if (req->flags & CRYPTO_ACOMP_ALLOC_OUTPUT) {
req->dst = my_zip_alloc_output_sg(req->dlen);
if (!req->dst)
return -ENOMEM;
rctx->allocated_dst = true;
}
if (!my_zip_hw_can_handle(ctx->dd, req))
return -EINVAL;
INIT_WORK(&rctx->work, my_zip_do_work);
queue_work(ctx->dd->wq, &rctx->work);
return -EINPROGRESS;
}
static int my_zip_decompress(struct acomp_req *req)
{
/* 압축과 동일한 패턴으로 하드웨어 또는 workqueue 경로 사용 */
return my_zip_compress(req);
}
static int my_zip_init_tfm(struct crypto_acomp *tfm)
{
struct my_zip_tfm_ctx *ctx = acomp_tfm_ctx(tfm);
ctx->dd = my_pick_zip_device();
return 0;
}
static struct acomp_alg my_zip_alg = {
.compress = my_zip_compress,
.decompress = my_zip_decompress,
.dst_free = my_zip_dst_free,
.init = my_zip_init_tfm,
.reqsize = sizeof(struct my_zip_reqctx),
.base = {
.cra_name = "deflate",
.cra_driver_name = "deflate-myzip",
.cra_priority = 250,
.cra_flags = CRYPTO_ALG_ASYNC,
.cra_ctxsize = sizeof(struct my_zip_tfm_ctx),
.cra_module = THIS_MODULE,
},
};
| 포인트 | 설명 |
|---|---|
req->dst == NULL | 소비자가 출력 버퍼 자동 할당을 요청한 경우입니다. 드라이버가 SG를 할당했다면 dst_free로 정리 경로를 제공해야 합니다. |
acomp_request_complete() | 비동기 완료 통지는 이 헬퍼로 수렴시키는 편이 안전합니다. |
| engine helper 부재 | 압축은 crypto_engine_register_*() 계열이 없으므로 자체 queue 설계가 필요합니다. |
AKCIPHER 드라이버 구현: 길이 계약과 키 파싱이 절반이다
공개키 엔진 드라이버는 수학 연산보다도 키 파싱, 출력 길이 산정, verify 입력 규약을 정확히 맞추는 일이 더 어렵습니다. 특히 akcipher_request는 검증 경로에서 src = signature || digest 형태를 사용하므로, src_len과 dst_len의 의미가 연산마다 달라진다는 점을 기억해야 합니다.
#include <crypto/akcipher.h>
#include <crypto/internal/akcipher.h>
struct my_rsa_tfm_ctx {
struct my_dev *dd;
unsigned int modulus_size;
bool has_pub;
bool has_priv;
};
struct my_rsa_reqctx {
dma_addr_t src_dma;
dma_addr_t dst_dma;
};
static int my_rsa_set_pub_key(struct crypto_akcipher *tfm,
const void *key, unsigned int keylen)
{
struct my_rsa_tfm_ctx *ctx = akcipher_tfm_ctx(tfm);
/* BER/DER 파싱 후 modulus 길이 계산 */
ctx->modulus_size = my_parse_rsa_pubkey(key, keylen, ctx);
if (!ctx->modulus_size)
return -EINVAL;
ctx->has_pub = true;
return 0;
}
static int my_rsa_set_priv_key(struct crypto_akcipher *tfm,
const void *key, unsigned int keylen)
{
struct my_rsa_tfm_ctx *ctx = akcipher_tfm_ctx(tfm);
ctx->modulus_size = my_parse_rsa_privkey(key, keylen, ctx);
if (!ctx->modulus_size)
return -EINVAL;
ctx->has_priv = true;
return 0;
}
static unsigned int my_rsa_max_size(struct crypto_akcipher *tfm)
{
struct my_rsa_tfm_ctx *ctx = akcipher_tfm_ctx(tfm);
return ctx->modulus_size;
}
static int my_rsa_encrypt(struct akcipher_request *req)
{
struct crypto_akcipher *tfm = crypto_akcipher_reqtfm(req);
struct my_rsa_tfm_ctx *ctx = akcipher_tfm_ctx(tfm);
if (!ctx->has_pub)
return -EINVAL;
if (req->dst_len < ctx->modulus_size) {
req->dst_len = ctx->modulus_size;
return -EOVERFLOW;
}
/* PKCS#1/OAEP padding 검증 후 장치 또는 소프트웨어 경로 수행 */
req->dst_len = ctx->modulus_size;
return my_rsa_hw_encrypt(req, ctx);
}
static int my_rsa_verify(struct akcipher_request *req)
{
struct crypto_akcipher *tfm = crypto_akcipher_reqtfm(req);
struct my_rsa_tfm_ctx *ctx = akcipher_tfm_ctx(tfm);
/* verify 입력 규약:
* req->src = [signature][digest]
* req->src_len = signature 길이
* req->dst_len = digest 길이
*/
if (req->src_len != ctx->modulus_size)
return -EINVAL;
if (!my_rsa_sig_matches_digest(req, ctx))
return -EBADMSG;
return 0;
}
static int my_rsa_init_tfm(struct crypto_akcipher *tfm)
{
akcipher_set_reqsize_dma(tfm, sizeof(struct my_rsa_reqctx));
return 0;
}
static struct akcipher_alg my_rsa_alg = {
.encrypt = my_rsa_encrypt,
.verify = my_rsa_verify,
.set_pub_key = my_rsa_set_pub_key,
.set_priv_key = my_rsa_set_priv_key,
.max_size = my_rsa_max_size,
.init = my_rsa_init_tfm,
.base = {
.cra_name = "rsa",
.cra_driver_name = "rsa-myhw",
.cra_priority = 500,
.cra_flags = CRYPTO_ALG_ASYNC,
.cra_ctxsize = sizeof(struct my_rsa_tfm_ctx),
.cra_module = THIS_MODULE,
},
};
| 계약 | 드라이버가 반드시 지킬 것 |
|---|---|
max_size() | 현재 설정된 키 기준으로 충분한 출력 길이를 반환해야 합니다. |
| 출력 버퍼 부족 | req->dst_len을 필요한 길이로 갱신하고 오류를 반환해야 합니다. |
| verify 입력 형식 | src = signature || digest, src_len = signature, dst_len = digest 규약을 지켜야 합니다. |
| 키 설정 실패 | 부분적으로 파싱한 키 상태를 남기지 말고, 다음 setkey 호출에서 일관되게 다시 시작해야 합니다. |
KPP 드라이버 구현: 공개키 생성과 공유 비밀 계산을 분리하라
KPP 드라이버는 "세션 키 합의"라는 높은 수준 개념 대신, 훨씬 더 낮은 두 primitive만 제공합니다. 하나는 내 공개키 생성, 다른 하나는 상대 공개키를 입력으로 공유 비밀 계산입니다. 소비자(TLS, IPsec, WireGuard 전단 등)는 그 결과를 다시 KDF에 넣어 실제 데이터 키를 만듭니다.
#include <crypto/kpp.h>
#include <crypto/internal/kpp.h>
#include <crypto/ecdh.h>
struct my_ecdh_tfm_ctx {
struct my_dev *dd;
u8 priv[80];
unsigned int priv_len;
unsigned int pub_len;
unsigned int secret_len;
};
struct my_ecdh_reqctx {
dma_addr_t src_dma;
dma_addr_t dst_dma;
};
static int my_ecdh_set_secret(struct crypto_kpp *tfm,
const void *buffer, unsigned int len)
{
struct my_ecdh_tfm_ctx *ctx = kpp_tfm_ctx(tfm);
struct ecdh params;
int ret;
ret = crypto_ecdh_decode_key(buffer, len, ¶ms);
if (ret)
return ret;
if (params.key_size > sizeof(ctx->priv))
return -EINVAL;
memcpy(ctx->priv, params.key, params.key_size);
ctx->priv_len = params.key_size;
ctx->pub_len = my_ecdh_public_size(params.key_size);
ctx->secret_len = my_ecdh_secret_size(params.key_size);
return 0;
}
static unsigned int my_ecdh_max_size(struct crypto_kpp *tfm)
{
struct my_ecdh_tfm_ctx *ctx = kpp_tfm_ctx(tfm);
return max(ctx->pub_len, ctx->secret_len);
}
static int my_ecdh_generate_public_key(struct kpp_request *req)
{
struct crypto_kpp *tfm = crypto_kpp_reqtfm(req);
struct my_ecdh_tfm_ctx *ctx = kpp_tfm_ctx(tfm);
if (req->dst_len < ctx->pub_len) {
req->dst_len = ctx->pub_len;
return -EOVERFLOW;
}
req->dst_len = ctx->pub_len;
return my_ecdh_hw_make_public(req, ctx);
}
static int my_ecdh_compute_shared_secret(struct kpp_request *req)
{
struct crypto_kpp *tfm = crypto_kpp_reqtfm(req);
struct my_ecdh_tfm_ctx *ctx = kpp_tfm_ctx(tfm);
if (req->dst_len < ctx->secret_len) {
req->dst_len = ctx->secret_len;
return -EOVERFLOW;
}
req->dst_len = ctx->secret_len;
return my_ecdh_hw_shared_secret(req, ctx);
}
static int my_ecdh_init_tfm(struct crypto_kpp *tfm)
{
kpp_set_reqsize_dma(tfm, sizeof(struct my_ecdh_reqctx));
return 0;
}
static struct kpp_alg my_ecdh_alg = {
.set_secret = my_ecdh_set_secret,
.generate_public_key = my_ecdh_generate_public_key,
.compute_shared_secret = my_ecdh_compute_shared_secret,
.max_size = my_ecdh_max_size,
.init = my_ecdh_init_tfm,
.base = {
.cra_name = "ecdh",
.cra_driver_name = "ecdh-myhw",
.cra_priority = 350,
.cra_flags = CRYPTO_ALG_ASYNC,
.cra_ctxsize = sizeof(struct my_ecdh_tfm_ctx),
.cra_module = THIS_MODULE,
},
};
crypto_ecdh_encode_key() / crypto_ecdh_decode_key() 같은 helper를 활용하는 편이 안전합니다.
드라이버가 독자 형식을 만들기 시작하면 소비자와의 호환성, test vector, FIPS 경계 설명이 모두 어려워집니다.
하드웨어 드라이버 등록 패턴: crypto_engine을 기준으로 보는 전체 수명
하드웨어 crypto driver의 전형적인 뼈대는 다음 순서입니다. probe에서 engine 생성 → 알고리즘 등록 → tfm init에서 per-transform state 준비 → encrypt/decrypt/digest가 engine queue에 요청 위임 → IRQ에서 finalize 입니다. 이 패턴을 지키면 backlog와 완료 통지가 Crypto API 규약에 맞춰 정리됩니다.
#include <crypto/engine.h>
#include <crypto/internal/skcipher.h>
struct my_accel_dev {
struct device *dev;
struct crypto_engine *engine;
};
static int my_hw_encrypt(struct skcipher_request *req)
{
struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
struct my_skcipher_tfm_ctx *ctx = crypto_skcipher_ctx(tfm);
return crypto_transfer_skcipher_request_to_engine(ctx->dd->engine, req);
}
static int my_hw_decrypt(struct skcipher_request *req)
{
return my_hw_encrypt(req);
}
static int my_hw_do_one_request(struct crypto_engine *engine, void *areq)
{
struct crypto_async_request *base = areq;
struct skcipher_request *req = container_of(base, struct skcipher_request, base);
(void)engine;
my_hw_map_req(req);
my_hw_start(req);
return -EINPROGRESS;
}
static struct skcipher_engine_alg my_hw_algs[] = {{
.base = {
.setkey = my_cipher_setkey,
.encrypt = my_hw_encrypt,
.decrypt = my_hw_decrypt,
.init = my_skcipher_init_tfm,
.exit = my_skcipher_exit_tfm,
.min_keysize = 16,
.max_keysize = 32,
.ivsize = 16,
.chunksize = 16,
.walksize = 16,
.base = {
.cra_name = "cbc(aes)",
.cra_driver_name = "cbc-aes-myhw",
.cra_priority = 400,
.cra_flags = CRYPTO_ALG_ASYNC | CRYPTO_ALG_NEED_FALLBACK,
.cra_blocksize = 16,
.cra_ctxsize = sizeof(struct my_skcipher_tfm_ctx),
.cra_alignmask = 0xf,
.cra_module = THIS_MODULE,
},
},
.op = {
.do_one_request = my_hw_do_one_request,
},
}};
static int my_probe(struct platform_device *pdev)
{
struct my_accel_dev *dd;
int err;
dd = devm_kzalloc(&pdev->dev, sizeof(*dd), GFP_KERNEL);
if (!dd)
return -ENOMEM;
dd->dev = &pdev->dev;
dd->engine = crypto_engine_alloc_init(&pdev->dev, true);
if (!dd->engine)
return -ENOMEM;
err = crypto_engine_start(dd->engine);
if (err)
goto err_engine_exit;
err = crypto_engine_register_skciphers(my_hw_algs, ARRAY_SIZE(my_hw_algs));
if (err)
goto err_engine_stop;
return 0;
err_engine_stop:
crypto_engine_stop(dd->engine);
err_engine_exit:
crypto_engine_exit(dd->engine);
return err;
}
static void my_remove(struct platform_device *pdev)
{
struct my_accel_dev *dd = platform_get_drvdata(pdev);
crypto_engine_unregister_skciphers(my_hw_algs, ARRAY_SIZE(my_hw_algs));
crypto_engine_stop(dd->engine);
crypto_engine_exit(dd->engine);
}
| 엔진 래퍼 | 지원 타입 | 완료 헬퍼 |
|---|---|---|
crypto_engine_register_skcipher* | 대칭 암호 | crypto_finalize_skcipher_request() |
crypto_engine_register_aead* | AEAD | crypto_finalize_aead_request() |
crypto_engine_register_ahash* | 해시 | crypto_finalize_hash_request() |
crypto_engine_register_akcipher() | 공개키 | crypto_finalize_akcipher_request() |
crypto_engine_register_kpp() | 키 합의 | crypto_finalize_kpp_request() |
cra_name이 남아 있는 상태에서 engine을 먼저 없애면, 새 tfm 할당 또는 in-flight 요청과 경합할 수 있습니다.
crypto_queue를 직접 쓰는 드라이버: crypto_engine이 맞지 않을 때
crypto_engine은 대부분의 단일 큐 장치에서 최선의 출발점입니다. 하지만 여러 채널을 가진 장치, vendor scheduler가 별도로 있는 장치, 요청을 일괄(batch)로 묶어야 하는 장치에서는 오히려 crypto_queue를 직접 다루는 편이 더 명확할 수 있습니다. 이 경우 핵심은 단 세 가지입니다. (1) enqueue는 락 안에서, (2) backlog 통지는 dequeue 직후, (3) 현재 active request 포인터는 완료 전에만 유효해야 합니다.
#include <crypto/algapi.h>
#include <crypto/internal/hash.h>
struct my_queue_dev {
struct device *dev;
spinlock_t lock;
struct crypto_queue queue;
struct ahash_request *active_req;
bool busy;
};
static int my_queue_digest(struct ahash_request *req)
{
struct crypto_ahash *tfm = crypto_ahash_reqtfm(req);
struct my_queue_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
struct my_queue_dev *dd = ctx->dd;
struct crypto_async_request *async_req, *backlog;
unsigned long flags;
int ret = 0;
spin_lock_irqsave(&dd->lock, flags);
ret = ahash_enqueue_request(&dd->queue, req);
if (dd->busy) {
spin_unlock_irqrestore(&dd->lock, flags);
return ret;
}
backlog = crypto_get_backlog(&dd->queue);
async_req = crypto_dequeue_request(&dd->queue);
if (async_req) {
dd->busy = true;
dd->active_req = ahash_request_cast(async_req);
}
spin_unlock_irqrestore(&dd->lock, flags);
if (!async_req)
return ret;
if (backlog)
crypto_request_complete(backlog, -EINPROGRESS);
ret = my_queue_start_hash(dd, dd->active_req);
if (ret != -EINPROGRESS)
my_queue_finish_one(dd, ret);
return ret ? ret : -EINPROGRESS;
}
static void my_queue_finish_one(struct my_queue_dev *dd, int err)
{
struct crypto_async_request *async_req, *backlog;
struct ahash_request *req;
unsigned long flags;
spin_lock_irqsave(&dd->lock, flags);
req = dd->active_req;
dd->active_req = NULL;
dd->busy = false;
backlog = crypto_get_backlog(&dd->queue);
async_req = crypto_dequeue_request(&dd->queue);
if (async_req) {
dd->busy = true;
dd->active_req = ahash_request_cast(async_req);
}
spin_unlock_irqrestore(&dd->lock, flags);
if (req)
ahash_request_complete(req, err);
if (backlog)
crypto_request_complete(backlog, -EINPROGRESS);
if (dd->active_req)
my_queue_start_hash(dd, dd->active_req);
}
static irqreturn_t my_queue_irq(int irq, void *data)
{
struct my_queue_dev *dd = data;
int err = my_queue_hw_status(dd);
(void)irq;
my_queue_finish_one(dd, err);
return IRQ_HANDLED;
}
static int my_queue_probe(struct platform_device *pdev)
{
struct my_queue_dev *dd = platform_get_drvdata(pdev);
spin_lock_init(&dd->lock);
crypto_init_queue(&dd->queue, 64);
dd->active_req = NULL;
dd->busy = false;
return 0;
}
| 지점 | 왜 중요한가 |
|---|---|
ahash_enqueue_request() 반환값 | 0이면 바로 처리 또는 정상 큐잉, -EBUSY면 backlog로 들어간 뒤 나중에 완료될 수 있습니다. "오류"처럼 보여도 실제로는 수락된 요청일 수 있습니다. |
crypto_get_backlog() | backlog request에게는 -EINPROGRESS 통지를 한 번 보내서 "대기열에 들어갔다"는 사실을 알립니다. 이 의미를 지키지 않으면 상위 계층 대기 로직이 꼬입니다. |
active_req 수명 | IRQ 완료 전까지만 유효합니다. 완료 후 즉시 NULL로 내리고 새 dequeue를 해야 중복 완료/UAF를 막을 수 있습니다. |
| 락 범위 | queue 조작과 busy 플래그 갱신은 같은 락으로 묶어야 합니다. 반대로 실제 하드웨어 시작 함수는 가능하면 락 밖에서 수행해 인터럽트 지연을 줄입니다. |
crypto_engine으로 구현하고,
실제로 (1) 다중 채널 스케줄링, (2) 하드웨어 batch submit, (3) vendor firmware queue와의 1:1 매핑 같은 이유가 있을 때만 수동 queue로 내려가는 편이 유지보수에 유리합니다.
직접 queue를 짤수록 completion 중복, backlog 누락, remove 경로 경합 같은 버그가 늘어납니다.
비동기 드라이버의 반환값 계약
Crypto driver에서 가장 치명적인 버그 중 하나는 반환값과 완료 콜백의 의미를 뒤섞는 것입니다. 호출자 입장에서 "이미 끝났는지", "나중에 콜백이 올지", "버퍼 크기만 다시 잡으면 되는지"를 반환값 하나로 판단하기 때문입니다.
| 반환값 | 의미 | 드라이버가 해야 할 일 |
|---|---|---|
0 | 지금 이 함수 호출 안에서 완료됨 | 추가 completion 호출을 해서는 안 됩니다. |
-EINPROGRESS | 요청을 수락했고 나중에 완료됨 | 반드시 IRQ/workqueue/bottom-half 등에서 *_request_complete() 또는 crypto_finalize_*를 호출해야 합니다. |
-EBUSY | backlog 처리로 나중에 완료될 수 있음 | queue/backlog 의미를 지키고, 결국 완료 통지를 해야 합니다. |
-EOVERFLOW | 출력 버퍼가 작음 | req->dst_len을 필요한 크기로 갱신합니다. |
-EINVAL | 길이, 키, IV, SG 형식, unsupported parameter 오류 | 하드웨어 kick 전에 즉시 실패시키는 편이 좋습니다. |
-EBADMSG | 인증 태그 또는 서명 검증 실패 | 데이터 무결성 실패를 일반 I/O 오류와 구분해 주는 것이 중요합니다. |
0을 반환했으면 나중에 callback을 다시 호출하지 마세요.
둘째, -EINPROGRESS 또는 -EBUSY를 반환했으면 언젠가 반드시 완료 통지가 와야 합니다.
이 둘만 어겨도 상위 계층은 중복 완료, 영원한 대기, UAF 같은 치명적 오류를 겪습니다.
테스트 프레임워크
새 알고리즘을 추가하면 반드시 테스트 벡터를 함께 제공해야 합니다. 커널의 Crypto Framework (Crypto API)는 알고리즘 등록 시 자동으로 자가 테스트를 수행합니다.
testmgr — 알고리즘 자동 검증
crypto/testmgr.c는 등록된 모든 알고리즘에 대해 Known Answer Test(KAT)를 수행합니다. 알고리즘이 crypto_register_*()로 등록되면 cryptomgr가 비동기적으로 테스트를 트리거합니다:
/* crypto/testmgr.c — 테스트 벡터 구조체 */
/* 해시 테스트 벡터 */
struct hash_testvec {
const char *key; /* HMAC 키 (선택) */
const char *plaintext; /* 입력 데이터 */
const char *digest; /* 기대 해시 값 */
unsigned int psize; /* 입력 길이 */
unsigned int ksize; /* 키 길이 */
};
/* 대칭 암호 테스트 벡터 */
struct cipher_testvec {
const char *key; /* 암호 키 */
const char *iv; /* 초기화 벡터 */
const char *ptext; /* 평문 */
const char *ctext; /* 기대 암호문 */
unsigned int klen; /* 키 길이 */
unsigned int len; /* 데이터 길이 */
};
/* AEAD 테스트 벡터 */
struct aead_testvec {
const char *key;
const char *iv;
const char *assoc; /* AAD (추가 인증 데이터) */
const char *ptext; /* 평문 */
const char *ctext; /* 암호문 + 인증태그 */
unsigned int klen;
unsigned int alen; /* AAD 길이 */
unsigned int plen; /* 평문 길이 */
unsigned int clen; /* 암호문+태그 길이 */
};
테스트 벡터 추가 방법
새 알고리즘의 테스트 벡터를 추가하려면 두 파일을 수정합니다:
/* 1단계: crypto/testmgr.h — 테스트 벡터 데이터 정의 */
static const struct hash_testvec myhash256_tv_template[] = {
{ /* 벡터 #1: 빈 입력 */
.plaintext = "",
.psize = 0,
.digest = "\xe3\xb0\xc4\x42...", /* 기대 해시 값 */
},
{ /* 벡터 #2: "abc" */
.plaintext = "abc",
.psize = 3,
.digest = "\xba\x78\x16\xbf...",
},
{ /* 벡터 #3: 긴 입력 (NIST 표준 벡터 등) */
.plaintext = "abcdbcdecdefdefg...",
.psize = 56,
.digest = "\x24\x8d\x6a\x61...",
},
};
/* 2단계: crypto/testmgr.c — 테스트 벡터를 알고리즘에 연결 */
static const struct alg_test_desc alg_test_descs[] = {
/* ... 기존 항목들 (알파벳순 정렬!) ... */
{
.alg = "myhash256",
.test = alg_test_hash, /* 테스트 함수 유형 */
.suite = {
.hash = __VECS(myhash256_tv_template)
}
},
/* ... */
};
alg_test_descs[] 배열은 알고리즘 이름의 알파벳순으로 정렬되어 있어야 합니다. 커널은 이진 탐색으로 테스트 항목을 찾으므로, 정렬이 어긋나면 테스트가 실행되지 않습니다.
tcrypt — 성능 벤치마크
crypto/tcrypt.c는 암호 알고리즘의 성능을 측정하는 커널 모듈입니다:
# tcrypt 모듈 로드 — mode 번호로 테스트 유형 선택
modprobe tcrypt mode=200 # SHA-256 속도 테스트
modprobe tcrypt mode=500 # AES-CBC 속도 테스트
modprobe tcrypt mode=300 # AEAD 계열 속도 테스트
# 결과 확인
dmesg | tail -50
# testing speed of async cbc(aes) encryption
# test 0 (128 bit key, 16 byte blocks): 1 operation in 1234 cycles (16 bytes)
# test 1 (128 bit key, 64 byte blocks): 1 operation in 2345 cycles (64 bytes)
# 모든 알고리즘 셀프 테스트 실행
modprobe tcrypt mode=0 # 전체 알고리즘 테스트
# 특정 알고리즘만 테스트 (sec 파라미터로 벤치마크 시간 조절)
modprobe tcrypt mode=500 sec=5 # 5초간 벤치마크
| tcrypt mode | 테스트 대상 |
|---|---|
0 | 모든 알고리즘 자가 테스트 (KAT) |
200~215 | 해시 속도 (SHA-1, SHA-256, MD5, BLAKE2 등) |
300~399 | AEAD 속도 (AES-GCM, ChaCha20-Poly1305 등) |
500~599 | skcipher 속도 (AES-CBC, AES-CTR, AES-XTS 등) |
Kconfig / Makefile 통합
커널 트리에 새 알고리즘을 통합하려면 crypto/ 디렉터리의 Kconfig와 Makefile을 수정합니다:
# crypto/Kconfig — 알고리즘 빌드 옵션 추가
config CRYPTO_MYHASH256
tristate "My Hash 256 algorithm"
select CRYPTO_HASH # 해시 프레임워크 의존성
help
This is an example hash algorithm producing a 256-bit digest.
config CRYPTO_MYCIPHER
tristate "My Block Cipher (CBC mode)"
select CRYPTO_SKCIPHER # skcipher 프레임워크 의존성
select CRYPTO_LIB_AES # AES 라이브러리 의존성 (필요 시)
help
My custom block cipher with CBC mode support.
# H/W 가속 구현인 경우
config CRYPTO_MYCIPHER_X86_64
tristate "My Block Cipher (x86_64/AES-NI 가속)"
depends on X86 && 64BIT
select CRYPTO_MYCIPHER # generic 구현 fallback용
select CRYPTO_SIMD # SIMD 헬퍼 */
help
x86_64 AES-NI accelerated implementation.
주요 Kconfig select 대상
| 의존성 | 설명 | 사용 경우 |
|---|---|---|
CRYPTO_HASH | 해시 프레임워크 (shash/ahash) | 해시 알고리즘 |
CRYPTO_SKCIPHER | 대칭 암호 프레임워크 | skcipher 알고리즘 |
CRYPTO_AEAD | AEAD 프레임워크 | AEAD 알고리즘 |
CRYPTO_SIMD | SIMD 컨텍스트 관리 헬퍼 | SSE/AVX/NEON 사용 구현 |
CRYPTO_LIB_AES | AES 키 스케줄 라이브러리 | AES 기반 구현 |
CRYPTO_LIB_SHA256 | SHA-256 라이브러리 함수 | SHA-256 기반 구현 |
MODULE_ALIAS_CRYPTO 매크로
/* 모듈 자동 로딩을 위한 alias 등록 */
MODULE_ALIAS_CRYPTO("myhash256");
MODULE_ALIAS_CRYPTO("myhash256-generic");
/* 커널이 "myhash256" 알고리즘을 요청하면:
* 1. crypto_has_alg("myhash256") → 등록 안 됨
* 2. request_module("crypto-myhash256") 호출
* 3. MODULE_ALIAS_CRYPTO 매칭 → myhash256.ko 자동 로드
* 4. module_init 실행 → crypto_register_shash()
* 5. 이제 crypto_alloc_shash("myhash256") 성공
*/
cryptomgr와 알고리즘 탐색 메커니즘
cryptomgr(Crypto Manager)는 알고리즘 등록/해제/탐색을 관리하는 커널 서브시스템입니다:
crypto_larval — 알고리즘 대기 객체
/* crypto/api.c — 알고리즘 탐색 핵심 로직 (간략화) */
struct crypto_alg *crypto_alg_mod_lookup(const char *name,
u32 type, u32 mask)
{
struct crypto_alg *alg;
/* 1. 이미 등록된 알고리즘 검색 */
alg = crypto_alg_lookup(name, type, mask);
if (alg)
return alg;
/* 2. 모듈 자동 로드 시도 (MODULE_ALIAS_CRYPTO 매칭) */
request_module("crypto-%s", name);
/* 3. larval (대기 객체) 생성 — 비동기 등록 대기 */
struct crypto_larval *larval = crypto_larval_alloc(name, type, mask);
/* 4. cryptomgr에 알고리즘 탐색 요청 (kthread) */
crypto_probing_notify(CRYPTO_MSG_ALG_REQUEST, larval);
/* 5. 등록 완료 대기 (타임아웃 60초) */
alg = crypto_larval_wait(larval);
/* cryptomgr는 템플릿 매칭을 시도:
* "cbc(aes)" → cbc 템플릿 + aes 알고리즘으로 분해
* → cbc 템플릿의 create() 호출
* → cbc(aes) 인스턴스 자동 생성 및 등록
*/
return alg;
}
FIPS 모드와 자가 테스트
FIPS(Federal Information Processing Standards)는 미국 NIST(National Institute of Standards and Technology)가 발행하는 연방 정보 처리 표준입니다. 암호화 모듈의 보안 요구사항을 정의하며, 미국 연방 정부 기관은 물론 금융, 의료, 방위산업 등 규제 환경에서 필수적으로 요구됩니다. 리눅스 커널은 부트 파라미터를 통해 FIPS 모드를 활성화하여 인증된 암호 알고리즘만 사용하도록 강제할 수 있습니다.
FIPS 140 표준 개요
FIPS 140은 암호화 모듈의 보안 요구사항을 정의하는 NIST 표준으로, 현재 FIPS 140-3(ISO/IEC 19790:2012 기반)이 최신 버전입니다. FIPS 140-2는 2021년 9월 이후 신규 인증이 중단되었으나, 기존 인증은 유효합니다.
| 보안 레벨 | 요구사항 | 적용 예 |
|---|---|---|
| Level 1 | 승인된 알고리즘/함수 사용, 소프트웨어 전용 구현 허용 | 리눅스 커널 Crypto Framework (Crypto API) (소프트웨어) |
| Level 2 | Level 1 + 물리적 탬퍼 증거(tamper-evidence), 역할 기반 인증 | HSM(Hardware Security Module) 기본 등급 |
| Level 3 | Level 2 + 물리적 탬퍼 저항(tamper-resistance), ID 기반 인증 | 결제 단말기, 군사용 장비 |
| Level 4 | Level 3 + 환경적 공격 방어 (전압, 온도 변조 감지) | 최고 보안 등급 하드웨어 모듈 |
리눅스 커널의 FIPS 적용: 커널 Crypto Framework (Crypto API)는 FIPS 요구사항(자가 테스트, 승인 알고리즘 정책, 무결성 검증 연계)의 기술적 기반을 제공합니다. 배포판별 인증 보유 여부와 지원 범위는 릴리스/벤더 정책에 따라 수시로 달라지므로, 최신 상태는 참고자료의 FIPS 지원 상태 섹션에서 확인하세요.
주요 FIPS/NIST 암호화 표준
| 표준 번호 | 명칭 | 내용 | 커널 대응 |
|---|---|---|---|
| FIPS 140-3 | Security Requirements for Cryptographic Modules | 암호 모듈 보안 요구사항 (4단계) | fips_enabled 전역 변수, 자가 테스트 |
| FIPS 197 | Advanced Encryption Standard (AES) | 128/192/256비트 대칭 블록 암호 | aes_generic, aesni_intel |
| FIPS 180-4 | Secure Hash Standard (SHS) | SHA-1, SHA-224/256/384/512 | sha256_generic, sha512_generic |
| FIPS 198-1 | HMAC | 해시 기반 메시지 인증 코드 | hmac 템플릿 |
| FIPS 186-5 | Digital Signature Standard (DSS) | RSA, ECDSA, EdDSA 전자서명 | rsa_generic, ecdsa_generic |
| FIPS 202 | SHA-3 Standard | SHA3-224/256/384/512, SHAKE128/256 | sha3_generic |
| SP 800-38A | Block Cipher Modes | ECB, CBC, CFB, OFB, CTR | ecb, cbc, ctr 템플릿 |
| SP 800-38D | GCM Mode | Galois/Counter Mode (인증 암호화) | gcm 템플릿, gcm-aes-aesni |
| SP 800-38F | Key Wrap | AES Key Wrap (KW, KWP) | kw(aes) |
| SP 800-56A/B | Key Establishment | DH, ECDH 키 합의 | dh_generic, ecdh_generic |
| SP 800-90A | DRBG | 결정론적 난수 생성기 (CTR, Hash, HMAC) | drbg_pr_*, drbg_nopr_* |
| SP 800-132 | PBKDF | 비밀번호 기반 키 유도 | 사용자 공간에서 주로 사용 |
FIPS 모드 활성화
FIPS 140-3 인증이 필요한 환경에서는 커널을 FIPS 모드로 부팅합니다. 이 모드에서는 모든 암호 알고리즘이 반드시 자가 테스트(KAT: Known Answer Test)를 통과해야 사용 가능합니다:
# ─── FIPS 모드 활성화 (부트 파라미터) ───
# GRUB 설정: /etc/default/grub
GRUB_CMDLINE_LINUX="fips=1"
# /boot 파티션이 별도인 경우 boot= 지정 필요
GRUB_CMDLINE_LINUX="fips=1 boot=/dev/sda1"
# GRUB 설정 반영
grub2-mkconfig -o /boot/grub2/grub.cfg
# ─── 현재 FIPS 모드 확인 ───
cat /proc/sys/crypto/fips_enabled
# 1 = FIPS 모드, 0 = 일반 모드
# sysctl로도 확인 가능
sysctl crypto.fips_enabled
# crypto.fips_enabled = 1
# FIPS 모드에서 알고리즘 등록 실패 시 로그
dmesg | grep -i fips
# alg: fips already enabled
# alg: self-tests for myhash256 (myhash256-generic) failed
# (result -2) → 테스트 벡터 불일치
FIPS 모드 전환 시 주의: FIPS 모드는 런타임에 동적으로 전환할 수 없습니다. 반드시 부트 파라미터 fips=1로 커널 초기화 시점에 활성화해야 합니다. 이는 부팅 초기 단계에서 암호 모듈 무결성 검증과 자가 테스트가 수행되어야 하기 때문입니다. /proc/sys/crypto/fips_enabled는 읽기 전용이며 쓰기가 불가합니다.
FIPS 모드 커널 내부 구현
커널 내부에서 FIPS 모드는 전역 변수 fips_enabled로 관리됩니다. 이 변수는 부팅 시 설정되며, 암호 서브시스템 전반에서 참조합니다:
/* crypto/fips.c — FIPS 모드 전역 상태 */
#include <linux/kernel.h>
#include <linux/sysctl.h>
#include <linux/export.h>
int fips_enabled;
EXPORT_SYMBOL_GPL(fips_enabled);
/* 부트 파라미터 "fips=1" 처리 */
static int __init fips_enable(char *str)
{
fips_enabled = 1;
pr_info("fips mode is enabled\\n");
return 1;
}
__setup("fips=", fips_enable);
/* /proc/sys/crypto/fips_enabled sysctl 등록 */
static struct ctl_table crypto_sysctl_table[] = {
{
.procname = "fips_enabled",
.data = &fips_enabled,
.maxlen = sizeof(int),
.mode = 0444, /* 읽기 전용 */
.proc_handler = proc_dointvec,
},
};
커널 코드 내에서 FIPS 모드를 확인하는 주요 인터페이스:
/* include/linux/fips.h */
#ifdef CONFIG_CRYPTO_FIPS
extern int fips_enabled;
#else
#define fips_enabled 0
#endif
/* 사용 예: 비승인 알고리즘 차단 */
if (fips_enabled && !(alg->cra_flags & CRYPTO_ALG_FIPS_INTERNAL)) {
/* FIPS 비승인 알고리즘 → 등록 거부 */
return -ENOENT;
}
/* CONFIG_CRYPTO_FIPS 커널 설정 옵션 */
/*
* Kconfig (crypto/Kconfig):
* config CRYPTO_FIPS
* bool "FIPS 200 compliance"
* depends on CRYPTO
* help
* This option enables the FIPS boot option which is
* required if you want the system to operate in a
* FIPS 200 compliant manner.
*/
자가 테스트(Self-Test) 메커니즘
FIPS 140-3은 암호 모듈이 전원 투입 자가 테스트(Power-On Self-Test, POST)와 조건부 자가 테스트(Conditional Self-Test, CST)를 수행할 것을 요구합니다. 리눅스 커널에서는 crypto/testmgr.c가 이 역할을 담당합니다:
/* crypto/testmgr.c — 알고리즘 자가 테스트 핵심 구조 */
/* KAT(Known Answer Test) 테스트 벡터 구조체 */
struct cipher_testvec {
const char *key; /* 입력 키 */
const char *iv; /* 초기화 벡터 */
const char *ptext; /* 평문 (Known Input) */
const char *ctext; /* 암호문 (Known Answer) */
unsigned int klen; /* 키 길이 */
unsigned int len; /* 데이터 길이 */
bool fips_skip; /* FIPS 모드에서 건너뛸지 여부 */
};
/* 해시 테스트 벡터 */
struct hash_testvec {
const char *key; /* HMAC 키 (해시는 NULL) */
const char *plaintext; /* 입력 데이터 */
const char *digest; /* 기대 출력 (Known Answer) */
unsigned int psize; /* 평문 길이 */
unsigned int ksize; /* 키 길이 */
};
/* 알고리즘별 테스트 정의 — testmgr.c의 핵심 테이블 */
static const struct alg_test_desc alg_test_descs[] = {
{
.alg = "cbc(aes)",
.test = alg_test_skcipher,
.fips_allowed = 1, /* FIPS 승인 알고리즘 */
.suite = {
.cipher = __VECS(aes_cbc_tv_template)
}
}, {
.alg = "ecb(aes)",
.test = alg_test_skcipher,
.fips_allowed = 1,
.suite = {
.cipher = __VECS(aes_tv_template)
}
}, {
.alg = "sha256",
.test = alg_test_hash,
.fips_allowed = 1,
.suite = {
.hash = __VECS(sha256_tv_template)
}
}, {
.alg = "hmac(sha256)",
.test = alg_test_hash,
.fips_allowed = 1,
.suite = {
.hash = __VECS(hmac_sha256_tv_template)
}
},
/* ... 수백 개의 알고리즘 테스트 정의 ... */
};
테스트 실행 흐름 — 알고리즘이 등록될 때 자동으로 호출됩니다:
/* crypto/testmgr.c — 자가 테스트 실행 흐름 */
/* 1. 알고리즘 등록 시 testmgr가 호출됨 */
int alg_test(const char *driver, const char *alg,
u32 type, u32 mask)
{
const struct alg_test_desc *test;
int rc;
/* alg_test_descs[] 테이블에서 알고리즘 검색 */
test = find_test(alg);
if (!test) {
if (fips_enabled) {
/* FIPS 모드: 테스트 없으면 → 등록 거부 */
pr_err("alg: no test for %s (%s)\\n", alg, driver);
return -EINVAL;
}
/* 일반 모드: 테스트 없으면 → 건너뜀 (경고만) */
return 0;
}
/* 2. FIPS 모드에서 비승인 알고리즘 차단 */
if (fips_enabled && !test->fips_allowed) {
pr_info("alg: %s not allowed in fips mode\\n", alg);
return -EINVAL;
}
/* 3. KAT(Known Answer Test) 실행 */
rc = test->test(test, driver, type, mask);
if (rc) {
if (fips_enabled)
panic("alg: self-tests for %s (%s) failed (rc=%d)\\n",
alg, driver, rc);
else
pr_warn("alg: self-tests for %s (%s) failed (rc=%d)\\n",
alg, driver, rc);
}
return rc;
}
FIPS 모드 동작 주의: FIPS 모드에서 자가 테스트 실패 시 동작은 커널 버전/패치셋/배포판 정책에 따라 다를 수 있습니다. 일반적으로 해당 알고리즘 비활성화 또는 시스템 중단(panic()) 정책 중 하나가 적용되므로, 운영 환경에서는 반드시 배포판 보안 가이드를 기준으로 확인해야 합니다.
FIPS 자가 테스트 유형
FIPS 140-3이 요구하는 자가 테스트는 크게 두 가지로 분류됩니다:
| 테스트 유형 | 실행 시점 | 목적 | 커널 구현 |
|---|---|---|---|
| POST (Power-On Self-Test) | 부팅 시 / 모듈 로드 시 | 암호 알고리즘의 올바른 동작 확인 | testmgr.c의 KAT 벡터 테스트 |
| 무결성 테스트 | 부팅 시 / 모듈 로드 시 | 암호 모듈 바이너리 변조 감지 | HMAC-SHA256 기반 모듈 무결성 검증 |
| CST (Conditional Self-Test) | 특정 조건 발생 시 | 키 쌍 일관성, 난수 연속성 등 | DRBG 연속 출력 비교, RSA 키 쌍 검증 |
| KAT (Known Answer Test) | 알고리즘 등록 시 | 알려진 입력→출력 쌍으로 정확성 검증 | testmgr.h의 테스트 벡터 |
| PCT (Pairwise Consistency Test) | 비대칭 키 생성 시 | 공개키-개인키 쌍의 일관성 | RSA/ECDSA 키 생성 후 서명-검증 |
/* KAT 실행 예: 대칭 암호(skcipher) 테스트 */
static int test_skcipher_vec(const char *driver,
const struct cipher_testvec *vec,
struct skcipher_request *req)
{
/* 1. 키 설정 */
crypto_skcipher_setkey(tfm, vec->key, vec->klen);
/* 2. 알려진 평문으로 암호화 수행 */
sg_init_one(&sg, buf, vec->len);
memcpy(buf, vec->ptext, vec->len);
skcipher_request_set_crypt(req, &sg, &sg, vec->len, iv);
err = crypto_skcipher_encrypt(req);
/* 3. 결과를 Known Answer와 비교 */
if (memcmp(buf, vec->ctext, vec->len) != 0) {
pr_err("encryption test failed for %s\\n", driver);
return -EINVAL; /* KAT 실패 */
}
/* 4. 역방향(복호화) 테스트 */
memcpy(buf, vec->ctext, vec->len);
err = crypto_skcipher_decrypt(req);
if (memcmp(buf, vec->ptext, vec->len) != 0) {
pr_err("decryption test failed for %s\\n", driver);
return -EINVAL; /* KAT 실패 */
}
return 0; /* 테스트 통과 */
}
/* 조건부 자가 테스트 예: DRBG 연속 출력 비교 */
static int drbg_healthcheck(struct drbg_state *drbg,
unsigned char *buf)
{
/* FIPS 140-3: 난수 생성기 연속 출력 비교 테스트 (CRNGT)
* 연속된 두 출력 블록이 동일하면 → 난수 생성기 고장 */
if (memcmp(buf, drbg->prev_output, drbg->len) == 0) {
pr_err("drbg: continuous test failed\\n");
if (fips_enabled)
panic("drbg: continuous random number test failed\\n");
return -EFAULT;
}
memcpy(drbg->prev_output, buf, drbg->len);
return 0;
}
FIPS 승인/비승인 알고리즘
FIPS 모드에서는 NIST가 승인한 알고리즘만 사용할 수 있습니다. testmgr.c의 fips_allowed 플래그로 구분합니다:
| 분류 | FIPS 승인 (사용 가능) | FIPS 비승인 (차단) |
|---|---|---|
| 블록 암호 | AES-128/192/256, 3DES (제한적) | Blowfish, Twofish, Serpent, Camellia, CAST5/6, DES |
| 운용 모드 | ECB, CBC, CTR, GCM, CCM, XTS, KW | — |
| 해시 | SHA-1 (서명 검증만), SHA-224/256/384/512, SHA3-* | MD4, MD5, RIPEMD-160 |
| MAC | HMAC-SHA-*, CMAC-AES, GMAC | HMAC-MD5 |
| 비대칭 | RSA (≥2048bit), ECDSA (P-256/384/521), EdDSA | RSA <2048bit |
| 키 합의 | DH (≥2048bit), ECDH (P-256/384/521) | DH <2048bit |
| 난수 생성 | CTR_DRBG, Hash_DRBG, HMAC_DRBG | ANSI X9.31 PRNG (폐기됨) |
| 키 유도 | SP 800-108 KDF (HMAC/CMAC 기반) | — |
3DES 주의: NIST SP 800-131A Rev.2에 따라 3DES(Triple DES)는 2023년 이후 암호화에 사용이 금지(disallowed)되었으며, 복호화에만 제한적으로 허용됩니다. 새로운 구현에서는 반드시 AES를 사용하세요.
CRYPTO_ALG_FIPS_INTERNAL 플래그
커널은 CRYPTO_ALG_FIPS_INTERNAL 플래그로 FIPS 인증 경계(Boundary) 내의 알고리즘과 내부 도우미 알고리즘을 구분합니다:
/* include/linux/crypto.h */
/* FIPS 내부 전용 알고리즘 표시 — 정확한 비트값은 커널 헤더 기준 */
#define CRYPTO_ALG_FIPS_INTERNAL /* include/linux/crypto.h 참조 */
/*
* 이 플래그가 설정된 알고리즘:
* - FIPS 모듈 경계 내부에서만 사용 가능
* - AF_ALG 소켓을 통한 사용자 공간 접근 차단
* - /proc/crypto에서 "internal : yes"로 표시
*
* 예: CTR 모드 DRBG의 내부 AES 인스턴스
* → 직접 사용자 접근은 차단, DRBG 내부에서만 사용
*/
/* AF_ALG에서 FIPS_INTERNAL 알고리즘 차단 */
static int alg_accept(struct sock *sk)
{
struct crypto_alg *alg = ...;
/* FIPS 모드: internal 플래그 알고리즘은 AF_ALG로 사용 불가 */
if (alg->cra_flags & CRYPTO_ALG_FIPS_INTERNAL) {
if (fips_enabled)
return -ENOENT;
}
...
}
/* 템플릿에서 FIPS_INTERNAL 전파 예 */
static int cbc_create(struct crypto_template *tmpl,
struct rtattr **tb)
{
/* 내부 알고리즘(예: ecb(aes))은 FIPS_INTERNAL로 마킹 */
inst->alg.base.cra_flags |= (alg->cra_flags & CRYPTO_ALG_FIPS_INTERNAL);
...
}
HMAC 무결성 검증
FIPS 140-3은 암호화 모듈의 바이너리 무결성을 부팅 시 검증할 것을 요구합니다. 리눅스에서는 HMAC-SHA256 기반의 무결성 검증을 수행합니다:
# FIPS 무결성 파일 확인 (RHEL/CentOS 예시)
ls -la /boot/.vmlinuz-$(uname -r).hmac
# -r--------. 1 root root 33 Jan 15 12:00 /boot/.vmlinuz-6.x.hmac
# 커널 모듈 HMAC 파일
ls /lib/modules/$(uname -r)/.*.hmac
# .aesni-intel.ko.hmac
# .sha256_ssse3.ko.hmac
# .ghash-clmulni-intel.ko.hmac
# 수동 무결성 검증
sha256hmac /boot/vmlinuz-$(uname -r)
# 출력된 HMAC 값이 .vmlinuz-*.hmac 파일 내용과 일치해야 함
# FIPS 모듈 목록 확인 (dracut 기준)
cat /etc/dracut.conf.d/40-fips.conf
# add_dracutmodules+=" fips "
일반 모드 vs FIPS 모드 상세 비교
| 구분 | 일반 모드 | FIPS 모드 |
|---|---|---|
| 자가 테스트 실패 | 경고 로그 또는 알고리즘 비활성화 (구현별 상이) | 알고리즘 비활성화 또는 시스템 중단(정책 의존) |
| 테스트 벡터 없음 | 알고리즘별로 처리 방식 상이 | 정책에 따라 등록 거부 가능 |
| 비승인 알고리즘 | 사용 가능 | 등록 거부 또는 CRYPTO_ALG_FIPS_INTERNAL로 제한 |
| 무결성 검증 | 없음 | 커널/모듈 HMAC-SHA256 무결성 검증 |
| 난수 생성기 | 모든 RNG 사용 가능 | DRBG(SP 800-90A)만 허용, CRNGT 필수 |
| 키 길이 제한 | 없음 | RSA ≥2048bit, DH ≥2048bit 등 최소 길이 강제 |
| AF_ALG 접근 | 모든 알고리즘 | FIPS 승인 + 비-internal 알고리즘만 |
| 알고리즘 우선순위 | priority 값 기준 | FIPS 승인 알고리즘 우선 (비승인 fallback 차단) |
/proc/crypto | 모든 알고리즘 표시 | FIPS 승인 알고리즘만 외부 노출 |
| 커널 설정 | CONFIG_CRYPTO | CONFIG_CRYPTO + CONFIG_CRYPTO_FIPS |
FIPS 모드가 영향을 미치는 커널 서브시스템
FIPS 모드 활성화는 Crypto Framework (Crypto API)뿐 아니라 암호화를 사용하는 모든 커널 서브시스템에 영향을 미칩니다:
| 서브시스템 | FIPS 모드 영향 | 구체적 변경 |
|---|---|---|
| dm-crypt | FIPS 승인 암호만 허용 | aes-xts-plain64 사용, serpent/twofish 차단 |
| IPsec (XFRM) | FIPS 승인 알고리즘만 SA 설정 가능 | AES-GCM, AES-CBC + HMAC-SHA256 허용, Blowfish/CAST 차단 |
| IKE (strongSwan/Libreswan) | FIPS 정책 연동 | DH group 14(2048bit) 이상만 허용 |
| TLS (kTLS) | FIPS 승인 cipher suite만 | AES-128/256-GCM, AES-256-CCM 허용 |
| 네트워크 (TCP-MD5) | MD5 기반 인증 차단 | FIPS 모드에서 TCP-MD5 옵션 비활성화 |
| 디스크 암호화 (LUKS) | FIPS 호환 파라미터 강제 | PBKDF2-SHA256 + AES-256-XTS, argon2id 차단 |
| 난수 (/dev/random) | DRBG 기반으로 전환 | SP 800-90A DRBG, CRNGT(연속 출력 비교) 활성화 |
| 모듈 서명 | SHA-256/384/512만 허용 | CONFIG_MODULE_SIG_HASH에 SHA-1 사용 불가 |
| 커널 키링 | FIPS 승인 알고리즘으로 키 연산 | RSA ≥2048bit, ECDSA P-256+ 인증서만 허용 |
배포판/인증 상태 분리: 배포판별 FIPS 인증 보유 여부, 활성화 절차, CAVP/CMVP 진행 상태는 시간이 지나면 빠르게 바뀝니다. 이 페이지에서는 커널 내부 동작에 집중하고, 운영 상태 정보는 참고자료 - FIPS 지원/인증 상태로 위임합니다.
FIPS 모드 디버깅
# ─── FIPS 모드 상태 종합 확인 ───
# 1. FIPS 모드 활성화 여부
cat /proc/sys/crypto/fips_enabled
# 2. 부팅 시 FIPS 관련 커널 로그
dmesg | grep -i fips
# [ 0.000000] command line: ... fips=1
# [ 0.123456] fips mode is enabled
# 3. 자가 테스트 결과 확인
dmesg | grep "alg: self-tests"
# alg: self-tests for sha256 (sha256-generic) passed
# alg: self-tests for aes (aes-generic) passed
# alg: self-tests for cbc(aes) (cbc-aes-aesni) passed
# 4. FIPS 승인 알고리즘 목록 확인
grep -A1 "selftest" /proc/crypto | grep -B1 "passed"
# 5. FIPS 모드에서 차단된 알고리즘 확인
dmesg | grep "not allowed in fips"
# alg: md5 not allowed in fips mode
# 6. 무결성 검증 실패 확인
dmesg | grep -i "integrity"
# integrity: HMAC check failed for vmlinuz
# 7. 커널 FIPS 설정 옵션 확인
zgrep CONFIG_CRYPTO_FIPS /proc/config.gz
# CONFIG_CRYPTO_FIPS=y
# 8. 현재 사용 중인 알고리즘의 FIPS 상태
# /proc/crypto에서 fips 관련 필드 확인
awk '/^name/{name=$NF} /^selftest/{print name, $NF}' /proc/crypto
# 9. FIPS 모드에서 OpenSSL 상태 확인 (사용자 공간 연동)
openssl version
openssl list -providers
# fips 프로바이더가 활성화되어 있어야 함
FIPS 모드 트러블슈팅: (1) 부팅 실패 시 fips=1 제거 후 재부팅하여 원인 파악, (2) 모듈 로드 실패 시 .hmac 파일 존재 여부와 커널 버전 일치 확인, (3) 애플리케이션 오류 시 crypto-policies 설정과 라이브러리 FIPS 모드 연동 확인, (4) VM 환경에서는 호스트의 AES-NI/SHA-NI CPU 플래그 패스스루 확인이 필요합니다.
/proc/crypto 상세 해석
/proc/crypto는 현재 등록된 모든 알고리즘의 상세 정보를 보여줍니다:
# /proc/crypto 출력 예시 — AES-NI CBC 구현
name : cbc(aes)
driver : cbc-aes-aesni
module : aesni_intel
priority : 400
refcnt : 9
selftest : passed
internal : no
type : skcipher
async : no
blocksize : 16
min keysize : 16
max keysize : 32
ivsize : 16
chunksize : 16
walksize : 16
| 필드 | 의미 | 확인 포인트 |
|---|---|---|
name | 정규 알고리즘 이름 | crypto_alloc_*()에서 사용하는 이름 |
driver | 드라이버 고유 이름 | 어떤 구현체인지 식별 (generic, aesni, qat 등) |
module | 소속 커널 모듈 | lsmod와 대조하여 모듈 의존성 확인 |
priority | 우선순위 | 같은 name 중 가장 높은 값이 실제 사용됨 |
refcnt | 현재 참조 횟수 | 0이 아니면 사용 중 (모듈 언로드 불가) |
selftest | 자가 테스트 결과 | passed / unknown / not available |
internal | 내부 전용 여부 | yes면 AF_ALG에서 사용 불가 |
async | 비동기 여부 | H/W 가속기 구현은 보통 yes |
# 실용적인 /proc/crypto 분석 명령
# 같은 알고리즘의 모든 구현체와 priority 비교
awk '/^name/{n=$3} /^driver/{d=$3} /^priority/{print n, d, $3}' /proc/crypto \
| sort | column -t
# 특정 알고리즘의 실제 사용되는 구현 확인 (priority 최고)
awk '/^name/{n=$3} /^driver/{d=$3} /^priority/{p=$3}
n=="cbc(aes)"{print p, d}' /proc/crypto | sort -rn | head -1
# 자가 테스트 실패한 알고리즘 찾기
awk '/^name/{n=$3} /^selftest/{if($3!="passed") print n, $3}' /proc/crypto
# 비동기(H/W) 알고리즘만 확인
awk '/^name/{n=$3} /^async/{if($3=="yes") print n}' /proc/crypto
SIMD 컨텍스트 관리
SSE/AVX/NEON 명령어를 사용하는 H/W 가속 구현에서는 SIMD 레지스터 컨텍스트 관리가 필수입니다. 커널에서 SIMD 레지스터를 사용하려면 명시적으로 저장/복원해야 합니다:
#include <asm/fpu/api.h> /* x86 */
#include <crypto/internal/simd.h>
/* 방법 1: 직접 kernel_fpu_begin/end 사용 */
static int my_aesni_encrypt(struct skcipher_request *req)
{
/* kernel_fpu_begin()은 현재 태스크의 FPU 상태를 저장하고
* 커널이 SSE/AVX 레지스터를 사용할 수 있게 함
* 주의: 이 구간에서는 preemption이 비활성화됨 */
kernel_fpu_begin();
/* AES-NI 명령어 사용 (인라인 어셈블리 또는 .S 파일) */
aesni_cbc_enc(ctx->key_sched, dst, src, len, iv);
kernel_fpu_end();
return 0;
}
/* 방법 2: crypto_simd 래퍼 사용 (권장) */
/* softirq/hardirq 컨텍스트에서도 안전하게 동작
* SIMD를 사용할 수 없는 컨텍스트에서는 자동으로
* cryptd kthread로 작업을 위임 */
static struct simd_skcipher_alg *simd_alg;
static int __init my_simd_init(void)
{
int err;
/* 원본 SIMD 알고리즘 등록 (__cbc-aes-aesni, INTERNAL 플래그) */
err = crypto_register_skcipher(&my_simd_skcipher);
if (err)
return err;
/* SIMD 래퍼 등록 (cbc-aes-aesni, 외부 공개)
* → process context: 직접 SIMD 실행
* → softirq context: cryptd kthread로 위임 */
simd_alg = simd_skcipher_create_compat(
my_simd_skcipher.base.cra_name,
my_simd_skcipher.base.cra_driver_name,
my_simd_skcipher.base.cra_name);
return PTR_ERR_OR_ZERO(simd_alg);
}
kernel_fpu_begin()과kernel_fpu_end()사이에서는 sleep 불가 (preemption 비활성화)- softirq/hardirq 컨텍스트에서는
kernel_fpu_begin()호출 불가 —crypto_simd래퍼를 사용하거나,irq_fpu_usable()로 확인 후 fallback - 대량 데이터 처리 시 주기적으로
kernel_fpu_end(); kernel_fpu_begin();으로 preemption 허용 (latency 방지) - ARM의 경우
kernel_neon_begin()/kernel_neon_end()사용
알고리즘 구현 체크리스트
| # | 단계 | 파일 | 핵심 확인사항 |
|---|---|---|---|
| 1 | 알고리즘 구현 | crypto/my_alg.c | 콜백 함수 모두 구현, 에러 처리, 메모리 해제 |
| 2 | 헤더 포함 | crypto/my_alg.c | <crypto/internal/hash.h> 등 올바른 헤더 |
| 3 | 알고리즘 등록 | crypto/my_alg.c | crypto_register_*() + module_init/exit |
| 4 | MODULE_ALIAS | crypto/my_alg.c | MODULE_ALIAS_CRYPTO("name") 추가 |
| 5 | 테스트 벡터 | crypto/testmgr.h | 최소 3개 이상의 KAT 벡터 (NIST 표준 권장) |
| 6 | 테스트 등록 | crypto/testmgr.c | alg_test_descs[]에 알파벳순 추가 |
| 7 | Kconfig | crypto/Kconfig | config CRYPTO_MY_ALG + select 의존성 |
| 8 | Makefile | crypto/Makefile | obj-$(CONFIG_CRYPTO_MY_ALG) 추가 |
| 9 | 셀프 테스트 | 부팅/로드 시 | dmesg | grep selftest로 passed 확인 |
| 10 | 벤치마크 | 런타임 | tcrypt 모듈로 성능 측정 |
커널 소스 참고: 새 알고리즘을 구현할 때는 반드시 커널 트리의 유사 구현을 참고하세요. 해시는 crypto/sha256_generic.c, 블록 암호는 crypto/aes_generic.c, CBC 모드는 crypto/cbc.c, AEAD는 crypto/gcm.c, H/W 가속은 arch/x86/crypto/aesni-intel_glue.c가 좋은 참고 자료입니다.
crypto_alg 등록 흐름 심화
알고리즘 등록은 Crypto Framework (Crypto API)의 핵심 진입점입니다. crypto_register_alg() 호출 시 커널 내부에서는 이름 충돌 검사, 우선순위 비교, 테스트 벡터 검증, larval 깨우기, 템플릿 인스턴스화가 순차적으로 수행됩니다. 이 섹션에서는 등록 과정의 내부 흐름을 단계별로 추적합니다.
crypto_register_alg() 내부 흐름
crypto_register_alg()는 crypto/algapi.c에 정의되어 있으며, 호출 시 다음 순서로 동작합니다:
/* crypto/algapi.c — crypto_register_alg() 핵심 로직 (간략화) */
int crypto_register_alg(struct crypto_alg *alg)
{
struct crypto_alg *q;
int ret = 0;
/* 1. 입력 유효성 검사 */
if (!alg->cra_name[0] || !alg->cra_driver_name[0])
return -EINVAL;
/* blocksize가 PAGE_SIZE를 초과하면 거부 */
if (alg->cra_blocksize > PAGE_SIZE)
return -EINVAL;
/* refcnt 초기화 */
refcount_set(&alg->cra_refcnt, 1);
/* 2. 전역 알고리즘 리스트 잠금 (write lock) */
down_write(&crypto_alg_sem);
/* 3. 같은 driver_name이 이미 등록되어 있는지 확인 */
list_for_each_entry(q, &crypto_alg_list, cra_list) {
if (!strcmp(q->cra_driver_name, alg->cra_driver_name)) {
ret = -EEXIST;
goto out_unlock;
}
}
/* 4. 알고리즘 리스트에 삽입 */
list_add(&alg->cra_list, &crypto_alg_list);
/* 5. 대기 중인 larval 객체 깨우기
* crypto_alloc_*()에서 대기 중이던 요청에 통보 */
crypto_alg_finish_registration(alg);
up_write(&crypto_alg_sem);
/* 6. 알림 체인: testmgr, cryptomgr에 등록 이벤트 전달
* → testmgr: 자가 테스트 스케줄링
* → cryptomgr: 템플릿 인스턴스화 트리거 */
crypto_probing_notify(CRYPTO_MSG_ALG_REGISTER, alg);
return 0;
out_unlock:
up_write(&crypto_alg_sem);
return ret;
}
우선순위 선택과 동적 교체
같은 cra_name에 여러 구현이 등록되면, crypto_alloc_*() 시점에 priority가 가장 높은 구현이 선택됩니다. 나중에 더 높은 priority의 구현이 등록되면 새로운 tfm 할당부터 적용됩니다:
/* crypto/api.c — 알고리즘 선택 로직 (간략화) */
static struct crypto_alg *crypto_find_alg(const char *name,
u32 type, u32 mask)
{
struct crypto_alg *best = NULL;
struct crypto_alg *q;
list_for_each_entry(q, &crypto_alg_list, cra_list) {
/* cra_name이 요청과 일치하는지 확인 */
if (strcmp(q->cra_name, name) != 0)
continue;
/* type/mask 필터 적용 */
if ((q->cra_flags ^ type) & mask)
continue;
/* priority가 더 높은 구현 선택 */
if (!best || q->cra_priority > best->cra_priority)
best = q;
}
return best;
}
/* 우선순위 예시:
* "aes" → aes_generic(100) vs aes-aesni(300) vs qat_aes(4001)
* → QAT 드라이버 로드 시 qat_aes(4001)가 자동 선택
* → QAT 드라이버 unload 시 aes-aesni(300)로 자동 전환
* 기존 tfm은 영향 없음, 새 crypto_alloc_*() 호출부터 적용 */
템플릿 인스턴스화 메커니즘
템플릿은 알고리즘 등록 시 CRYPTO_MSG_ALG_REGISTER 알림을 받아 자동으로 인스턴스를 생성합니다. 이 메커니즘을 통해 새 블록 암호를 추가하면 기존 모든 운용 모드와 자동 조합됩니다:
/* crypto/algboss.c — 템플릿 인스턴스화 트리거 */
static int cryptomgr_notify(struct notifier_block *this,
unsigned long msg, void *data)
{
switch (msg) {
case CRYPTO_MSG_ALG_REQUEST:
/* 알고리즘 요청 시: 템플릿 매칭 → 인스턴스 생성 */
return cryptomgr_schedule_probe(data);
case CRYPTO_MSG_ALG_REGISTER:
/* 새 알고리즘 등록 시: 대기 중인 larval과 매칭 */
return cryptomgr_schedule_test(data);
}
return NOTIFY_DONE;
}
/* 인스턴스 생성 과정 (예: "cbc(sm4)" 요청 시) */
/*
* 1. "cbc(sm4)" 파싱 → 템플릿 이름 "cbc" + 내부 알고리즘 "sm4"
* 2. crypto_template 목록에서 "cbc" 탐색
* 3. cbc_tmpl->create() 호출:
* a. sm4 알고리즘 참조 (spawn) 획득
* b. skcipher_instance 할당
* c. 이름/속성 설정: cra_name = "cbc(sm4)"
* d. 내부 알고리즘 속성 상속 (blocksize, keysize 등)
* e. skcipher_register_instance() 로 등록
* 4. 등록 완료 → 대기 중인 larval 깨우기
* 5. testmgr가 자가 테스트 수행
*/
등록 순서와 모듈 의존성: 템플릿 인스턴스화는 내부 알고리즘이 먼저 등록되어 있어야 합니다. "cbc(aes)"를 요청하면 커널은 먼저 crypto-aes 모듈 로드를 시도한 후 crypto-cbc 템플릿 모듈을 로드합니다. 두 모듈이 모두 로드되면 cbc 템플릿의 create()가 호출되어 인스턴스가 자동 생성됩니다. 이 과정에서 MODULE_ALIAS_CRYPTO 매크로가 핵심 역할을 합니다.
AEAD 상태 머신 심화
AEAD(Authenticated Encryption with Associated Data) 알고리즘은 암호화와 인증을 하나의 원자적 연산으로 결합합니다. 내부적으로 encrypt 경로와 decrypt 경로는 비대칭적이며, 특히 decrypt에서는 인증 태그 검증이 복호화보다 먼저 수행됩니다. 이 섹션에서는 커널의 authenc 구현을 기준으로 AEAD의 상태 전이를 분석합니다.
Encrypt 경로 상태 전이
authenc 내부 구현 분석
커널의 crypto/authenc.c는 가장 기본적인 AEAD 구현으로, Encrypt-then-MAC 방식을 사용합니다. IPsec ESP에서 authenc(hmac(sha256),cbc(aes)) 형태로 주로 사용됩니다:
/* crypto/authenc.c — authenc encrypt 핵심 경로 (간략화) */
static int crypto_authenc_encrypt(struct aead_request *req)
{
struct crypto_aead *authenc = crypto_aead_reqtfm(req);
struct authenc_instance_ctx *ictx = aead_instance_ctx(
aead_alg_instance(authenc));
struct authenc_request_ctx *areq_ctx = aead_request_ctx(req);
struct crypto_skcipher *enc = ictx->enc;
int err;
/* 1단계: skcipher로 평문 암호화 */
struct skcipher_request *subreq = &areq_ctx->subreq;
skcipher_request_set_tfm(subreq, enc);
skcipher_request_set_crypt(subreq, req->src, req->dst,
req->cryptlen, req->iv);
skcipher_request_set_callback(subreq, aead_request_flags(req),
authenc_encrypt_done, req);
err = crypto_skcipher_encrypt(subreq);
if (err)
return err;
/* 2단계: AAD + 암호문에 대해 HMAC 계산 */
return crypto_authenc_genicv(req, aead_request_flags(req));
}
/* authenc decrypt: MAC 검증이 먼저! */
static int crypto_authenc_decrypt(struct aead_request *req)
{
struct crypto_aead *authenc = crypto_aead_reqtfm(req);
unsigned int authsize = crypto_aead_authsize(authenc);
int err;
/* 1단계: AAD + 암호문에 대해 HMAC 재계산 */
err = crypto_authenc_verify(req);
if (err)
return err; /* -EBADMSG: 태그 불일치 → 복호화 거부 */
/* 2단계: 태그 일치 확인 후에만 복호화 수행 */
return crypto_authenc_decrypt_tail(req,
aead_request_flags(req));
}
/* 태그 비교: 반드시 상수 시간(constant-time) 비교 사용 */
static int crypto_authenc_verify(struct aead_request *req)
{
/* ... HMAC 계산 ... */
/* crypto_memneq: 타이밍 부채널 방지 상수 시간 비교
* memcmp와 달리 첫 불일치에서 조기 종료하지 않음 */
if (crypto_memneq(computed_tag, received_tag, authsize))
return -EBADMSG;
return 0;
}
AEAD scatterlist 메모리 레이아웃
AEAD 요청의 scatterlist 레이아웃은 encrypt와 decrypt에서 비대칭적입니다. 이 차이를 정확히 이해하지 못하면 데이터 손상이나 인증 실패가 발생합니다:
| 방향 | req->src 레이아웃 | req->dst 레이아웃 | req->cryptlen 의미 |
|---|---|---|---|
| Encrypt | [AAD | 평문] | [AAD | 암호문 | 태그] | 평문 길이 |
| Decrypt | [AAD | 암호문 | 태그] | [AAD | 평문] | 암호문 + 태그 길이 |
/* AEAD scatterlist 구성 예제 (IPsec ESP 기준) */
struct scatterlist sg[3];
unsigned int authsize = crypto_aead_authsize(aead);
/* === Encrypt 시 === */
/* src: [AAD(assoclen) | 평문(cryptlen)]
* dst: [AAD(assoclen) | 암호문(cryptlen) | 태그(authsize)] */
sg_init_table(sg, 3);
sg_set_buf(&sg[0], aad, assoclen);
sg_set_buf(&sg[1], plaintext, plaintext_len);
sg_set_buf(&sg[2], tag_space, authsize); /* 태그 공간 확보 */
aead_request_set_crypt(req, sg, sg, plaintext_len, iv);
aead_request_set_ad(req, assoclen);
/* === Decrypt 시 === */
/* src: [AAD(assoclen) | 암호문+태그(cryptlen)]
* cryptlen = 암호문 길이 + authsize
* 실제 평문 길이 = cryptlen - authsize */
aead_request_set_crypt(req, sg, sg,
ciphertext_len + authsize, /* 태그 포함! */
iv);
aead_request_set_ad(req, assoclen);
- decrypt의 cryptlen에 authsize 미포함 — 태그가 입력에서 잘리고 검증이 무의미해짐
- Decrypt 시 MAC 검증 전에 복호화 수행 — 변조된 암호문의 평문이 노출되는 보안 취약점
- memcmp로 태그 비교 — 타이밍 부채널 공격에 취약. 반드시
crypto_memneq()사용 - in-place 처리 시 src/dst 오프셋 혼동 — AAD 영역은 변경되지 않지만 offset 계산에 포함
AES-NI 커널 통합 메커니즘
AES-NI 하드웨어 가속의 커널 통합은 단순히 AESENC 명령어를 호출하는 것 이상의 복잡한 시스템 엔지니어링을 포함합니다. kernel_fpu_begin()/end() 기반의 FPU 컨텍스트 관리, SIMD 래퍼를 통한 인터럽트 안전성 보장, S/W fallback 전환 등 핵심 메커니즘을 분석합니다.
kernel_fpu_begin/end 내부 동작
/* arch/x86/kernel/fpu/core.c — kernel_fpu_begin() 내부 */
void kernel_fpu_begin_mask(unsigned int kfpu_mask)
{
/* 1. preemption 비활성화
* FPU 상태가 복원되기 전에 다른 태스크로 전환되면
* FPU 레지스터가 오염되므로 반드시 비활성화 */
preempt_disable();
/* 2. 현재 태스크의 FPU 상태를 메모리에 저장
* XSAVE/XSAVEOPT/FXSAVE 중 CPU가 지원하는 최적 명령어 사용 */
fpregs_lock();
fpu__save(current);
/* 3. 커널 FPU 사용 플래그 설정 */
current->flags |= PF_KTHREAD_FPU;
/* 이후 AES-NI 등 SIMD 명령어 사용 가능 */
}
void kernel_fpu_end(void)
{
/* 1. 태스크의 FPU 상태 복원 (XRSTOR 등) */
fpregs_unlock();
/* 2. preemption 재활성화 */
preempt_enable();
}
/* FPU 사용 가능 여부 확인 */
bool irq_fpu_usable(void)
{
/* hardirq 또는 softirq 컨텍스트에서는 false
* 이미 kernel_fpu_begin() 호출 중이면 false (중첩 금지) */
if (in_irq() || in_softirq())
return false;
if (current->flags & PF_KTHREAD_FPU)
return false;
return true;
}
SIMD 래퍼와 cryptd 위임
커널의 SIMD 래퍼(crypto/simd.c)는 실행 컨텍스트에 따라 자동으로 처리 경로를 분기합니다:
/* crypto/simd.c — SIMD 래퍼의 encrypt 함수 (간략화) */
static int simd_skcipher_encrypt(struct skcipher_request *req)
{
struct simd_skcipher_ctx *ctx = ...;
/* crypto_simd_usable(): irq_fpu_usable()의 래퍼 */
if (crypto_simd_usable()) {
/* Process context: 직접 SIMD 알고리즘 호출
* kernel_fpu_begin/end는 내부 알고리즘이 처리 */
return crypto_skcipher_encrypt(ctx->internal_req);
}
/* Interrupt context: cryptd kthread로 위임
* → cryptd 워커가 process context에서 실행
* → 완료 시 콜백으로 결과 통보 */
return cryptd_skcipher_enqueue(ctx->cryptd_req, req);
}
/* cryptd 워커 스레드 (crypto/cryptd.c) */
/* kcryptd 커널 스레드는 항상 process context에서 실행되므로
* kernel_fpu_begin() 호출이 안전함 */
static void cryptd_skcipher_encrypt(struct crypto_async_request *base,
int err)
{
/* process context → kernel_fpu_begin() 가능 */
err = crypto_skcipher_encrypt(subreq);
/* 원본 요청의 완료 콜백 호출 */
req->base.complete(&req->base, err);
}
S/W Fallback 메커니즘
H/W 가속기가 특정 조건(키 크기, 입력 크기, FPU 사용 불가 등)을 처리하지 못할 때 자동으로 S/W 구현으로 전환하는 메커니즘입니다:
/* H/W 가속 알고리즘의 fallback 구현 패턴 */
struct my_hw_ctx {
struct crypto_skcipher *fallback; /* S/W fallback tfm */
/* ... H/W 고유 컨텍스트 ... */
};
static int my_hw_init_tfm(struct crypto_skcipher *tfm)
{
struct my_hw_ctx *ctx = crypto_skcipher_ctx(tfm);
const char *name = crypto_skcipher_alg_name(tfm);
/* CRYPTO_ALG_NEED_FALLBACK으로 S/W 전용 구현을 요청
* → priority가 낮은 generic 구현이 선택됨 */
ctx->fallback = crypto_alloc_skcipher(name, 0,
CRYPTO_ALG_NEED_FALLBACK);
if (IS_ERR(ctx->fallback))
return PTR_ERR(ctx->fallback);
/* fallback의 reqsize를 반영 */
crypto_skcipher_set_reqsize(tfm,
max(crypto_skcipher_reqsize(ctx->fallback),
sizeof(struct my_hw_subreq)));
return 0;
}
static int my_hw_encrypt(struct skcipher_request *req)
{
struct my_hw_ctx *ctx = crypto_skcipher_ctx(
crypto_skcipher_reqtfm(req));
/* 조건 확인: SIMD 사용 가능 + H/W 지원 범위 */
if (!crypto_simd_usable() ||
req->cryptlen < MY_HW_MIN_SIZE) {
/* Fallback: S/W 구현으로 전환 */
skcipher_request_set_tfm(req, ctx->fallback);
return crypto_skcipher_encrypt(req);
}
/* H/W 가속 경로 */
kernel_fpu_begin();
/* ... AES-NI 명령어 사용 ... */
kernel_fpu_end();
return 0;
}
/* 알고리즘 등록 시 NEED_FALLBACK 플래그 설정 */
static struct skcipher_alg my_hw_alg = {
.base.cra_name = "xts(aes)",
.base.cra_driver_name = "xts-aes-my-hw",
.base.cra_priority = 500,
.base.cra_flags = CRYPTO_ALG_ASYNC |
CRYPTO_ALG_NEED_FALLBACK,
/* ... */
};
Fallback 성능 영향: Fallback은 tfm 전환 오버헤드가 있지만, 일반적으로 작은 블록(16~64바이트)에서만 발생합니다. 대부분의 워크로드(dm-crypt, IPsec)는 킬로바이트 단위 데이터를 처리하므로 H/W 경로를 사용합니다. perf stat으로 aesni_* vs aes_generic_* 호출 비율을 확인하여 fallback 빈도를 모니터링할 수 있습니다.
암호화 성능 추적과 벤치마크
커널 암호화 작업의 성능 분석에는 tcrypt 모듈 벤치마크, ftrace 함수 추적, bpftrace 동적 계측의 세 가지 기법이 주로 사용됩니다. 이 섹션에서는 각 도구의 실전 활용법을 다룹니다.
tcrypt 고급 벤치마크
tcrypt 모듈은 커널 내부에서 직접 Crypto Framework (Crypto API)를 호출하여 순수 암호 연산 성능을 측정합니다. I/O 스택 오버헤드 없이 알고리즘 자체의 throughput을 확인할 수 있습니다:
# ═══ tcrypt 벤치마크 실전 활용 ═══
# skcipher 벤치마크 (AES-CBC, AES-CTR, AES-XTS)
modprobe tcrypt mode=500 sec=3 # 3초간 측정
modprobe tcrypt mode=501 sec=3 # AES-CTR
modprobe tcrypt mode=502 sec=3 # AES-XTS
# AEAD 벤치마크 (AES-GCM, ChaCha20-Poly1305)
modprobe tcrypt mode=211 sec=3 # AES-GCM
# 해시 벤치마크
modprobe tcrypt mode=403 sec=3 # SHA-256
modprobe tcrypt mode=404 sec=3 # SHA-512
# 결과 파싱: ops/sec와 throughput 추출
dmesg | grep "testing speed" -A 20 | tail -25
# testing speed of async cbc(aes) (cbc-aes-aesni) encryption
# test 5 (256 bit key, 8192 byte blocks): 495230 ops in 3 sec
# → 495230 × 8192 / 3 = ~1.35 GB/s
# S/W vs H/W 비교: aes_generic 강제 사용
# 1. aesni_intel 모듈 일시 언로드
modprobe -r aesni_intel 2>/dev/null
modprobe tcrypt mode=500 sec=3 # aes_generic으로 테스트
# 2. aesni_intel 재로드
modprobe aesni_intel
modprobe tcrypt mode=500 sec=3 # AES-NI로 테스트
# → throughput 비교로 가속 비율 확인
ftrace를 이용한 암호화 함수 추적
ftrace는 커널 내장 추적기로, 암호화 함수의 호출 빈도와 지연 시간을 분석할 수 있습니다:
# ═══ ftrace로 crypto 함수 추적 ═══
# 1. 추적 가능한 crypto 함수 목록 확인
grep crypto /sys/kernel/debug/tracing/available_filter_functions | head -20
# crypto_skcipher_encrypt
# crypto_skcipher_decrypt
# crypto_aead_encrypt
# crypto_shash_digest
# crypto_alloc_tfm
# 2. function_graph 추적기로 호출 흐름 확인
cd /sys/kernel/debug/tracing
echo function_graph > current_tracer
echo crypto_skcipher_encrypt > set_graph_function
echo 1 > tracing_on
# dm-crypt I/O 발생 (다른 터미널에서)
dd if=/dev/urandom of=/dev/mapper/my-crypt bs=4K count=100
echo 0 > tracing_on
cat trace | head -40
# kcryptd/0-1234 | 0.456 us | crypto_skcipher_encrypt();
# | | cbc_encrypt();
# | | kernel_fpu_begin();
# | 0.312 us | aesni_cbc_enc();
# | | kernel_fpu_end();
# 3. 함수 호출 히스토그램 (지연 시간 분포)
echo 0 > tracing_on
echo nop > current_tracer
echo crypto_skcipher_encrypt > set_ftrace_filter
echo 1 > function_profile_enabled
echo 1 > tracing_on
# 워크로드 실행 후
cat trace_stat/function0 | grep crypto
# Function Hit Time Avg
# -------- --- ---- ---
# crypto_skcipher_encrypt 152847 45.230 ms 0.296 us
# 4. 추적 해제
echo 0 > tracing_on
echo 0 > function_profile_enabled
echo nop > current_tracer
echo > set_ftrace_filter
bpftrace를 이용한 동적 계측
bpftrace는 eBPF 기반의 고급 추적 도구로, 커널 암호화 작업의 세부 통계를 실시간으로 수집할 수 있습니다:
# ═══ bpftrace로 crypto 연산 계측 ═══
# 1. 암호화 함수 호출 빈도 (10초간 수집)
bpftrace -e '
kprobe:crypto_skcipher_encrypt,
kprobe:crypto_skcipher_decrypt,
kprobe:crypto_aead_encrypt,
kprobe:crypto_aead_decrypt,
kprobe:crypto_shash_digest {
@calls[probe] = count();
}
interval:s:10 { exit(); }
'
# @calls[kprobe:crypto_skcipher_encrypt]: 284713
# @calls[kprobe:crypto_aead_encrypt]: 15234
# @calls[kprobe:crypto_shash_digest]: 42891
# 2. 암호화 함수별 지연 시간 히스토그램
bpftrace -e '
kprobe:crypto_skcipher_encrypt { @start[tid] = nsecs; }
kretprobe:crypto_skcipher_encrypt /@start[tid]/ {
@latency_ns = hist(nsecs - @start[tid]);
delete(@start[tid]);
}
interval:s:10 { exit(); }
'
# @latency_ns:
# [128, 256) 12834 |@@@@@@@@@@@@@@@@@@@@|
# [256, 512) 85219 |@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@|
# [512, 1K) 42103 |@@@@@@@@@@@@@@@@@@@|
# [1K, 2K) 5847 |@@|
# [2K, 4K) 312 |
# 3. 프로세스별 crypto 사용량 추적
bpftrace -e '
kprobe:crypto_skcipher_encrypt {
@by_comm[comm] = count();
}
interval:s:10 { exit(); }
'
# @by_comm[kcryptd/0]: 198234
# @by_comm[ksoftirqd/2]: 45123
# @by_comm[openvpn]: 12345
# 4. kernel_fpu_begin/end 구간 측정 (FPU 점유 시간)
bpftrace -e '
kprobe:kernel_fpu_begin_mask { @fpu_start[tid] = nsecs; }
kprobe:kernel_fpu_end /@fpu_start[tid]/ {
@fpu_hold_ns = hist(nsecs - @fpu_start[tid]);
delete(@fpu_start[tid]);
}
interval:s:5 { exit(); }
'
# → FPU 점유 시간이 너무 길면 preemption latency 문제 가능
perf를 이용한 crypto 프로파일링
# ═══ perf로 crypto 핫스팟 분석 ═══
# 1. dm-crypt I/O 중 CPU 프로파일
perf record -g -p $(pgrep -f kcryptd) -- sleep 10
perf report --no-children
# 주요 확인 포인트:
# aesni_xts_encrypt → AES-NI 사용 확인
# aes_encrypt → S/W fallback 사용 (성능 문제)
# kernel_fpu_begin → FPU 컨텍스트 스위칭 비용
# scatterwalk_* → scatterlist 순회 오버헤드
# 2. 특정 crypto 함수의 캐시 미스 분석
perf stat -e cache-misses,cache-references,instructions \
-p $(pgrep -f kcryptd) -- sleep 5
# 3. IPsec crypto 성능 분석
perf top -e cycles -g --no-children \
--call-graph dwarf -- -p $(pgrep -f "pluto\|charon")
# 4. CPU 명령어별 통계 (AES-NI 파이프라인 효율)
perf stat -e cycles,instructions,r01b1,r02b1 \
-- modprobe tcrypt mode=500 sec=2
# r01b1: UOPS_EXECUTED.THREAD (마이크로-ops 실행 수)
# → IPC(Instructions Per Cycle)로 파이프라인 효율 확인
성능 추적 실전 팁: (1) tcrypt는 모듈 로드 시 즉시 테스트를 수행하고 완료 후 -EAGAIN을 반환하므로 rmmod tcrypt로 정리 불필요, (2) ftrace의 function_graph 추적은 오버헤드가 크므로 프로덕션에서는 짧은 시간만 사용, (3) bpftrace는 오버헤드가 매우 낮아(<1%) 프로덕션 서버에서도 안전하게 사용 가능, (4) 벤치마크 시 터보 부스트(cpupower frequency-set -g performance)와 NUMA 바인딩(numactl --cpunodebind=0)으로 측정 변동성을 줄이세요.
ARM 암호화 가속
ARMv8-A 아키텍처는 Crypto Extensions(CE)를 통해 AES, SHA, 다항식 곱셈 등의 암호 연산을 하드웨어에서 직접 수행합니다. x86의 AES-NI에 대응하는 기능으로, 모바일 SoC부터 서버용 ARM 프로세서까지 널리 지원됩니다. 커널 Crypto API는 CE 명령어를 자동 감지하여 소프트웨어 구현보다 높은 우선순위로 등록합니다.
ARMv8-A Crypto Extensions 명령어
ARM CE는 AES, SHA-1, SHA-256, 다항식 곱셈(GCM용)을 위한 전용 명령어를 제공합니다:
| 명령어 | 동작 | 설명 |
|---|---|---|
AESE | AES 단일 라운드 암호화 | SubBytes + ShiftRows (AddRoundKey 별도) |
AESD | AES 단일 라운드 복호화 | InvSubBytes + InvShiftRows |
AESMC | AES MixColumns | 암호화 라운드의 열 혼합 단계 |
AESIMC | AES 역 MixColumns | 복호화 라운드의 역 열 혼합 |
SHA1C/P/M | SHA-1 라운드 | Choose/Parity/Majority 함수별 4라운드 처리 |
SHA1H | SHA-1 해시 고정 회전 | SHA-1 스케줄링 회전 연산 |
SHA1SU0/1 | SHA-1 스케줄 업데이트 | 메시지 스케줄 확장 |
SHA256H/H2 | SHA-256 라운드 | SHA-256 압축 함수 4라운드 처리 |
SHA256SU0/1 | SHA-256 스케줄 업데이트 | 메시지 스케줄 확장 |
PMULL/PMULL2 | 다항식 곱셈 | 64×64→128비트 캐리리스 곱셈 (GHASH용) |
x86 AES-NI와의 차이: AES-NI의 AESENC는 SubBytes+ShiftRows+MixColumns+AddRoundKey를 한 번에 수행하지만, ARM CE의 AESE는 SubBytes+ShiftRows만 처리하고 AESMC와 XOR을 별도로 수행합니다. 그러나 ARM 파이프라인에서 AESE+AESMC는 매크로 퓨전되어 실질적으로 단일 사이클에 처리됩니다.
커널 암호 모듈
ARM64 커널은 CE, NEON, 제네릭 세 가지 계층의 암호 모듈을 제공합니다:
| 모듈 | Kconfig | 알고리즘 | Priority | 요구사항 |
|---|---|---|---|---|
aes-arm64-ce | CRYPTO_AES_ARM64_CE_BLK | ecb/cbc/ctr/xts(aes) | 300 | ARM CE |
sha256-arm64-ce | CRYPTO_SHA256_ARM64_CE | sha256, sha224 | 300 | ARM CE |
sha512-arm64-ce | CRYPTO_SHA512_ARM64_CE | sha512, sha384 | 300 | ARM CE |
ghash-ce | CRYPTO_GHASH_ARM64_CE | ghash | 300 | PMULL |
aes-arm64-neon-blk | CRYPTO_AES_ARM64_NEON_BLK | ecb/cbc/ctr/xts(aes) | 200 | NEON/ASIMD |
sha256-arm64 | CRYPTO_SHA256_ARM64 | sha256 | 150 | NEON |
aes-generic | CRYPTO_AES | aes | 100 | 없음 |
모듈 등록과 priority 선택
ARM CE 모듈은 module_cpu_feature_match() 매크로를 사용하여 CPU가 해당 기능을 지원할 때만 자동 로드됩니다:
/* arch/arm64/crypto/aes-ce-core.S + aes-glue.c 패턴 */
/* CE 모듈: priority 300 — CPU에 CE 기능이 있으면 자동 선택 */
static struct skcipher_alg aes_algs[] = {{
.base.cra_name = "cbc(aes)",
.base.cra_driver_name = "cbc-aes-ce",
.base.cra_priority = 300,
.setkey = ce_aes_setkey,
.encrypt = ce_aes_cbc_encrypt,
.decrypt = ce_aes_cbc_decrypt,
}};
/* 모듈 로드 조건: ARM64_HAS_AES feature bit 확인 */
module_cpu_feature_match(AES, aes_ce_mod_init);
/* NEON 모듈: priority 200 — CE 없는 ARMv8에서 사용 */
static struct skcipher_alg aes_neon_algs[] = {{
.base.cra_name = "cbc(aes)",
.base.cra_driver_name = "cbc-aes-neon",
.base.cra_priority = 200,
}};
/* 제네릭 모듈: priority 100 — 항상 사용 가능한 최후의 수단 */
/* crypto/aes_generic.c */
# ARM64에서 Crypto Extensions 지원 확인
cat /proc/cpuinfo | grep -i features
# Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics ...
# ^^^ ^^^^^ ^^^^ ^^^^ — CE 관련 플래그
# 등록된 AES 드라이버와 priority 확인
grep -A4 'cbc(aes)' /proc/crypto
# name : cbc(aes)
# driver : cbc-aes-ce ← CE 모듈 (priority 300)
# priority : 300
NEON 기반 AES (bit-slicing)
CE가 없는 ARMv7이나 초기 ARMv8 프로세서에서는 NEON(ASIMD) SIMD 레지스터를 활용한 bit-slicing 기법으로 AES를 가속합니다. S-Box 테이블 룩업 대신 비트 연산으로 AES 라운드를 구현하여, 타이밍 부채널을 방지하면서 제네릭 구현보다 2~4배 빠른 성능을 제공합니다:
/* arch/arm64/crypto/aes-neonbs-glue.c — bit-sliced AES */
/* 8블록을 병렬로 처리하여 NEON 128-bit 레지스터 활용 극대화 */
static int aesbs_cbc_encrypt(struct skcipher_request *req)
{
/* NEON 레지스터 사용을 위해 커널 FPSIMD 컨텍스트 획득 */
kernel_neon_begin();
/* bit-slicing: 8개 AES 블록을 8개 NEON 레지스터에 전치하여
* 각 비트 위치별로 병렬 S-Box 연산 수행 */
aesbs_cbc_encrypt_neon(walk.dst.virt.addr,
walk.src.virt.addr, ctx->rk, nbytes, walk.iv);
kernel_neon_end();
}
SVE2 암호화 확장
ARMv9의 SVE2(Scalable Vector Extension 2)는 가변 길이 벡터 레지스터(128~2048비트)에서 동작하는 암호화 명령어를 추가합니다:
| 명령어 | 기능 | 비고 |
|---|---|---|
SM4E / SM4EKEY | SM4 암호화/키 확장 | 중국 국가 표준 블록 암호 |
AESE / AESMC (SVE2) | 벡터 길이만큼 AES 병렬 처리 | 256비트 SVE → 2블록 동시 |
RAX1 | SHA-3 rotate-and-XOR | Keccak 순열 가속 |
RSHAX / BEXT / BDEP | 비트 조작 | 암호 알고리즘 보조 |
SVE2 커널 지원 현황: Linux 6.x 기준 SVE2 crypto 명령어의 커널 Crypto API 드라이버는 아직 개발 초기 단계입니다. SM4 SVE2 드라이버(sm4-ce-core.S)가 먼저 합류했으며, AES/SHA-3 SVE2 최적화는 향후 커널에서 지원될 예정입니다. 벡터 길이가 가변이므로 기존 CE 고정 128비트 대비 처리량 확장이 가능합니다.
ARM CE 성능 비교
Cortex-A76 (ARMv8.2) 기준 tcrypt 벤치마크 결과:
| 알고리즘 | 구현 | 1024B 처리량 | 8192B 처리량 | 가속 배율 |
|---|---|---|---|---|
| AES-256-CBC | aes-generic | ~120 MB/s | ~130 MB/s | 1.0× |
| aes-neon (bit-slice) | ~450 MB/s | ~520 MB/s | ~4.0× | |
| aes-ce | ~1.8 GB/s | ~2.2 GB/s | ~17× | |
| SHA-256 | sha256-generic | ~95 MB/s | ~100 MB/s | 1.0× |
| sha256-ce | ~850 MB/s | ~1.1 GB/s | ~11× | |
| AES-256-GCM | gcm(aes-generic) | ~80 MB/s | ~90 MB/s | 1.0× |
| gcm(aes-ce) + ghash-ce | ~1.5 GB/s | ~1.9 GB/s | ~21× |
x86 추가 암호화 명령어
AES-NI 외에도 x86 아키텍처는 SHA, CRC32, SM3/SM4 등의 전용 명령어를 세대별로 추가해왔습니다. 커널은 각 명령어 세트에 대응하는 최적화 모듈을 제공하며, CPUID 플래그 기반으로 자동 선택합니다.
SHA-NI (SHA Extensions)
SHA-NI는 SHA-1과 SHA-256 라운드 함수를 하드웨어에서 수행하는 명령어 세트입니다:
| CPU | 도입 시기 | SHA-NI 명령어 | 커널 모듈 | Priority |
|---|---|---|---|---|
| Intel Goldmont (Atom) | 2016 | SHA1RNDS4, SHA1NEXTE, SHA256RNDS2, SHA256MSG1/2 | sha256-ni | 300 |
| Intel Ice Lake | 2019 | 동일 | sha256-ni | 300 |
| AMD Zen (Ryzen/EPYC) | 2017 | 동일 | sha256-ni | 300 |
# SHA-NI 지원 확인
grep sha_ni /proc/cpuinfo
# flags : ... sha_ni ...
# SHA-256 드라이버 확인: sha256-ni가 가장 높은 priority
grep -A3 'sha256' /proc/crypto | grep -E 'name|driver|priority'
# name : sha256
# driver : sha256-ni ← SHA-NI 하드웨어 가속
# priority : 300
# tcrypt 벤치마크: SHA-256
modprobe tcrypt mode=403 sec=3
# SHA-NI: ~2.5 GB/s (8K blocks) vs SW: ~300 MB/s → 약 8배 가속
AVX/AVX2 최적화 해시
SHA-NI가 없는 CPU에서는 AVX/AVX2 SIMD 명령어를 활용한 최적화 해시 구현을 사용합니다. Multi-buffer 기법은 여러 독립적인 해시 연산을 SIMD 레인에 배치하여 병렬 처리합니다:
| 모듈 | 명령어 세트 | Priority | 특징 |
|---|---|---|---|
sha256-ssse3 | SSSE3 | 150 | 기본 SIMD 최적화 |
sha256-avx | AVX | 160 | 256비트 레지스터 활용 |
sha256-avx2 | AVX2 | 170 | multi-buffer 4-way 병렬 |
sha512-avx2 | AVX2 | 170 | SHA-512 multi-buffer |
sha256-ni | SHA-NI | 300 | 전용 하드웨어 명령어 |
/* arch/x86/crypto/sha256_avx2_asm.S 개념 — multi-buffer 기법 */
/* 4개의 독립적인 SHA-256 연산을 YMM 레지스터에서 병렬 처리 */
/*
* YMM0 = [msg_A[0:31] | msg_B[0:31] | msg_C[0:31] | msg_D[0:31]]
* 각 64바이트 레인에서 독립적인 SHA-256 라운드 수행
* → 단일 스트림 대비 2~3배 처리량 향상
*/
/* 커널 등록 예시 */
static struct shash_alg sha256_avx2_alg = {
.digestsize = SHA256_DIGEST_SIZE,
.init = sha256_base_init,
.update = sha256_avx2_update,
.final = sha256_avx2_final,
.base = {
.cra_name = "sha256",
.cra_driver_name = "sha256-avx2",
.cra_priority = 170,
},
};
SM3/SM4 명령어 (Sapphire Rapids)
Intel Sapphire Rapids(4세대 Xeon)부터 중국 국가 표준 암호 알고리즘인 SM3(해시)과 SM4(블록 암호)의 전용 명령어를 지원합니다. 커널 모듈 sm4-aesni-avx2와 sm3-avx가 이를 활용합니다. SM4는 국제 표준 ISO/IEC 18033-3:2010에도 등록되어 있으며, 중국 시장 제품에서 AES 대신 필수적으로 사용됩니다.
CRC32C SSE4.2 가속
SSE4.2의 CRC32 명령어는 Castagnoli CRC(CRC32C)를 하드웨어에서 수행합니다. ext4, btrfs, iSCSI 등 커널 전반에서 데이터 무결성 검증에 사용됩니다:
# CRC32C 가속 모듈 확인
grep crc32 /proc/crypto
# name : crc32c
# driver : crc32c-intel ← SSE4.2 하드웨어 가속
# priority : 200
# ext4 파일시스템에서 CRC32C 사용 확인
dmesg | grep crc32c
# ext4: using crc32c-intel for CRC32C checksums
# 성능: crc32c-intel ~20 GB/s vs crc32c-generic ~800 MB/s
# → SSE4.2 CRC32 명령어는 클럭당 8바이트 처리 가능
Priority 스택 요약: x86에서 동일 알고리즘에 여러 구현이 존재할 때 선택 순서는 전용 명령어(300~400) > AVX2(170) > AVX(160) > SSSE3(150) > Generic(100)입니다. /proc/crypto에서 동일 name에 대해 driver와 priority를 확인하여 현재 시스템에서 어떤 구현이 활성화되어 있는지 파악할 수 있습니다.
네트워크 암호화 오프로드
네트워크 암호화를 NIC 하드웨어에 오프로드하면 CPU 부하를 대폭 줄이고 와이어 속도에 가까운 암호화 처리량을 달성할 수 있습니다. 커널은 IPsec, kTLS, MACsec 세 가지 프로토콜에서 NIC 암호화 오프로드를 지원하며, 각각 다른 오프로드 레벨과 드라이버 콜백을 제공합니다.
IPsec 인라인 오프로드
IPsec 오프로드는 xfrm_dev_offload 구조체를 통해 두 가지 모드를 지원합니다:
| 모드 | 상수 | NIC 처리 범위 | CPU 역할 |
|---|---|---|---|
| Crypto offload | XFRM_DEV_OFFLOAD_CRYPTO | ESP 암복호화만 | ESP 헤더 구성, 패킷 라우팅 |
| Packet offload | XFRM_DEV_OFFLOAD_PACKET | ESP 암복호화 + 헤더 삽입/제거 | SA/SP 정책만 관리 |
NIC 드라이버는 xfrmdev_ops 콜백을 구현하여 SA(Security Association)를 하드웨어에 설치합니다:
/* include/linux/netdevice.h — IPsec 오프로드 콜백 */
struct xfrmdev_ops {
int (*xdo_dev_state_add)(struct xfrm_state *x,
struct netlink_ext_ack *extack);
void (*xdo_dev_state_delete)(struct xfrm_state *x);
void (*xdo_dev_state_free)(struct xfrm_state *x);
bool (*xdo_dev_offload_ok)(struct sk_buff *skb,
struct xfrm_state *x);
int (*xdo_dev_policy_add)(struct xfrm_policy *xp,
struct netlink_ext_ack *extack);
void (*xdo_dev_policy_delete)(struct xfrm_policy *xp);
};
/* 지원 NIC 예시: Mellanox ConnectX-6 Dx+ (mlx5), Intel E810 (ice) */
Crypto vs Packet offload 선택: Crypto offload는 SA만 NIC에 설치하므로 기존 라우팅/방화벽 규칙과 완전 호환됩니다. Packet offload는 ESP 헤더까지 NIC이 처리하여 CPU 부하가 더 낮지만, 라우팅/필터링이 ESP 내부 패킷에 접근할 수 없습니다. 대부분의 경우 crypto offload가 호환성과 성능의 균형이 좋습니다. 상세한 구현과 설정은 IPsec 하드웨어 오프로드를 참고하세요.
kTLS 암호화 오프로드
kTLS(Kernel TLS)는 TLS 레코드 계층의 암복호화를 NIC에 오프로드할 수 있습니다. 사용자 공간에서 TLS 핸드셰이크를 완료한 후 setsockopt(TCP_ULP, "tls")로 커널에 키를 전달하면, 지원 NIC이 자동으로 오프로드합니다:
| NIC | 드라이버 | TX offload | RX offload | 지원 암호 |
|---|---|---|---|---|
| Mellanox ConnectX-6+ | mlx5 | TLS 1.2/1.3 | TLS 1.2/1.3 | AES-128/256-GCM |
| Broadcom BCM57504 | bnxt | TLS 1.2 | — | AES-128-GCM |
| Intel E810 | ice | TLS 1.2/1.3 | TLS 1.2/1.3 | AES-128/256-GCM |
kTLS 오프로드 조건: (1) NIC 드라이버가 tls_dev_add()/tls_dev_del() 콜백을 구현해야 하고, (2) ethtool -k eth0 | grep tls에서 tls-hw-tx-offload/tls-hw-rx-offload가 on이어야 합니다. 오프로드 불가 시 커널이 자동으로 소프트웨어 kTLS로 폴백합니다. 상세는 kTLS 하드웨어 오프로드를 참고하세요.
MACsec 오프로드
MACsec(IEEE 802.1AE)은 이더넷 프레임 레벨에서 AES-GCM-128/256 암호화를 수행합니다. 일부 NIC(Mellanox ConnectX-6 Dx, Intel E810, Marvell Prestera)에서 MACsec 오프로드를 지원하며, macsec_ops 콜백으로 SA를 하드웨어에 설치합니다. MACsec의 상세 아키텍처와 설정은 이더넷 MACsec을 참고하세요.
오프로드 확인 및 설정
# ━━━ 네트워크 암호화 오프로드 확인/설정 ━━━
# IPsec offload 기능 확인
ethtool -k eth0 | grep esp
# esp-hw-offload: on ← IPsec crypto offload 가능
# esp-tx-csum-hw-offload: on
# IPsec SA에 오프로드 설정
ip xfrm state add src 10.0.0.1 dst 10.0.0.2 proto esp spi 0x100 \
mode transport aead 'rfc4106(gcm(aes))' 0x... 128 \
offload dev eth0 dir out # ← offload 키워드
# 오프로드 상태 확인
ip xfrm state list | grep -A2 offload
# offload dev eth0 dir out type crypto
# kTLS offload 확인
ethtool -k eth0 | grep tls
# tls-hw-tx-offload: on
# tls-hw-rx-offload: on
# MACsec offload 확인
ethtool -k eth0 | grep macsec
# macsec-hw-offload: on
스토리지 인라인 암호화
스토리지 인라인 암호화(Inline Encryption)는 데이터가 저장장치에 기록/읽기될 때 전용 하드웨어 엔진(ICE, Inline Crypto Engine)이 와이어 속도로 실시간 암복호화를 수행하는 기술입니다. CPU 개입이 전혀 없으므로 dm-crypt 대비 성능 오버헤드가 없고, 모바일 기기의 파일 기반 암호화(FBE)에서 핵심 역할을 합니다.
blk-crypto 프레임워크
Linux 커널의 blk-crypto 프레임워크는 블록 레이어에서 인라인 암호화를 추상화합니다. 상위 계층(fscrypt, dm-crypt)이 blk_crypto_key를 설정하면, 하드웨어 지원 여부에 따라 ICE 또는 소프트웨어 폴백으로 자동 전환합니다:
/* include/linux/blk-crypto.h — 핵심 구조체 */
struct blk_crypto_key {
struct blk_crypto_config crypto_cfg; /* 암호 설정 */
unsigned int data_unit_size; /* 암호화 단위 (보통 4096) */
unsigned int size; /* 키 크기 */
u8 raw[BLK_CRYPTO_MAX_KEY_SIZE]; /* 원시 키 데이터 */
};
enum blk_crypto_mode_num {
BLK_ENCRYPTION_MODE_INVALID,
BLK_ENCRYPTION_MODE_AES_256_XTS, /* FBE 기본 */
BLK_ENCRYPTION_MODE_AES_128_CBC_ESSIV, /* 레거시 FDE */
BLK_ENCRYPTION_MODE_ADIANTUM, /* CE 없는 저가형 */
BLK_ENCRYPTION_MODE_SM4_XTS, /* 중국 표준 */
};
/* blk_crypto_profile: 스토리지 디바이스의 ICE 능력 기술 */
struct blk_crypto_profile {
struct blk_crypto_ll_ops ll_ops; /* keyslot 관리 콜백 */
unsigned int max_dun_bytes_supported; /* DUN 크기 */
unsigned int num_slots; /* 하드웨어 keyslot 수 */
unsigned int modes_supported[BLK_ENCRYPTION_MODE_MAX];
};
| 암호 모드 | 키 크기 | 용도 | 비고 |
|---|---|---|---|
AES-256-XTS | 512비트 (2×256) | Android FBE 기본 | 대부분의 ICE가 지원 |
AES-128-CBC-ESSIV | 256비트 | 레거시 FDE | IV 예측 방지용 ESSIV |
Adiantum | 256비트 | CE 없는 저가형 기기 | ChaCha 기반, SW 전용 |
SM4-XTS | 256비트 | 중국 시장 규정 | SM4 블록 암호 + XTS |
인라인 암호화 엔진
주요 스토리지 인터페이스별 인라인 암호화 엔진:
| 엔진 | 스토리지 | 커널 드라이버 | 알고리즘 | keyslot 수 |
|---|---|---|---|---|
| Qualcomm ICE | UFS | ufs-qcom + qcom-ice | AES-256-XTS | 보통 32개 |
| Samsung FMP | UFS | ufs-exynos | AES-256-XTS | 8~16개 |
| MediaTek CQHCI | eMMC | cqhci | AES-256-XTS | 32개 |
| NVMe (TCG Opal) | NVMe SSD | nvme | AES-256-XTS | 벤더 종속 |
교차참조: UFS ICE의 하드웨어 아키텍처, keyslot 관리, 지원 알고리즘 상세는 UFS 인라인 암호화를 참고하세요. eMMC CQHCI 암호화는 eMMC 심화를 참고하세요.
소프트웨어 폴백
CONFIG_BLK_INLINE_ENCRYPTION_FALLBACK이 활성화되면, ICE가 없는 디바이스에서도 blk-crypto 인터페이스를 사용할 수 있습니다. 폴백 모듈은 내부적으로 Crypto API의 crypto_skcipher를 사용하여 소프트웨어로 암복호화를 수행합니다:
/* block/blk-crypto-fallback.c — 소프트웨어 폴백 개요 */
static int blk_crypto_fallback_encrypt_bio(struct bio **bio_ptr)
{
struct bio_crypt_ctx *bc = (*bio_ptr)->bi_crypt_context;
struct crypto_skcipher *tfm;
/* blk_crypto_mode → Crypto API 알고리즘 이름 매핑 */
/* AES_256_XTS → "xts(aes)" */
tfm = crypto_alloc_skcipher(
blk_crypto_modes[bc->bc_key->crypto_cfg.crypto_mode].name,
0, 0);
/* Crypto API를 통한 소프트웨어 암호화 수행 */
/* AES-NI/ARM CE가 있으면 HW 가속으로 폴백됨 */
crypto_skcipher_encrypt(req);
}
fscrypt + blk-crypto 연동
fscrypt(파일시스템 암호화)는 blk-crypto를 통해 ICE를 활용합니다. 각 파일(또는 디렉토리)마다 고유한 키를 생성하고, blk-crypto에 키를 등록하여 I/O 요청에 첨부합니다:
# ━━━ fscrypt + inline encryption 설정 ━━━
# 1. 디바이스의 inline encryption 지원 확인
cat /sys/block/sda/queue/crypto/max_dun_bytes
# 8 ← DUN(Data Unit Number) 크기, 0이면 미지원
cat /sys/block/sda/queue/crypto/modes/AES-256-XTS
# 4096 ← data_unit_size, 0이면 미지원
# 2. fscrypt에서 inline encryption 사용 (Android FBE)
# /data 파티션 마운트 시 inlinecrypt 옵션 추가
mount -o inlinecrypt /dev/block/sda13 /data
# 3. 키 해제 (파일 잠금)
# fscrypt lock /data → blk_crypto_evict_key()로 HW keyslot 제거
fscrypt lock /data
# → ICE keyslot이 안전하게 소거됨
dm-crypt passthrough: dm-crypt는 CONFIG_DM_DEFAULT_KEY와 --inline-crypt 옵션을 통해 자체 암호화 대신 blk-crypto로 요청을 전달할 수 있습니다. 이 경우 dm-crypt 계층은 키 관리만 담당하고 실제 암복호화는 ICE가 수행하여, dm-crypt의 CPU 오버헤드를 완전히 제거합니다.
암호화 가속기 디바이스
CPU 내장 명령어(AES-NI, ARM CE) 외에도 PCI 가속기, SoC 임베디드 엔진, 가상 디바이스 등 다양한 형태의 암호화 가속기가 커널 Crypto API에 등록됩니다. 이들은 CPU와 독립적으로 동작하므로 대량의 암호 연산을 CPU 부하 없이 처리할 수 있습니다.
AMD CCP / PSP
AMD CCP(Cryptographic Co-Processor)는 AMD EPYC/Ryzen 프로세서에 내장된 보안 전용 코프로세서입니다. PSP(Platform Security Processor)는 CCP를 포함하는 상위 개념으로, SEV/SEV-SNP 기밀 컴퓨팅의 기반이 됩니다:
# ━━━ AMD CCP 드라이버 설정 ━━━
# Kconfig 옵션
# CONFIG_CRYPTO_DEV_CCP=m
# CONFIG_CRYPTO_DEV_CCP_CRYPTO=m ← Crypto API 연동
# CONFIG_CRYPTO_DEV_SP_PSP=y ← PSP/SEV 지원
# CCP 디바이스 확인
lspci | grep -i ccp
# 09:00.2 Encryption controller: AMD CCP/PSP
# 드라이버 로드 확인
dmesg | grep ccp
# ccp 0000:09:00.2: enabling device
# ccp 0000:09:00.2: ccp enabled
# ccp 0000:09:00.2: SEV API:1.55 build:21
# CCP가 등록한 Crypto API 알고리즘
grep ccp /proc/crypto | head -5
# driver : ccp-aes-cbc
# driver : ccp-aes-gcm
# driver : ccp-sha256
CCP vs AES-NI: CCP는 전용 코프로세서로 CPU 코어와 병렬 동작하지만, 통신 오버헤드(MMIO, DMA)가 있어 소량 데이터에서는 AES-NI보다 느릴 수 있습니다. CCP의 주요 가치는 (1) SEV 메모리 암호화, (2) 대량 배치 처리, (3) CPU 부하 분산에 있습니다. CCP의 crypto priority는 AES-NI보다 낮게 설정(~200)되어, 일반 용도에서는 AES-NI가 우선 선택됩니다.
HiSilicon SEC / SEC2
HiSilicon SEC2는 Kunpeng 920(ARM 서버 SoC)에 내장된 고속 암호화 가속기입니다. hisi_sec2 드라이버를 통해 Crypto API에 등록되며, UACCE(Unified/User-space Accelerator Framework)를 통해 사용자 공간에서도 직접 접근할 수 있습니다:
| 특성 | SEC2 사양 |
|---|---|
| 알고리즘 | AES/SM4 (ECB/CBC/XTS), SHA-256/512, SM3 |
| 처리량 | 최대 100 Gbps (AES-256-XTS) |
| 큐 | 최대 256개 하드웨어 큐 |
| Kconfig | CONFIG_CRYPTO_DEV_HISI_SEC2 |
| UACCE | /dev/hisi_sec2-* 디바이스 노드 |
Marvell / Cavium OcteonTX CPT
Marvell(Cavium) OcteonTX CPT는 네트워크 프로세서에 내장된 암호화 가속기입니다. IPsec 고속 처리에 최적화되어 있으며, cpt(OcteonTX) 및 otx2_cpt(OcteonTX2) 드라이버를 통해 Crypto API에 등록됩니다. OcteonTX2는 최대 100 Gbps IPsec 처리를 지원합니다.
Samsung Exynos S5P SSS
Samsung S5P SSS(Security SubSystem)는 Exynos SoC에 내장된 암호 엔진입니다. s5p-sss 드라이버가 AES(ECB/CBC/CTR), SHA-1/256, PRNG를 Crypto API에 등록합니다. 주로 Android 기기에서 dm-crypt 가속에 활용됩니다.
SoC 임베디드 암호 엔진 종합
| 벤더 | SoC / 칩 | 드라이버 | Kconfig | 지원 알고리즘 |
|---|---|---|---|---|
| Broadcom | BCM58xx SPU | bcm-spu | CRYPTO_DEV_BCM_SPU | AES, SHA, 3DES, MD5 |
| Allwinner | sun8i/sun50i CE | sun8i-ce | CRYPTO_DEV_SUN8I_CE | AES, SHA, PRNG |
| Rockchip | RK3399 crypto | rk3288-crypto | CRYPTO_DEV_ROCKCHIP | AES, SHA, MD5 |
| Amlogic | GXL/G12 | amlogic-gxl | CRYPTO_DEV_AMLOGIC_GXL | AES (CBC/ECB) |
| STMicro | STM32 CRYP | stm32-cryp | CRYPTO_DEV_STM32_CRYP | AES, DES, 3DES |
| Texas Instr. | OMAP/AM65x SA2UL | sa2ul | CRYPTO_DEV_SA2UL | AES, SHA, HMAC |
| NXP | i.MX CAAM | caam | CRYPTO_DEV_FSL_CAAM | AES, SHA, RSA, RNG |
| Microchip | ATMEL AES/SHA | atmel-aes | CRYPTO_DEV_ATMEL_AES | AES, SHA |
virtio-crypto 가상 디바이스
virtio-crypto는 가상 머신에서 호스트의 암호화 가속기를 활용할 수 있는 준가상화(paravirtual) 디바이스입니다. QEMU/KVM 환경에서 게스트 커널이 virtio_crypto 드라이버를 통해 호스트의 Crypto API(또는 하드웨어 가속기)에 접근합니다:
# ━━━ QEMU에서 virtio-crypto 디바이스 추가 ━━━
# 방법 1: 내장 백엔드
qemu-system-x86_64 \
-device virtio-crypto-pci,cryptodev=crypto0 \
-object cryptodev-backend-builtin,id=crypto0
# 방법 2: vhost-user 백엔드 (DPDK cryptodev 연동)
qemu-system-x86_64 \
-chardev socket,id=chardev0,path=/tmp/vhost-crypto.sock \
-object cryptodev-vhost-user,id=crypto0,chardev=chardev0 \
-device virtio-crypto-pci,cryptodev=crypto0
/* virtio_crypto 서비스 유형 */
#define VIRTIO_CRYPTO_SERVICE_CIPHER 0 /* 대칭 암호 */
#define VIRTIO_CRYPTO_SERVICE_HASH 1 /* 해시 */
#define VIRTIO_CRYPTO_SERVICE_MAC 2 /* MAC */
#define VIRTIO_CRYPTO_SERVICE_AEAD 3 /* AEAD */
#define VIRTIO_CRYPTO_SERVICE_AKCIPHER 4 /* 비대칭 암호 (RSA) */
/* 게스트 커널의 /proc/crypto에서 확인 */
/* driver: virtio-crypto-xxx */
DPDK cryptodev 연동: DPDK 기반 가상 스위치(OVS-DPDK)에서 암호화 처리가 필요한 경우 vhost-user-crypto 백엔드를 통해 호스트의 QAT 가속기를 게스트에 노출할 수 있습니다. DPDK cryptodev의 상세는 DPDK 암호화 가속을 참고하세요.
AF_ALG 사용자 공간 인터페이스 심화
AF_ALG은 사용자 공간에서 커널 Crypto API를 직접 사용할 수 있는 소켓 인터페이스입니다. 별도의 암호 라이브러리 없이 커널에 등록된 모든 암호화 가속기(AES-NI, QAT 등)를 활용할 수 있으며, splice()를 통한 zero-copy 전송도 지원합니다.
AF_ALG 아키텍처
AF_ALG 소켓은 4단계 라이프사이클을 따릅니다:
/* AF_ALG 기본 패턴 */
int sockfd, connfd;
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "skcipher", /* "hash", "aead", "rng" */
.salg_name = "cbc(aes)", /* 알고리즘 이름 */
};
/* 1. 소켓 생성 + 알고리즘 바인드 */
sockfd = socket(AF_ALG, SOCK_SEQPACKET, 0);
bind(sockfd, (struct sockaddr *)&sa, sizeof(sa));
/* 2. 키 설정 (skcipher/aead만) */
setsockopt(sockfd, SOL_ALG, ALG_SET_KEY, key, key_len);
/* 3. 연결 소켓 생성 (세션) */
connfd = accept(sockfd, NULL, 0);
/* 4. 데이터 송수신 (IV/AAD는 cmsg로 전달) */
sendmsg(connfd, &msg, 0); /* 평문 + cmsg(IV, op) */
read(connfd, out, out_len); /* 암호문 수신 */
close(connfd);
close(sockfd);
해시 예제 (SHA-256)
#include <linux/if_alg.h>
#include <sys/socket.h>
int sha256_af_alg(const void *data, size_t len,
unsigned char digest[32])
{
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "hash",
.salg_name = "sha256",
};
int sockfd, connfd;
sockfd = socket(AF_ALG, SOCK_SEQPACKET, 0);
bind(sockfd, (struct sockaddr *)&sa, sizeof(sa));
connfd = accept(sockfd, NULL, 0);
/* 데이터 전송 — 커널이 sha256-ni(또는 최적 드라이버)로 처리 */
write(connfd, data, len);
/* 다이제스트 수신 */
read(connfd, digest, 32);
close(connfd);
close(sockfd);
return 0;
}
/* splice() zero-copy: 파일 해시를 커널 공간에서 직접 처리 */
int sha256_file_splice(int fd, unsigned char digest[32])
{
/* ... socket/bind/accept 동일 ... */
int pipefd[2];
pipe(pipefd);
/* 파일 → 파이프 → AF_ALG: 사용자 공간 복사 없음 */
splice(fd, NULL, pipefd[1], NULL, file_size, 0);
splice(pipefd[0], NULL, connfd, NULL, file_size, 0);
read(connfd, digest, 32);
/* ... */
}
대칭 암호 예제 (AES-CBC)
int aes_cbc_encrypt_af_alg(const void *key, int keylen,
const void *iv, const void *pt, void *ct, int len)
{
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "skcipher",
.salg_name = "cbc(aes)",
};
int sockfd = socket(AF_ALG, SOCK_SEQPACKET, 0);
bind(sockfd, (struct sockaddr *)&sa, sizeof(sa));
setsockopt(sockfd, SOL_ALG, ALG_SET_KEY, key, keylen);
int connfd = accept(sockfd, NULL, 0);
/* cmsg로 IV와 operation(encrypt/decrypt) 전달 */
struct msghdr msg = {};
struct cmsghdr *cmsg;
char cbuf[CMSG_SPACE(4) + CMSG_SPACE(16)];
struct iovec iov = { .iov_base = (void *)pt, .iov_len = len };
msg.msg_control = cbuf;
msg.msg_controllen = sizeof(cbuf);
msg.msg_iov = &iov;
msg.msg_iovlen = 1;
/* cmsg 1: operation = ALG_OP_ENCRYPT */
cmsg = CMSG_FIRSTHDR(&msg);
cmsg->cmsg_level = SOL_ALG;
cmsg->cmsg_type = ALG_SET_OP;
cmsg->cmsg_len = CMSG_LEN(4);
*(__u32 *)CMSG_DATA(cmsg) = ALG_OP_ENCRYPT;
/* cmsg 2: IV */
cmsg = CMSG_NXTHDR(&msg, cmsg);
cmsg->cmsg_level = SOL_ALG;
cmsg->cmsg_type = ALG_SET_IV;
cmsg->cmsg_len = CMSG_LEN(20); /* 4(ivlen) + 16(iv) */
struct af_alg_iv *aiv = (void *)CMSG_DATA(cmsg);
aiv->ivlen = 16;
memcpy(aiv->iv, iv, 16);
sendmsg(connfd, &msg, 0);
read(connfd, ct, len);
close(connfd);
close(sockfd);
return 0;
}
AEAD 예제 (AES-GCM)
/* AF_ALG AEAD: AES-256-GCM 암호화 */
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "aead",
.salg_name = "gcm(aes)",
};
int sockfd = socket(AF_ALG, SOCK_SEQPACKET, 0);
bind(sockfd, (struct sockaddr *)&sa, sizeof(sa));
setsockopt(sockfd, SOL_ALG, ALG_SET_KEY, key, 32);
/* 인증 태그 크기 설정 (16바이트) */
setsockopt(sockfd, SOL_ALG, ALG_SET_AEAD_AUTHSIZE, NULL, 16);
int connfd = accept(sockfd, NULL, 0);
/* cmsg에 ALG_SET_OP, ALG_SET_IV, ALG_SET_AEAD_ASSOCLEN 설정 */
/* sendmsg: [AAD (assoclen bytes)] + [plaintext] */
/* read: [AAD (assoclen bytes)] + [ciphertext] + [tag (16 bytes)] */
/* cmsg 3: AAD 길이 */
cmsg->cmsg_type = ALG_SET_AEAD_ASSOCLEN;
cmsg->cmsg_len = CMSG_LEN(4);
*(__u32 *)CMSG_DATA(cmsg) = aad_len;
/* iov[0] = AAD, iov[1] = plaintext */
sendmsg(connfd, &msg, 0);
/* 수신: AAD + ciphertext + 16바이트 GCM 태그 */
read(connfd, outbuf, aad_len + pt_len + 16);
AF_ALG 성능 비교
| 작업 (8KB 블록) | AF_ALG | OpenSSL (EVP) | 비고 |
|---|---|---|---|
| AES-256-CBC 암호화 | ~1.2 GB/s | ~1.5 GB/s | AF_ALG 소켓 오버헤드 존재 |
| SHA-256 해시 | ~1.8 GB/s | ~2.0 GB/s | 커널 전환 비용 |
| SHA-256 (splice) | ~2.1 GB/s | — | zero-copy로 역전 가능 |
| AES-GCM | ~1.0 GB/s | ~1.3 GB/s | AEAD cmsg 오버헤드 |
AF_ALG vs OpenSSL: 소량 데이터에서는 소켓/커널 전환 오버헤드로 AF_ALG가 느리지만, splice() zero-copy나 QAT 등 전용 가속기를 활용할 때는 AF_ALG가 유리할 수 있습니다. AF_ALG의 주요 가치는 (1) 라이브러리 의존성 없는 커널 crypto 접근, (2) FIPS 모드 커널 모듈 직접 활용, (3) QAT/CCP 등 커널 전용 가속기 사용입니다.
/proc/crypto와 드라이버 선택
# ━━━ /proc/crypto 활용법 ━━━
# 특정 알고리즘의 모든 구현 확인
awk '/^name.*cbc\(aes\)/,/^$/' /proc/crypto
# name : cbc(aes)
# driver : cbc-aes-aesni priority: 400
# name : cbc(aes)
# driver : cbc-aes-generic priority: 100
# AF_ALG에서 특정 드라이버 강제 지정
# salg_name에 드라이버 이름을 직접 사용
struct sockaddr_alg sa = {
.salg_family = AF_ALG,
.salg_type = "skcipher",
.salg_name = "cbc-aes-aesni", /* 드라이버 이름 직접 지정 */
};
# 전체 알고리즘 유형별 개수
grep '^type' /proc/crypto | sort | uniq -c | sort -rn
# 45 type : skcipher
# 32 type : shash
# 18 type : aead
# 8 type : ahash
# 5 type : rng
보안 주의: AF_ALG 소켓은 CAP_NET_ADMIN 없이도 사용할 수 있으므로, 일반 사용자가 커널 crypto를 호출할 수 있습니다. 커널 5.9+ 이후 crypto.fips_enabled=1 부트 파라미터가 설정되면 AF_ALG도 FIPS 인증 알고리즘만 사용 가능합니다.
암호화 오프로드 결정 가이드
다양한 암호화 오프로드 옵션 중 워크로드 특성에 맞는 방식을 선택하는 것이 중요합니다. CPU ISA 가속으로 충분한 경우 별도 가속기를 도입할 필요가 없고, 반대로 대규모 암호 처리에서는 전용 가속기가 CPU 자원을 확보해줍니다.
오프로드 유형별 선택 기준
| 오프로드 유형 | 장점 | 단점 | 적합한 경우 |
|---|---|---|---|
| CPU ISA (AES-NI, ARM CE) |
최저 지연, 추가 비용 없음, 모든 CPU에 내장 | CPU 코어 점유, FPU 컨텍스트 전환 비용 | 대부분의 범용 워크로드, 소량~중량 암호화 |
| PCI 가속기 (QAT, CCP) |
CPU 부하 없음, 고처리량, 비대칭 암호 지원 | DMA/MMIO 오버헤드, 비용, 드라이버 의존성 | SSL/TLS 프록시, 대량 배치 암호화, PKI 연산 |
| NIC 인라인 (IPsec/kTLS) |
와이어 속도 처리, CPU 완전 해방, 라인 레이트 | 제한된 알고리즘, NIC 종속, SA 수 제한 | 고대역폭 네트워크 암호화 (100G+ IPsec/TLS) |
| 스토리지 ICE (UFS/eMMC/NVMe) |
CPU 0%, 와이어 속도, 배터리 절약 | 제한된 알고리즘(AES-XTS), keyslot 수 제한 | 모바일 FBE, 서버 디스크 암호화 |
패킷 크기 임계값과 CPU 사용률
오프로드 효율은 데이터 크기에 크게 의존합니다. 소량 데이터에서는 오프로드 설정(DMA 맵핑, 디스크립터 전송)의 고정 비용이 암호화 자체보다 클 수 있습니다:
| 워크로드 | 데이터 크기 | 권장 방식 | 근거 |
|---|---|---|---|
| DNS/QUIC 패킷 | <512B | CPU ISA (AES-NI/CE) | 오프로드 setup 비용 > 암호화 비용 |
| 웹 HTTP/2 TLS | 1~16 KB | CPU ISA 또는 kTLS NIC | kTLS는 대역폭 높을 때 유리 |
| IPsec VPN 터널 | 1.4 KB (MTU) | NIC offload | 패킷 수가 많아 CPU 부하 누적 |
| 디스크 I/O (4KB) | 4~128 KB | ICE 또는 CPU ISA | ICE 있으면 무조건 ICE 사용 |
| SSL/TLS 프록시 | 다양 | QAT / CCP | 수천 연결의 핸드셰이크 + 벌크 암호화 |
| 배치 파일 암호화 | MB~GB | QAT / CCP | CPU 코어를 다른 작업에 활용 |
일반적인 경험칙: (1) 스토리지 암호화는 ICE가 있으면 항상 ICE 사용, (2) 네트워크 암호화는 10G 이상에서 NIC offload 고려, (3) 그 외 대부분의 경우 AES-NI/ARM CE만으로 충분합니다. QAT/CCP 같은 PCI 가속기는 SSL 프록시나 VPN 게이트웨이처럼 암호화가 주 워크로드인 경우에 도입 효과가 큽니다.
종합 비교
| 특성 | CPU ISA | PCI 가속기 | NIC 인라인 | 스토리지 ICE |
|---|---|---|---|---|
| 지연 시간 | 최저 (~ns) | 중간 (~μs) | 낮음 | 없음 (HW) |
| 처리량 | ~10 GB/s/코어 | ~100 Gbps | 라인 레이트 | 라인 레이트 |
| CPU 부하 | 높음 | 없음 | 없음 | 없음 |
| 알고리즘 범위 | 모든 알고리즘 | 넓음 | 제한적 | AES-XTS |
| 추가 비용 | 없음 | 가속기 카드 | 지원 NIC | SoC 내장 |
| 설정 복잡도 | 자동 | 드라이버 설정 | NIC + xfrm | inlinecrypt 옵션 |
| 대표 사례 | dm-crypt, TLS | SSL 프록시 | IPsec 게이트웨이 | Android FBE |
SmartNIC/DPU 오프로드: NVIDIA BlueField, AMD Pensando 같은 DPU는 NIC 인라인 오프로드와 PCI 가속기의 특성을 결합합니다. IPsec packet offload + OVS 룰 처리를 DPU에서 수행하여 호스트 CPU를 완전히 해방할 수 있습니다. 상세는 SmartNIC/DPU 암호화 오프로드를 참고하세요.
실전 구현 패턴과 다양한 예시
앞 절에서는 Crypto API의 각 계층과 가속 메커니즘을 나누어 보았지만, 실제 커널 코드는 거의 항상 여러 층을 동시에 건드립니다. 같은 AES라도 어떤 경로는 sleep 가능한 process context에서 동작하고, 어떤 경로는 softirq에서 바로 들어오며, 어떤 경로는 DMA 가능한 scatterlist와 함께 hardware queue에 실려 나갑니다. 따라서 실전 구현에서는 알고리즘 이름보다도 문맥 제약, 객체 수명, 입출력 버퍼 레이아웃, fallback 경로, 에러 전파를 먼저 설계해야 합니다.
아래 예시들은 단순히 "이 함수는 이렇게 호출한다"를 넘어서, 실제 서브시스템 코드가 어떤 틀로 조립되는지 보여 주는 데 초점을 둡니다. 특히 기존 문서의 개별 API 예시를 보완하기 위해, 이번 섹션은 소비자 관점에서 자주 필요한 패턴을 묶어서 설명합니다.
| 패턴 | 핵심 API | 주로 쓰는 위치 | 핵심 포인트 |
|---|---|---|---|
| 동기 대기 래퍼 | DECLARE_CRYPTO_WAIT, crypto_wait_req() | fscrypt, 블록 계층, 제어 경로 | async 구현체도 같은 코드로 수용하되 sleep 가능한 문맥에서만 기다립니다. |
| 다중 버퍼 해시 | crypto_ahash, scatterlist | 네트워크 패킷, 파일 검증, firmware blob | 연속 버퍼로 memcpy하지 않고 조각 난 데이터를 바로 해시합니다. |
| AEAD 레코드 처리 | crypto_aead, aead_request_set_ad() | kTLS, IPsec ESP, 저장 포맷 | AAD, ciphertext, tag의 배치를 정확히 이해해야 합니다. |
| HMAC 기반 키 파생 | crypto_shash, hmac(sha256) | 세션 키 파생, 방향별 키 분리 | E2E 프로토콜은 보통 공유 비밀을 바로 쓰지 않고 다시 KDF에 통과시킵니다. |
| DRBG 직접 사용 | crypto_rng | FIPS 경계, 재현 가능한 테스트 | 일반 난수는 get_random_bytes(), 정책형 DRBG는 crypto_rng가 맞습니다. |
| 압축 오프로드 | crypto_comp, crypto_acomp | zswap, 압축 가속기, storage pipeline | 동기/비동기 압축 API가 별도로 존재합니다. |
| 서명 검증 파이프라인 | crypto_shash + crypto_sig | 모듈, 펌웨어, secure boot chain | 대부분의 서명 API는 메시지 본문이 아니라 digest를 입력으로 받습니다. |
| 하드웨어 큐 드라이버 | crypto_engine | SoC crypto 엔진, PCI 가속기 | 큐잉, IRQ 완료, request 수명 관리를 프레임워크에 위임합니다. |
비동기 구현을 동기처럼 다루는 skcipher 패턴
Crypto API의 많은 구현체는 내부적으로 비동기입니다. 하지만 상위 계층이 sleep 가능한 process context라면 굳이 콜백 기반 상태 머신으로 코드를 찢지 않고, DECLARE_CRYPTO_WAIT와 crypto_wait_req()로 "동기처럼" 다룰 수 있습니다. 이 패턴은 하드웨어 엔진이 있으면 비동기로 돌고, 없으면 generic 구현으로 즉시 끝나는 두 경우를 같은 코드로 수용한다는 점이 강점입니다.
#include <crypto/skcipher.h>
#include <linux/crypto.h>
#include <linux/scatterlist.h>
static int encrypt_ctr_two_segments(const u8 *key, unsigned int key_len,
const u8 iv[16],
const u8 *head, unsigned int head_len,
const u8 *body, unsigned int body_len,
u8 *out_head, u8 *out_body)
{
struct crypto_skcipher *tfm;
struct skcipher_request *req;
struct scatterlist src[2], dst[2];
u8 iv_local[16];
unsigned int total = head_len + body_len;
int ret;
DECLARE_CRYPTO_WAIT(wait);
tfm = crypto_alloc_skcipher("ctr(aes)", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
ret = crypto_skcipher_setkey(tfm, key, key_len);
if (ret)
goto out_free_tfm;
req = skcipher_request_alloc(tfm, GFP_KERNEL);
if (!req) {
ret = -ENOMEM;
goto out_free_tfm;
}
sg_init_table(src, 2);
sg_set_buf(&src[0], head, head_len);
sg_set_buf(&src[1], body, body_len);
sg_init_table(dst, 2);
sg_set_buf(&dst[0], out_head, head_len);
sg_set_buf(&dst[1], out_body, body_len);
memcpy(iv_local, iv, 16);
skcipher_request_set_callback(req,
CRYPTO_TFM_REQ_MAY_SLEEP | CRYPTO_TFM_REQ_MAY_BACKLOG,
crypto_req_done, &wait);
skcipher_request_set_crypt(req, src, dst, total, iv_local);
ret = crypto_wait_req(crypto_skcipher_encrypt(req), &wait);
memzero_explicit(iv_local, sizeof(iv_local));
skcipher_request_free(req);
out_free_tfm:
crypto_free_skcipher(tfm);
return ret;
}
| 포인트 | 왜 중요한가 | 실무 메모 |
|---|---|---|
crypto_wait_req() | 즉시 완료와 -EINPROGRESS/-EBUSY를 동일 경로로 수렴합니다. | sleep 가능한 문맥에서만 사용해야 하며, atomic/softirq 경로에서는 기다리면 안 됩니다. |
| IV 복사본 사용 | 운용 모드에 따라 IV를 워크 버퍼처럼 다루는 구현이 있어 원본 재사용이 위험합니다. | 요청마다 iv_local을 두고 완료 후 소거하는 습관이 안전합니다. |
| tfm은 장수 객체 | 키 확장과 fallback 준비는 비쌉니다. | socket/inode/queue 수명에 맞춰 캐시하고, 패킷마다 alloc/free 하지 않는 편이 좋습니다. |
| request는 in-flight 단위 | request 안에는 callback과 reqctx가 묶여 있으므로 동시에 두 작업에 재사용할 수 없습니다. | 동시 요청 수가 8개면 request도 최소 8개가 필요합니다. |
ctr(aes)가 설명하기 좋습니다.
같은 패턴을 xts(aes)에 적용하면 블록 계층, cbc(aes)에 적용하면 레거시 프로토콜 코드와 닮아집니다.
ahash와 멀티 세그먼트 scatterlist
shash는 작은 연속 버퍼에 가장 단순하지만, 실제 커널 데이터는 헤더와 payload, trailer가 제각각 다른 메모리 조각에 놓여 있는 경우가 많습니다. 이때 crypto_ahash는 scatterlist를 직접 받아 복사 없이 해시를 계산할 수 있고, DMA 기반 해시 엔진과도 자연스럽게 연결됩니다.
#include <crypto/hash.h>
#include <linux/crypto.h>
#include <linux/scatterlist.h>
static int calc_sha256_ahash_three_buffers(const u8 *hdr, unsigned int hdr_len,
const u8 *payload, unsigned int payload_len,
const u8 *tail, unsigned int tail_len,
u8 digest[32])
{
struct crypto_ahash *tfm;
struct ahash_request *req;
struct scatterlist sg[3];
unsigned int total = hdr_len + payload_len + tail_len;
int ret;
DECLARE_CRYPTO_WAIT(wait);
tfm = crypto_alloc_ahash("sha256", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
req = ahash_request_alloc(tfm, GFP_KERNEL);
if (!req) {
ret = -ENOMEM;
goto out_free_tfm;
}
sg_init_table(sg, 3);
sg_set_buf(&sg[0], hdr, hdr_len);
sg_set_buf(&sg[1], payload, payload_len);
sg_set_buf(&sg[2], tail, tail_len);
ahash_request_set_callback(req,
CRYPTO_TFM_REQ_MAY_SLEEP | CRYPTO_TFM_REQ_MAY_BACKLOG,
crypto_req_done, &wait);
ahash_request_set_crypt(req, sg, digest, total);
ret = crypto_wait_req(crypto_ahash_digest(req), &wait);
ahash_request_free(req);
out_free_tfm:
crypto_free_ahash(tfm);
return ret;
}
이 예시는 digest 단일 호출만 보여 주지만, 실전에서는 init/update/final 또는 finup 계열로 더 긴 스트림을 처리하기도 합니다. 예를 들어, 대형 펌웨어 이미지를 페이지 단위로 읽어 오면서 해시하려면 crypto_ahash_init() 후 페이지마다 crypto_ahash_update()를 호출하고, 마지막 조각에서 crypto_ahash_final()을 수행하는 식이 더 적합합니다.
| 선택 기준 | shash | ahash |
|---|---|---|
| 입력 버퍼 | 연속 버퍼 중심 | scatterlist 중심 |
| 문맥 | 즉시 계산이 쉬운 제어 경로 | DMA 엔진, 큰 파일, 네트워크 조각 버퍼 |
| 완료 모델 | 동기 | 동기 또는 비동기 |
| 전형적 사례 | 작은 키/메타데이터 HMAC | 패킷 본문, 페이지 캐시, 펌웨어 blob |
AEAD 레코드 처리: AAD, 암호문, 태그 배치
AEAD는 Crypto API에서 가장 자주 길이 계산을 틀리는 인터페이스입니다. 이유는 AAD 길이와 cryptlen이 서로 다른 의미를 갖기 때문입니다. aead_request_set_ad()는 AAD 길이를 별도로 주고, aead_request_set_crypt()의 cryptlen은 "암호화/복호화 대상 본문 길이"를 뜻합니다. 복호화 시에는 인증 태그까지 포함한 길이를 넘겨야 한다는 점도 실수 포인트입니다.
#include <crypto/aead.h>
#include <linux/crypto.h>
#include <linux/scatterlist.h>
static int gcm_encrypt_record_inplace(const u8 *key, unsigned int key_len,
const u8 *iv, unsigned int iv_len,
u8 *record, unsigned int aad_len,
unsigned int plaintext_len)
{
struct crypto_aead *tfm;
struct aead_request *req;
struct scatterlist sg;
u8 iv_local[16];
int ret;
DECLARE_CRYPTO_WAIT(wait);
tfm = crypto_alloc_aead("gcm(aes)", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
ret = crypto_aead_setkey(tfm, key, key_len);
if (ret)
goto out_free_tfm;
ret = crypto_aead_setauthsize(tfm, 16);
if (ret)
goto out_free_tfm;
req = aead_request_alloc(tfm, GFP_KERNEL);
if (!req) {
ret = -ENOMEM;
goto out_free_tfm;
}
if (iv_len != crypto_aead_ivsize(tfm)) {
ret = -EINVAL;
goto out_free_req;
}
memcpy(iv_local, iv, iv_len);
/* record 레이아웃: [AAD][plaintext][tag용 여유 16바이트] */
sg_init_one(&sg, record, aad_len + plaintext_len + 16);
aead_request_set_callback(req,
CRYPTO_TFM_REQ_MAY_SLEEP | CRYPTO_TFM_REQ_MAY_BACKLOG,
crypto_req_done, &wait);
aead_request_set_ad(req, aad_len);
aead_request_set_crypt(req, &sg, &sg, plaintext_len, iv_local);
ret = crypto_wait_req(crypto_aead_encrypt(req), &wait);
memzero_explicit(iv_local, sizeof(iv_local));
out_free_req:
aead_request_free(req);
out_free_tfm:
crypto_free_aead(tfm);
return ret;
}
| 단계 | 메모리 레이아웃 | cryptlen 값 | 주의점 |
|---|---|---|---|
| 암호화 입력 | AAD || plaintext | plaintext_len | AAD는 aead_request_set_ad()로 별도 지정합니다. |
| 암호화 출력 | AAD || ciphertext || tag | 동일 | dst 버퍼 끝에 tag 공간이 미리 있어야 합니다. |
| 복호화 입력 | AAD || ciphertext || tag | ciphertext_len + authsize | tag까지 포함한 길이를 넘겨야 합니다. |
| 복호화 출력 | AAD || plaintext | 동일 | 태그 검증 실패 시 -EBADMSG가 대표적 오류입니다. |
src와 dst를 다르게 쓴다면 dst의 앞부분 AAD를 호출자가 직접 복사해 놓아야 합니다.
그래서 실무에서는 in-place 레코드 처리가 구현도 단순하고 버그도 적습니다.
kTLS, IPsec ESP, 일부 저장 포맷이 모두 이 레이아웃 감각 위에 서 있습니다. "왜 내 tag 검증이 항상 실패하지?"라는 문제는 대개 assoclen, cryptlen, tag 길이 중 하나를 잘못 넣었을 때 발생합니다. 특히 복호화에서 ciphertext_len만 넣고 tag 길이를 빼먹는 실수가 매우 흔합니다.
HMAC과 키 파생: 공유 비밀을 바로 쓰지 않는 이유
커널 안에서 암호를 다루다 보면 "공유 비밀이 나왔으니 바로 AES 키로 써도 되는가?"라는 질문이 자주 나옵니다. 보통은 그렇지 않습니다. ECDH 결과나 장치 고유 비밀은 길이, 분포, 방향 분리 문제 때문에 곧바로 데이터 키로 쓰지 않고, HMAC 기반 KDF를 한 번 더 거칩니다. 아래 예시는 hmac(sha256) 하나만으로 HKDF와 비슷한 구조를 구현해 TX/RX 키를 분리하는 패턴입니다.
#include <crypto/hash.h>
#include <linux/slab.h>
#include <linux/string.h>
static int hmac_sha256_once(const u8 *key, unsigned int key_len,
const u8 *msg, unsigned int msg_len,
u8 out[32])
{
struct crypto_shash *tfm;
struct shash_desc *desc;
unsigned int dlen;
int ret;
tfm = crypto_alloc_shash("hmac(sha256)", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
dlen = sizeof(*desc) + crypto_shash_descsize(tfm);
desc = kmalloc(dlen, GFP_KERNEL);
if (!desc) {
crypto_free_shash(tfm);
return -ENOMEM;
}
desc->tfm = tfm;
ret = crypto_shash_setkey(tfm, key, key_len);
if (!ret)
ret = crypto_shash_digest(desc, msg, msg_len, out);
memzero_explicit(desc, dlen);
kfree(desc);
crypto_free_shash(tfm);
return ret;
}
static int derive_tx_rx_keys_from_secret(const u8 *salt, unsigned int salt_len,
const u8 *shared, unsigned int shared_len,
const u8 *info, unsigned int info_len,
u8 tx_key[32], u8 rx_key[32])
{
u8 prk[32];
u8 t[32];
u8 *block;
int ret;
block = kmalloc(32 + info_len + 1, GFP_KERNEL);
if (!block)
return -ENOMEM;
/* Extract: PRK = HMAC(salt, shared_secret) */
ret = hmac_sha256_once(salt, salt_len, shared, shared_len, prk);
if (ret)
goto out;
/* Expand block 1: T1 = HMAC(PRK, info || 0x01) */
memcpy(block, info, info_len);
block[info_len] = 1;
ret = hmac_sha256_once(prk, sizeof(prk), block, info_len + 1, t);
if (ret)
goto out;
memcpy(tx_key, t, 32);
/* Expand block 2: T2 = HMAC(PRK, T1 || info || 0x02) */
memcpy(block, t, 32);
memcpy(block + 32, info, info_len);
block[32 + info_len] = 2;
ret = hmac_sha256_once(prk, sizeof(prk),
block, 32 + info_len + 1, rx_key);
out:
memzero_explicit(prk, sizeof(prk));
memzero_explicit(t, sizeof(t));
memzero_explicit(block, 32 + info_len + 1);
kfree(block);
return ret;
}
| 단계 | 의미 | 보안상 이점 |
|---|---|---|
| Extract | shared secret를 HMAC로 한 번 정규화해 PRK를 만듭니다. | 편향된 입력이나 길이 차이를 정리하고 salt 정책을 적용할 수 있습니다. |
| Expand block 1 | info || 0x01로 첫 번째 방향 키를 만듭니다. | 동일한 공유 비밀에서 파생되더라도 TX/RX 역할을 분리할 수 있습니다. |
| Expand block 2 | T1 || info || 0x02로 두 번째 방향 키를 만듭니다. | 키 재사용을 피하고, 반대 방향 트래픽이 같은 키를 쓰지 않게 합니다. |
crypto_rng로 DRBG를 직접 다루는 패턴
커널에서 일반적인 난수는 거의 항상 get_random_bytes()가 정답입니다. 하지만 FIPS 경계 안에서 특정 DRBG를 명시적으로 선택해야 하거나, 시험 벡터 재현처럼 랜덤 생성기 종류를 통제해야 하는 상황에서는 crypto_rng가 필요합니다.
#include <crypto/rng.h>
#include <linux/random.h>
#include <linux/string.h>
static int fill_nonce_from_drbg(u8 *out, unsigned int out_len)
{
struct crypto_rng *drbg;
u8 seed[64];
int seed_len;
int ret;
drbg = crypto_alloc_rng("drbg_nopr_hmac_sha256", 0, 0);
if (IS_ERR(drbg))
return PTR_ERR(drbg);
seed_len = crypto_rng_seedsize(drbg);
if (seed_len < 0 || seed_len > sizeof(seed)) {
ret = -EOVERFLOW;
goto out_free_rng;
}
if (seed_len) {
get_random_bytes(seed, seed_len);
ret = crypto_rng_reset(drbg, seed, seed_len);
if (ret)
goto out_zero_seed;
}
ret = crypto_rng_get_bytes(drbg, out, out_len);
out_zero_seed:
memzero_explicit(seed, sizeof(seed));
out_free_rng:
crypto_free_rng(drbg);
return ret;
}
| 언제 쓰나 | 권장 API | 이유 |
|---|---|---|
| 일반 nonce, cookie, 임시 키 | get_random_bytes() | 커널 기본 CSPRNG를 가장 단순하고 안전하게 사용합니다. |
| 특정 DRBG 정책 강제 | crypto_alloc_rng() | 알고리즘 이름과 seed 정책을 명시할 수 있습니다. |
| 자가 테스트/재현 실험 | crypto_rng_reset() | 같은 seed로 같은 경로를 반복 검증하기 쉽습니다. |
get_random_bytes()로 seed를 받아 DRBG를 초기화하는 것이 보통이며, seed와 내부 상태는 가능한 한 빨리 소거해야 합니다.
압축 API: crypto_comp와 crypto_acomp
Crypto Framework는 암호화뿐 아니라 압축도 함께 다룹니다. 이유는 커널 관점에서 "가속 가능한 데이터 변환"이라는 공통점이 크기 때문입니다. 특히 SoC 압축 엔진이나 PCI 가속기를 붙이는 드라이버는 암호화와 동일한 방식으로 algorithm 등록, request 큐잉, callback 완료를 구현합니다.
#include <linux/crypto.h>
#include <crypto/acompress.h>
#include <linux/scatterlist.h>
static int compress_lz4_sync(const u8 *src, unsigned int src_len,
u8 *dst, unsigned int *dst_len)
{
struct crypto_comp *tfm;
int ret;
tfm = crypto_alloc_comp("lz4", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
ret = crypto_comp_compress(tfm, src, src_len, dst, dst_len);
crypto_free_comp(tfm);
return ret;
}
static int compress_deflate_async(struct scatterlist *src,
struct scatterlist *dst,
unsigned int src_len,
unsigned int *dst_len)
{
struct crypto_acomp *tfm;
struct acomp_req *req;
int ret;
DECLARE_CRYPTO_WAIT(wait);
tfm = crypto_alloc_acomp("deflate", 0, 0);
if (IS_ERR(tfm))
return PTR_ERR(tfm);
req = acomp_request_alloc(tfm);
if (!req) {
ret = -ENOMEM;
goto out_free_tfm;
}
acomp_request_set_callback(req,
CRYPTO_TFM_REQ_MAY_SLEEP | CRYPTO_TFM_REQ_MAY_BACKLOG,
crypto_req_done, &wait);
acomp_request_set_params(req, src, dst, src_len, *dst_len);
ret = crypto_wait_req(crypto_acomp_compress(req), &wait);
if (!ret)
*dst_len = req->dlen;
acomp_request_free(req);
out_free_tfm:
crypto_free_acomp(tfm);
return ret;
}
| 구분 | 특징 | 어울리는 상황 |
|---|---|---|
crypto_comp | 동기, 연속 버퍼 기반 | 짧은 제어 경로, 작은 메타데이터, 간단한 소프트웨어 압축 |
crypto_acomp | 비동기, SG 기반, callback 가능 | DMA 압축 엔진, 긴 데이터 스트림, 하드웨어 offload |
압축 API를 굳이 Crypto Framework에 넣은 이유도 여기서 드러납니다. 상위 계층 입장에서는 "데이터 조각을 SG로 넘기고, 나중에 완료를 통지받는 변환 작업"이라는 점에서 암호화와 구조가 거의 같습니다. 그래서 storage stack이나 net stack이 암호 엔진과 압축 엔진을 비슷한 틀로 감쌀 수 있습니다.
펌웨어 검증 파이프라인: hash와 sig를 분리해서 조립
실제 검증 코드는 대개 "메시지 본문을 해시"한 뒤, 그 digest를 "서명 API로 검증"합니다. Crypto API의 crypto_sig는 이 경계를 분명히 드러내기 때문에, 검증 로직을 구현할 때도 해시 단계와 서명 단계가 자연스럽게 분리됩니다.
#include <crypto/hash.h>
#include <crypto/sig.h>
#include <linux/string.h>
static int verify_firmware_blob(const u8 *image, unsigned int image_len,
const u8 *sig, unsigned int sig_len,
const u8 *pubkey_der, unsigned int pubkey_der_len)
{
struct crypto_sig *tfm;
u8 digest[32];
int ret;
ret = calc_sha256(image, image_len, digest);
if (ret)
return ret;
tfm = crypto_alloc_sig("ecdsa", 0, 0);
if (IS_ERR(tfm)) {
memzero_explicit(digest, sizeof(digest));
return PTR_ERR(tfm);
}
ret = crypto_sig_set_pubkey(tfm, pubkey_der, pubkey_der_len);
if (!ret)
ret = crypto_sig_verify(tfm, sig, sig_len, digest, sizeof(digest));
memzero_explicit(digest, sizeof(digest));
crypto_free_sig(tfm);
return ret;
}
| 단계 | 역할 | 실수 포인트 |
|---|---|---|
| 해시 | 본문을 고정 길이 digest로 축약합니다. | 서명 알고리즘과 해시 정책을 상위 포맷에서 어떻게 선언하는지 놓치기 쉽습니다. |
| 공개키 설정 | DER/BER 인코딩된 공개키를 tfm에 적재합니다. | 키 인코딩 형식이 맞지 않으면 알고리즘 자체는 정상이어도 검증이 실패합니다. |
| 서명 검증 | digest와 서명값을 비교합니다. | 본문 전체를 넣는 것이 아니라 digest를 넣는 API라는 점을 자주 혼동합니다. |
crypto_engine 기반 하드웨어 큐 드라이버 패턴
가속기 드라이버를 직접 작성할 때 가장 흔한 함정은 "요청 큐, 락, IRQ 완료, backlog 깨우기"를 전부 손으로 구현하려다가 request 수명 버그를 만드는 것입니다. 이때 crypto_engine은 Crypto API request를 디바이스 큐에 안전하게 넘기고, 완료 시 상위 계층으로 되돌리는 공통 뼈대를 제공합니다.
#include <crypto/engine.h>
#include <crypto/skcipher.h>
struct my_dev {
struct skcipher_request *active_req;
};
struct my_tfm_ctx {
struct crypto_engine *engine;
struct my_dev *dd;
};
static int my_engine_do_one_request(struct crypto_engine *engine, void *areq)
{
struct crypto_async_request *base = areq;
struct skcipher_request *req =
container_of(base, struct skcipher_request, base);
struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
struct my_tfm_ctx *ctx = crypto_skcipher_ctx(tfm);
(void)engine;
ctx->dd->active_req = req;
/* 여기서 SG를 DMA 매핑하고, 레지스터를 적재한 뒤 HW 시작 */
/* 예시는 설명을 위해 단일 active request만 추적합니다. */
/* 완료는 IRQ에서 crypto_finalize_skcipher_request()로 통지 */
return -EINPROGRESS;
}
static int my_skcipher_encrypt(struct skcipher_request *req)
{
struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
struct my_tfm_ctx *ctx = crypto_skcipher_ctx(tfm);
return crypto_transfer_skcipher_request_to_engine(ctx->engine, req);
}
static irqreturn_t my_irq(int irq, void *data)
{
struct my_dev *dd = data;
struct my_tfm_ctx *ctx;
int err = my_hw_status(dd);
ctx = crypto_skcipher_ctx(crypto_skcipher_reqtfm(dd->active_req));
/* DMA unmap, 상태 비트 정리 후 상위 요청 완료 통지 */
crypto_finalize_skcipher_request(ctx->engine, dd->active_req, err);
dd->active_req = NULL;
return IRQ_HANDLED;
}
| 역할 | 핵심 함수 | 설명 |
|---|---|---|
| 요청 큐 입력 | crypto_transfer_skcipher_request_to_engine() | 상위 request를 엔진 큐에 넣고 backlog/순서를 관리합니다. |
| 하드웨어 시작 | do_one_request 콜백 | 드라이버가 DMA 매핑, 레지스터 설정, HW kick을 수행합니다. |
| 완료 통지 | crypto_finalize_skcipher_request() | IRQ/bottom-half에서 상위 Crypto API request를 깨웁니다. |
| 엔진 수명 | crypto_engine_alloc_init(), crypto_engine_start() | probe/remove 수명과 같이 관리합니다. |
prepare_cipher_request/unprepare_cipher_request, runtime PM, DMA 오류 복구까지 함께 다룹니다.
핵심은 request 자체를 상위 API가 소유하고, 드라이버는 그 request를 "빌려서" HW에 태우는 구조라는 점입니다. 따라서 드라이버는 request를 복제하려 들기보다, reqctx에 DMA 매핑 상태나 디스크립터 포인터만 저장하고 완료 후 정리하는 방식이 맞습니다. cra_ctxsize가 tfm 단위 상태라면, crypto_skcipher_set_reqsize()로 잡는 공간은 in-flight 작업 단위 상태입니다.
구현 시 자주 틀리는 지점
알고리즘 선택은 맞는데 실제 동작이 깨지는 경우, 아래 항목 중 하나에 걸린 경우가 많습니다. 이 표는 Crypto API를 소비하는 코드 관점의 체크리스트입니다. 앞서 나온 "알고리즘 구현 체크리스트"와는 성격이 다릅니다.
| 실수 | 왜 문제인가 | 수정 방향 |
|---|---|---|
| 패킷마다 tfm alloc/free | 키 스케줄, module ref, priority lookup 오버헤드가 누적됩니다. | 연결, inode, queue, state 객체에 tfm을 매달아 장기간 재사용합니다. |
| 한 request를 동시 재사용 | callback/data/reqctx가 뒤섞여 UAF 또는 데이터 오염이 납니다. | in-flight 요청 수만큼 request를 분리하거나 per-CPU 풀을 둡니다. |
atomic 문맥에서 crypto_wait_req() 사용 | 잠들 수 없는 경로에서 completion 대기를 걸어 deadlock 또는 경고가 납니다. | atomic 경로는 진짜 비동기 콜백으로 처리하거나 cryptd 전용 경로를 씁니다. |
| AEAD tag 공간 미확보 | 암호문 뒤 tag를 쓸 곳이 없어 메모리 파손이 납니다. | 암호화 출력 버퍼는 항상 plaintext + authsize 이상 확보합니다. |
AEAD에서 assoclen/cryptlen 혼동 | 태그 검증 실패가 나도 겉보기엔 키나 IV 문제처럼 보입니다. | 복호화에서는 cryptlen = ciphertext_len + authsize임을 기억합니다. |
| SG 조각을 억지로 memcpy해서 연속 버퍼화 | 캐시 낭비와 추가 복사가 생기고 DMA offload 이점이 줄어듭니다. | ahash, skcipher, aead의 SG 인터페이스를 그대로 활용합니다. |
키/IV/PRK를 일반 kfree()만 하고 끝냄 | 민감 값이 메모리에 남아 추후 관찰될 수 있습니다. | memzero_explicit(), kfree_sensitive() 계열로 정리합니다. |
| 드라이버 이름을 하드코딩해 강제 바인딩 | 특정 CPU/보드에서만 동작하고 fallback이 깨질 수 있습니다. | 가급적 정규 이름(gcm(aes), sha256)을 사용하고, 디버깅 때만 드라이버 이름을 강제합니다. |
| fallback 경로 미검증 | HW 없는 장비나 softirq 경로에서만 터지는 버그가 숨어 있습니다. | generic 구현, cryptd 경로, HW 가속 경로를 각각 나눠 테스트합니다. |
/proc/crypto를 안 보고 체감으로만 판단 | 실제로 어떤 구현이 선택됐는지 모르고 성능/오류를 추정하게 됩니다. | name, driver, priority, async, selftest를 항상 같이 확인합니다. |
관련 문서
Crypto Framework (Crypto API)와 관련된 다른 주제를 더 깊이 이해하고 싶다면 다음 문서를 참고하세요.