[Research] “Gotta Detect 'Em All: Fake Base Station and Multi-Step Attack Detection in Cellular Networks” Paper Review (KR)
안녕하세요! clalxk 입니다.
바쁜 연말을 보내고(2개의 학교…)있어서 논문 리뷰 글로 돌아왔습니다.. 하하..
이번 글에서는 셀룰러 네트워크에서 여전히 현실적인 위협으로 남아있는 가짜 기지국(Fake Base Station, FBS) 과, 이를 발판으로 수행되는 Multi-Step Attack, MSA을 단말(UE) 측에서 탐지하는 논문을 리뷰해보겠습니다. 해당 논문은 Usenix Security 2025A에서 발표되었습니다.(링크)
논문은 FBSDetector 라는 ML 기반 탐지 프레임워크를 제안하고, FBS와 multi-step attack(MSA)의 심각한 보안 위협에 대응하기 위해 UE(User Equipment)에서 Layer-3 network traces를 활용하는 ML 기반 탐지 솔루션에 대한 내용을 서술하고 있습니다. 이 솔루션은 POWDER를 통해 실제 시나리오를 반영하여 구축된 최초의 대규모 고품질 FBSAD 및 MSAD datasets를 기반으로 FBS 탐지를 위한 stateful LSTM with attention과 MSA 인식을 위한 graph learning을 통합합니다. FBSDetector는 FBS에 대해 96%의 정확도와 2.96%의 낮은 false positive rate, MSA에 대해 86%의 정확도와 3.28%의 false positive rate를 달성하며, 모바일 앱으로 배포되어 낮은 오버헤드로 실제 환경에서 검증되었습니다.
Background
셀룰러 네트워크 공격 중에서 FBS(불법/rogue 기지국)가 무서운 이유는 간단합니다. 정상 기지국인 척(사칭) 해서 UE를 끌어오고, 그 이후에 다양한 공격(DoS, 다운그레이드, 위치추적 등)을 “프로토콜 절차”처럼 보이게 섞어버릴 수 있기 때문입니다.
FBS가 제기하는 위협은 새로운 것이 아니며 오랫동안 존재해 왔지만, 전 세계 공격자들에 의해 여전히 광범위하게 사용되고 있습니다.
- 표준/사양 레벨 방어는 느림: 새로운 방어가 표준에 들어가고, 칩셋/단말/망에 전파되기까지 시간이 오래 걸립니다.
- 전 세계에 이미 취약한 단말이 너무 많음: 교체 비용도 현실적으로 불가능하죠.
- 기존 탐지의 한계
- 휴리스틱/시그니처 기반은 적응형 공격자(필드 살짝 바꾸거나 순서 바꾸는…?)에게 약함
- 크라우드소싱/외부 하드웨어 의존은 대규모 배포가 어렵거나 비용이 큼
- 하위 계층(물리/무선)만 보는 방식은 정교한 FBS 및 MSA까지 커버하기 어려움
논문은 여기서 한 발 더 들어가서, “5G라서 안전해졌다”로 정리하기 어렵다는 점도 강조합니다. 4G에서는 IMSI가 암호화되지 않은 형태로 쓰였지만, 5G에서도 FBS가 공격에 활용될 여지가 있고, 최근 제안되는 인증서/서명 기반 방어는 오버헤드와 사양 변경뿐 아니라 로밍 환경에서의 키 공유 문제까지 동반합니다.
또한 Google/Apple이 FBS를 무력화하기 위한 새로운 접근을 채택했지만, 그 범위 밖에서는 여전히 지식이 풍부하고 장비를 갖춘 공격자가 활동할 수 있기 때문에 “탐지” 자체가 필요하다는 논지입니다.
그래서 이 논문은 “그럼 UE가 이미 보고 있는 Layer-3 트레이스(NAS/RRC) 만으로, 단말에서 저비용으로 잡아보자”는 쪽으로 갑니다.
NAS: UE ↔︎ 코어(EPC) 간 제어평면 프로토콜RRC: UE ↔︎ 기지국(eNodeB) 간 제어평면 프로토콜MSA: FBS를 발판으로 여러 절차/메시지를 엮어서 최종 목적(DoS/추적/다운그레이드 등)을 달성하는 공격
Methodology
0. System Overview
전체 흐름은 “(1) 데이터셋 만들기 → (2) 2단계 FBS 탐지 → (3) 그래프 기반 MSA 인식 → (4) NAS/RRC 예측 결합 → (5) 앱 배포”입니다.

Figure 2: FBSDetector 전체 아키텍처
그림 2: 데이터셋 구축/ML 프레임워크/배포까지 포함한 FBSDetector 개요
1. Threat Model & Scope
논문에서 가정하는 공격자 모델은 다음과 같이 정리할 수 있습니다.
- 합법 BS를 사칭해서 더 강한 신호로 UE의 재선택을 유도
- 공개 채널 도청으로 합법 값들을 학습/모방 가능
- 암호 자체를 깨거나 SIM/코어/BS 장비를 물리적으로 변조하는 급은 아님
- 대신 탐지를 피하려고 파라미터를 빠르게 바꾸거나, 전송전력 조정, 난독화 같은 건 가능
배포 범위는 4G(LTE) 중심입니다. 이유는 (1) 현실에서 4G가 아직 넓게 깔려 있고, (2) 데이터셋을 만들기 위한 실험 인프라(POWDER)가 4G 실험을 잘 지원하기 때문입니다.
논문이 정리한 “설계 과제”를 요약하면 다음 다섯 가지로 정리됩니다.
- 데이터셋 가용성/품질(C1): 합법 BS/FBS/MSA를 포함하는 실제 수준 데이터 확보가 어렵다
- 패킷 트레이스에서의 FBS 탐지(C2): 동일한 메시지도 맥락에 따라 정상/악성일 수 있다
- MSA 인식(C3): 다단계 패턴은 복잡하고 진화한다
- NAS/RRC 예측 결합(C4): 계층별 모델을 어떻게 하나의 판단으로 묶을 것인가
- 실시간 탐지(C5): 온디바이스에서 빠르게 캡처/처리/추론까지 가능해야 한다
2. TAU Reject (FBS 기반 MSA)
논문에서 설명하는 대표 공격 중 하나가 TAU Reject 입니다. “절차 메시지”처럼 보이지만, 결과적으로 UE를 서비스 불가 상태로 몰고 가거나 다운그레이드 등을 유발할 수 있습니다.
핵심은 다음과 같습니다.
- FBS가 강한 신호와 재선택 우선순위를 이용해 UE를 끌어옵니다.
- UE가 새 TA를 감지한 것처럼 보이게 하려면 FBS가 다른 TAC로 동작합니다.
- UE가 TAU를 요청하면, FBS가 TrackingAreaUpdateReject를 보내서 목적을 달성합니다.

Figure 1: TAU Reject 공격 플로우
그림 1: TAU Reject 공격 흐름 (UE를 FBS로 유인 → TAU 절차에서 Reject 주입 → 연결/서비스에 영향)
3. Dataset: FBSAD / MSAD (POWDER 기반)
이 논문의 강점 중 하나는 데이터셋을 실제 환경에 가깝게 구성했다는 점입니다. 공공장소에서 FBS 실험은 불법이기 때문에, 논문은 POWDER 테스트베드에서 실제 OTA 패킷 기반으로 데이터셋을 구축합니다.
- FBSAD: FBS 탐지용
- MSAD: 21개 MSA 인식용
- 총 9.2GB(원본 기준), 이동성/공격자 능력 레벨(0~4) 등을 포함
공격자 능력 레벨도 꽤 구체적입니다.
- 0단계: “높은 신호 강도로 단순 운영”
- 1단계: “핸드오버/재선택 유도하기 딱 좋은 세기로”
- 2단계: 합법 BS 매개변수들(셀ID, MCC/MNC, TAC, PCI, RF 파라미터, SSB/TA 등)까지 복제
- 3단계: 2단계 기반으로 일반적인 MSA 수행
- 4단계: 탐지 우회 목적의 필드 변경/시간 순서 변경 등 적응형 재구성
3-1. 데이터 생성(POWDER에서 무엇을 했는가)
논문은 POWDER에서 합법적인 BS/FBS 및 MSA를 통합한 셀룰러 네트워크를 구성하고, 모든 셀룰러 네트워크 구성 요소에서 패킷을 캡처하는 방식으로 트레이스를 수집합니다. 이동성(UE가 이동하며 핸드오버가 일어나는 상황)을 데이터셋에 포함시키는 이유도 분명하게 설명하는데, 이를 포함하지 않으면 정상 핸드오버가 악성으로 오인될 수 있기 때문입니다.
구현 관점에서는 코어 네트워크로 Open5GS, UE/BS 스택으로 srsRAN과 OpenAirInterface(OAI) 를 함께 사용해 특정 구현 편향을 줄이려는 시도를 합니다.
3-2. 전처리(프로토콜 필터링과 특징)
트레이스의 각 패킷에는 여러 프로토콜 정보가 섞여 있기 때문에, 논문은 NAS/RRC만 남기도록 프로토콜 필터링을 수행하고, 그 뒤에 관련 필드 값을 추출합니다.
- NAS 계층: 119개 필드
- RRC 계층: 183개 필드
이 필드들이 모델 학습에서의 입력 특징으로 사용됩니다.
3-3. 레이블링(정상/악성, 그리고 공격 종류)
레이블링은 “패킷이 왜 생성됐는가”를 기준으로 진행합니다.
- FBSAD(이진 레이블): 정상 패킷이면 0, FBS에서 생성된 패킷이면 1
- MSAD(멀티클래스 레이블): 정상 패킷은 0, 공격 (
attack_j) 로 생성된 패킷은LA[attack_j]로 라벨링
NAS 패킷은 수가 적어 각 패킷을 확인하며 수동 레이블링했고(논문은 약 2시간 수준의 일회성 작업), RRC 패킷은 NAS 트레이스에서 공격 구간을 탐지한 뒤 그 구간을 기준으로 자동 스크립트로 배치 레이블링합니다.
4. FBS 탐지: 2단계(패킷 → 트레이스)
논문의 직관이 좋았던 부분은 “패킷이 악성이라기보다, 패킷이 등장한 맥락(전후 문맥/시퀀스) 이 악성일 때가 많다”는 점을 반영했다는 겁니다.
그래서 FBS 탐지는 2단계로 갑니다.
- 패킷 수준 분류
- 각 패킷을 정상/의심으로 분류
- Stateful LSTM + Attention 구조를 병렬로 두고 결합해 예측
- 트레이스 수준 분류
- 패킷 시퀀스의 순서/패턴을 보고 “이 트레이스가 FBS 세션인가?”를 최종 판단
- 패킷 하나만 악성으로 찍으면 트레이스 전체를 악성 처리하는 단순 휴리스틱을 피함
논문 설명을 조금 더 붙이면, 패킷 수준 모델은 stateful LSTM에서 배치 간 상태를 유지해 장기 의존성을 보존하고, attention은 시퀀스 중 분류에 결정적인 부분에 가중치를 두어 학습합니다. 두 출력을 병렬로 뽑아 결합(concat/merge)하고 dense 레이어를 통해 최종 클래스를 예측하는 구조입니다.
특히 시퀀스 길이에 따라 성능이 달라지는 분석이 흥미로웠습니다(그리고 실제로 모델 튜닝할 때 제일 많이 헤매는 부분이기도 하고요).

Figure 6: 시퀀스 길이 분포 및 성능
그림 6: NAS는 9~15, RRC는 80~120 시퀀스 길이에서 성능이 좋아지는 경향
5. MSA 인식: 그래프로 “패턴”을 학습하기
MSA는 “메시지 몇 개”가 아니라, 절차가 엮인 패턴에 가깝습니다. 논문은 이를 그래프로 표현합니다.
- 노드: 메시지 타입(예: NAS면
nas_eps_nas_msg_emm_type_value, RRC면lterrc_c1_showname)의 고유 값 - 엣지: 다음 메시지로의 전환(방향성), 그리고 그 전환이 정상/공격인지 레이블
이렇게 만든 그래프에서 GraphSAGE가 가장 좋은 성능이라 해당 모델을 사용합니다.

Figure 3: MSA 탐지를 위한 그래프 표현 예시
그림 3: TAU Reject와 같은 공격이 “경로 패턴”으로 나타나고, 결국 이 패턴을 학습해서 MSA를 인식하게 됩니다. 그리고 “공격이 진화하면?” 문제를 위해 최대 중첩 부분 그래프 같은 아이디어로 “완전히 새 경로가 아니라 일부는 겹친다”는 점을 이용해 탐지하겠다는 방향을 제시합니다.
논문은 이를 좀 더 형식적으로도 설명합니다. 패킷으로 만든 그래프를 (G=(V,E)) 라고 하면, 알려진 공격은 그래프 안에서 특정 경로 (P(G)) 로 나타나고, 진화/재구성된 공격은 다른 경로 (P’(G)) 로 나타날 수 있습니다. 다만 취약점/절차 특성상 완전히 분리된 경로가 아니라 일부가 겹칠 가능성이 높고, 이 “겹침”을 이용해 알려지지 않은 공격도 탐지하겠다는 직관입니다.
6. NAS/RRC 예측 결합 (가중치 기반 융합)
NAS와 RRC는 각각 특징이 다르니 모델을 따로 학습시키고, 마지막에 가중치 기반으로 예측을 융합합니다. (논문은 Dempster–Shafer 이론을 언급하며, 더 신뢰도 높은 쪽에 가중치를 주는 방식으로 설명합니다.)
실험적으로도 NAS+RRC 예측 결합이 1~2% 정도 성능을 올려줬다고 합니다.
7. Deployment: 모바일 앱으로 배포
실험에서만 끝나지 않고, 앱으로 배포해서 오버헤드까지 보았습니다.
- MobileInsight: 베이스밴드 트레이스 파싱
- TensorFlow Lite: 온디바이스 추론
- Flutter: 앱 UI
루팅 요구사항 등 현실적인 장벽도 같이 언급합니다. 또한 실제 배포를 가정하면 새로운 공격을 반영하기 위해 모델을 주기적으로 재학습하고, 앱 업데이트로 빠르게 배포하는 운영 형태를 예상합니다. NAS/RRC 트레이스가 민감할 수 있으므로 데이터 수집은 사용자 동의 기반으로 활성화돼야 한다는 점도 함께 다룹니다.
Performance Analysis
핵심 결과만 먼저 요약해보면 다음과 같습니다.
- FBS 탐지: 정확도 96%, FPR 2.96%
- MSA 인식(21개): 정확도 86%, FPR 3.28%
- NAS/RRC 결합으로 성능 1~2% 향상
- Overshadowing 공격에 대해서도 제로샷 탐지 정확도 86%를 보고했습니다
오버헤드는 다음 그림이 핵심입니다.

Figure 4: 오버헤드 분석
그림 4: 패킷 수 증가에 따라 시간/전력/메모리 사용이 선형 증가하지만 기울기가 작아 실사용 가능성을 보여줌
논문은 정량적으로 평균 835KB 메모리, 2mW 미만 전력 수준에서 동작한다고도 제시합니다(기존 접근의 4mW 수준과 비교해 낮은 편).
그리고 MSA에서 FP 기여도가 높은 공격 유형들이 따로 있고(UE 관점에서 정상과 거의 구분이 안 되는 케이스들), 그 분석을 그림으로 보여줍니다.

Figure 5: MSA 탐지에서의 False Positive 분석
그림 5: 특정 공격 유형들이 FP에 크게 기여 → “UE 관점에서 정상과 같아 보이는” 게 근본 원인
실제 앱 검증(통제된 실험실 환경)도 비교적 강도 높게 수행합니다.

Figure 8: 실험 환경 설정
그림 8: USRP B210, 노트북(코어), 스마트폰(앱) 구성으로 통제 환경에서 실험
실험 시나리오는 자체 SIM 기반 실험실 4G 네트워크/상용 SIM(예: Google Fi)/거리 변화/제한적 이동성 등을 포함합니다. 24시간 스트레스 테스트에서는 21개 공격을 각각 5회씩 수행해 총 105회 공격을 실행했고, 장기 테스트에서는 7일 동안 다양한 사용 패턴에서 앱을 실행하며 패킷이 누적되는 환경을 관찰합니다.
또한 기존 앱 기반 탐지 솔루션(AIMSICD, SnoopSnitch)과 비교 실험을 수행했는데, 동일한 제어 환경에서 두 솔루션은 FBS를 탐지하지 못했지만 FBSDetector는 탐지했다고 서술합니다.
Conclusion
FBSDetector를 한 문장으로 요약하면, 아래와 같은 방향의 “UE 측 탐지 프레임워크”라고 볼 수 있습니다.
- Layer-3(NAS/RRC) 트레이스만으로
- 단말(UE)에서
- FBS 탐지 + MSA 인식을
- 비교적 낮은 오버헤드로 수행하는 실용적 프레임워크입니다.
이를 풀어 정리하자면, FBSDetector는 Layer 3 네트워크 트레이스를 활용하는 ML 기반 FBS 및 MSA 탐지 시스템입니다. 대규모 실제 데이터셋(FBSAD, MSAD)을 구축하고, Stateful LSTM with Attention 및 Graph Learning과 같은 고급 ML 모델을 활용하여 높은 탐지 정확도와 낮은 오버헤드를 달성했습니다. 향후 연구에서는 FBSDetector를 5G 네트워크로 포팅하고, 오버섀도우 공격(overshadow attacks) 탐지를 지원하며, ORAN 환경에서의 FBS 탐지 및 공격 방어 메커니즘 통합에 집중할 예정이라고 합니다. 5G 네트워크로 포팅하는 과정과 탐지 할 수 있는 범위를 확장해나가는 것에 기대가 되네요.
마치며
개인적으로는 FBS 탐지 자체보다도, MSA를 그래프로 모델링해서 패턴으로 학습하려는 시도가 재밌었습니다.
물론 한계도 명확합니다.
- 루팅/권한/단말 제약(특히 iOS 계열)은 여전히 큰 배포 장벽
- UE 관점에서 정상과 공격이 “동일하게 보이는” 공격은 본질적으로 어려움(FP/FN)
- 5G/다른 환경으로 확장하려면 실험 인프라와 데이터셋 문제가 다시 등장
번역본에서 인상적이었던 부분은 “오탐/미탐의 의미”를 꽤 현실적으로 다룬다는 점이었습니다. FBS 자체가 흔한 사건이 아니다 보니, 실제 배포에서는 FP가 조금만 높아도 사용성이 크게 떨어질 수 있습니다. 논문도 그 점을 전제로, 현재 단계에서는 대중 전체보다는 보안 우선 환경/민감 사용자군에서 특히 유용하다는 식으로 해석할 여지를 남깁니다.
그래도 흥미롭게 읽었습니다! 다음에도 흥미로운 셀룰러 네트워크 관련 논문이 있다면 리뷰 글로 돌아오겠습니다~~
본 글은 CC BY-SA 4.0 라이선스로 배포됩니다. 공유 또는 변경 시 반드시 출처를 남겨주시기 바랍니다.