프로젝트

[졸업 프로젝트] Starlink Website Fingerprinting 연구 마무리 보고

곽곽 2025. 5. 19. 17:41

이전 포스팅

- [졸업 프로젝트] 프로젝트 첫 발자취 2: 모델 설계

- [졸업 프로젝트] 프로젝트 첫 발자취 1: Starlink & Website Fingerprinting


2024년 2학기부터 1년 동안 진행해 온 졸업 프로젝트를 마무리하며, 본 연구에서 저희가 진행한 실험과 결과를 정리해보았습니다.

이번 프로젝트의 목표는, 라우터에서 수집되는 트래픽 정보로부터 사용자의 웹 방문 이력을 추론하는 Website Fingerprinting(WF) 기법을 위성 인터넷 Starlink 환경에 적용하여, 해당 네트워크가 가지는 잠재적인 보안 위협을 분석하는 것이었습니다.

연구는 다음과 같은 네 단계로 구성되어 있습니다:

  1. Starlink vs 유선 인터넷 트래픽 분석
  2. 주요 피쳐(feature) 설계 및 검토
  3. 딥러닝 기반 모델 설계
  4. 성능 실험 및 분석

프로젝트 전체 코드와 실험 결과는 GitHub에서 확인하실 수 있습니다:  

 

GitHub - Capstone-RexT/starprint: 2024~2025 이화여자대학교 캡스톤디자인및창업프로젝트 16조

2024~2025 이화여자대학교 캡스톤디자인및창업프로젝트 16조. Contribute to Capstone-RexT/starprint development by creating an account on GitHub.

github.com

 


(1) Starlink와 일반 유선 인터넷의 트래픽 분석

Starlink는 약 500km 상공의 저궤도 위성을 통해 신호를 주고받는 구조로, 전통적인 유선(Fiber)망과는 전송 방식이 근본적으로 다릅니다.
이러한 구조적 차이로 인해 Starlink는 지연(latency)이 크고, 패킷 재전송 및 핸드오프가 잦으며, 트래픽 변동성이 매우 큰 특징을 보입니다.

이를 실제로 분석하기 위해, PCA 및 HDBSCAN 기반 시각화 기법을 활용하여 각 네트워크의 트래픽 분포를 비교하였습니다.

왼쪽: 기존 유선 인터넷 트래픽, 오른쪽: Starlink 트래픽

위의 그림은 같은 클래스(같은 웹사이트)의 트래픽들을 HDBSCAN으로 시각화한 모습입니다. 그 결과 유선망 트래픽은 같은 웹사이트 내에서도 비교적 응집된 패턴을 보인 반면, Starlink는 동일 클래스 내에서도 데이터가 넓게 분산되는 특성을 확인할 수 있었습니다. 이는 Starlink 환경에서는 같은 웹사이트의 트래픽이라 하더라도 편차가 크고, 이러한 특성이 모델 학습에 부정적인 영향을 줄 수 있음을 시사합니다.


(2) 새로운 피쳐, Quant IPD

기존 WF 분야에서는 패킷의 타임스탬프, 크기, 방향, 그리고 패킷 간 시간 간격(IPD) 등을 주로 사용해왔습니다.

하지만 baseline 모델로 실험한 결과, 이들 피쳐만으로는 Starlink 환경에서 충분한 성능을 얻기 어려웠습니다. 이러한 점으로부터, 저희는 새로운 피쳐의 설계의 필요성을 느끼게 되었습니다.

앞 단계에서 보였던 데이터 시각화 분석 결과, IPD는 다른 피쳐에 비해 상대적으로 클래스 간 분산이 작고 안정적인 특징을 가지고 있었습니다. 이 점에 착안해, 저희는 IPD에 Quantile Transformer를 적용하여 정규화한 새로운 피쳐인 Quant IPD를 도입하였습니다. 이 방식은 이상치의 영향을 줄이고, 모델이 Starlink의 변동성 있는 트래픽을 보다 안정적으로 학습할 수 있도록 도와주었습니다.


(3) 모델 설계

모델 설계 단계에서는 다양한 구조를 실험했습니다. Tree 기반 모델, VGG-16, ResNet, RNN, LSTM 등 여러 모델을 적용해본 결과, CNN 기반 구조는 기존 baseline과 큰 차이를 보이지 않았고, RNN이나 LSTM 계열은 10% 이하의 낮은 정확도를 기록했습니다.

반면 Transformer 기반 구조는 약 50% 이상의 정확도를 보이며 성능 면에서 가장 우수한 결과를 보여주었습니다.

이러한 결과를 두고, 저희는 짧은 시퀀스를 학습하는 데 유리한 RNN, LSTM보다 Transformer가 더 긴 시퀀스의 데이터 학습에 유리하다고 해석하였습니다.

이를 바탕으로 저희는 전역적인 트래픽 특성을 효과적으로 포착할 수 있는 Transformer 인코더에, 지역적 패턴을 보완할 수 있는 1D-CNN 구조를 결합한 하이브리드 모델, StarPrint를 설계하였습니다.

해당 모델은 Multi-Head Self-Attention과 Positional Encoding을 이용해 긴 시퀀스의 Starlink 트래픽 데이터로부터 최대한의 정보를 보존하고 전역적인 특성을 embedding vector추출할 수 있도록 하였습니다.

이후 추출된 embedding vector를 1D-CNN 구조를 통해 분류를 함으로써 Website Fingerprinting이 가능하도록 설계하였습니다.


(4) 실험 결과

 

마지막으로 진행된 성능 실험에서는 기존 WF 모델인 DF와 Laserbeak, 그리고 Transformer 기반의 LLaMA 모델을 baseline으로 두고 StarPrint와 비교 실험을 진행하였습니다. 실험 결과 StarPrint는 대부분의 피쳐에서 baseline 모델을 압도하는 정확도를 기록하였고, 특히 Quant IPD를 입력으로 사용할 경우 56.67%의 정확도로 가장 우수한 성능을 보였습니다.


이번 연구를 통해 Starlink와 같이 불안정하고 변동성이 큰 네트워크 환경에서도 Website Fingerprinting 공격이 충분히 실현 가능함을 확인할 수 있었으며, 기존 CNN 기반 모델의 한계를 Transformer 기반 구조로 보완할 수 있다는 점을 입증하였습니다. 현재 이 연구는 한국정보보호학회 하계학술대회에 논문으로 제출되어 있으며, 추가 실험을 거쳐 국제 학회에도 도전해볼 계획입니다.