국방 AI 적용 사례ㅣ국가기관의 국방 AI를 위한 합성데이터 생성 전략 8가지

국방 AI 개발이 어려운 이유는 무엇일까요? 그리고 어떻게 해결할 수 있을까요? 실제 국방 AI 적용 사례를 토대로, 국방에 특화된 합성데이터 생성 전략 5가지를 말씀드리겠습니다. 
국방 AI 적용 사례ㅣ국가기관의 국방 AI를 위한 합성데이터 생성 전략 8가지

국방 AI가 필요한 이유는?

이미 해외에서도 인정받은 K-국방 기술, 국방 AI로 더 우수해진다면 어떨까요? 과거에는 오직 사람의 물리적인 힘으로 전쟁을 했지만, 이제는 무인체계가 갖추어지고 있습니다. 심지어 피지컬 AI를 기반으로 개발된 로봇, 드론으로 국가 안보를 지킬 수 있는 것이죠.

물기둥 뿜으며 순식간에 '펑' 우크라 수중 드론 러 잠수함 타격
출처: 연합뉴스 유튜브

이렇게 긍정적인 전망도 말씀드렸지만, 한편으로는 우려되는 전망도 있습니다. 인구절벽 현상으로 국방에서도 병력이 줄어들 것으로 예상됩니다. 

한국과 북한의 군 병력을 비교해보면 그 차이는 더욱 뚜렷합니다. 국방부의 조사에 따르면, 2022년 기준으로 한국의 병력은 50만 명, 북한은 128만 명입니다. 2040년에는 한국은 27만 명, 북한은 113만 명이 될 것으로 추정하고 있습니다. 

2040년 한국군 27만 vs 북한군 113만…인구절벽에 무너지는 병력 - 출처: 머니투데이 기사

💡

이러한 상황을 통틀어 보았을 때, 향후 미래에는 방산 AI를 기반으로 한 무인 체계의 힘이 더욱 중요하게 작용할 것으로 분석할 수 있습니다.


국방 AI 개발이 어려운 이유 2가지

1) 전쟁 상황에 대한 데이터가 절대적으로 부족합니다.

AI를 학습시키려면 양질의 데이터가 필요합니다. 그런데 국방 분야는 데이터 확보 자체가 구조적으로 어렵습니다.

  • 우선 전쟁 자체가 긴급한 상황이다보니, 실제 교전이 발생하더라도 그 현장을 체계적으로 촬영하고 기록하기란 현실적으로 거의 불가능에 가깝습니다. 

  • 특히 국방 AI가 실전에서 제대로 작동하려면, 기습 비행, 야간 침투, 복잡한 지형에서의 교전 등 현실에서 좀처럼 구하기 어려운 특이 상황(edge case) 데이터가 필요합니다.

💡

그래서 합성데이터가 사실상 유일한 해답이 됩니다. 다만 여기서 중요한 건, 단순히 '많이' 만드는 것이 아니라 '어떤' 데이터를 만드느냐입니다. 실전 환경을 얼마나 정밀하게 반영하느냐, 다양한 전술 시나리오를 얼마나 폭넓게 커버하느냐에 따라 AI의 실전 성능이 결정됩니다.

페블러스 데이터클리닉으로 생성한 K9 자주포 합성데이터
페블러스 데이터클리닉으로 생성한 K9 자주포 합성데이터
페블러스 데이터클리닉으로 생성한 K9 자주포 합성데이터

2) 보안 문제로 실제 데이터를 참조하기 어렵습니다.

국방 AI 개발이 어려운 또 다른 이유는, 데이터를 다루는 과정 자체가 엄격한 보안 규정 아래 놓여 있다는 점입니다. 국방 데이터는 군사기밀보호법에 근거하여 군사 비밀로 분류되어 있으며, 단순한 영상이나 로그 파일도 폐쇄망 환경에서만 처리할 수 있으니까요. 

여기서 실무적으로 자주 발생하는 문제가 있습니다. 국방 AI를 위한 합성데이터를 생성할 때, 실제 데이터를 참조하기 어렵다는 점입니다. 

💡

정확히 말씀드리자면, 데이터의 품질과 정밀도에만 집중하다가 보안 규정을 간과하는 것입니다. 최종 결과물이 합성데이터라 하더라도, 제작 과정에서 기밀 정보가 외부 네트워크로 나가서 처리되었다면 군사기밀보호법 위반에 해당할 수 있습니다.


실제 국방 AI 적용 사례: 국가기관의 국방 AI를 위한 합성데이터 생성 전략 8가지!

페블러스는 해양 전략에 활용되는 선박 데이터부터 전차 데이터까지, 다양한 국방 데이터셋을 개선하고 생성하고 있습니다. 

해병대 군 경계 작전 환경 합성데이터 생성 사례 확인하기

그 중에서도 이번 글에서 소개할 국방 AI 적용 사례는 조금 특별합니다. 바로 모 국가기관의 요청에 따라 ‘드론 데이터셋’을 개선한 사례를 소개해드리려 합니다. 

우선 국방 데이터 자체가 확보하기 어렵다고 말씀드렸지만, 이번 프로젝트에서 드론 데이터셋 구축이 유독 어려웠던 구조적인 이유가 있습니다. 

  • 기존에 존재하는 드론 관련 데이터셋은 대부분 '드론이 직접 촬영한' 영상이나 이미지입니다. 항공 촬영, 지형 탐사, 시설 점검 등 드론의 카메라가 아래를 내려다보며 찍은 데이터입니다.

  • 반면, 해당 프로젝트에서는 드론을 탐지하고 추적하기 위해 '군수용 드론 자체가 피사체로 촬영된' 데이터가 필요했습니다. 하늘을 날고 있는 드론의 형상이 필요한 것이죠. 

이 문제를 해결하기 위해, 하나의 질문이 필요합니다. 우리가 실제 데이터를 찾는 근본적인 이유는 무엇일까요? 

💡

결국 현실에서 정확하게 작동할 수 있는 데이터가 필요한 것이지, 반드시 실제 촬영 데이터여야 할 이유는 없습니다. 현실의 물리 법칙, 광학 특성, 환경 조건을 정밀하게 반영한 합성데이터라면 실 데이터를 충분히 대체할 수 있습니다. 사실상 합성데이터가 거의 유일한 해답이라 볼 수 있는 것이죠.

페블러스의 드론 데이터셋은 Blender 기반 3D 시뮬레이션으로 제작되었습니다. 단순히 드론 모델을 배치한 것이 아니라, 실전에 가까운 데이터를 대량으로 생성하기 위해 여러 기술적 전략을 적용했습니다.

페블러스가 이번 국방 AI 적용 사례에서 사용한 전략들은 총 8가지인데요. 각각 4가지씩, 기본 과정과 심화 과정으로 나누어보았습니다. 

  • 기본 과정: 이 글을 읽고 계신 담당자님도 곧바로 실천할 수 있는 합성데이터 생성 노하우입니다!

  • 심화 과정: 쉽게 실천하기 어려운, 페블러스만의 기술적 노하우가 담겨 있습니다. 


기본 과정: 쉽게 따라할 수 있는 합성데이터 생성 전략

1) 랜덤 자동 배치로 자연스러운 비행 장면을 구현했습니다.

여러 대의 드론이 등장하는 장면에서, 각 드론의 비행 동선·위치·크기가 일정하게 겹치면 어떨까요? 인위적인 느낌이 듭니다.

이를 방지하기 위해 비행 동선과 드론 간 거리를 랜덤으로 자동 배치하는 시스템을 구축했습니다. 덕분에 매번 다른 구도의 장면이 자동으로 생성되어, 데이터의 다양성을 확보할 수 있었습니다.

블렌더를 활용하여 드론 합성데이터를 생성하는 과정
블렌더를 활용하여 드론 합성데이터를 생성하는 과정

2) 노이즈 모션으로 자연스러운 움직임을 효율적으로 생성했습니다.

일반적으로 3D 애니메이션에서 객체를 움직이려면 로케이션 키프레임을 하나하나 설정하거나, 패스 팔로우(Path Follow)로 경로를 지정해야 합니다. 즉 ‘1초는 이 위치, 2초는 이 위치’ 이런 식으로 설정해줘야 하는 것이죠. 

그런데 이러한 방식은 드론 한두대면 괜찮을지 몰라도, 실제 전쟁 상황처럼 많은 드론 수를 보여줘야 한다면? 작업 시간이 기하급수적으로 늘어나게 됩니다.

그래서 모션 그래프에서 각 드론 개체에 개별 노이즈 값을 적용했습니다. 

  • 노이즈 수치값만으로 움직임을 제어하기 때문에, 개체마다 서로 겹치지 않는 고유한 비행 패턴이 자동으로 만들어집니다.

  • 또한 랜덤하게 흔들리다보니, 마치 바람에 따라 자연스럽게 흔들리는 모습을 구현할 수 있습니다.

  • 빠르게 결과물을 만들어야 하는 상황에서는 효과적인 방법입니다. 수십 대의 드론을 개별적으로 제어할 필요 없이, 노이즈 파라미터 조정만으로 자연스러운 군집 비행 장면을 빠르게 생성할 수 있으니까요.

다만 주의해야 할 점이 있습니다. 노이즈 기반 모션에도 한계는 있습니다. 의도적으로 정확한 위치나 회전 값을 적용하기 어렵다는 점입니다. 

이번 드론 데이터셋의 경우, 정밀한 좌표 지정이 필요한 데이터가 아니었기에 노이즈 방식으로 충분했습니다. 만약 정확한 위치 및 회전 값이 요구되는 프로젝트라면, 페블러스에서는 프로젝트 특성에 맞는 별도의 방식을 제안드리고 있습니다.

각각의 개체의 움직임을 노이즈 모션으로 적용

3) 하나의 장면에서 세 가지 데이터를 동시에 출력했습니다. 

페블러스는 Blender의 출력 노드를 활용해, 하나의 장면을 렌더링할 때 RGB(일반 컬러), IR(적외선), Mask(객체 위치 표시) 세 종류의 이미지를 한 번에 생성합니다. 

  • RGB 이미지: 우리 눈으로 보는 것과 같은 일반 컬러 사진입니다. 낮이면 밝고, 드론 색상도 그대로 보이는 평범한 이미지죠.

  • IR(적외선) 이미지: 열을 감지하는 적외선 카메라로 본 것처럼 표현한 이미지입니다. 실제 군사 감시 장비 중 상당수가 적외선 카메라를 사용하기 때문에, AI가 적외선도 인식할 수 있도록 합성데이터를 생성해야 합니다.

  • Mask 이미지: 드론의 위치를 표시한 이미지입니다. AI에게 "여기가 드론이야"라고 정답을 알려주는 역할을 합니다.

출력 노드 구성 - RGB
출력 노드 구성 - RGB

출력 노드 구성 - IR, Mask
출력 노드 구성 - IR, Mask

4) 다양한 시공간적 환경을 반영했습니다. 

전쟁이 발생하면 그 어느 순간이든, 공간이든 예의 주시해야 합니다. 낮과 밤을 가리지 않고, 장소를 가리지 않고 위험이 발생할 수 있기 때문이죠. 합성데이터 생성 시에도 다양한 시간, 배경을 반영해야 실전에서 활용될 수 있는 국방 AI를 개발할 수 있습니다. 

드론 데이터셋 구축 시, 주간 8개, 야간 8개, 총 16개의 HDRI 배경 이미지를 적용했습니다. 시간대와 기상 조건에 따른 다양한 환경에서의 학습 데이터를 생성하여, AI 모델이 특정 조건에만 편향되지 않도록 했습니다.

다양한 시공간을 반영한 배경 이미지
다양한 시공간을 반영한 배경 이미지

다양한 시공간을 반영한 배경 이미지
다양한 시공간을 반영한 배경 이미지

낮 시간대의 드론 합성 데이터
낮 시간대의 드론 합성 데이터

밤 시간대의 드론 합성 데이터
밤 시간대의 드론 합성 데이터


심화 과정: 페블러스만의 전문 노하우

지금까지는 CG 기반 생성 파이프라인을 보여드렸습니다. 그런데 일부 담당자님들은 이렇게 생각하실지도 모릅니다. 

“저희도 분명 자체적으로 CG로 합성데이터를 만들어 봤어요. 그런데 왜 AI 성능은 떨어지는 걸까요?”

심화 과정을 통해 그 비밀을 말씀드리려 합니다. 기본 과정과 심화 과정의 차이점은 ‘디테일’을 잡아냈는지, 그렇지 못했는지입니다. 페블러스에서 실제 국방 AI를 위한 데이터를 만드는 과정에서 깨달은 5가지 노하우를 공유드립니다.

 

1) 현실과 가상의 간극을 최소화해야 합니다. 

그럴싸한 정도로는 부족합니다. ‘현실을 그대로 촬영한 듯한’ 합성데이터를 만들어야 합니다.

CG로 만든 이미지는 퀄리티는 좋아보이지만, 자세히 살펴보면 실제 카메라로 촬영한 이미지와는 미묘한 차이가 있습니다. 

  • 예를 들어 실제 군사 감시 카메라로 촬영한 영상은 대기 중 미세먼지에 의한 흐린 현상, 렌즈 주변부의 왜곡, 센서 노이즈 등이 자연스럽게 드러납니다. 어느 정도의 ‘불완전함’이 있는 것이죠. 

  • 하지만 CG 렌더링은 이런 불완전함 없이 '지나치게 깨끗하게' 출력됩니다. 

💡

이러한 미묘한 차이점을 간과하면 어떻게 될까요? AI는 깨끗한 합성데이터에서는 드론을 잘 탐지합니다. 그러나 실제 전장에서 노이즈와 흐림이 섞인 영상을 만나면? 적 드론을 인식하지 못하는 상황이 발생할 수 있습니다. 훈련장에서 100점, 실전에서 0점인 AI가 되는 것이죠.

그래서 페블러스는 CG로 생성한 합성데이터를 2차적으로 실제와 가깝게 다듬는 과정을 거칩니다. 실제 감시 장비의 광학 특성에 맞게 렌즈 왜곡을 반영하고, 대기 효과와 센서 노이즈를 추가하고, 금속·플라스틱 등 드론 소재별 빛 반사 특성을 정밀하게 조절합니다.

이렇게 현실의 불완전함까지 재현한 합성데이터로 학습한 국방 AI는, 실전 환경에서도 흔들리지 않고 작동할 수 있습니다.

역설적으로, 불완전한 느낌마저도 구현해야 비로소 완전한 합성데이터가 만들어집니다.

2) 필요한 데이터를 적재적소에 보충해야 합니다. 

실제로 AI 모델의 성능을 분석해보면, 특정 조건에서만 유독 정확도가 떨어지는 경우가 많습니다.

  • 예를 들어 주간 RGB 환경에서는 드론 탐지율이 95%인데, 야간 적외선 환경에서는 60%로 떨어지는 식이죠.

  • 이때 필요한 건 전체 데이터를 두 배로 늘리는 것이 아니라, 야간 적외선 조건의 데이터를 집중적으로 보강하는 것입니다.

💡

문제는 이런 약점을 정확히 짚어내는 것 자체가 어렵다는 점입니다. 물론 AI 모델을 직접 훈련 시 사용하면서, ‘야간에 약하다’는 건 담당자님들께서 어렴풋이 알고 있습니다. 그러나 구체적으로 어떤 거리에서, 어떤 크기의 드론이, 어떤 배경에서 잘 안 잡히는지까지 파악해야 하는데, 이 과정이 까다롭고 어려운 것이죠.

페블러스에서는 이를 정확하게 파악하는 방법이 있습니다. 바로 3D 기반 데이터 시각화 도구, 페블로스코프(Pebbloscope)로 데이터를 다각도로 들여다보는 것입니다. 

  • 페블로스코프를 통해 데이터의 분포를 시각적으로 확인하면, 어떤 조건의 데이터가 부족한지, 어떤 조건의 데이터가 과도하게 편중되어 있는지를 한눈에 파악할 수 있습니다.

  • 더 나아가, 기존에 어렴풋이 감으로 알고 있던 문제뿐 아니라 고객사에서 미처 인지하지 못했던 데이터 불균형까지 발견할 수 있어요! 실제 훈련, 전쟁에서 문제를 발견하기 전부터 미리 대비할 수 있는 것이죠. 

샘플 데이터로 페블로스코프 체험해보기

3) 생성한 합성데이터가 진짜 유효한지 ‘평가’해야 합니다. 

"이렇게 합성데이터를 만들었는데, 실제로 AI 성능이 올라갈까?"

이 질문에 답변하기 위해서는 AI에 합성데이터를 추가하여 성능을 평가하는 단계가 필요합니다. 실제 훈련이나 전장에서 오류를 발견하기 전, 미리 검증하는 것이죠. 

정교하게 생성한 합성데이터라도 변수가 발생할 수 있습니다. 검증 없이 실전에서 곧바로 데이터를 투입하고, AI의 오히려 성능이 떨어진다면? 국방 AI에서는 단순한 비용 손실이 아니라 인명 피해, 작전의 실패로 이어질 수 있습니다.

그래서 페블러스는 별도의 평가 데이터셋(Evaluation Dataset)을 생성하여 운용하고 있습니다. 

  • 평가 데이터셋이란, AI의 성능을 측정하기 위해 미리 정답이 확정된 기준 데이터입니다. 

  • 학교 시험에 비유하자면, 합성데이터가 '교과서’, 문제집'이라면 평가 데이터셋은 '시험'인 셈이죠. 

  • 새로운 합성데이터를 추가할 때마다 이 시험을 치룬다고 보시면 됩니다. AI의 성능이 오르지 않거나 오히려 떨어진다면, 데이터의 방향을 수정합니다.

4) 군사기밀보호법과 같은 규제를 학습하고 적용하고 있습니다. 

앞서 국방 AI 개발이 어려운 이유로, 보안 규정을 간과하기 쉽다는 점을 말씀드렸습니다. 페블러스는 이 문제를 구조적으로 해결합니다. 데이터를 만들기 전에, 데이터 품질 관리 솔루션 데이터클리닉 2.0에 법과 규제부터 학습시키는 것이죠. 

여기서 '학습'이란 단순히 규제 문서를 참고한다는 뜻은 아닙니다. 데이터클리닉 2.0은 뉴로-심볼릭(Neuro-Symbolic) 기반의 규제 대응 체계를 갖추고 있습니다. 

🧬

뉴로-심볼릭이란 인공신경망의 학습 및 인식 능력(뉴로)과 규칙 기반의 논리적 판단(심볼릭)을 결합한 방식인데요. 규제의 조건과 기준을 논리적인 규칙으로 정의하고, 데이터 생성 과정에서 AI가 이를 자동으로 검증하는 것이죠.

  • 데이터클리닉 2.0은 군사기밀보호법은 물론이고, EU AI Act, 인공지능기본법 등 국내외 주요 규제 기준을 모두 반영할 수 있습니다.

  • 단순히 좋은 품질의 데이터를 만드는 데 그치는 것이 아니라, 그 데이터가 법적·제도적 기준에도 부합하는지를 제작 과정 전반에서 검증하는 것이죠.

또한 하단 특허 기술을 기반으로 하여, 데이터의 진단부터 개선까지 전 과정을 투명하게 기록되고 추적 가능합니다. ‘이 데이터는 어디서 왔는지, 어떤 기준으로 품질을 판단했는지, 무엇이 개선되었는지’를 모두 설명할 수 있다는 뜻입니다. 신뢰할 수 있는 국방 AI를 개발하려면, 투명하게 데이터의 출처를 밝힐 수 있어야 합니다. 

데이터를 거래하기 위한 가상 환경 플랫폼을 제공하는 전자 장치, 전자 장치의 동작 방법 및 전자 장치를 포함하는 시스템(등록 번호 10-2912944)
데이터를 거래하기 위한 가상 환경 플랫폼을 제공하는 전자 장치, 전자 장치의 동작 방법 및 전자 장치를 포함하는 시스템(등록 번호 10-2912944)

규제 준수 내용은 물론, 데이터클리닉 2.0이 개발된 모든 과정을 확인하고 싶다면 아래 글을 참고해보세요. 

데이터 품질 관리 솔루션, 데이터클리닉 2.0 실제 개발 과정 확인하기

이 모든 과정을 거쳐 국방 AI를 위한 드론 합성데이터를 생성한 후, 고객사는 해당 데이터를 학습하여 실제 전장에서 활용할 수 있는 국방 AI를 개발하였습니다!

페블러스 데이터클리닉으로 생성한 K9 자주포 합성데이터
페블러스 데이터클리닉으로 생성한 K9 자주포 합성데이터

  • 국방 AI를 개발하고 싶지만, 데이터가 부족해서 막막하신가요? 

  • 보안 규정 때문에 어디서부터 시작해야 할지 막막하신가요? 

모든 문제, 페블러스의 데이터클리닉으로 도와드리겠습니다. 실전에 바로 투입할 수 있는 AI, 그 시작은 품질 높은 데이터에 있습니다. 

데이터클리닉 홈페이지에서 '문의하기' 버튼을 눌러주세요. 데이터셋에 대한 고민을 말씀해주시면, 데이터클리닉의 전문가가 심도 있게 고민한 후 영업일 2~3일 내로 답변해드립니다.

또한 데이터클리닉 뉴스레터를 구독하시고, 매주 AI, 데이터에 대한 인사이트를 쌓아가세요!

데이터클리닉 뉴스레터 구독하기


Share article

데이터클리닉 블로그