
AI 학습데이터의 품질 문제를 다양한 관점에서
직관적으로 전달하는 데이터 품질분석리포트
페블러스 데이터 클리닉은 데이터의 기본적인 품질 현황, 개선 전후 비교,
두 데이터셋의 비교, 데이터 수명주기 관리 등을 데이터 품질분석리포트로 제공합니다.
과학적인 분석과 예제와 차트에 기반한 쉬운 설명으로 데이터에 대한 이해를 돕습니다.

페블러스 데이터 클리닉을
찾아주신 고객 여러분께
감사드립니다.
“Data Makes AI Makes Data.”
데이터와 인공지능의 상호작용을 통해 멋진 신세계가 펼쳐지고 있습니다.
좋은 데이터가 좋은 인공지능을 만든다는 것은 잘 알려진 사실입니다.
2022년에 시행된 국내 데이터 기본법도 이러한 데이터 품질의 중요성을 강조하며 데이터 산업을 육성하고자 합니다.
페블러스 데이터 클리닉은 AI를 이용하여, 그리고 AI를 위하여, 독자적인 기술로
인공지능 학습 데이터의 품질 향상을 통해 데이터/AI 산업에 기여하고자 합니다.

아래에서 더 자세히 설명드리겠습니다.
AI 시대에 맞는 데이터 품질 평가와 개선
페블러스 진단리포트만의 특징

고유한 데이터렌즈 기술 사용
자체 개발한 데이터렌즈(DataLens)로 데이터를 관찰 및 측정이 가능한 형태로 변환한 후, 기하 및 통계 등 다면적인 방법으로 데이터의 품질을 분석합니다. 고객의 니즈에 따라 기성품에서 맞춤형까지 최적의 데이터렌즈를 적용하여 진단합니다.
맞춤형 진단 제공
전통적인 탐색적 데이터 분석(Exploratory Data Analysis, EDA) 방식에서부터 데이터렌즈와 같은 신기술에 이르기까지, 데이터와 작업의 특성 및 고객의 비즈니스 목적을 고려하여 최적의 진단을 제공합니다.


직관적이고 과학적인 리포트
각 레벨 별 진단에서는 다양한 차트, 도표, 예제, 설명글로 해당 데이터의 다면적 특성을 보다 편리하게 직관적으로 이해할 수 있도록 합니다. 각 레벨별 결과를 종합 요약하여 최종 결과에서 제공합니다. 필요한 경우 데이터셋의 품질 개선을 제안합니다.
진단리포트를 통해 실제 데이터들의 문제를 확인하세요
데이터 클리닉이 제공하는
다양한 데이터 품질분석리포트를 소개합니다.

데이터 품질진단리포트
AI 학습데이터셋에 대한 종합적인
품질 진단 결과와 개선 방안이
담긴 리포트입니다.

데이터 품질개선리포트
데이터 품질 진단 결과에 기반한 데이터
다이어트와 벌크업 등의 품질 개선 과정과
효과를 설명하는 리포트입니다.

데이터 품질비교리포트
품질 개선 전후, 학습/테스트 데이터,
유사 데이터셋 등 두 데이터셋의 품질을
상세히 비교 평가하는 리포트입니다.

데이터 수명주기관리리포트
데이터 품질은 시간에 따라 변해 갑니다.
시장의 상황, 새로운 규제, 기술의 변화 등을
고려하여 데이터의 현재를 정리하고 향후
수집 계획을 제언합니다.
진단리포트의 구성
Step 1
고객 커뮤니케이션
- 고객의 비즈니스 목표
- 기술적 요구사항
- 예산 및 타임라인
Step 2
종합 평가
- 진단 결과 요약
- 품질 개선 제안
- 진단 레벨 I 요약
- 진단 레벨 II 요약
- 진단 레벨 III 요약
Step 3
레벨 I 진단
- 데이터 정합성 측정
- 결측치 측정
- 클래스 균형 측정
- 통계 측정
Step 4
레벨 II 진단
- 데이터렌즈 선택 및 이미징
- 기하 속성 관찰
- 분포 속성 관찰
Step 5
레벨 III 진단
- 데이터렌즈 가공/선택 및 이미징
- 기하 속성 관찰
- 분포 속성 관찰
진단리포트 가이드
all close
고객 커뮤니케이션
고객의 비즈니스 목표
기술적 요구사항
예산 및 타임라인
종합평가
진단 결과 요약
품질 개선 제안
레벨 I 진단 요약
레벨 II 진단 요약
레벨 III 진단 요약
Level I 진단
데이터 정합성 측정
결측치 측정
클래스 균형 측정
통계 측정
Level II 진단
데이터렌즈와 이미징
기하 속성 관찰
분포적 속성 관찰
Level III 진단
데이터렌즈와 이미징
기하 속성 관찰
분포적 속성 관찰
데이터 진단리포트 사용 가이드
데이터 클리닉의 진단 절차와 더불어 진단리포트 구성을 상세히 설명합니다.
고객 커뮤니케이션
고객 프로젝트의 성공적인 수행을 위해서 고객의 비즈니스 목표 이해, 데이터 품질 및 기술 요구사항 도출, 제약 조건 확인, 도메인 지식 등 프로젝트 수행에 필요한 기반을 다지고 이를 바탕으로 진단 항목과 타임라인을 설정합니다.

1. 고객의 비즈니스 목표
데이터 품질 진단의 방향을 결정하는 핵심 요소입니다. 진단의 목적과 목표를 명확히 설정함으로써 효율적인 진단 방법을 도출하고 최종적으로 진단 결과가 실질적인 비즈니스 성과로 이어질 수 있도록 돕습니다.
2. 기술적 요구사항
실제 진단에서 사용할 도구(예, 알고리즘, 렌즈 모델 등), 플랫폼, 시스템 성능 및 처리 능력과 관련된 사항입니다. 고객의 시스템 인프라와 기술적 환경에 맞는 최적의 진단 솔루션을 설계하거나 제공합니다.
3. 예산 및 타임라인
투입 예산 등 프로젝트 리소스를 효율적으로 배분하기 위한 사항입니다. 진단 범위와 각 단계의 세부사항을 확인하여 일정 내에 모든 단계가 차질 없이 진행될 수 있도록 합니다.
종합평가
종합적인 관점에서 레벨 I, II, III 진단 결과를 종합하여 데이터 품질에 대한 평가를 하고 개선 방향을 제안합니다.


1. 진단 결과 요약
레벨 I, II, III 진단 결과 및 고객 커뮤니케이션을 통해 파악한 사전 지식을 모두 고려하여 데이터 품질에 대한 종합적인 평가 의견을 담습니다. 작업 중립적인 품질과 작업 특이적인 품질을 모두 언급합니다.
2. 품질 개선 제안
앞서 소개한 진단 과정의 각 분석 결과를 통합하여 진단리포트를 작성합니다. 진단리포트는 데이터셋의 전반적인 품질, 기하학적 및 분포적 특성, 발견된 문제점 및 잠재적 가치에 대한 상세한 정보를 포함합니다. 본 리포트에서는 각 단계별 분석 결과를 체계적으로 정리하고, 데이터의 기본적인 특성에서 고도화된 특성에 이르기까지 다양한 측면을 폭넓게 조망합니다. 이는 고객이 데이터셋의 품질 상태를 명확하게 이해하고, 효율적인 데이터 관리 및 활용 전략을 수립합니다. 결과적으로 효과적인 빅데이터 분석 및 인공지능 학습에 기여합니다.
• 데이터 다이어트 (Data Diet)
AI 모델의 성능을 보장하는 선에서 데이터셋의 중복/유사 데이터를 제거하고 경량화

경량화 데이터셋의 활용
대부분의 데이터셋에는 생각보다 중복 유사 데이터가 많이 존재합니다. 중복된 데이터는 모델 학습에 편향을 유발하고 저장 및 계산 자원에도 비효율을 유발하기 때문에 데이터 중복 문제를 해결하는 것이 좋습니다. AI 모델 개발 과정에 따라 사용하는 데이터의 양을 조정하는 것도 필요합니다. 예를 들어, 초기에는 전체 데이터셋을 학습에 모두 이용하기 보다는 데이터의 분포적 특성을 유지하되 규모를 축소하는 것이 효율적입니다. GPU 자원의 사용을 최소화하고, 빠른 학습 속도를 가능하게 하여 전체적인 개발 주기를 단축시키는 데 큰 기여를 합니다.
클래스 단위 최적화
클래스 단위 최적화는 데이터 다이어트의 고급 절차입니다. 기본적으로는 데이터 전체의 밀도로 다이어트를 하지만, 더 나아가면 각 클래스별 또는 각 클래스 간의 데이터 분포를 세심하게 분석하여 경량화 대상 데이터를 선별합니다. 즉 각 클래스의 핵심적인 특성을 강조하면서도 클래스 간 구별력을 유지합니다. 이를 통해 AI 모델이 더 빠르고 정확하게 각 클래스를 인식하도록 하며, 모델의 성능을 극대화하는 데 도움을 줍니다. 데이터 다이어트 구별 작업 외에 일반적인 작업에 모두 적용 가능합니다.
• 데이터 벌크업 (Data Bulk-up)
데이터가 부족한 부분을 찾아 데이터셋에 적합한 정밀 타기팅 합성데이터를 생성

클래스 구별력 보강
데이터 벌크업은 일반적인 용어로 합성데이터 추가를 의미합니다. 하지만 페블러스 데이터 클리닉에서는 정밀 타기팅으로 합성데이터를 추가합니다. 즉, 진단을 통해 데이터가 상대적으로 부족한 부분을 찾아내고 합성데이터를 만드는 다양한 기법을 통해 데이터를 생성합니다. 작업 중립적으로 데이터의 분포적 품질을 향상시킬 뿐만 아니라 작업 특이적 관점에서도 적용 가능합니다. 예를 들어, 벌크업을 통해 클래스 간의 불균형을 해소하고, 모델이 각 클래스를 더 잘 구별할 수 있도록 돕습니다. 또한, AI 모델의 일반화 능력을 강화시키는 데 기여합니다.
• 데이터 벌크업 (Data Bulk-up)
데이터가 부족한 부분을 찾아 데이터셋에 적합한 정밀 타기팅 합성데이터를 생성

접근성 및 분석 효율 향상
원본 데이터와 통계적 및 분포적 특성을 유지하지만 원본 데이터와는 별개의 가상 데이터이므로, 민감한 데이터의 노출 위험 없이 다양한 분석과 데이터 이용 가능성을 제공합니다. 데이터 레플리카를 활용함으로써 데이터 접근성을 높이고 분석 작업의 대상 범위 확대와 효용성을 크게 향상시켜, 데이터 기반 의사 결정과정을 가속화하는 데 기여합니다.
3. 레벨 I 진단 요약
정합성 측정, 결측치 측정, 클래스 균형, 통계 측정의 진단 항목에 대한 주요 결과를 언급합니다.
4. 레벨 II 진단 요약
페블러스가 기보유한 데이터렌즈 중에서 대상 데이터의 특성 및 작업에 가장 적합한 렌즈를 선택하여 진단한 결과를 요약합니다. 데이터렌즈의 특성, 이미징 결과, 다차원 기하 관점의 특성, 통계 관점의 분포적 특성을 언급합니다.
5. 레벨 III 진단 요약
기성품 데이터렌즈 대신에, 대상 데이터의 특성 및 작업을 고려하여 생성한 특별한 데이터렌즈로 진단을 수행한 결과를 요약합니다. 진단 내용은 레벨 II와 동일합니다.
Level I 진단
레벨 I 진단은 가장 기초적인 EDA를 수행하는 단계입니다. 이 단계에서는 데이터 정합성 평가, 결측치 검사, 클래스 균형 측정, 통계 측정을 실시하게 됩니다. 이 단계는 이후 레벨 II, III 진행에 필요한 사전 작업에 해당합니다.

클래스 균형 측정, 통계 측정
1. 데이터 정합성 측정
데이터 정합성 평가는 데이터셋의 기본적인 품질과 신뢰성을 보장하는 가장 첫번째 단계입니다. 이 단계에서는 데이터셋의 형식이나 크기 등 메타데이터의 정확성을 검토하고, 데이터셋의 완전성 및 일관성을 평가합니다. 특히 잘못된 형식이나 이상치가 섞여 있을 경우 데이터셋에 미치는 영향을 포착하고, 다음 단계 진행을 위해 필요한 정합성 개선 작업을 수행합니다.
• 데이터 정합성
향후 모든 진단의 정확성을 확보하기 위해 데이터 정합성 측정을 실시합니다. 본 측정에서는 타겟 데이터셋의 기초 정보를 중점적으로 검토하여 전반적인 완전성, 일관성 및 정확성을 확인합니다.
이미지 크기
데이터셋의 이미지 크기들이 일관될 때 각종 처리가 용이하고, 모델 학습에도 효율적입니다. 이미지 크기가 서로 다를 경우, 이미지를 동일한 크기로 조정하는 과정에서 원본 데이터의 특성이 왜곡될 수 있으며, 이는 모델의 성능에 부정적인 영향을 미칠 수 있습니다. 따라서, 모든 이미지가 동일한 해상도를 갖는지 확인하는 것이 필요합니다. 이 과정은 데이터 전처리 과정에서의 복잡성을 줄이며, 데이터의 품질 향상의 기본입니다.
이미지 채널
이미지의 채널 수는 해당 이미지가 색상 정보를 어떻게 표현하는지를 결정합니다. 일반적으로, 흑백 이미지는 1채널, 컬러 이미지는 3채널(RGB)을 사용합니다. 모델 학습을 위해서는 데이터셋 내의 모든 이미지가 동일한 채널 수를 가져야 합니다. 채널 수가 다르면 이미지 데이터 해석 시 오류가 발생할 수 있으며, 이는 학습 과정에서 모델의 일관성과 정확성을 저하시킬 수 있습니다. 채널수가 같아도 의미가 다른 경우도 있어서 주의가 요구됩니다. (예, RGBA, CMYK)
라벨 정합성
라벨은 이미지의 속성을 설명하는 주석 정보로서 지도 학습에서 모델을 학습시키는 기준점으로 사용됩니다. 따라서 라벨의 정확성은 모델의 성능을 결정짓는 중요한 요소입니다. 라벨 오류는 학습 결과의 오류로 직접적으로 연결될 수 있으므로, 작업 특징에 맞게 라벨링 되었는지 확인하는 것은 데이터 전처리 과정에서 매우 중요합니다. 분류 작업, 검출 작업, 분할 작업 등 작업에 따라 라벨의 정확도를 판별하는 기준이 달라집니다.
2. 결측치 측정
결측치 검사는 데이터의 무결성을 평가하는 단계입니다. 먼저 결측치가 왜 발생하는지 맥락을 파악한 다음, 결측치가 분석 결과에 미치는 영향을 확인합니다. 이후 결측치의 패턴 및 분포를 파악하여 적절한 데이터 처리 방법을 결정하고 제안합니다. 이 단계를 거치며 데이터셋의 특성을 보다 깊게 이해하고, 누락된 정보를 효과적으로 관리할 수 있습니다.
• 결측치 확인
데이터의 무결성을 평가하기 위해 결측치 측정을 실시합니다. 이를 위해 원본 데이터셋에 사전 정의된 결측치 처리 규칙 (예:결측치 보간)을 적용한 다음 전과 후의 데이터 개수를 비교합니다. 만일 결측치 전처리 전후의 데이터 개수에 차이가 발생하면, 원본 데이터셋에 손실 또는 오류가 있을 가능성이 높습니다.
3. 클래스 균형 측정
클래스 균형 측정은 데이터셋 내의 클래스 간 분포 불균형 여부를 평가하는 단계입니다. 먼저 각 클래스별 데이터의 출현 빈도를 확인하여 불균형을 식별하고, 필요한 경우 데이터 재조정 또는 샘플링 기법을 적용해서 데이터셋의 균형을 잡습니다. 이 단계를 거치며 모델의 편향을 방지하고 성능을 향상시켜 분석 결과의 정확성 및 신뢰성을 확보할 수 있습니다.
• 클래스 균형 측정 : 클래스별 데이터 개수
사전 정의된 클래스가 있는 데이터셋에 한해, 데이터 개수에 따른 클래스별 균형 측정을 실시합니다. 이를 위해 클래스별 트레이닝 데이터셋과 테스트 데이터셋의 통계 정보를 확인합니다.
4. 통계 측정
통계 측정은 데이터셋 제반을 잘 보여주는 주요 지표를 통계적으로 요약해 보여주는 단계입니다. 주요 지표에는 데이터의 총 개수, 데이터 값의 범위, 유형 분포 등이 포함되며, 데이터를 이해 하는데 필수적인 기초 통계 역시 포함됩니다. 이 단계를 거치며 데이터셋의 범위 및 다양성을 파악하고 이상치를 탐지하는 등, 데이터셋이 지닌 통계적 특성을 사전에 파악하여 향후 단계의 진단을 수행하고 해석을 용이하게 합니다.
• 전체 통계
전체 데이터셋이 지닌 통계적 특성을 파악하기 위해 분석을 실시합니다.
전체 평균 이미지
전체 평균 이미지를 통해 데이터셋의 색상, 형태, 패턴에 대한 전체적인 경향성을 가늠할 수 있습니다.
전체 평균 이미지의 픽셀 히스토그램
전체 평균 이미지의 컬러 채널별 분포 특성을 알 수 있습니다.
• 클래스별 통계
클래스별 데이터셋의 통계적 특징을 파악하기 위해 분석을 실시합니다.
클래스별 평균 이미지와 평균 히스토그램
클래스별 평균 이미지를 통해 데이터셋의 색상, 형태, 패턴에 대한 클래스 단위 경향성을 가늠할 수 있습니다. 전체 평균 이미지나 다른 클래스와 비교하면 클래스의 특이성을 볼 수도 있습니다.
Level II 진단
T0bf08c11

이미징 신경망

특징 추출
1. 데이터렌즈와 이미징
데이터렌즈 선택 및 이미징은 적합한 신경망 모델, 즉 렌즈를 선정해서 데이터셋의 속성을 분석하는 단계입니다. 먼저 해당 데이터셋의 구조를 정확히 반영하고 중요한 특성을 적절하게 추출할 수 있는 기존 모델을 선택합니다. 이를 바탕으로 밀도와 거리 등 데이터셋이 지닌 기하학적 속성을 측정하고, 데이터의 복잡도와 다양성 여부를 분석합니다. 이 단계를 거치며 데이터의 기본적인 구조 및 패턴을 파악하고, 후속 분석 및 모델링 전략을 수립하기 위한 밑그림을 그릴 수 있습니다.
• 데이터렌즈 선택
데이터의 다차원적 특성을 한층 정밀하게 포착하기 위해 적절한 데이터렌즈를 선택한 후 데이터 이미징을 진행합니다.
기존 신경망 선정
가장 효율적인 분석 결과를 도출하기 위해, 다양한 도메인의 대규모 데이터셋을 사용해 사전 학습된 딥러닝 신경망 모델 중에서 데이터의 특성을 가장 잘 반영하는 모델을 선정해 데이터렌즈에 적용합니다. 대표적인 기존 신경망의 예시로는 르넷(LeNet), 레스넷-101(ResNet-101), 비전 트랜스포머(Vision Transformer) 등이 있습니다.
관찰 차원
선택한 신경망 모델의 레이어를 통해 출력된 특징 벡터의 차원 크기입니다. 이 값은 데이터셋이 지닌 복잡성과 다양성을 잃지 않는 선에서 가장 적절하게 차원을 최적화한 결과물입니다. 하지만 레벨 II의 데이터렌즈는 기존 신경망의 차원을 그대로 사용하기 때문에 대상 데이터셋의 관찰 차원으로는 상대적으로 높은 편입니다.
• 데이터 이미징
앞서 선택한 기존 신경망에 데이터셋 전체를 통과시켜 특징 벡터들을 추출합니다. 이때 특징 벡터가 원본 데이터의 구조를 정확히 반영할 수 있도록, 이미징 공간상의 매니폴드(Manifold)에 해당 값들을 임베딩(imbedding)한 후 기하학적인 관점에서 거리와 밀도를 측정합니다. 이때 이미징 공간의 차원 크기는 관찰 차원과 동일하며, 각 특징 벡터의 값은 원본 데이터 포인트와 일대일 대응을 이룹니다.이와 같은 다차원 공간에서는 특징 벡터 및 그로부터 계산된 밀도를 직접적으로 관찰하기 어렵습니다. 따라서, 매니폴드 공간에 임베딩된 수천 수백 차원의 벡터값이 어떤 의미를 갖는지 해석하기 위해서는 구조화 단계를 필수적으로 거쳐야 합니다. 본 리포트에서는 크게 두 가지 방식, 즉 기하 속성 관찰과 분포 속성 관찰을 활용해 구조화를 진행합니다.
2. 기하 속성 관찰
기하 속성 관찰은 데이터셋의 각 포인트들이 고차원 공간에서 서로 얼마나 떨어져 있는지 시각화 하여 관찰하는 단계입니다. 이때 2차원 PCA를 사용해 다차원 공간에서의 매니폴드 형상, 국소적 클러스터링 경향 등 레벨 I에서는 드러나지 않은 데이터의 기하학적 경향성을 시각화합니다. 이 단계를 거치며 데이터셋의 기하학적 복잡도를 가늠하고, 숨겨진 패턴 및 구조적 특성을 보다 명확하게 파악할 수 있습니다.
• 거시 속성 관찰
특징 벡터의 전체적인 구조 및 다차원 공간에서의 분포를 관찰합니다. 이를 기반으로 데이터셋의 주요 기하학적 특징 및 경향성을 파악할 수 있습니다. 거리와 밀도를 계산하는 최적 관찰 차원은 시각화를 위해서는 여전히 차원이 높기 때문에, 다시 2차원 PCA 기법을 사용해 차원을 축소하여 특징 벡터값들을 한눈에 파악할 수 있도록 합니다.
전체 데이터 분포
데이터렌즈로 얻은 고차원 이미징 결과를 시각화하기 위한 2차원 PCA 결과입니다. 차트 내에서 원점(Origin)은 이미징 공간에서의 원점 벡터 값, 평균 이미지 특징(Mean Image Feature)는 전체 평균 이미지를 데이터로렌즈로 이미징한 벡터 값입니다. 이미지의 다양성이 높을수록 평균 특징과 평균 이미지 특징의 거리가 큽니다.
매니폴드 형상 측정 (I) 거시적
데이터 이미징 결과를 다차원 공간의 매니폴드로 관찰합니다. 가로축은 대표적인 클래스들입니다. 세로축은 클래스에 속한 특징 벡터들의 크기(Norm)의 평균이며, 원점으로부터의 거리의 평균에 해당합니다. 원점으로부터의 최소/최대 거리를 함께 표시하여 매니폴드의 전체 크기와 각 클래스의 특이성을 가늠합니다. 다양성이 높은 데이터의 평균 이미지는 데이터셋의 어떤 이미지와도 유사하지 않아서 일반적으로 최소/최대 구간 밖에 존재하는데, 레벨 II 진단에 사용하는 데이터 렌즈는 도메인 중립적이기 때문에 평균 이미지도 최소/최대 구간에 존재하는 게 보통입니다.
• 국소 속성 관찰
국소 속성 측정에서는 개별 특징 벡터값의 속성에 대해서 한층 상세하게 분석합니다. 예를 들어, 이상치로 보이는 예외 데이터 샘플들을 찾아낼 수 있습니다.
거리 기반 유사도 측정
클래스별 대표 이미지들에 대해서 거리 기반 유사도 검색 결과입니다. 예를 들어, 주어진 데이터에 대해서 가장 가깝거나 가장 먼 데이터를 각각 10개씩 뽑아서 보여줍니다. 이를 통해 데이터셋 내부의 국소적 특이성을 파악할 수 있습니다. 이는 데이터셋 내에 존재하는 이상치 및 중복 이미지를 식별하는 데 도움이 됩니다.
밀도 측정 (I)
데이터 이미징 결과인 다차원 매니폴드상에서 각 데이터 별로 인접한 데이터들과의 거리를 계산하여 밀도를 계산합니다. 특정 데이터 주변에 다른 데이터가 많을수록 밀도가 높으며, 적을수록 밀도가 낮습니다. 밀도가 높은 데이터는 중복일 가능성이 크고, 밀도가 낮은 데이터는 이상치일 가능성이 큽니다. 밀도의 가시화는 관찰 차원이 아닌 2차원 PCA를 통해 시각화합니다. 이때 붉은색이 진할수록 데이터의 밀도가 높습니다. 클래스별 밀도 측정의 경우, 밀도의 분포를 대표하는 총 12개의 클래스를 선별하여 결과를 보여줍니다.
거리-밀도 측정
데이터 이미징 결과로서의 다차원 매니폴드의 형상과 각 데이터의 밀도를 함께 보여줍니다. 가로축은 각 특징 벡터의 원점으로부터의 거리이고, 세로축은 해당 데이터의 밀도입니다. 다양한 데이터에 대한 거리-밀도 측정 결과 좋은 분포의 데이터셋의 거리-밀도 차트는 하나의 깃털(feather) 모양을 갖습니다. 따라서 깃털 차트라고도 합니다. 보통 유사/중복 데이터는 깃털의 상단에 밀도가 높은 영역에 위치합니다.
밀도 측정 (II)
밀도 측정 (I)과 유사하지만 등고선을 더해서 밀도의 분포를 데이터의 거시적 분포와 함께 관찰할 수 있도록 합니다. 밀도와 함께 보면 거시적 분포의 클러스터를 더 쉽게 발견할 수 있습니다.
3. 분포적 속성 관찰
분포적 속성 관찰은 데이터셋의 각 포인트들이 고차원 공간상에 어떻게 흩어져 있는지 시각화하여 통계적으로 관찰하는 단계입니다. 이때 히스토그램 등을 사용해 데이터 포인트 간의 밀도, 분포 범위, 커버리지, 편향 등이 보여주는 거시적 경향성을 시각화합니다. 이 단계를 거치며 데이터셋의 전반적인 분포 경향을 숙지하고, 이와 관련된 다양한 패턴을 구체화해 데이터 모델링 및 예측 전략에 필수적인 근거를 확보할 수 있습니다.
• 통계적 속성 관찰
차원 축소 이전의 데이터를 전체적으로 조망하기 위해, 데이터의 기하학적 특성과 각 데이터 포인트의 거리 분포를 기반으로 전체 매니폴드의 형상을 분석합니다.
매니폴드 형상 측정 (II) 통계적
데이터 이미징 결과를 다차원 공간의 매니폴드에서 통계적으로 관찰합니다. 가로축은 각 벡터 값별 원점으로부터의 거리, 세로축은 각 벡터 값의 빈도를 나타냅니다. 이때 점선으로 표시된 그래프는 해당 클래스의 평빈도를 나타냅니다. 이를 통해 매니폴드에서 특정 클래스의 분포를 이해할 수 있습니다. 기준점을 중심으로 네 가지 차트를 보여 줍니다. (1) 매니폴드 원점에서의 거리, (2) 클래스별 원점에서의, (3) 데이터 중심에서의 거리, (4) 클래스별 데이터 중심에서의 거리
밀도 측정 (III) 분포적 속성
각 데이터의 밀도에 대한 분포를 두 가지 차트로 보여줍니다. 먼저 히스토그램 차트에서 가로축은 밀도 값, 세로축은 밀도의 빈도를 나타냅니다. 히스토그램을 통해 데이터셋의 전체적인 밀도 분포를 이해할 수 있습니다. 특히 엣지 케이스와 같은 이상치의 분포를 이해하는 데 도움이 됩니다. 두 번째 차트는 대표 클래스에 대한 밀도 분포를 박스(Box-Whisker) 차트로 보여줍니다. 대표 클래스들을 밀도 순으로 배열하였고, 평균 밀도와 비교할 수 있습니다. 추후에 데이터 품질 개선(벌크업/다이어트)을 하게 되면 밀도의 분포가 개선되는 것도 확인할 수 있습니다.
• 특이 샘플 예시
클래스를 고려하지 않은 전체 데이터셋에서 밀도가 가장 높은 샘플과 가장 낮은 샘플을 각각 20개씩 검출한 후, 각 클래스별로 이와 같은 작업을 반복하여 비교합니다. 이를 기반으로 유사하거나 중복되는 데이터 및 이상치에 해당하는 데이터를 효과적으로 확인할 수 있습니다.
밀도 관점의 특이 샘플
품질 진단 이후에 도메인 지식을 갖고 한번 더 살펴봐야 할 특이 샘플들을 보여 줍니다. 우선 밀도 관점의 특이 샘플입니다. 전체 분포에서 그리고 클래스 별로 가장 밀도가 높고, 낮은 샘플들을 20개씩 보여 줍니다. 밀도가 높은 샘플은 유사/중복 데이터에 해당할 가능성이 높으며 추후 데이터 다이어트의 대상이 됩니다. 밀도가 낮은 샘플은 특이한 샘플입니다. 목표 작업에 따라서 에지 케이스로 유지하거나, 아웃라이어로 제거하거나, 밀도를 높이기 위해서 주변에 데이터를 추가하는 벌크업이 필요할 수 있습니다.
Level III 진단
레벨 III은 데이터 도메인 및 작업 특성을 고려하여 제작된 맞춤형 데이터렌즈를 활용하여 데이터를 분석합니다. 이 단계에서는 데이터렌즈 가공, 즉 데이터 특이적인 커스텀 신경망을 디자인하여 학습하는 과정이 포함됩니다. 레벨 III 데이터렌즈의 특징은 측정 렌즈와 생성 렌즈가 한 쌍으로 가공되기 때문에, 향후 합성데이터 생성에도 바로 사용될 수 있다는 점입니다. 측정 방식은 레벨 II와 동일합니다.

이미징 신경망

특징 추출

생성형 신경망
1. 데이터렌즈와 이미징
대용량 데이터셋의 복잡한 특성을 한층 정밀하게 포착하기 위해 적절한 데이터렌즈를 선택할 뿐 아니라, 해당 렌즈를 데이터셋에 맞춰 가공한 후 데이터 이미징을 진행합니다. 특히 레벨 III의 경우, 레벨 Ⅱ와 다르게 합성데이터 생성(데이터 벌크업), 중복 데이터 제거(데이터 다이어트), 안전한 데이터 유통을 위한 재현 데이터 생성(데이터 레플리카)과 같은 개선 방안을 함께 고려한 진단을 진행합니다. 개선이 필요할 경우, 이미징 결과에 기반하여 합성데이터를 즉시 생성할 수 있도록 자체 개발한 렌즈가 사용됩니다.
• 데이터렌즈 가공/선택
데이터의 다차원적 특성을 한층 정밀하게 포착하기 위해 적절한 데이터렌즈를 선택한 후 데이터 이미징을 진행합니다.
관찰 차원
관찰 차원이란, 선택한 신경망 모델의 레이어를 통해 출력된 특징(features) 벡터의 차원 크기입니다. 이 값은 데이터셋이 지닌 복잡성과 다양성을 잃지 않는 선에서 가장 적절하게 차원을 최적화한 결과물입니다. 레벨 Ⅱ와 달리, 레벨 III의 데이터 특이적 렌즈는 대상 데이터셋의 특성에 맞추어 가공되었기 때문에 불필요한 요소 (예:이미지에서의 배경 등)를 배제하고 작업에 필요한 타겟 객체를 한층 정확하게 포착할 수 있습니다. 데이터의 고유한 특성을 반영하지 않는 특징 벡터가 제거되었기 때문에, 레벨 Ⅱ의 차원보다 훨씬 줄어든 차원으로 관찰할 수 있습니다. 레벨 III의 데이터렌즈를 사용하면 입력된 데이터셋 고유의 특성을 반영하는 특징 벡터들이 최소 차원이 산출되는데, 이 최소 차원을 내재적 차원(intrinsic dimension)이라 부릅니다. 페블러스에서는 자체 개발하여 특허를 취득한 기술을 사용해 내재적 차원을 병렬적으로 빠르게 도출합니다.
렌즈 가공 유형
인공지능 모델의 학습 목적, 모델을 적용할 작업, 데이터의 특성을 종합적으로 고려하여 데이터렌즈(DataLens)가공 유형을 선택합니다. 특히 데이터셋의 구조와 복잡성에 가장 잘 맞는 방법이 적용됩니다.
• 데이터 이미징
앞서 선택한 기존 신경망에 데이터셋 전체를 통과시켜 특징 벡터들을 추출합니다. 이때 특징 벡터가 원본 데이터의 구조를 정확히 반영할 수 있도록, 이미징 공간상의 매니폴드(Manifold)에 해당 값들을 임베딩(imbedding)한 후 기하학적인 관점에서 거리와 밀도를 측정합니다. 이때 이미징 공간의 차원 크기는 관찰 차원과 동일하며, 각 특징 벡터의 값은 원본 데이터 포인트와 일대일 대응을 이룹니다.이와 같은 다차원 공간에서는 특징 벡터 및 그로부터 계산된 밀도를 직접적으로 관찰하기 어렵습니다. 따라서, 매니폴드 공간에 임베딩된 수천 수백 차원의 벡터값이 어떤 의미를 갖는지 해석하기 위해서는 구조화 단계를 필수적으로 거쳐야 합니다. 본 리포트에서는 크게 두 가지 방식, 즉 기하 속성 관찰과 분포 속성 관찰을 활용해 구조화를 진행합니다.
2. 기하 속성 관찰
이 단계에서는 데이터 맞춤형 렌즈를 통해 얻은 데이터셋의 기하학적 속성을 시각화하여 보다 심층적으로 관찰합니다. 기존 신경망을 사용하는 레벨 II에서는 발견하기 어려운 데이터 포인트 간의 상호 관계, 공간적 배치, 데이터셋 내의 복잡한 구조 등을 더욱 정밀하게 검토합니다. 이 단계를 거치며 데이터 고유의 속성에 기인한 기하학적 복잡성 및 패턴을 세밀하게 식별하여 한층 고도화된 데이터 분석 전략을 수립할 수 있습니다.
• 거시 속성 관찰
특징 벡터의 전체적인 구조 및 다차원 공간에서의 분포를 관찰합니다. 이를 기반으로 데이터셋의 주요 기하학적 특징 및 경향성을 파악할 수 있습니다. 거리와 밀도를 계산하는 최적 관찰 차원은 시각화를 위해서는 여전히 차원이 높기 때문에, 다시 2차원 PCA 기법을 사용해 차원을 축소하여 특징 벡터값들을 한눈에 파악할 수 있도록 합니다.
전체 데이터 분포
데이터렌즈로 얻은 고차원 이미징 결과를 시각화하기 위한 2차원 PCA 결과입니다. 차트 내에서 원점(Origin)은 이미징 공간에서의 원점 벡터 값, 평균 이미지 특징(Mean Image Feature)는 전체 평균 이미지를 데이터로렌즈로 이미징한 벡터 값입니다. 이미지의 다양성이 높을수록 평균 특징과 평균 이미지 특징의 거리가 큽니다.
매니폴드 형상 측정 (I) 거시적
데이터 이미징 결과를 다차원 공간의 매니폴드로 관찰합니다. 가로축은 대표적인 클래스들입니다. 세로축은 클래스에 속한 특징 벡터들의 크기(Norm)의 평균이며, 원점으로부터의 거리의 평균에 해당합니다. 원점으로부터의 최소/최대 거리를 함께 표시하여 매니폴드의 전체 크기와 각 클래스의 특이성을 가늠합니다. 다양성이 높은 데이터의 평균 이미지는 데이터셋의 어떤 이미지와도 유사하지 않아서 일반적으로 최소/최대 구간 밖에 존재하는데, 레벨 II 진단에 사용하는 데이터 렌즈는 도메인 중립적이기 때문에 평균 이미지도 최소/최대 구간에 존재하는 게 보통입니다.
• 국소 속성 관찰
국소 속성 측정에서는 개별 특징 벡터값의 속성에 대해서 한층 상세하게 분석합니다. 예를 들어, 이상치로 보이는 예외 데이터 샘플들을 찾아낼 수 있습니다.
거리 기반 유사도 측정
클래스별 대표 이미지들에 대해서 거리 기반 유사도 검색 결과입니다. 예를 들어, 주어진 데이터에 대해서 가장 가깝거나 가장 먼 데이터를 각각 10개씩 뽑아서 보여줍니다. 이를 통해 데이터셋 내부의 국소적 특이성을 파악할 수 있습니다. 이는 데이터셋 내에 존재하는 이상치 및 중복 이미지를 식별하는 데 도움이 됩니다.
밀도 측정 (I)
데이터 이미징 결과인 다차원 매니폴드상에서 각 데이터 별로 인접한 데이터들과의 거리를 계산하여 밀도를 계산합니다. 특정 데이터 주변에 다른 데이터가 많을수록 밀도가 높으며, 적을수록 밀도가 낮습니다. 밀도가 높은 데이터는 중복일 가능성이 크고, 밀도가 낮은 데이터는 이상치일 가능성이 큽니다. 밀도의 가시화는 관찰 차원이 아닌 2차원 PCA를 통해 시각화합니다. 이때 붉은색이 진할수록 데이터의 밀도가 높습니다. 클래스별 밀도 측정의 경우, 밀도의 분포를 대표하는 총 12개의 클래스를 선별하여 결과를 보여줍니다.
거리-밀도 측정
데이터 이미징 결과로서의 다차원 매니폴드의 형상과 각 데이터의 밀도를 함께 보여줍니다. 가로축은 각 특징 벡터의 원점으로부터의 거리이고, 세로축은 해당 데이터의 밀도입니다. 다양한 데이터에 대한 거리-밀도 측정 결과 좋은 분포의 데이터셋의 거리-밀도 차트는 하나의 깃털(feather) 모양을 갖습니다. 따라서 깃털 차트라고도 합니다. 보통 유사/중복 데이터는 깃털의 상단에 밀도가 높은 영역에 위치합니다.
밀도 측정 (II)
밀도 측정 (I)과 유사하지만 등고선을 더해서 밀도의 분포를 데이터의 거시적 분포와 함께 관찰할 수 있도록 합니다. 밀도와 함께 보면 거시적 분포의 클러스터를 더 쉽게 발견할 수 있습니다.
3. 분포적 속성 관찰
이 단계에서는 데이터 맞춤형 렌즈를 통해 얻은 데이터셋의 분포적 속성을 시각화하여 보다 심층적으로 관찰합니다. 마찬가지로, 레벨 II에서는 파악하기 어려운 데이터 포인트 간의 밀도, 분산, 분포적 특성 등을 더욱 정밀하게 검토합니다. 이 단계를 거치며 데이터셋의 분포적 복잡성 및 다양성을 정확하게 인식하여 보다 정교한 데이터 모델링 전략을 수립할 수 있습니다.
• 통계적 속성 관찰
차원 축소 이전의 데이터를 전체적으로 조망하기 위해, 데이터의 기하학적 특성과 각 데이터 포인트의 거리 분포를 기반으로 전체 매니폴드의 형상을 분석합니다.
매니폴드 형상 측정 (II) 통계적
데이터 이미징 결과를 다차원 공간의 매니폴드에서 통계적으로 관찰합니다. 가로축은 각 벡터 값별 원점으로부터의 거리, 세로축은 각 벡터 값의 빈도를 나타냅니다. 이때 점선으로 표시된 그래프는 해당 클래스의 평빈도를 나타냅니다. 이를 통해 매니폴드에서 특정 클래스의 분포를 이해할 수 있습니다. 기준점을 중심으로 네 가지 차트를 보여 줍니다. (1) 매니폴드 원점에서의 거리, (2) 클래스별 원점에서의, (3) 데이터 중심에서의 거리, (4) 클래스별 데이터 중심에서의 거리
밀도 측정 (III) 분포적 속성
각 데이터의 밀도에 대한 분포를 두 가지 차트로 보여줍니다. 먼저 히스토그램 차트에서 가로축은 밀도 값, 세로축은 밀도의 빈도를 나타냅니다. 히스토그램을 통해 데이터셋의 전체적인 밀도 분포를 이해할 수 있습니다. 특히 엣지 케이스와 같은 이상치의 분포를 이해하는 데 도움이 됩니다. 두 번째 차트는 대표 클래스에 대한 밀도 분포를 박스(Box-Whisker) 차트로 보여줍니다. 대표 클래스들을 밀도 순으로 배열하였고, 평균 밀도와 비교할 수 있습니다. 추후에 데이터 품질 개선(벌크업/다이어트)을 하게 되면 밀도의 분포가 개선되는 것도 확인할 수 있습니다.
• 특이 샘플 예시
클래스를 고려하지 않은 전체 데이터셋에서 밀도가 가장 높은 샘플과 가장 낮은 샘플을 각각 20개씩 검출한 후, 각 클래스별로 이와 같은 작업을 반복하여 비교합니다. 이를 기반으로 유사하거나 중복되는 데이터 및 이상치에 해당하는 데이터를 효과적으로 확인할 수 있습니다.
밀도 관점의 특이 샘플
품질 진단 이후에 도메인 지식을 갖고 한번 더 살펴봐야 할 특이 샘플들을 보여 줍니다. 우선 밀도 관점의 특이 샘플입니다. 전체 분포에서 그리고 클래스 별로 가장 밀도가 높고, 낮은 샘플들을 20개씩 보여 줍니다. 밀도가 높은 샘플은 유사/중복 데이터에 해당할 가능성이 높으며 추후 데이터 다이어트의 대상이 됩니다. 밀도가 낮은 샘플은 특이한 샘플입니다. 목표 작업에 따라서 에지 케이스로 유지하거나, 아웃라이어로 제거하거나, 밀도를 높이기 위해서 주변에 데이터를 추가하는 벌크업이 필요할 수 있습니다.