진단리포트 가이드

all close

레벨 I 진단 결과

데이터 정합성 측정

결측치 측정

클래스 균형 측정

통계 측정

레벨 II 진단 결과

데이터 렌즈 선택 및 이미징

기하 속성 관찰

분포 속성 관찰

레벨 III 진단 결과

데이터 렌즈 가공/선택 및 이미징

기하 속성 관찰

분포 속성 관찰

icon

Level I 진단 결과 - 기초 진단

데이터 정합성

이미지 크기

이미지 채널

라벨 정합성

결측치 확인

결측치 확인

통계 측정

전체 통계

전체 평균 이미지

전체 평균 이미지를 통해 데이터셋의 색상, 형태, 패턴에 대한 전체적인 경향성을 가늠할 수 있습니다.
image1

전체 평균 이미지의 픽셀 히스토그램

전체 평균 이미지의 컬러 채널별 분포 특성을 알 수 있습니다.
Red Color
Green Color
Blue Color
icon

Level II 진단 결과 - 기초 진단

데이터렌즈 선택 및 이미징

데이터렌즈 선택

베이스 신경망

 

관찰 자원

데이터 이미징

데이터 이미징

기하 속성 관찰

거시 속성 관찰

전체 데이터 분포

데이터렌즈로 얻은 고차원 이미징 결과를 시각화하기 위한 2차원 PCA 결과입니다. 차트 내에서 원점(Origin)은 이미징 공간에서의 원점 벡터 값, 평균 이미지 특징(Mean Image Feature)는 전체 평균 이미지를 데이터로렌즈로 이미징한 벡터 값입니다. 이미지의 다양성이 높을수록 평균 특징과 평균 이미지 특징의 거리가 큽니다.

매니폴드 형상 측정 (I) 거시적

데이터 이미징 결과를 다차원 공간의 매니폴드로 관찰합니다. 가로축은 대표적인 클래스들입니다. 세로축은 클래스에 속한 특징 벡터들의 크기(Norm)의 평균이며, 원점으로부터의 거리의 평균에 해당합니다. 원점으로부터의 최소/최대 거리를 함께 표시하여 매니폴드의 전체 크기와 각 클래스의 특이성을 가늠합니다. 다양성이 높은 데이터의 평균 이미지는 데이터셋의 어떤 이미지와도 유사하지 않아서 일반적으로 최소/최대 구간 밖에 존재하는데, 레벨 II 진단에 사용하는 데이터 렌즈는 도메인 중립적이기 때문에 평균 이미지도 최소/최대 구간에 존재하는 게 보통입니다.
최대 거리
최소 거리
평균 이미지의 거리
각 클래스의 평균 이미지

국소 속성 관찰

거리 기반 유사도 측정

클래스별 대표 이미지들에 대해서 거리 기반 유사도 검색 결과입니다. 예를 들어, 주어진 데이터에 대해서 가장 가깝거나 가장 먼 데이터를 각각 10개씩 뽑아서 보여줍니다. 이를 통해 데이터셋 내부의 국소적 특이성을 파악할 수 있습니다. 이는 데이터셋 내에 존재하는 이상치 및 중복 이미지를 식별하는 데 도움이 됩니다.

밀도 측정 (I)

데이터 이미징 결과인 다차원 매니폴드상에서 각 데이터 별로 인접한 데이터들과의 거리를 계산하여 밀도를 계산합니다. 특정 데이터 주변에 다른 데이터가 많을수록 밀도가 높으며, 적을수록 밀도가 낮습니다. 밀도가 높은 데이터는 중복일 가능성이 크고, 밀도가 낮은 데이터는 이상치일 가능성이 큽니다. 밀도의 가시화는 관찰 차원이 아닌 2차원 PCA를 통해 시각화합니다. 이때 붉은색이 진할수록 데이터의 밀도가 높습니다. 클래스별 밀도 측정의 경우, 밀도의 분포를 대표하는 총 12개의 클래스를 선별하여 결과를 보여줍니다.

밀도 차트: 전체 데이터 (관찰차원에서 계산하여 2차원 가시화)

밀도 차트 전체 데이터

거리-밀도 측정

데이터 이미징 결과로서의 다차원 매니폴드의 형상과 각 데이터의 밀도를 함께 보여줍니다. 가로축은 각 특징 벡터의 원점으로부터의 거리이고, 세로축은 해당 데이터의 밀도입니다. 다양한 데이터에 대한 거리-밀도 측정 결과 좋은 분포의 데이터셋의 거리-밀도 차트는 하나의 깃털(feather) 모양을 갖습니다. 따라서 깃털 차트라고도 합니다. 보통 유사/중복 데이터는 깃털의 상단에 밀도가 높은 영역에 위치합니다.

공간에 따른 밀도 분포

밀도 측정 (II)

밀도 측정 (I)과 유사하지만 등고선을 더해서 밀도의 분포를 데이터의 거시적 분포와 함께 관찰할 수 있도록 합니다. 밀도와 함께 보면 거시적 분포의 클러스터를 더 쉽게 발견할 수 있습니다.

데이터 등밀도선: 전체 데이터

Red Color

낮음

높음

분포 속성 관찰

통계적 속성 관찰

매니폴드 형상 측정 (II) 통계적

데이터 이미징 결과를 다차원 공간의 매니폴드에서 통계적으로 관찰합니다. 가로축은 각 벡터 값별 원점으로부터의 거리, 세로축은 각 벡터 값의 빈도를 나타냅니다. 이때 점선으로 표시된 그래프는 해당 클래스의 평빈도를 나타냅니다. 이를 통해 매니폴드에서 특정 클래스의 분포를 이해할 수 있습니다. 기준점을 중심으로 네 가지 차트를 보여 줍니다. (1) 매니폴드 원점에서의 거리, (2) 클래스별 원점에서의, (3) 데이터 중심에서의 거리, (4) 클래스별 데이터 중심에서의 거리

매니폴드의 분포적 형상: (1) 원점에서의 거리

Origin

매니폴드의 분포적 형상: (3) 데이터 중심에서의 거리

클래스 평균
Origin

밀도 측정 (III) 분포적 속성

각 데이터의 밀도에 대한 분포를 두 가지 차트로 보여줍니다. 먼저 히스토그램 차트에서 가로축은 밀도 값, 세로축은 밀도의 빈도를 나타냅니다. 히스토그램을 통해 데이터셋의 전체적인 밀도 분포를 이해할 수 있습니다. 특히 엣지 케이스와 같은 이상치의 분포를 이해하는 데 도움이 됩니다. 두 번째 차트는 대표 클래스에 대한 밀도 분포를 박스(Box-Whisker) 차트로 보여줍니다. 대표 클래스들을 밀도 순으로 배열하였고, 평균 밀도와 비교할 수 있습니다. 추후에 데이터 품질 개선(벌크업/다이어트)을 하게 되면 밀도의 분포가 개선되는 것도 확인할 수 있습니다.

밀도 히스토그램: 전체 데이터

클래스 평균
Origin

밀도 박스 차트

Mean Density

특이 샘플 예시

밀도 관점의 특이 샘플

품질 진단 이후에 도메인 지식을 갖고 한번 더 살펴봐야 할 특이 샘플들을 보여 줍니다. 우선 밀도 관점의 특이 샘플입니다. 전체 분포에서 그리고 클래스 별로 가장 밀도가 높고, 낮은 샘플들을 20개씩 보여 줍니다. 밀도가 높은 샘플은 유사/중복 데이터에 해당할 가능성이 높으며 추후 데이터 다이어트의 대상이 됩니다. 밀도가 낮은 샘플은 특이한 샘플입니다. 목표 작업에 따라서 에지 케이스로 유지하거나, 아웃라이어로 제거하거나, 밀도를 높이기 위해서 주변에 데이터를 추가하는 벌크업이 필요할 수 있습니다.
icon

Level III  진단 결과 - 기초 진단

데이터렌즈 가공/선택 및 이미징

데이터렌즈 가공

관찰 차원

렌즈 가공 유형

데이터 이미징

데이터 이미징

기하 속성 관찰

거시 속성 관찰

전체 데이터 분포

데이터렌즈로 얻은 고차원 이미징 결과를 시각화하기 위한 2차원 PCA 결과입니다. 차트 내에서 원점(Origin)은 이미징 공간에서의 원점 벡터 값, 평균 이미지 특징(Mean Image Feature)는 전체 평균 이미지를 데이터로렌즈로 이미징한 벡터 값입니다. 이미지의 다양성이 높을수록 평균 특징과 평균 이미지 특징의 거리가 큽니다.

매니폴드 형상 측정 (I) 거시적

데이터 이미징 결과를 다차원 공간의 매니폴드로 관찰합니다. 가로축은 대표적인 클래스들입니다. 세로축은 클래스에 속한 특징 벡터들의 크기(Norm)의 평균이며, 원점으로부터의 거리의 평균에 해당합니다. 원점으로부터의 최소/최대 거리를 함께 표시하여 매니폴드의 전체 크기와 각 클래스의 특이성을 가늠합니다. 다양성이 높은 데이터의 평균 이미지는 데이터셋의 어떤 이미지와도 유사하지 않아서 일반적으로 최소/최대 구간 밖에 존재하는데, 레벨 II 진단에 사용하는 데이터 렌즈는 도메인 중립적이기 때문에 평균 이미지도 최소/최대 구간에 존재하는 게 보통입니다.
최대 거리
최소 거리
평균 이미지의 거리
각 클래스의 평균 이미지

국소 속성 관찰

거리 기반 유사도 측정

클래스별 대표 이미지들에 대해서 거리 기반 유사도 검색 결과입니다. 예를 들어, 주어진 데이터에 대해서 가장 가깝거나 가장 먼 데이터를 각각 10개씩 뽑아서 보여줍니다. 이를 통해 데이터셋 내부의 국소적 특이성을 파악할 수 있습니다. 이는 데이터셋 내에 존재하는 이상치 및 중복 이미지를 식별하는 데 도움이 됩니다.

밀도 측정 (I)

데이터 이미징 결과인 다차원 매니폴드상에서 각 데이터 별로 인접한 데이터들과의 거리를 계산하여 밀도를 계산합니다. 특정 데이터 주변에 다른 데이터가 많을수록 밀도가 높으며, 적을수록 밀도가 낮습니다. 밀도가 높은 데이터는 중복일 가능성이 크고, 밀도가 낮은 데이터는 이상치일 가능성이 큽니다. 밀도의 가시화는 관찰 차원이 아닌 2차원 PCA를 통해 시각화합니다. 이때 붉은색이 진할수록 데이터의 밀도가 높습니다. 클래스별 밀도 측정의 경우, 밀도의 분포를 대표하는 총 12개의 클래스를 선별하여 결과를 보여줍니다.

밀도 차트: 전체 데이터 (관찰차원에서 계산하여 2차원 가시화)

밀도 차트 전체 데이터

거리-밀도 측정

데이터 이미징 결과로서의 다차원 매니폴드의 형상과 각 데이터의 밀도를 함께 보여줍니다. 가로축은 각 특징 벡터의 원점으로부터의 거리이고, 세로축은 해당 데이터의 밀도입니다. 다양한 데이터에 대한 거리-밀도 측정 결과 좋은 분포의 데이터셋의 거리-밀도 차트는 하나의 깃털(feather) 모양을 갖습니다. 따라서 깃털 차트라고도 합니다. 보통 유사/중복 데이터는 깃털의 상단에 밀도가 높은 영역에 위치합니다.

공간에 따른 밀도 분포

밀도

밀도 측정 (II)

밀도 측정 (I)과 유사하지만 등고선을 더해서 밀도의 분포를 데이터의 거시적 분포와 함께 관찰할 수 있도록 합니다. 밀도와 함께 보면 거시적 분포의 클러스터를 더 쉽게 발견할 수 있습니다.

데이터 등밀도선: 전체 데이터

Red Color

낮음

높음

분포 속성 관찰

통계적 속성 관찰

매니폴드 형상 측정 (II) 통계적

데이터 이미징 결과를 다차원 공간의 매니폴드에서 통계적으로 관찰합니다. 가로축은 각 벡터 값별 원점으로부터의 거리, 세로축은 각 벡터 값의 빈도를 나타냅니다. 이때 점선으로 표시된 그래프는 해당 클래스의 평빈도를 나타냅니다. 이를 통해 매니폴드에서 특정 클래스의 분포를 이해할 수 있습니다. 기준점을 중심으로 네 가지 차트를 보여 줍니다. (1) 매니폴드 원점에서의 거리, (2) 클래스별 원점에서의, (3) 데이터 중심에서의 거리, (4) 클래스별 데이터 중심에서의 거리

매니폴드의 분포적 형상: (1) 원점에서의 거리

클래스 평균
Origin

매니폴드의 분포적 형상: (3) 데이터 중심에서의 거리

클래스 평균
Origin

밀도 측정 (III) 분포적 속성

각 데이터의 밀도에 대한 분포를 두 가지 차트로 보여줍니다. 먼저 히스토그램 차트에서 가로축은 밀도 값, 세로축은 밀도의 빈도를 나타냅니다. 히스토그램을 통해 데이터셋의 전체적인 밀도 분포를 이해할 수 있습니다. 특히 엣지 케이스와 같은 이상치의 분포를 이해하는 데 도움이 됩니다. 두 번째 차트는 대표 클래스에 대한 밀도 분포를 박스(Box-Whisker) 차트로 보여줍니다. 대표 클래스들을 밀도 순으로 배열하였고, 평균 밀도와 비교할 수 있습니다. 추후에 데이터 품질 개선(벌크업/다이어트)을 하게 되면 밀도의 분포가 개선되는 것도 확인할 수 있습니다.

밀도 히스토그램: 전체 데이터

클래스 평균
Origin

밀도 박스 차트

Mean Density

특이 샘플 예시

밀도 관점의 특이 샘플

품질 진단 이후에 도메인 지식을 갖고 한번 더 살펴봐야 할 특이 샘플들을 보여 줍니다. 우선 밀도 관점의 특이 샘플입니다. 전체 분포에서 그리고 클래스 별로 가장 밀도가 높고, 낮은 샘플들을 20개씩 보여 줍니다. 밀도가 높은 샘플은 유사/중복 데이터에 해당할 가능성이 높으며 추후 데이터 다이어트의 대상이 됩니다. 밀도가 낮은 샘플은 특이한 샘플입니다. 목표 작업에 따라서 에지 케이스로 유지하거나, 아웃라이어로 제거하거나, 밀도를 높이기 위해서 주변에 데이터를 추가하는 벌크업이 필요할 수 있습니다.

진단리포트 차트 탐색기

진단리포트 선택

차트 종류

클래스

페블이와 함께 볼 차트를 선택해주세요

chart_search