AI Data Doctor
데이터를 위한 종합병원 Data Clinic은 데이터의 품질 진단에서 품질 개선 까지, 올인원 서비스를 제공합니다.

데이터 품질 진단에서 개선까지
데이터 클리닉의 정확한 품질 진단에 근거한 데이터 치료를 바탕으로, 안전성, 효율성, 신뢰성까지 보장되는
AI-레디 데이터(AI-Ready Data)를 준비하세요!

아래에서 더 자세히 설명드리겠습니다
데이터 클리닉의
주요 프로세스
01. 데이터 진단 엔진
고급 AI 기법을 활용하여 데이터를 최적의 관점에서 관찰하고 특성을 측정합니다.
(DataLens 등 핵심 기술 미국 특허 등록 2건, 국내외 출원 28건)
데이터 이미징
데이터의 잠재력 발굴
데이터 이미징과 데이터렌즈(Data Lens) 기술을 통해 대용량 데이터를 관찰 가능하고 측정 가능하게 변환합니다.데이터 품질 진단
정밀한 데이터 분석
이미징 결과에 대해서 데이터 커버리지, 밀도, 균질도, 이상치 등데이터 품질의 다양한 지표를 측정하여 상세한 리포트를 생성합니다.
02. 데이터 개선 엔진
데이터 진단 기반하여 정밀 타게팅 합성데이터 생성(데이터 벌크업), 데이터 최적 경량화(데이터 다이어트) 등으로 데이터 품질을 개선합니다.
개선 처방
도메인 특성을 고려한 분석
데이터 진단의 결과를 고객 및 도메인 관점에서 한 번 더 해석하여 가장 최적의 데이터 품질 방법을 제안합니다.품질 개선
품질 개선에서 참조모델까지
데이터 벌크업 (합성데이터 추가) 또는 데이터 다이어트(볼륨 경량화) 기법을 통해 데이터 품질을 개선하고 인공지능 참조모델을 만들어 성능 개선을 함께 보여드립니다.데이터 품질 진단과 개선에 대해 더 알고 싶다면?
레벨 I, II, III의 단계별
진단을 제공합니다.
EDA 기반의 기초 진단인 Level I, 본격적으로 인공지능을 활용하는 Level II 진단, 데이터의 특성, 목표 작업, 그리고 추후 합성데이터 생성 까지 고려하는 데이터 클리닉의 최고급 진단인 Level III 까지, 체계적인 진단을 제공합니다.

진단 Level I
: 기초 진단
레벨 I 진단은 데이터 정합성, 결측치, 클래스 균형, 통계적 측정을 평가하는
기초적인 분석 단계로, 다음 단계 진행을 위한 준비 작업을 수행합니다.
클래스 균형 측정, 통계 측정
진단 Level II
: 일반형 렌즈 기반 진단
레벨 II 진단은 신경망 기반의 데이터렌즈(DataLens)를 활용하여 데이터를 분석하는 단계입니다. 이 과정에서 기하 속성과 분포 속성을 관찰하여 데이터 간 관계와 통계적 분포를 파악합니다.
데이터렌즈
이미징 신경망
이미징
특징 추출
진단 Level III
: 데이터 특이적 렌즈 기반 진단
레벨 III 진단은 데이터의 도메인에 맞춘 맞춤형 신경망인 데이터렌즈를 사용하여 분석하는 단계입니다. 이 렌즈는 측정 렌즈와 생성 렌즈로 구성되어 있어, 합성데이터 생성에도 활용될 수 있습니다. 측정 방식은 레벨 II와 동일합니다.
데이터렌즈
이미징 신경망
이미징
특징 추출
데이터렌즈
생성형 신경망
페블러스의 데이터렌즈란?
페블러스의 데이터렌즈로 AI 데이터 품질을 분석·진단합니다.
페블러스 데이터렌즈(DataLens) 인공신경망을 통해 고객의 AI 학습데이터를 임베딩 공간에 특징 벡터(Features)로 표현합니다. 이렇게 관찰 및 측정이 가능하도록 변환된 데이터 이미징 결과에 대해서 페블러스의 자체적인 지표를 사용해 다양한 과학적 지표로 데이터의 품질을 측정합니다.
작업 중립적 (Task-neutral) 품질 진단
- 데이터셋의 도메인 혹은 이용 목적과 관계없이 데이터셋 자체에 대한 통계적, 물리적 특성을 진단하는 과정
- 정합성, 무결성, 완전성 등의 기초 품질 진단 지표들과 더불어 임베딩 공간의 데이터 분포에 대한 정량적 및 정성적 고급 진단 수행
작업 특이적 (Task-specific) 품질 진단
- 데이터셋의 도메인 및 이용 목적을 고려하여, 고객이 구성하고자 하는 AI 모델 및 작업에 적합하게 설계되는 맞춤형 진단 과정
- 임베딩 공간의 데이터 분포 및 타깃 작업의 특성을 동시에 고려하여 클래스 구별력, 데이터의 밀도, 이상치 탐지 등 진단 목표를 설정하여 고급 진단 수행
더 상세한 차트를 보고 싶다면?
고차원의 데이터 임베딩 벡터를 시각화를 위해 2차원으로 투영하여 표시합니다. 클러스터의 유무 등 데이터의 전체적인 형상을 가늠할 수 있습니다.
낮음
높음
데이터 간 거리 측정
데이터렌즈를 사용하면 두 데이터 사이의 거리 측정이 가능해지고, 이를 통해 두 데이터의 유사성과 차이를 체계적으로 설명할 수 있습니다. 두 데이터 사이의 거리 측정은 다중 데이터들로 확장될 수 있고 이를 통해 전반적인 데이터의 구조를 계산할 수 있습니다. 이러한 방법은, 이상치나 중복 데이터의 존재 여부를 확인하는 데 효과적입니다.
특정 데이터로부터 거리가 가장 가까운 10개 데이터
특정 데이터로부터 거리가 가장 먼 10개 데이터
다차원 특징 벡터의 원점 거리 분포: 벡터의 크기
데이터 내부 밀도 측정
데이터 밀도 측정은 임베딩 공간에서 데이터 포인트들의 밀집도를 정량화합니다. 이는 데이터의 구조와 복잡한 패턴을 해석하며,유의미한 관계를 추론하기 위한 핵심적인 기술입니다. 데이터 품질진단리포트에는 밀도 측정 결과 차트들은 과밀 영역 혹은 저밀도 영역을 식별하여 중요 영역의 데이터들과 잠재적 이상치를 구분하는 데 사용됩니다. 이러한 밀도 측정은 데이터 유사도, 클러스터링, 그리고 특이 패턴을 파악하는 데 효과적입니다.
기하 속성의 공간 분포 : 내재 차원에서 계산한 밀도를 2차원에 투영
낮음
높음
기하 속성의 통계적 분포 : 클래스별 밀도 분포
