본문 바로가기

최신기술

[042]데이터 패브릭(Data Fabric)이란 무엇인가?

등장배경
o 기업에서 데이터를 자산화하고, 데이터 활용 민주화 하기 위해서는 모든 직원이 필요한 데이터에 대해 빠르고 쉽게 접근·활용할 수 있는 환경 제공 필요함.
빅데이터와 클라우드 시대의 활성화로 점점 더 많은 새로운 데이터가 이기종의 다양한 시스템에 분산저장되고 있으며, 이에 대한 빠른 접근과 활용, 그리고 통합적 관리(격리된 데이터관리)가 어려운 환경에 직면함.
 
데이터 관리의 변천사

 
각 데이터 관리(DataOps)구조의 특징은 무엇인가?
 

데이터 웨어하우스
데이터 웨어하우스는 일반적으로 여러 사업부의 데이터를 저장하며, 종합적인 분석을 위해 전체 조직에서 수집된 데이터를 중앙에 통합합니다. 데이터 마트는 단일 주제에 초점을 맞추고 있으며, 그 특성상 더 분산되어 있습니다.
 
데이터 레이크
데이터 레이크는 다양한 유형과 형식의 대량의 원시 데이터를 중앙 저장소에 저장하는 것을 목적으로 합니다. 데이터 레이크는 데이터를 수집하고 저장하는 것에 초점을 맞추며, 데이터의 정제와 가공은 나중에 필요할 때 수행됩니다. 데이터 레이크는 유연한 데이터 접근과 분석가능하게 하여 비구조적인 데이터와 실시간 데이터 처리에 유리한 환경을 제공합니다.
 

 
데이터 패브릭 ( 데이터웨어하우스 + 데이터 레이크의 결합 구조)
데이터 패브릭은 데이터 저장위치에 관계없이, 다양한 데이터 소스를 통합하여 실시간으로 처리, 분석, 공유하기 위한 플랫폼입니다. 주요 목적은 데이터의 일관성, 신뢰성, 상호 연결성을 강화하고, 데이터를 빠르게 활용하여 의사 결정을 지원하는 것입니다.
즉, 다양한 시스템에 분산된 대규모 데이터에 대한 통합적인 접근과 공유를 위한 정보네트워크 체계라 정의할수 있습니다.
 
데이터 패브릭의 구성요소 및 절차

데이터 패브릭의 구성요소

 
데이터 패브릭의 절차 설명
1.데이터 카탈로그
o 데이터 카탈로그는 조직에서 보유한 데이터 자산에 대한 인벤토리임. 즉,메타데이터를 수집하여 구성하여 데이터 관리작업 및 사용자의 검색을 통한 접근활용을 지원하는 메타 데이터 기반 데이터 인벤토리 관리체계임
데이터 카탈로그의 확장[자동화 기술관점] : Passive Meta Data vs. Active Meta Data
o 기존의 메타데이터 관리는 데이터 선별과 등록이 ‘사람’의 ‘판단’ 의해 ‘간헐적’인 ‘수작업’으로 이루어지는 ‘정적이고 수동적인 방식(Passive Meta Data)’이었음,그러나 다양한 새로운 데이터가 끊임없이 생성되어 분산된 시스템에 저장되는 현재의 환경에서,  수동적인 메타데이터 관리 방식으로 데이터를 인지 등록하기에는 불가능해지고 있음.또한 개별 개별의 새로운 데이터를 인지하는 문제 뿐만 아니라, 데이터와 데이터 간의 유의미한 관계를 사람이 판단하는 데에도 한계에 봉착.이러한 문제점을 해결하기 위해 ‘상시 작동’하면서, ‘지능적으로 생성’하고, ‘처방’으로 이어지는 ‘플랫폼’ 기반의 능동 메타데이터(Active Meta Data) 체계로의 전환이 이루어지고 있음
2.데이터 포털
o 데이터 카탈로그(메타데이터)에 대해 자연어 기반으로 검색(Pull)하고, 사용자에게 데이터 사용량이 많은 인기 데이터나 검색한 데이터와 연관된 데이터를 추천(Push) 하는 검색엔진을 제공하는 데이터 검색과 활용을 위한 업무포털.또한 데이터 관리, 접근 및 활용을 위한 사용자간 협업(토론, 알람, 신청,승인 워크플로우, 크라우드 소싱 등)을 위한 도구가 데이터 포터 내에 통합되어 운영.
3.데이터 준비 및 전달

데이터 통합
o 데이터 포털을 통해 사용자가 요청한 데이터를 다양한 이기종의 원천 소스로부터 모든 유형의 데이터를 추출/변환/적재 하기위한 내장 변환 함수 및 커넥터 제공,또한 이러한 데이터 추출/변환/적재 작업에 대한 스케쥴링 및 모니터링을 위한 관제 기능 제공
데이터 서비스
o 수집요청에 따라 추출/변환/적재 된 다양한 유형의 데이터에 대해 손쉽게 접근/활용하기 위한 데이터 서비스 API 제공

 
데이터 패브릭 이후 등장한 데이터 매쉬란 무엇인가? (데이터 패브릭과 데이터 매쉬의 구조적 차이점)

데이터 관리 구조 변천사

데이터 메시와 데이터 페브릭은 둘 다 데이터 관리와 분석을 위한 접근 방식이지만, 목표와 구현 방법에서 차이가 있습니다.
 
데이터 메시는 데이터를 독립적인 도메인으로 간주하고, 각 도메인이 자체적으로 데이터를 소유하고 관리하는 것을 강조합니다. 데이터 메시는 분산된 형태로 데이터를 유지하며, 각 도메인은 데이터의 책임과 정책을 자율적으로 결정합니다. 데이터 메시는 조직 내에서 데이터 문화를 구축하고, 도메인 팀 간의 협력을 강조합니다.
 
반면, 데이터 페브릭은 데이터 통합과 일관성을 강조하는 접근 방식입니다. 데이터 페브릭은 중앙 집중식 아키텍처에 기반을 두고 있으며, 다양한 데이터 원천과 데이터 소비자 간의 통합을 위한 플랫폼이나 프레임워크를 제공합니다. 데이터 페브릭은 데이터의 흐름과 일관성을 관리하여 데이터를 신뢰할 수 있는 상태로 유지하고, 데이터 품질 관리, 보안, 메타데이터 관리 등을 지원합니다.
 
요약하자면, 데이터 메시는 도메인의 독립성과 자율성을 강조하며, 데이터의 분산과 협력에 초점을 둡니다. 데이터 페브릭은 데이터의 일관성과 통합을 강조하며, 중앙 집중식 아키텍처를 기반으로 다양한 데이터 관리 기능을 제공합니다. 선택은 구체적인 상황과 조직의 요구에 따라 달라질 수 있습니다.