Azure Databricks를 이용한 데이터 인텔리전스 엔드-투-엔드 아키텍처
데이터 인텔리전스 엔드-투-엔드 아키텍처는 분석, AI 및 실시간 인사이트를 위한 확장 가능하고 안전한 기반을 제공하며, 배치 및 스트리밍 데이터 모두를 처리합니다.

아키텍처 요약
데이터 인텔리전스 엔드-투-엔드 아키텍처는 Microsoft Fabric의 Power BI와 Copilot, Microsoft Purview, Azure Data Lake Storage Gen2 및 Azure Event Hubs와 원활하게 통합되어, 기업 전체에서 데이터 기반 의사결정을 강화합니다. 이 솔루션은 Azure Databricks의 데이터 인텔리전스 플랫폼과 Power BI를 결합하여 데이터와 AI를 민주화하면서 엔터프라이즈 등급의 보안 및 규모 요구를 충족하는 방법을 보여줍니다. Unity 카탈로그에 의해 관리되는 개방적이고 통합된 레이크하우스 아키텍처로 시작하여, 데이터 인텔리전스는 조직의 고유한 데이터를 활용하여 ETL, 데이터 웨어하우징 및 AI에 대한 간단하고 견고하며 접근 가능한 솔루션을 제공하여 데이터 제품을 더 빠르고 쉽게 제공할 수 있습니다.
사용 사례
이 엔드 투 엔드 아키텍처는 다음을 위해 사용될 수 있습니다:
- ETL, 데이터 웨어하우징, AI를 결합하여 레거시 데이터 아키텍처를 현대화하고, 더 간단하고 미래에 대비한 플랫폼을 만드세요.
- 실시간 분석 사용 사례를 규모에 맞게 구현하십시오. 예를 들어, 전자 상거래 추천, 예측 유지 보수 및 공급 체인 최적화 등이 있습니다.
- AI 주도 고객 서비스 에이전트, 개인화 및 문서 자동화와 같은 생산 등급 GenAI 애플리케이션 구축
- 조직 내의 비즈니스 리더들이 깊은 기술적 기술이나 맞춤형 대시보드 없이 데이터에서 통찰력을 얻을 수 있도록 돕습니다.
- 파트너와 고객과 데이터를 안전하게 공유하거나 수익화
데이터플로우
- Data Ingestion
- 스트림 데이터를 Azure Event Hubs 에서 Spark Declarative Pipelines로 전송하고, 스키마 강제 및 관리는 Unity Catalog를 통해 진행합니다
- 데이터를 점진적으로 적재하기 위해 Auto Loader 를 사용하고, 비구조화 및 반구조화 데이터는 ADLS Gen2 에서 Delta Lake로 이동합니다
- 외부 관계형 시스템에 접근하려면 Lakehouse Federation을 사용하여 모든 소스가 동일한 거버넌스 모델을 따르도록 합니다.
- Lakeflow 선언적 파이프라인과 Photon 엔진을 사용하여 메달리온 아키텍처를 따라 대규모로 배치 및 스트리밍 데이터 처리
- 브론즈: 보존 및 감사 가능성을 위해 원시 배치 및 스트리밍 데이터가 그대로 수집됩니다.
- Silver: 정제되고 결합된 데이터셋 - 복잡성을 단순화하기 위해 스트리밍 및 배치 로직이 선언적으로 정의됩니다
- Gold: 하류 분석 및 AI 시스템에 의해 소비되도록 설계된 집계된, 비즈니스 준비 데이터
- 이 통합 접근 방식은 팀이 실시간 및 과거 데이터 처리를 지원하는 견고한 파이프라인을 구축할 수 있게 해줍니다.
- ADLS Gen2에서 Delta Lake를 사용하여 모든 데이터를 열린, 상호 운용 가능한 형식으로 저장합니다.
Delta, Apache Iceberg™ 및 Hudi와 같은 엔진 간의 호환성을 활성화하면서 저장소를 안전하고 확장 가능한 환경에서 중앙화합니다. - 협업 노트북과 거버넌스 ML 도구를 사용하여 AI 모델을 탐색, 풍부하게 만들고 훈련시킵니다.
서버리스 노트북을 사용하여 모델을 탐색하고 훈련시키며, MLflow, 피처 스토어, Unity 카탈로그가 모델, 피처, 벡터 인덱스를 관리합니다. - Databricks SQL을 사용하여 데이터 레이크에서 직접 ad hoc 및 고병렬성 쿼리를 제공합니다.
데이터를 이동하거나 복제할 필요 없이 Gold-level 데이터에 빠르고 비용 효율적인 접근을 제공합니다. - Unity 카탈로그에 연결된 의미론적 모델을 사용하여 Power BI에서 비즈니스 준비 데이터를 시각화합니다.
Databricks SQL을 통한 거버넌스 데이터에 대한 실시간 연결로 Microsoft Fabric에서 보고서를 작성합니다. - AI/BI Genie를 사용하여 비즈니스 사용자가 자연어를 사용하여 데이터를 탐색하게 하십시오.
데이터 접근을 민주화하려면 누구나 SQL을 작성하지 않고 대화식으로 데이터를 쿼리할 수 있게 하십시오. - Delta Sharing을 사용하여 실시간으로 관리되는 데이터를 외부로 공유하십시오.
개방형 표준을 사용하여 데이터를 파트너, 고객 또는 다른 비즈니스 유닛과 안전하게 배포하십시오. - Databricks Jobs를 사용하여 플랫폼 전체의 데이터 및 AI 워크플로우를 조정합니다.
파이프라인 및 ML 작업 전반에 걸쳐 종속성, 스케줄링, 실행을 단일 창에서 관리합니다. - 메타데이터를 Microsoft Purview에 게시하여 통합 데이터 검색 및 관리를 위해 사용하십시오.
Unity 카탈로그 메타데이터를 동기화하여 엔터프라이즈 전체의 가시성을 확장하십시오. - 플랫폼 거버넌스를 위해 핵심 Azure 서비스를 활용합니다.
- 아이덴티티 관리 및 단일 로그인(SSO)은 Microsoft Entra ID를 통해 진행합니다
- 비용 및 청구 관리는 Microsoft Cost Management를 통해 진행합니다
- 텔레메트리와 시스템 건강을 모니터링하십시오 Azure Monitor를 통해
- 암호화된 키와 비밀을 관리하십시오 Azure Key Vault를 통해
- 버전 관리 및 CI/CD를 용이하게 하기 위해 Azure DevOps 와 GitHub를 사용합니다
- 클라우드 보안 관리는 Microsoft Defender for Cloud를 통해 보장합니다


