[빅데이터 저장소 1편] 데이터 레이크(Data Lake)란 무엇인가?

클로비스
2월 23일
4분 분량

안녕하세요, 클로비스입니다.

이번 포스팅에서는 원시적이고 비정형적인 데이터를 저장하여 AI 활용의 기반이 되는 데이터 레이크를 소개해 드리려고 합니다.

데이터 레이크란 무엇인가요?

데이터 레이크는 대량의 데이터를 원본 형태로 저장하는 중앙 저장소입니다. 다음과 같은 데이터를 수집할 수 있습니다.

소셜 미디어 게시물
이미지
센서 데이터
로그 파일
재무 데이터
IoT 데이터
문서, 이메일, 제품 리뷰 등 모든 종류의 텍스트 데이터

데이터 레이크는 *정형(Structured), *비정형(Unstructured), *반정형(Semi-structured) 데이터를 모두 수집할 수 있습니다. 저장된 데이터는 AI와 머신러닝으로 처리하여 데이터 분석 및 인사이트를 통해 회사가 경쟁 우위를 확보하는 데 사용할 수 있습니다. 실제로 데이터를 선도하는 기업은 고객 확보 및 유지율이 무려 89% 향상되었습니다.

*정형 데이터: 미리 정의된 스키마에 따라 저장할 수 있는 데이터

*비정형 데이터: 이메일 본문, 이미지, 비디오 등과 같이 미리 정의된 형태가 없는 자유로운 형태의 데이터

*반정형 데이터: 정의된 스키마를 따르지않지만, 데이터 내용과 구조를 설명하는 태그나 메타데이터를 포함한 데이터

데이터 레이크는 데이터 관리를 더 쉽게 만들 수 있습니다. 전문가들은 비정형 데이터가 전체 데이터의 80~90%를 차지한다고 추정하는데, 이는 데이터를 처리하고 분석할 수 없는 조직은 비즈니스의 전체적인 그림을 파악하지 못한다는 것을 의미합니다. 데이터 레이크는 이러한 정보를 먼저 처리하고 구조화할 필요 없이 저장할 수 있는 저렴하고 유연한 환경을 제공하여 시간과 비용을 절감해 줍니다.

데이터 레이크의 장점

데이터 레이크는 편리한 저장 공간, 확장성 및 비용 효율성을 제공하여 기업이 다양한 방식으로 데이터셋의 잠재력을 최대한 활용할 수 있도록 지원합니다.

중앙 집중식 데이터 저장소

복잡한 데이터 변환 작업이나 스키마 정의 없이 다양한 원시 데이터를 한곳에 모아 쉽게 접근하고 분석할 수 있습니다.

데이터 통합 및 분석

CRM, ERP 같은 내부 시스템과 웹사이트, SNS 같은 외부 데이터 소스를 하나로 통합해 *데이터 사일로를 제거하고 비즈니스 전반을 입체적으로 파악할 수 있습니다.

*데이터 사일로: 서로 분리되어 기업의 다른 부서에서 액세스할 수 없는 데이터 스토리지 및 관리 시스템

신뢰할 수 있는 AI 지원

광범위하고 다양한 데이터를 기반으로 AI·머신러닝 모델을 학습시켜 고객 경험 개인화, 예측, 의사결정 지원, 실시간 추천 등을 구현할 수 있습니다.

확장성 및 비용 효율성

데이터 변환이나 스키마 변경 없이 정형, 반정형 및 비정형 데이터를 저장할 수 있습니다. 이러한 유연성 덕분에 비용이 많이 드는 전처리 작업이 불필요합니다. 데이터 레이크는 데이터 라이프 사이클, 메타데이터 관리, 거버넌스 문제의 위험과 비용을 낮추는 접근 제어 기능을 제공할 수도 있습니다.

데이터 레이크의 과제

명확한 거버넌스와 조직이 없으면 데이터 레이크는 무질서하고 읽기 어려운 '데이터 늪'으로 변할 수 있으며, 이는 규정 준수 문제를 일으킬 수 있습니다.

스토리지 인프라를 확장하거나 복잡한 데이터셋을 분석하면 예상치 못한 비용이나 성능 문제가 발생하여 운영 속도가 느려질 수 있습니다. 또한 원시 데이터 불일치나 오류가 포함되어 있어 분석이 다소 어렵다는 문제가 있습니다.

이러한 문제를 해결하려면 강력한 아키텍처, 신중한 거버넌스 전략, 메타데이터 관리, 원시 데이터를 유용한 인사이트로 전환할 수 있는 적절한 도구가 필요합니다.

데이터 레이크의 활용 사례

기업은 방대한 양의 원시 데이터를 다양한 목적으로 활용할 수 있습니다.

데이터 탐색 및 분석

데이터 레이크는 다양한 데이터셋을 위한 중앙 저장소 역할을 합니다. 이러한 방대한 데이터를 활용하여 분석을 수행하고, 분산되어 있던 기록들을 탐색하여 트렌드를 파악하고, 운영을 개선하고, 혁신을 추진할 수 있습니다.

머신러닝·AI 모델 학습

AI와 에이전트 AI는 다양하고 방대한 양의 정보를 활용할 수 있으며, 데이터 레이크는 비정형 및 반정형 데이터를 저장할 수 있기 때문에 AI 모델을 훈련, 배포 및 관리하는 데 사용할 수 있습니다.

데이터 기반 의사결정

데이터 레이크는 비즈니스에 대한 깊이 있는 이해를 바탕으로 의사결정을 내릴 수 있도록 지원합니다. 데이터 레이크에 저장된 데이터를 검색, 필터링, 시각화하는 도구를 활용하여 신제품 출시 시기, 비용 절감 방안, 재고 수준 최적화 방법 등 정보에 입각한 결정을 내릴 수 있습니다. 또한, 데이터 레이크에 지속적으로 유입되는 데이터를 분석하여 이상 징후를 파악하고 새로운 트렌드를 실시간으로 예측하고 앞서 나갈 수 있습니다.

데이터 레이크의 아키텍처

다음은 데이터 레이크 아키텍처의 두 가지 기본 요소입니다.

데이터 수집 및 저장

데이터 수집은 다양한 소스에서 레코드를 수집하여 데이터 레이크로 가져오는 과정입니다. 이러한 소스에는 데이터베이스의 정형 데이터, 문서나 소셜 미디어의 비정형 데이터, 로그나 센서 판독 값의 반정형 데이터가 포함됩니다. 데이터는 특정 순서 없이 저장되므로 원본 상태 그대로 탐색하고 분석할 수 있습니다.

데이터 처리 및 변환

데이터 레이크에 저장되면, 데이터는 더 쉽게 읽고 분석에 활용할 수 있도록 처리하고 변경할 수 있습니다. 의미 있는 인사이트를 도출하기 위해 데이터를 필터링, 결합 또는 요약하는 작업이 포함됩니다. 변환은 원시 데이터를 표나 열과 같이 보다 체계적인 형식으로 변환하여 빠르고 정확한 분석을 가능하게 합니다.

데이터 거버넌스 및 보안

데이터 레이크 환경에서는 유출이나 손실을 방지하기 위해 데이터 보안이 매우 중요합니다. 암호화 및 다중 인증과 같은 기본적인 보안 조치 외에도 정기적인 보안 감사와 취약점 평가를 수행하여 잠재적인 위험이나 취약점을 식별해야 합니다.

데이터 개인정보 보호 및 보안 유지

민감한 정보를 보호하는 것은 고객 신뢰를 유지하고 개인정보 보호 규정을 준수하는 데 매우 중요합니다. 개인 식별 정보(PII)를 익명화하면 데이터 프라이버시를 보장하면서도 분석이 가능합니다. 데이터 마스킹 기술과 접근 제어를 구현하면 데이터 보호가 더 강화됩니다.

사용자 접근 및 권한 제어

데이터에 대한 접근을 제어하는 것은 데이터 무결성을 유지하고 무단 사용을 방지하는 데 필수적입니다. 역할 기반 접근 제어(RBAC)를 구현하면 사용자의 역할과 책임에 따라 적절한 권한을 확보할 수 있습니다. 정기적으로 사용자 권한을 검토하고 업데이트하면 권한이 있는 사용자만 민감한 기록을 읽거나 액세스할 수 있습니다.

데이터 규정 준수

GDPR, HIPPA 또는 CCPA와 같은 데이터 규정을 준수하는 것은 법적 및 재정적 결과를 피하기 위해 매우 중요합니다. 데이터 솔루션이 규정 준수를 지원하는지 확인하세요.

다음 편에는 데이터 레이크와 데이터 웨어하우스 장점을 결합하고 한계를 극복한 '데이터 레이크하우스'에 대해 소개해 드리겠습니다.

블로그 글의 상세한 내용은 원문 링크에서 확인하실 수 있습니다.

원문 링크 바로가기

안내드린 내용 이외에도 문의사항이 있다면, 아래 폼을 통해 언제든지 클로비스에 문의 부탁드립니다.

클로비스의 월간 뉴스레터를 구독하시면,

그 어디에서도 볼 수 없는 클로비스만의 유용한 🎉Salesforce 사용 꿀팁🎉과 함께 클로비스의 새로운 소식을 메일로 받아보실 수 있습니다! 고객 여러분들의 많은 구독 부탁드립니다!

☞구독하기