1. 빅데이터 처리를 위한 기술
웹 서버 등에서 생성된 데이터는 처음에 RDB와 NoSQL 등의 텍스트 데이터에 저장되고, 이후 모든 데이터가 Hadoop으로 모여 대규모 데이터 처리가 실행된다. 전통적인 관계형 데이터베이스(RDB)에서 취급할 수 없을만큼 데이터의 양이 축적되면서 이를 해결하기 위해 Hadoop과 NoSQL 기술이 생겨난 것이다.
1) Hadoop
Hadoop은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템이다. 방대한 데이터를 처리하기 위해서는 수백, 수천 대의 컴퓨터가 필요한데 Hadoop은 이를 관리하는 프레임워크인 것이다.
2) NoSQL 데이터베이스
NoSQL은 전통적인 RDB의 제약을 제거하는 것이 목표인 데이터베이스의 총칭이다. 대표적으로 다수의 키와 값을 관련지어 저장하는 '키 밸류 스토어', JSON과 같이 복잡한 데이터 구조를 저장하는 '도큐멘트 스토어', 여러 키를 사용해 높은 확장성을 제공하는 '와이드 칼럼 스토어' 등이 있다. 공통적으로 RDB보다 빠른 읽기 및 쓰기가 가능하며 분산 처리에 뛰어나다는 특징을 가진다.
3) 데이터 웨어하우스
전통적인 데이터 웨어하우스는 데이터 용량을 늘리는데 제약이 있어 늘어나는 데이터 양을 감당하기 힘들어졌다. 이에 가속도적으로 늘어나는 데이터의 처리는 확장성이 뛰어난 Hadoop에 맡기고, 비교적 작은 데이터 혹은 중요한 데이터를 데이터 웨어하우스에 넣는 식으로 사용을 구분하게 되었다.
4) 클라우드 서비스
클라우드 서비스의 보급으로 빅데이터의 활용이 증가했다. 시간 단위로 필요 자원을 확보할 수 있게 되면서 빅데이터를 여러 컴퓨터에서 분산 처리하는 것이 쉬워졌다.
5) 셀프서비스용 BI 도구
'데이터 디스커버리'는 대화형으로 데이터를 시각화해 가치 있는 정보를 찾으려고 하는 프로세스를 의미한다. 데이터 웨어하우스에 저장된 데이터를 시각화하기 위한 방법으로 제시되었다. 데이터 디스커버리는 셀프서비스용 BI 도구로 불린다. BI 도구란, 대규모의 경영자용 시각화 시스템으로 셀프서비스용 BI 도구는 이것을 개인도 도입할 수 있을 정도로 단순화시킨 것이다.
2. 데이터 파이프라인
1) 데이터 수집
데이터 전송의 방법에는 크게 2가지가 있다.
- 벌크 형: DB와 파일 서버 등에서 정기적으로 데이터를 수집하는 데에 사용
- 스트리밍 형: 차례차례 생성되는 데이터를 끊임없이 계속해서 보내는 방법
데이터의 처리는 실시간으로 데이터를 처리하는 '스트림 처리'와 정리된 데이터를 효율적으로 가공하기 위한 '배치 처리' 방식이 있다. 최근 스트리밍 형 데이터 수집 방식이 주류가 되면서 스트림 처리 방식이 늘어나고 있다. 하지만 장기적인 데이터 분석에는 스트림 처리보다 배치 처리가 더 적합하다.
2) 분산 데이터 처리
수집된 데이터는 분산 스토리지에 저장되고, 추후 분석이 쉽도록 데이터를 가공하여 외부 데이터베이스에 저장하기 위한 분산 데이터 처리 프레임워크가 필요하다. 빅데이터를 SQL로 집계하기 위한 방법으로는 Hive와 같은 쿼리 엔진을 도입하는 것(현재는 더 빠른 대화형 쿼리 엔진도 개발됨)과 외부의 데이터 웨어하우스 제품을 이용하는 것이 있다. 외부 데이터 웨어하우스 제품을 이용하기 위해서는 추출한 데이터를 데이터 웨어하우스에 적합한 형식으로 변환하는 과정이 필요한데, 이를 'ETL 프로세스'라 부른다.
3. 데이터 웨어하우스와 데이터 마트
데이터 웨어하우스는 장기적인 데이터 저장이 목적이고, 중요한 데이터 처리에 사용되므로 아무때나 사용하는 것은 좋지 않다. 데이터 분석과 같은 목적으로 사용하려는 경우, 데이터 웨어하우스에서 필요한 데이터만을 추출해 '데이터 마트'를 구축한다.
데이터 레이크는 데이터 웨어하우스와 달리 가공되지 않은 데이터를 그대로 저장할 수 있는 데이터 스토리지이다.
※ 애드 혹 분석
자동화 등을 생각하지 않고 수작업으로 데이터를 집계할 수 있는 '일회성 데이터 분석'으로 데이터 마트를 만들지 않고 직접 데이터 레이크 혹은 데이터 웨어하우스에 연결하는 경우가 많다.
※ 3 depth 질문
- 최근에는 Hadoop이 기업에서 자주 사용되고 있어?
현재 기업에서의 Hadoop 활용 현황
1. 일부 대기업에서는 여전히 사용 중
- 특히 금융, 교육 등 규제와 데이터 보안이 중요한 산업에서는 기존의 Hadoop 기반 시스템이 안정성과 신뢰성 덕분에 유지되는 경우가 있습니다.
- 또한, 여전히 대규모 배치(batch) 데이터 처리 요구가 있는 경우 Hadoop이 유리한 선택으로 남아 있는 사례도 있습니다
2. 그러나 전환 추세가 뚜렷
- 최근 설문 결과에 따르면:
- 21%는 여전히 Hadoop을 적극적으로 사용 중
- 12%는 현재는 쓰지만, 신규 프로젝트는 더 이상 Hadoop 기반으로 시작하지 않음
- 16%는 다른 시스템으로 이전 중
- 52%는 이미 Hadoop을 중단했거나 이전을 완료한 상태입니다
- Fortune 500대 기업 사이에서도 Hadoop 활용은 급감하고 있다는 분석도 있습니다
3. 현대적 대안 기술의 확산
- Apache Spark, Flink 등 실시간 분석에 적합한 프레임워크가 빠르게 확산 중입니다. Spark는 메모리 기반 처리를 통해 실시간 분석과 반복적 작업에 강점을 보입니다.
- 또한, 클라우드 기반 관리형 데이터 플랫폼들인 Snowflake, AWS Redshift, Azure Databricks, BigQuery 등이 더 간편하고 확장성 높은 대안으로 부상하고 있습니다
- 클라우드 기반 관리형 데이터 플랫폼이 Hadoop에 비해 유리한 부분이 뭐야?
Hadoop 대비 클라우드 관리형 플랫폼(Snowflake, BigQuery 등)의 장점
1. 인프라 관리 부담 감소
- Hadoop은 직접 클러스터 구축·운영·튜닝(노드 관리, HDFS 설정, YARN 리소스 관리 등)을 해야 해서 운영 인력과 비용이 많이 듦.
- 클라우드 플랫폼은 Fully Managed 서비스로, 인프라 관리가 필요 없고 유지보수가 자동화됨 → 데이터 분석가나 엔지니어는 데이터 처리/분석 자체에 집중 가능.
2. 확장성과 유연성
- Hadoop은 클러스터 확장 시 노드 추가·네트워크 설정·데이터 밸런싱 등 복잡한 작업이 필요.
- 클라우드 플랫폼은 자동 스케일링 지원 → 트래픽이 많을 때만 확장하고, 줄어들면 축소 가능 → 비용 효율적.
3. 성능 및 속도
- Hadoop MapReduce는 디스크 기반 배치 처리라서 속도가 느림 (특히 반복 연산이나 실시간 처리에 부적합).
- Snowflake, BigQuery, Databricks 같은 플랫폼은 컬럼 기반 스토리지 + 메모리 연산 + 분산 쿼리 최적화를 통해 훨씬 빠른 성능 제공.
- 실시간 스트리밍 분석이나 대화형 쿼리도 훨씬 유리.
4. 비용 효율성 (Pay-as-you-go)
- Hadoop은 서버를 직접 운영해야 해서 항상 전력/장비 비용 발생.
- 클라우드 플랫폼은 사용한 만큼만 과금(Pay-per-use) → 소규모 분석부터 대규모 처리까지 유연한 비용 구조
5. 데이터 통합 및 생태계 지원
- Hadoop은 로그, 비정형 데이터 저장에는 강했지만, 분석·BI 툴과 직접 연결이 불편.
- 클라우드 플랫폼은 SQL 친화적이고, Tableau, Power BI, Python, Spark 등과 쉽게 연동됨.
- 또한 머신러닝·AI 기능이 기본 내장되어 데이터 사이언스 활용까지 확장 가능.
6. 보안 및 규제 대응
- Hadoop 환경은 보안·권한 관리(HDFS, Kerberos 등)가 복잡.
- 클라우드 플랫폼은 보안·백업·재해복구가 서비스 차원에서 내장되어 있음 → 규제 산업(금융·의료 등)에서도 활용 증가.
Hadoop은 온프레미스 환경에서 특정 요구(저비용 하드웨어 기반 대용량 저장, 특정 배치 처리)에는 여전히 쓰이고 있어요.
- Hadoop이 여전히 사용되는 온프레미스 환경은 뭘 의미하는거야?
🏢 온프레미스(On-Premises) 환경이란?
- 정의:
기업이 자체적으로 보유한 물리적 서버, 네트워크, 스토리지 장비를 사내(데이터센터, 서버실 등)에 직접 설치·운영하는 방식. 즉, 클라우드에 맡기지 않고 내 건물 안에 데이터 인프라를 두고 관리하는 것
🌐 클라우드와의 차이
온프레미스 | 클라우드 | |
위치 | 회사 내부 서버실·데이터센터 | AWS, Azure, GCP 같은 외부 제공자의 인프라 |
관리 | 하드웨어 구매, 유지보수, 보안까지 직접 관리 | 인프라 관리(업데이트, 백업 등)를 클라우드 업체가 제공 |
비용 구조 | 초기 투자(CAPEX, 설비투자) 큼 → 서버·네트워크 직접 구매 | 사용량 기반 과금(OPEX, 운영비) → 쓰는 만큼 지불 |
확장성 | 서버 증설하려면 하드웨어 구매·설치 필요 → 몇 주~몇 달 소요 | 필요할 때 즉시 확장/축소 가능 |
보안/규제 | 물리적으로 직접 통제 가능 → 금융·공공기관 선호 | 보안은 제공업체가 담당, 하지만 물리적 통제권은 없음 |
📌 온프레미스가 여전히 쓰이는 이유
- 금융·공공기관처럼 데이터 보안과 규제가 까다로운 산업에서는 “데이터를 무조건 내부에 둬야 한다”는 요구가 많음.
- 이미 구축된 대규모 레거시 시스템(기존 IT 인프라)을 당장 클라우드로 옮기기 어려운 경우.
- 네트워크 속도·안정성을 위해 사내 인프라를 직접 제어해야 하는 경우.