데이터 분석을 클라우드로 전환하기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 온프레미스 데이터 모음 및 분석 도구의 문제점을 설명할 수 있습니다.
- 클라우드 기반 데이터 분석의 장점을 나열할 수 있습니다.
클라우드에서 데이터 분석 솔루션 구축하기
점차 더욱 더 비즈니스가 복잡해짐에 따라 조직이 이러한 추세를 따라잡는 데 사용하는 도구와 서비스도 더욱 강력해졌습니다. 데이터 분석이 높은 비용의 온프레미스 하드웨어에서 클라우드 기반 아키텍처로 전환된 것이 대표적인 사례입니다. Raf는 다음 비디오에서 이 두 가지 접근 방식의 차이점에 대해 강조합니다.
대사 보기
[Raf] 클라우드의 뛰어난 유연성, 확장성, 안전성과 분산형 시스템 및 복원력에 대해 이미 알고 계실 수도 있습니다. 하지만 클라우드 컴퓨팅이 데이터 분석에 사용되는 이유에 대해서 좀 더 데이터 중심적인 접근 방식을 제시하고 싶은데요 이 섹션에서는 클라우드가 오늘날 데이터 분석을 수행하는 가장 좋은 방법인 이유와 빅데이터 워크로드 운영에 도움이 되는 이유를 설명해 드리겠습니다 그럼 시작해 보겠습니다
클라우드에 관해 설명하기 전에, 약 10년 전의 이야기를 간략히 알려 드리겠습니다 그 때의 이야기를 듣고 나면 클라우드에 데이터 분석이 자주 사용되는 이유를 이해하실 수 있을 거예요 과거 여행을 떠날 준비가 되셨나요? 좋아하는 음료 한 잔을 들고 안전 벨트를 꼭 매세요!
(바닥에 컵이 부딪히는 소리)
(윙윙거리는 소리)
몇 년 전 기업들이 빅데이터를 포함한 컴퓨팅 인프라를 갖추기 위해 사용한 가장 일반적인 접근 방식은 서버를 구입하여 데이터 센터에 설치하는 것이었습니다 대부분 콜로케이션 또는 콜로라고 불렸죠 다만 데이터 운영에 사용되는 서버가 저렴하지 않았는데요, 저장 공간이 많이 필요하고 전기를 많이 소비하며, 데이터 내구성에 대한 세심한 유지 관리가 필요하기 때문이었습니다
따라서 전담 인프라 팀이 필요하게 됩니다 인프라 분석가로서 데이터 센터를 활용해 본 제가 드리는 말씀이니 믿으셔도 좋아요 비용도 높고 부담이 큽니다
그래서 대규모 기업만이 빅데이터 작업을 수행할 수 있었죠 따라서 데이터 분석 역시 그렇게 널리 사용되지 않았고요 일반적으로 이러한 서버에는 디스크 전체에 데이터를 복제하는 RAID 저장소 컨트롤러가 있어 더 높은 비용과 더 많은 유지 관리가 필요했습니다
2000년대 초, 빅데이터 운영은 메인프레임과 서버 클러스터와 같은 기본적인 하드웨어와 밀접한 관련이 있었습니다 하드웨어를 판매하는 사람들에게는 매우 수익성이 있었지만 소비자에게는 비싸고 유연성도 부족했죠 그러던 중 혁신적인 솔루션이 등장했는데요 바로 Apache Hadoop입니다
대부분 Hadoop이 하는 일은 운영 체제에 설치된 소프트웨어로 하드웨어를 모두 교체하는 것입니다 맞아요 Hadoop 및 컴퓨팅 프레임워크를 사용하면 데이터가 분산 시스템을 통해 여러 서버에 분산 및 복제될 수 있으며, 빅데이터 작업을 시작하기 위해 비용이 많이 드는 데이터 복제 하드웨어를 사용할 필요도 없습니다
효율적인 네트워크 장비만 있으면 되었으며, 데이터는 네트워크를 통해 다른 서버와 동기화되었습니다 Hadoop은 장애를 방지하는 대신 수용함으로써 하드웨어 복잡성을 줄이는 데 도움을 주었습니다 하드웨어 복잡성을 줄이면 비용도 절감됩니다
그리고 비용을 줄이면 빅데이터의 접근성이 높아지죠, 소규모 회사에서도 빅데이터를 활용할 수 있으니까요 바야흐로 빅데이터의 시대가 온 겁니다
Hadoop의 이야기를 꺼낸 이유는 Hadoop이 가장 대중적인 오픈 소스 빅데이터 협력체계이기 때문이에요 물론 다른 솔루션도 있습니다 여기서 강조하고 싶은 것은 특정 프레임워크나 공급업체가 아니라 개념 그 자체입니다
하드웨어를 기본으로 삼고 모든 빅데이터 개념을 데이터 복제와 같은 소프트웨어에 적용하면, 저장소와 네트워크 카드가 연결된 가상 머신을 제공할 수 있는 공급자에서 빅데이터 작업을 실행하는 것을 고려해 볼 수 있습니다 클라우드를 사용하여 전체 데이터 레이크, 데이터 웨어하우징 및 데이터 분석 솔루션을 구축하는 것부터 생각해 볼 수 있죠
그 이후로 클라우드 컴퓨팅은 기능상의 이점 덕분에 매력적인 대안으로 떠올랐습니다 가상 머신을 구매하고 데이터 복제, 분산형 파일 시스템, 전체 빅데이터 협력체계를 처리할 소프트웨어를 설치하면 하드웨어에 많은 비용을 들이지 않고도 만족도 높은 결과를 얻을 수 있습니다 하지만 클라우드의 장점은 이게 전부가 아닙니다
Amazon Web Services와 같은 여러 클라우드 공급업체는 고객이 빅데이터 도구와 프레임워크를 설치하기 위해 가상 머신을 가동한다는 사실을 파악했습니다 Amazon은 이를 바탕으로 모든 것이 이미 설치, 설정되어 사용할 수 있는 제품을 만들기 시작했습니다 이에 따라 Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena와 같은 AWS 서비스가 생겨난 것입니다 이를 관리형 서비스라고 합니다 모두 데이터 범위에서 작동하는 AWS 서비스입니다 이후의 수업에서는 기본적인 데이터 분석 솔루션 구축하는 데 필요한 서비스들을 살펴보겠습니다.
클라우드에서 데이터 분석을 실행할 때의 또 다른 큰 이점은 더 이상 필요하지 않으면 인프라 리소스에 대한 비용을 지불하지 않아도 된다는 점입니다 이는 데이터 분석에서 매우 일반적인데, 빅데이터 작업의 특성상 가끔씩 보고서를 실행해야 할 수도 있기 때문입니다 클라우드에서 서버나 서비스를 가동하여 사용하고, 필요한 보고서를 가져와서 저장하고, 모든 것을 끄는 방식으로 쉽게 작업을 수행할 수 있습니다
일시적으로 더 많은 서버를 가동하여 작업 속도를 높일 수도 있고 작업이 끝나면 끌 수도 있습니다 그리고 대부분 필요한 시간과 리소스에 대한 비용을 지불하기 때문에, 10대의 서버를 1시간 동안 가동하는 가격과 1대의 서버를 10시간 동안 가동하는 가격이 같습니다 기본적으로 클라우드를 사용하면 데이터 센터 운영과 관련된 모든 부담을 걱정할 필요 없이 하드웨어에 액세스할 수 있습니다 두 가지 장점을 모두 누릴 수 있는 셈이죠
비디오를 시청하셨나요?
퀴즈에서는 이 유닛의 비디오 콘텐츠에 대한 문제가 출제됩니다. 시청하지 않으셨다면 지금 돌아가서 시청하세요. 그런 다음 퀴즈를 풀 수 있습니다.