Q59. Amazon Kinesis로 대규모 클릭스트림 데이터 실시간 분석하기
AWS 자격증을 준비하는 여러분, 안녕하세요. 오늘은 대규모 웹 트래픽 데이터를 실시간으로 처리하고 분석하는 방법에 대해 알아보겠습니다. 특히 Amazon Kinesis 서비스군을 활용한 효율적인 데이터 파이프라인 구축 방법을 살펴보겠습니다.
문제 상황
Q1:
회사는 300개 이상의 글로벌 웹사이트 및 애플리케이션을 호스팅합니다. 이 회사는 매일 30TB 이상의 클릭스트림 데이터를 분석할 플랫폼이 필요합니다. 솔루션 설계자는 클릭스트림 데이터를 전송하고 처리하기 위해 무엇을 해야 합니까?
<small>A company hosts more than 300 global websites and applications. The company needs a platform to analyze more than 30 TB of clickstream data daily. What should a solutions architect do to transfer and process the clickstream data?</small>
선택지
A. AWS Data Pipeline을 설계하여 데이터를 Amazon S3 버킷에 보관하고 데이터로 Amazon EMR 클러스터를 실행하여 분석을 생성합니다.
<small>Design an AWS Data Pipeline to store the data in Amazon S3 buckets and run Amazon EMR clusters on the data to generate analytics.</small>
B. Amazon EC2 인스턴스의 Auto Scaling 그룹을 생성하여 데이터를 처리하고 Amazon Redshift가 분석에 사용할 수 있도록 Amazon S3 데이터 레이크로 보냅니다.
<small>Create an Auto Scaling group of Amazon EC2 instances to process the data and send it to an Amazon S3 data lake for Amazon Redshift to use for analytics.</small>
C. 데이터를 Amazon CloudFront에 캐시합니다. Amazon S3 버킷에 데이터를 저장합니다. 객체가 S3 버킷에 추가될 때 AWS Lambda 함수를 실행하여 분석용 데이터를 처리합니다.
<small>Cache the data in Amazon CloudFront. Store the data in Amazon S3 buckets. Run AWS Lambda functions to process the data for analytics when objects are added to the S3 buckets.</small>
D. Amazon Kinesis Data Streams에서 데이터를 수집합니다. Amazon Kinesis Data Firehose를 사용하여 Amazon S3 데이터 레이크로 데이터를 전송합니다. 분석을 위해 Amazon Redshift에 데이터를 로드합니다.
<small>Ingest the data by using Amazon Kinesis Data Streams. Use Amazon Kinesis Data Firehose to send the data to an Amazon S3 data lake. Load the data into Amazon Redshift for analytics.</small>
정답 및 해설
정답은 D입니다.
Amazon Kinesis Data Streams와 Kinesis Data Firehose를 사용하여 대규모 클릭스트림 데이터를 효율적으로 수집, 처리 및 저장할 수 있습니다. 이 솔루션은 실시간 데이터 스트리밍과 대규모 데이터 처리에 최적화되어 있습니다.
-
Amazon Kinesis Data Streams: 웹사이트와 애플리케이션에서 발생하는 클릭스트림 데이터를 실시간으로 수집합니다. 이 서비스는 초당 수백만 개의 레코드를 처리할 수 있어 대규모 데이터 수집에 적합합니다.
-
Amazon Kinesis Data Firehose: Kinesis Data Streams에서 수집된 데이터를 자동으로 Amazon S3로 전송합니다. 데이터를 변환하거나 압축할 수 있어 저장 비용을 절감할 수 있습니다.
-
Amazon S3: 데이터 레이크로 사용되어 대용량의 클릭스트림 데이터를 저비용으로 저장합니다.
-
Amazon Redshift: S3에 저장된 데이터를 로드하여 고성능 분석을 수행합니다. Redshift는 페타바이트 규모의 데이터를 빠르게 분석할 수 있는 데이터 웨어하우스 서비스입니다.
이 아키텍처는 실제 Hearst Corporation의 사례에서 검증되었습니다. Hearst는 이 솔루션을 사용하여 하루 30TB 이상의 클릭스트림 데이터를 처리하고 있습니다.
<small>The correct answer is D. Using Amazon Kinesis Data Streams and Kinesis Data Firehose allows for efficient collection, processing, and storage of large-scale clickstream data. This solution is optimized for real-time data streaming and large-scale data processing.
-
Amazon Kinesis Data Streams: Collects clickstream data in real-time from websites and applications. This service can handle millions of records per second, making it suitable for large-scale data ingestion.
-
Amazon Kinesis Data Firehose: Automatically transfers data collected by Kinesis Data Streams to Amazon S3. It can transform or compress data, helping to reduce storage costs.
-
Amazon S3: Used as a data lake to store large volumes of clickstream data at low cost.
-
Amazon Redshift: Loads data stored in S3 for high-performance analytics. Redshift is a data warehouse service that can quickly analyze petabyte-scale data.
This architecture has been validated in a real-world case study with Hearst Corporation. Hearst uses this solution to process over 30TB of clickstream data daily.</small>
오답 설명
A. AWS Data Pipeline + Amazon EMR: 배치 처리에 적합하지만 실시간 스트리밍 데이터 처리에는 최적화되어 있지 않습니다.
<small>A. AWS Data Pipeline + Amazon EMR: Suitable for batch processing but not optimized for real-time streaming data processing.</small>
B. EC2 Auto Scaling + S3 + Redshift: 확장성은 있지만 실시간 데이터 수집 및 처리에 Kinesis만큼 효율적이지 않습니다.
<small>B. EC2 Auto Scaling + S3 + Redshift: Scalable but not as efficient as Kinesis for real-time data ingestion and processing.</small>
C. CloudFront + S3 + Lambda: 웹 콘텐츠 전송에 적합하지만 대규모 데이터 스트리밍 및 분석용으로 설계되지 않았습니다.
<small>C. CloudFront + S3 + Lambda: Suitable for web content delivery but not designed for large-scale data streaming and analytics.</small>
결론
이 문제는 AWS의 실시간 데이터 스트리밍 및 분석 서비스에 대한 이해를 테스트합니다. 대규모 클릭스트림 데이터를 처리할 때는 Amazon Kinesis Data Streams, Kinesis Data Firehose, S3, 그리고 Redshift의 조합이 가장 효과적입니다. 이 솔루션은 실시간 데이터 수집, 효율적인 저장, 그리고 강력한 분석 기능을 제공하여 대규모 웹 트래픽 데이터를 효과적으로 관리하고 분석할 수 있게 해줍니다.
<small>This question tests understanding of AWS's real-time data streaming and analytics services. When dealing with large-scale clickstream data, the combination of Amazon Kinesis Data Streams, Kinesis Data Firehose, S3, and Redshift is most effective. This solution provides real-time data ingestion, efficient storage, and powerful analytics capabilities, enabling effective management and analysis of large-scale web traffic data.</small>
댓글
댓글 쓰기