Q2. Amazon Athena로 S3의 JSON 로그 파일을 간단하게 분석하기
AWS 자격증을 준비하는 여러분, 안녕하세요. 오늘은 AWS Certified Solutions Architect - Associate 시험에 자주 출제되는 데이터 분석 관련 문제를 살펴보겠습니다. 특히 S3에 저장된 로그 파일을 효율적으로 분석하는 방법에 대해 알아보겠습니다.
문제 상황
Q2:
한 회사가 자체 애플리케이션의 로그 파일을 분석해야 합니다. 로그는 Amazon S3 버킷에 JSON 형식으로 저장되어 있습니다. 쿼리는 간단하며 필요할 때마다 실행됩니다. 솔루션 아키텍트는 기존 아키텍처를 최소한으로 변경하면서 이 분석을 수행해야 합니다. 운영 오버헤드를 최소화하면서 이러한 요구사항을 충족하려면 어떤 방법을 사용해야 할까요?
<small>A company needs the ability to analyze the log files of its proprietary application. The logs are stored in JSON format in an Amazon S3 bucket. The queries are simple and need to be run on-demand. A solutions architect needs to perform this analysis with minimal changes to the existing architecture. What should the solutions architect do to meet these requirements with the LEAST operational overhead?</small>
선택지
A. Amazon Redshift를 사용하여 모든 콘텐츠를 한 곳에 로드하고 필요에 따라 SQL 쿼리를 실행합니다.
<small>Use Amazon Redshift to load all the content to one place and run SQL queries as needed.</small>
B. Amazon CloudWatch Logs를 사용하여 로그를 저장합니다. Amazon CloudWatch 콘솔에서 필요에 따라 SQL 쿼리를 실행합니다.
<small>Use Amazon CloudWatch Logs to store the logs. Run SQL queries from the Amazon CloudWatch console as needed.</small>
C. Amazon S3와 함께 Amazon Athena를 직접 사용하여 필요에 따라 쿼리를 실행합니다.
<small>Use Amazon Athena directly with Amazon S3 to run queries as needed.</small>
D. AWS Glue를 사용하여 로그를 분류합니다. Amazon EMR에서 임시 Apache Spark 클러스터를 사용하여 필요에 따라 SQL 쿼리를 실행합니다.
<small>Use AWS Glue to catalog the logs. Use transient Apache Spark clusters on Amazon EMR to run SQL queries as needed.</small>
정답 및 해설
정답은 C입니다.
Amazon Athena는 S3에 저장된 데이터를 직접 쿼리할 수 있는 서버리스 쿼리 서비스입니다. 이 경우 다음과 같은 이유로 Athena가 최적의 선택입니다:
- 서버리스: 인프라 관리가 필요 없어 운영 오버헤드가 최소화됩니다.
- S3 통합: S3에 저장된 데이터를 직접 쿼리할 수 있어 데이터 이동이 불필요합니다.
- JSON 지원: Athena는 JSON 형식의 데이터를 쉽게 쿼리할 수 있습니다.
- 온디맨드 쿼리: 필요할 때마다 쿼리를 실행할 수 있습니다.
- SQL 사용: 표준 SQL을 사용하여 쿼리를 작성할 수 있습니다.
Athena를 사용하면 S3에 저장된 JSON 로그 파일을 직접 쿼리할 수 있으며, 이는 기존 아키텍처를 최소한으로 변경하면서 요구사항을 충족하는 가장 효율적인 방법입니다.
오답 설명
A. Amazon Redshift: 대규모 데이터 웨어하우스에 적합하지만, 이 경우 데이터 로드 과정이 필요하여 불필요한 복잡성을 추가합니다.
B. CloudWatch Logs: 로그 저장에는 적합하지만, S3에 이미 저장된 로그를 다시 이동해야 하므로 비효율적입니다.
D. AWS Glue + EMR: 복잡한 ETL 작업에 적합하지만, 이 경우에는 과도한 솔루션입니다.
결론
이 문제는 AWS의 다양한 데이터 분석 서비스 중 상황에 가장 적합한 것을 선택하는 능력을 테스트합니다. Amazon Athena는 S3에 저장된 데이터를 서버리스 방식으로 쉽게 쿼리할 수 있어, 로그 분석과 같은 간단하고 온디맨드 방식의 쿼리에 이상적입니다. 특히 JSON 형식의 데이터를 직접 쿼리할 수 있는 Athena의 기능은 이러한 시나리오에서 큰 장점입니다.
댓글
댓글 쓰기