AWS 認定データアナリティクス - 専門知識に合格しました！学習ログを公開します。

2022年12月24日 · 約13分

Maintainer of this blog

昨日無事、AWS Certified Data Analytics - Specialty (DAS)に合格しました👏👏👏

試験勉強の方法を紹介します

AWS Certified Data Analytics - Specialty (DAS)の試験範囲

試験ガイドより引用

AWS Data Analytics - Specialty (DAS-C01) 試験は、データ分析の役割を担う個人を対象としています。この試験では、AWS のサービスを使って、データからのインサイトを提供する分析ソリューションの設計、構築、保護、および保守する方法について、受験対象者の総合的な理解を検証します。また、次のタスクについて受験者の能力も検証されます。
AWS のデータ分析サービスを定義し、それらが相互に統合する方法を理解する
収集、保管、処理、および可視化のデータライフサイクルに AWS のデータ分析サービスがどのように適しているかを説明する

私の試験結果

試験結果は、806点でした。試験は1000点満点で、750点以上が合格とのことです。

試験後の結果内訳は以下の通り。

セクション	スコアパフォーマンス
分野 1: 収集	コンピテンシーを満たしている
分野 2: 格納およびデータ管理	コンピテンシーを満たしている
分野 3: 処理	改善が必要
分野 4: 分析および可視化	コンピテンシーを満たしている
分野 5: セキュリティ	コンピテンシーを満たしている

コンピテンシーを満たしている: 成績がこのレベルの場合、合格する受験者に期待される知識、スキル、能力が備わっています。
改善が必要: 成績がこのレベルの場合、合格する受験者に期待される知識、スキル、および能力が備わっていません。

分野 3: 処理の結果が良くなかったですね。。復習せねば。

私の試験勉強

以下のコンテンツを使用して学習しました。

ホワイトペーパー

試験のページで紹介されているホワイトペーパーは一通り確認しました。

AWS におけるビッグデータの選択肢

https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/welcome.html

このホワイトペーパーは、アーキテクト、データサイエンティスト、および開発者が、アマゾンウェブサービス (AWS) クラウドで利用可能なビッグデータ分析オプションを理解するのに役立ちます。以下を含むサービスの概要を提供します。
理想的な使用パターン
コストモデル
パフォーマンス
耐久性と可用性
スケーラビリティと弾力性
インターフェース
アンチパターン
このホワイトペーパーは、使用される分析オプションを紹介するシナリオと、AWS でビッグデータ分析を開始するための追加リソースで締めくくります。

日本語に翻訳されていませんが、Chromeの翻訳機能を使い読み勧めました。試験範囲のAWSサービスの概要が解説されています。アンチパターンの内容も試験で役立ちそうな内容でした。（Kinesisはデータの長期保管には向かない、Lambdaは実行時間が15分まで　など）

Amazon Kinesis を使用した AWS でのストリーミングデータソリューション

https://docs.aws.amazon.com/ja_jp/whitepapers/latest/streaming-data-solutions-amazon-kinesis/welcome.html

データエンジニア、データアナリスト、およびビッグデータ開発者は、自社の顧客、アプリケーション、および製品が現在何をしているかを把握し、迅速に対応できるように、分析をバッチからリアルタイムに進化させようとしています。このホワイトペーパーでは、バッチからリアルタイムへの分析の進化について説明します。Amazon Kinesis Data Streamsなどのサービスについて説明します。、Amazon Kinesis Data Firehose、Amazon EMR、Amazon Kinesis Data Analytics、Amazon Managed Streaming for Apache Kafka(Amazon MSK)、およびその他のサービスを使用してリアルタイムアプリケーションを実装でき、これらのサービスを使用して共通の設計パターンを提供します。

こちらも英語のみのコンテンツです。試験では、結構な量のKinesisの問題が出題されました。「A: Data Streamを使って・・・」「B: Data Firehoseを使って・・・」のような選択肢から正しいものを選ぶ形式の設問がいくつかありました。

Amazon EMR を使用したビッグデータのスキルの教授

https://docs.aws.amazon.com/whitepapers/latest/teaching-big-data-skills-with-amazon-emr/welcome.html

今日の競争の激しいデータ分析スペースでは、Apache Hadoop ワークロードは、あらゆる規模と目的の組織にとってより重要になっています。そのため、これらのワークロードの管理に関連するスキルセットに対する需要は非常に高くなっています。この需要に対応するために、大学は次世代のビジネスおよび IT 専門家にこれらの概念を教えるクラスを提供し始めています。これらの組織をサポートする IT スタッフは、多くの場合、高度で最新のインフラストラクチャを備えた学生が要求の厳しいカリキュラムをサポートできるようにする任務を負っています。学期が短いため、大学がこれらのクラス専用のインフラストラクチャに投資するのは法外なコストであり、すぐに時代遅れになる可能性があります。

EMRで使えるフレームワークやデプロイオプションの説明があります。学校向けという感じのコンテンツで、試験には直接出ないような印象もありました。別途EMRの学習はしたほうが良さそうです。

AWS Black Belt資料

AWSの学習といえばBlack Belt。最新アップデート情報ではなく、サービス概要がわかるものが良いと思い、少し古めのものを確認するようにしました。

Workshop

AWSが用意しているWorkshopです。私が実際に試したのは1つ目だけですが、時間があればその他のものも試してみる価値はあると思います。

AWS Glue Immersion day

Docker上にAWS Glueの開発環境を構築する方法やGlue + Athenaのローカル開発環境をOSSで構築（MinIO + Trino + HIVE）の際に実施しました。Glueでできることがとても理解でき、よいワークショップでした。

https://catalog.us-east-1.prod.workshops.aws/workshops/ee59d21b-4cb8-4b3d-a629-24537cf37bb5/en-US

Redshift Immersion Labs

データのロードやETLなどのハンズオンが提供されています。Spectrumを扱ったものも含まれています。

https://catalog.us-east-1.prod.workshops.aws/workshops/9f29cdba-66c0-445e-8cbb-28a092cb5ba7/en-US

ETL on Amazon EMR Workshop

クラスターの作成からSparkでのETLやHive、Prestoなど、EMRだけでなくデータアナリティクスとはなんぞやというところも理解が深まる内容になっています。

https://catalog.us-east-1.prod.workshops.aws/workshops/c86bd131-f6bf-4e8f-b798-58fd450d3c44/en-US

Amazon Athena Workshop :: Hands on Labs

基本的なクエリーの実行からフェデレーテッドクエリー、UDFなどを扱っています。

https://catalog.us-east-1.prod.workshops.aws/workshops/9981f1a1-abdc-49b5-8387-cb01d238bb78/en-US

その他雑多メモ

Kinesis Data Firehose
- S3、Redshift、OpenSearch、API Gateway、Splunkにデータを送れる
- Lambdaやビルトインの変換処理をかけられる
QuickSight
- ユーザー管理のためにActivie Directoryとの連携が可能
EMRFS
- EMR ファイルシステム (EMRFS) は、すべての Amazon EMR クラスターが Amazon EMR と Amazon S3 の間で通常のファイルを直接読み書きするために使用する HDFS の実装です。EMRFS には Hadoop で使用するために Amazon S3 に永続的なデータを保存するという利便性がある一方で、データの暗号化などの機能も用意されています。
Kinesis Producer Library(KPL)
- Kinesis Data Firehoseにも書き出せる
Glue Job Bookmark
- 処理済みデータを再処理しないために使用
https://aws.amazon.com/jp/blogs/news/top-10-performance-tuning-tips-for-amazon-athena/
1. データをパーティションに分ける
2. バケッティングでデータを分割する
3. ファイルを圧縮・分割する
4. ファイルサイズを最適化する
5. 列指向データの作成を最適化する
6. ORDER BY を最適化する
7. JOIN を最適化する
8. GROUP BY を最適化する
9. 近似関数を使う
10. 必要なカラムだけを読み込む

資格取得状況

データアナリティクスの取得で、全部で 8冠まで来ました！！

AWS Certified Data Analytics - Specialty (DAS)の試験範囲​

私の試験結果​

私の試験勉強​

ホワイトペーパー​

AWS におけるビッグデータの選択肢​

Amazon Kinesis を使用した AWS でのストリーミングデータソリューション​

Amazon EMR を使用したビッグデータのスキルの教授​

AWS Black Belt資料​

Kinesis​

Redsifht​

Glue​

EMR​

OpenSearch Service(旧Elasticsearch Service)​

Lake Formation​

QucikSight​

Athena​

Amazon Managed Streaming for Apache Kafka (Amazon MSK)​

Workshop​

AWS Glue Immersion day​

Redshift Immersion Labs​

ETL on Amazon EMR Workshop​

Amazon Athena Workshop :: Hands on Labs​

その他雑多メモ​

資格取得状況​

AWS Certified Data Analytics - Specialty (DAS)の試験範囲

私の試験結果

私の試験勉強

ホワイトペーパー

AWS におけるビッグデータの選択肢

Amazon Kinesis を使用した AWS でのストリーミングデータソリューション

Amazon EMR を使用したビッグデータのスキルの教授

AWS Black Belt資料

Kinesis

Redsifht

Glue

EMR

OpenSearch Service(旧Elasticsearch Service)

Lake Formation

QucikSight

Athena

Amazon Managed Streaming for Apache Kafka (Amazon MSK)