世界を変える「人」を育てる。IT研修・ビジネス研修ならトレノケート。


ホーム > Build Batch Data Pipelines on Google Cloud

Build Batch Data Pipelines on Google Cloud


対応チケット/ポイント等

  • New!
    新規コース(過去6ヶ月)
期間  1日間 時間  9:30~17:30
価格(税込)  88,000円(税込) 主催  トレノケート
形式  講義+ハンズオン コースコード  GGC0042V
日程 会場 空席状況 実施状況 選択

2026年5月11日(月) ~ 2026年5月11日(月)

オンラインLive

  空席あり

2026年8月12日(水) ~ 2026年8月12日(水)

オンラインLive

  空席あり

2026年12月10日(木) ~ 2026年12月10日(木)

オンラインLive

  空席あり

※「キャンセル待ち」でお申し込みの方には、別途メールにてご連絡いたします。
※「実施確定」表示のない日程は、お申し込み状況により開催中止になる場合がございます。
※ お申込期日が過ぎた日程は、「お問い合わせください」と表示されます。
※ トレノケート主催コース以外の空席状況は、残席数に関わらず「お申し込み後確認」と表示されます。
※ トレノケート主催コース以外では、主催会社のお席を確保した後に受付確定となります。
お申込みに関するお問い合わせはこちらから

重要なご連絡・ご確認事項

※下記の事前必須手続きが完了していない場合は、ご受講いただけません。手続きが未完了で当日受講出来なかった場合は、有償キャンセルとなりますのでご注意ください。


【ご受講前の必須手続き】
ご受講日までに、下記リンクからプライバシーポリシーと利用規約に同意の上、トレーニングシステム「Qwiklabs」のアカウントを作成してください。
Qwiklabsアカウントとコース申込時の受講者メールアドレスは、同じものをご使用ください。

https://trainocate.qwiklabs.com/?locale=ja

※自動返信メールには「globalknowledge-jp.qwiklabs.comからアクセスしてください」と表示される場合がありますが、同一のサイトですので問題ありません。
※既にtrainocate.qwiklabs.comのQwiklabsアカウントをお持ちの方は再作成の必要はありません。


※受講証明書発行には、全日程の80%以上の出席率または、最低80%以上のラボの完了が必須となりますのでご注意ください。


【本コースはオンライン対応です】

会場が「オンラインLive」または「教室Live配信」の日程は、オンラインでご参加いただけます。

  • オンラインLive:受講者の方はオンラインのみとなります。
  • 教室Live配信:教室・オンラインから受講される方が混在します。

★オンラインLiveトレーニングの詳細はこちら

※本コースはプレイバックサービスの対象外です。

↑ページの先頭へ戻る

対象者情報

対象者
・データ処理パイプラインやデータ処理アーキテクチャの設計を担当する開発者
前提条件
□ “Introduction to Data Engineering on Google Cloud” を受講済み、またはそれと同程度の知識
□ 一般的なプログラミング言語(Python や Java など)の基本的知識

学習内容の詳細

コース概要
通常、データ パイプラインは、「抽出、読み込み(EL)」、「抽出、読み込み、変換(ELT)」、「抽出、変換、読み込み(ETL)」のいずれかの考え方に分類できます。このコースでは、バッチデータではどの枠組みを、どのような場合に使用するのかについて説明します。本コースではさらに、BigQuery、Dataproc 上での Spark の実行、Cloud Data Fusion のパイプラインのグラフ、Dataflow でのサーバーレスのデータ処理など、データ変換用の複数の Google Cloud テクノロジーについて説明します。また、Qwiklabs を使用して Google Cloud でデータ パイプラインのコンポーネントを構築する実践演習を行います。
学習目標
● データ読み込みの適切な方法を選択する (EL、ELT、ETL について、ま た何をどのタイミングで使用するか)。
● Dataproc での Hadoop の実行、Cloud Storage の使用、Dataproc ジョブの最適化を行う。
● Dataflow を使用してデータ処理パイプラインを構築する。
● Data Fusion と Cloud Composer を使用してデータ パイプラインを管理する。
学習内容
1. バッチデータ パイプラインを選択すべきケース
  - バッチデータ パイプラインとそのユースケース
  - バッチデータ パイプラインのコンポーネントとステージ
  - バッチデータ処理
  - バッチデータ パイプラインの一般的な課題

2. バッチデータ パイプラインの設計と構築
  - バッチデータ パイプラインの設計
  - 大規模なデータ変換を管理する
  - バッチ パイプラインのパフォーマンスを分析する

3. バッチ パイプラインでのデータ品質の管理
  - バッチデータの検証と削除
  - バッチ パイプラインのスキーマの進化
  - 大規模なデータセットのバッチデータ重複除去

4. オーケストレーション、モニタリング、アラート
  - Google Cloud のオーケストレーション ツール
  - オーケストレートされたバッチ パイプラインをモニタリングしてトラブルシューティングする
  - ローコード / ノーコードの代替案と次のステップ

実習/演習内容詳細

演習/デモ内容
- Serverless for Apache Spark を使用して BigQuery を読み込む
- Dataflow ジョブビルダー UI を使用してシンプルなバッチデータ パイプラインを構築する
- Serverless for Apache Spark を使用してバッチ パイプラインでデータ品質を検証する
- Cloud Data Fusion でバッチ パイプラインを構築する

↑ページの先頭へ戻る

ご注意・ご連絡事項

事前必須手続きが完了していない場合は、ご受講いただけません。手続きが未完了で当日受講出来なかった場合は、有償キャンセルとなりますのでご注意ください。
【事前必須手続き】
・リンクよりトレーニングシステム「Qwiklab」アカウントを作成してください。
・Qwiklabsアカウントとコース申込時の受講者メールアドレスは、同じものをご使用ください。
受講証明書発行には、全日程の80%以上の出席率または、最低80%以上のラボの完了が必須となりますのでご注意ください。
【本コースはオンライン対応です】
会場が「オンラインLive」または「教室Live配信」の日程は、オンラインでご参加いただけます。
・オンラインLive:受講者の方はオンラインのみとなります。
・教室Live配信:教室・オンラインから受講される方が混在します。
※本コースはプレイバックサービスの対象外です。