🔄ingesting-into-data-lake
- プラグイン
- aws-data-analytics
- 引数
- [source-path|connection-name|table-name] [--target s3-tables|iceberg|parquet]
- ソース
- GitHub で見る ↗
説明
S3ファイル、ローカルアップロード、JDBCデータベース(Oracle、SQL Server、PostgreSQL、MySQL、RDS、Aurora)、Amazon Redshift、Snowflake、BigQuery、DynamoDB、または既存のGlueカタログテーブル(マイグレーション)からAWSデータレイクへデータをインポートします。 デフォルトのターゲットはS3 Tables。S3 Tablesが採用されていない環境では、汎用バケット上の標準的なIcebergもサポートされます。単発ロード・定期パイプライン・マイグレーションに対応しています。 **次のような場合に使用:** データのインポート、データのロード、データの取り込み(ingest)、データベースの同期、テーブルのマイグレーション、AWSへのデータ移行、パイプラインのセットアップ、ETL処理、Snowflakeからのデータ取得、BigQueryのデータをS3へ、DynamoDBのエクスポート、CTAS、Iceberg形式への変換 **以下の用途には使用しないでください(代わりに対応するスキルを使用):** - Glue接続のセットアップやトラブルシューティング → `connecting-to-data-source` を使用 - 空テーブルの作成 → `creating-data-lake-table` を使用 - クエリの実行 → `querying-data-lake` を使用 - 曖昧な名前によるテーブル検索 → `finding-data-lake-assets` を使用 - カタログの監査 → `exploring-data-catalog` を使用 - Salesforce、ServiceNow、SAP、MongoDB、KafkaなどのSaaSプラットフォームへの対応
原文を表示
Import data into the AWS data lake from S3 files, local uploads, JDBC databases (Oracle, SQL Server, PostgreSQL, MySQL, RDS, Aurora), Amazon Redshift, Snowflake, BigQuery, DynamoDB, or existing Glue catalog tables (migration). Default target is S3 Tables; standard Iceberg on a general purpose bucket is supported where S3 Tables is not adopted. Handles one-time loads, recurring pipelines, migrations. Triggers on: import data, load data, ingest, sync database, migrate table, move data to AWS, set up pipeline, ETL, pull from Snowflake, query BigQuery into S3, export DynamoDB, CTAS, convert to Iceberg. Do NOT use for setting up or troubleshooting Glue connections (use connecting-to-data-source), creating empty tables (use creating-data-lake-table), running queries (use querying-data-lake), finding tables by fuzzy name (use finding-data-lake-assets), catalog audit (use exploring-data-catalog), or SaaS platforms like Salesforce, ServiceNow, SAP, MongoDB, Kafka.
ユースケース
- ✓複数データソースからS3へデータをインポート
- ✓データベースのテーブルをマイグレーション
- ✓定期的なデータロードパイプラインをセットアップ
- ✓SnowflakeやBigQueryからデータを取得
- ✓DynamoDBのデータをエクスポート
本文(日本語訳)
データレイクへのデータ取り込み
ソースからデータレイクのクエリ可能なテーブルへデータを移動するスキルです。
ソース接続が必要な場合、その接続はすでに存在していることを前提としています。
Glue接続のセットアップやトラブルシューティングが必要な場合は、connecting-to-data-source に委譲してください。
基本方針
環境設定で特に指定がない限り、S3 Tablesをデフォルトとして使用する。 S3 Tablesは、新規のデータレイク作業における推奨ターゲットです。 ユーザーのカタログ一覧でS3 Tablesを採用していないことが確認できた場合は、無理に移行を促すのではなく、既存の汎用バケット上での標準Icebergを推奨してください。
主なタスク
MCPサーバーツールに接続している場合は、必ずAWS MCPサーバーツールを使用してコマンドを実行すること — バリデーション、サンドボックス実行、および監査ログ記録が提供されます。 MCPが利用できない場合のみ、AWS CLIにフォールバックしてください。 各ステップを実行する前に、必ずその内容を説明すること。
ワークフロー
1. 依存関係とコンテキストの確認
- AWS MCPツールまたはAWS CLIが利用可能かどうかを必ず確認し、利用できない場合はユーザーに通知すること
- ターゲットAWSリージョンを必ず確認し、
aws sts get-caller-identityで認証情報を検証すること - SageMaker Unified Studioのプロジェクトロールを使用している場合、ターゲットテーブルおよび接続がプロジェクトにスコープされている可能性があることに注意すること。
querying-data-lakeの呼び出し元ARN検出パターンを参照。
2. ソースの分類
| ユーザーの発言 | ソース種別 | 参照 |
|---|---|---|
| 「ファイルをアップロードしたい」「ローカルのCSV」「S3に移動したい」 | ローカルファイル | local-upload.md |
| 「S3からロードしたい」「s3://からCSV/JSON/Parquetをインポートしたい」 | S3ファイル | s3-files.md |
| 「Oracle/Postgres/MySQL/SQL Server/Redshift/RDS/Auroraからインポートしたい」 | JDBC | jdbc-ingest.md |
| 「Snowflakeから取得したい」「SnowflakeテーブルをS3に」 | Snowflake | snowflake-ingest.md |
| 「BigQueryからインポートしたい」「GCPアナリティクスをS3に」 | BigQuery | bigquery-ingest.md |
| 「DynamoDBをエクスポートしたい」「DynamoDBをデータレイクに」 | DynamoDB | dynamodb-ingest.md |
| 「Glueテーブルを移行したい」「HiveをIcebergに変換したい」 | カタログ移行 | catalog-migration.md |
ユーザーがSalesforce、ServiceNow、SAP、MongoDB、Kafka、またはその他のSaaS/ストリーミングソースを指定した場合は、対応を断ってください — これらは本リリースではサポートされていません。
ソーステーブルがあいまいな名称やビジネス上の名称で参照されている場合(「注文テーブルを移行して」「営業データウェアハウスから取得して」など)は、処理を進める前に finding-data-lake-assets に委譲して名称を解決してください。
3. 接続の存在確認(該当する場合)
JDBC、Snowflake、BigQueryのソースには、Glue接続が必要です。以下のコマンドで確認してください:
aws glue get-connection --name <CONNECTION_NAME> --region <REGION>
接続が存在しない場合は処理を停止し、connecting-to-data-source に委譲して接続の作成とテストを行ってください。
接続が確認できるまで、取り込みを進めないでください。
ローカルファイル、S3ファイル、DynamoDB、およびカタログ移行にはGlue接続は不要です。
4. ターゲットの確認
テーブルの作成または書き込みを行う前に、必ずユーザーに確認するか、カタログ一覧に基づいて提案すること:
- データベース/名前空間: 特定のターゲットデータベースは存在するか?新規作成が必要か?
- テーブル: 既存テーブル(追記/マージ)か、新規テーブル(
creating-data-lake-tableに委譲)か? - フォーマット: S3 Tables(デフォルト)、標準Iceberg、または生のParquet?
カタログ一覧に基づくデフォルト設定:
exploring-data-catalog をすでに実行済みの場合、またはすぐに確認できる場合は、既存の状態を活用してください:
- アカウントに
s3tablescatalogフェデレーテッドカタログとアクティブなテーブルバケットがある場合 → S3 Tablesを推奨 - アカウントに汎用バケット上のIcebergテーブルがあり、S3 Tablesを使用していない場合 → 既存バケット上の標準Icebergを推奨
- アカウントがIcebergメタデータなしでS3上のParquet/ORCを使用している場合 → 今すぐIcebergを採用するか(推奨)、生ファイルのまま継続するかをユーザーに確認
S3 Tablesを採用していないユーザーに無理強いしないこと。 iceberg-catalog-config-and-usage.md を参照。
このステップからの委譲:
- ターゲットテーブルが存在しない →
creating-data-lake-table - ターゲットデータベースがあいまいな名称で指定されている →
finding-data-lake-assets - ユーザーが既存の状態を把握していない →
exploring-data-catalog
5. ソース別ワークフローの実行
ソース固有のリファレンスを参照し、各フェーズに従って進めてください。 各リファレンスはジョブテンプレート、注意点、トラブルシューティングを含む自己完結した内容となっています:
- ローカル / S3 / JDBC / Snowflake / BigQuery / DynamoDB / カタログ移行 — ソースごとに1つのリファレンス
Glue 5.1以降の共通ジョブ設定とPySparkテンプレートは、glue-job-config.md および glue-job-scripts.md に掲載されています。
6. 検証
以下の3つをすべて実行すること。スキップ不可:
- 行数がソースとターゲットで一致していること
- 重要なカラムのNullチェック
- 3〜5行のサンプルデータの目視確認
data-quality-validation.md を参照。
7. スケジューリング(定期実行の場合)
定期実行パイプラインの場合は、cronスケジュールでGlue Triggerを作成してください。 testing-and-scheduling.md を参照。 シンプルな単一ステップのパイプラインにはGlue Triggerを使用し、分岐を伴う複数ステップのパイプラインにはMWAAを使用します。
引数のルーティング
- S3パスのみ: 単発ロードと判断し、ステップ2をS3ファイルとして開始
- 接続名: 指定された接続でステップ3を開始
- テーブル名: ステップ4を開始し、ソースかターゲットかをユーザーに確認
--targetフラグ: ステップ4でターゲットフォーマットを事前設定- 引数なし: 対話形式で順を追って確認
注意事項(Gotchas)
- S3 TablesにはGlue 5.1以降と、ジョブ引数
--datalake-formats icebergが必要 spark.sql.catalog.*の設定はすべて--confジョブ引数に記述すること。spark.conf.set()内への記述は不可。Glue 5.xではAnalysisException: Cannot modify the value of a static configがスローされる。正しいカタログ設定については iceberg-catalog-config-and-usage.md を参照。- S3 Tablesカタログ設定では
warehouseパラメータが必須。指定しない場合、Sparkが「Cannot derive default warehouse location」エラーで失敗する。 - S3 Tablesのテーブル名およびカラム名はすべて小文字にすること
overwritePartitions()はDataFrame内に存在するパーティションのみを置き換える — 削除を伴う完全リフレッシュにはcreateOrReplace()を使用すること- 標準IcebergターゲットにはLOCATION句を必ず含めること;S3 Tablesには含めないこと
- DynamoDBにはGlue接続は不要 — 接続を作成しようとしないこと
- 取り込み中の接続障害は
connecting-to-data-sourceに委譲すること;このスキル内でネットワーク/認証情報のデバッグは行わないこと - SageMaker Unified StudioプロジェクトのターゲットテーブルについてはGlueジョブ実行前に、プロジェクトロールがターゲット名前空間への書き込みアクセス権を持っていることを確認すること
トラブルシューティング
| エラー | 想定原因 | 対応 |
|---|---|---|
| S3でAccess Denied | IAM権限の不足 | GlueロールにS3のGetObject、PutObjectが付与されているか確認 |
| S3 TablesでAccess Denied | s3tables:* 権限の不足 |
GlueロールにS3 Tablesのインラインポリシーを追加 |
| CTASタイムアウト | データセットがAthenaで処理するには大きすぎる | Glue ETLに切り替えるか、WHEREフィルターでバッチ処理 |
| JDBC接続タイムアウト/認証エラー | 接続レベルの問題 | connecting-to-data-source に委譲 |
| スループット超過(DynamoDB) | 読み取り割合が高すぎる | read.percent を下げるか、ネイティブエクスポートを使用 |
全エラー一覧は error-handling.md を参照。
リファレンス
ソース別
- local-upload.md — ローカルファイル
- s3-files.md — S3ファイル(CSV、JSON、Parquet、Avro、ORC)
- jdbc-ingest.md — Oracle、SQL Server、PostgreSQL、MySQL、RDS、Aurora、Redshift
- snowflake-ingest.md — Snowflake
- bigquery-ingest.md — BigQuery
- dynamodb-ingest.md — DynamoDB(エクスポートおよびGlue直接読み取り)
- catalog-migration.md — 既存Glueカタログテーブル(Hive、セルフマネージドIceberg)
共通(横断的)
- iceberg-catalog-config-and-usage.md — S3 Tables、標準Iceberg、生ファイル: カタログ設定、エンジンアクセスパターン
- glue-job-config.md — ジョブのサイジング、モニタリング、リトライ
- glue-job-scripts.md — PySparkテンプレート(追記、アップサート、カスタムSQL、完全リフレッシュ)
- incremental-loading.md — ウォーターマーク戦略
- testing-and-scheduling.md — Glue Trigger、MWAA
- data-quality-validation.md — 行数確認、Nullチェック、Glue Data Quality
- schema-evolution.md — ALTER TABLE ADD COLUMNS、ネストされたJSON
- type-transformations.md —
原文(English)を表示
Ingest into Data Lake
Move data from a source into a queryable table in the data lake. This skill assumes the source connection (if one is needed) already exists. For Glue connection setup or troubleshooting, delegate to connecting-to-data-source.
Philosophy
Default to S3 Tables unless the environment says otherwise. S3 Tables is the recommended target for new data lake work. If the user's catalog inventory shows they haven't adopted S3 Tables, recommend standard Iceberg on their existing general-purpose bucket instead of forcing them to change posture.
Common Tasks
You MUST execute commands using AWS MCP server tools when connected -- they provide validation, sandboxed execution, and audit logging. Fall back to AWS CLI only if MCP is unavailable. You MUST explain each step before executing.
Workflow
1. Verify Dependencies and Context
- You MUST check whether AWS MCP tools or AWS CLI are available and inform the user if missing
- You MUST confirm target AWS region and verify credentials with
aws sts get-caller-identity - For SageMaker Unified Studio project roles, note that target tables and connections may be scoped to the project. See the caller ARN detection pattern in
querying-data-lake.
2. Classify the Source
| User says... | Source type | Reference |
|---|---|---|
| "upload my file", "local CSV", "move to S3" | Local file | local-upload.md |
| "load from S3", "import CSV/JSON/Parquet from s3://" | S3 files | s3-files.md |
| "import from Oracle/Postgres/MySQL/SQL Server/Redshift/RDS/Aurora" | JDBC | jdbc-ingest.md |
| "pull from Snowflake", "Snowflake table to S3" | Snowflake | snowflake-ingest.md |
| "import from BigQuery", "GCP analytics to S3" | BigQuery | bigquery-ingest.md |
| "export DynamoDB", "DynamoDB to data lake" | DynamoDB | dynamodb-ingest.md |
| "migrate Glue table", "convert Hive to Iceberg" | Catalog migration | catalog-migration.md |
If the user names Salesforce, ServiceNow, SAP, MongoDB, Kafka, or another SaaS/streaming source, decline -- these are not supported in this release.
If the source table is referenced by a fuzzy or business name ("migrate our orders table", "pull from the sales warehouse"), delegate to finding-data-lake-assets to resolve before proceeding.
3. Confirm Connection Exists (if applicable)
For JDBC, Snowflake, and BigQuery sources, a Glue connection is required. Check:
aws glue get-connection --name <CONNECTION_NAME> --region <REGION>
If the connection does not exist, stop and delegate to connecting-to-data-source to create and test it. Do not proceed with ingest until the connection is verified.
Local files, S3 files, DynamoDB, and catalog migration do not need a Glue connection.
4. Clarify the Target
You MUST ask the user (or suggest based on catalog inventory) before creating or writing to any table:
- Database/namespace: Does a specific target database exist? Or should one be created?
- Table: Existing table (append/merge) or new table (delegate to
creating-data-lake-table)? - Format: S3 Tables (default), standard Iceberg, or raw Parquet?
Inventory-aware defaults:
If you have already run exploring-data-catalog or can quickly check, use what exists:
- Account has an
s3tablescatalogfederated catalog and active table buckets: recommend S3 Tables - Account has general-purpose buckets with Iceberg tables and no S3 Tables usage: recommend standard Iceberg on their existing bucket
- Account uses Parquet/ORC on S3 without Iceberg metadata: ask whether to adopt Iceberg now (recommend yes) or continue with raw files
Do not force S3 Tables on customers who haven't adopted it. See iceberg-catalog-config-and-usage.md.
Delegations from this step:
- Target table doesn't exist ->
creating-data-lake-table - Target database named by fuzzy term ->
finding-data-lake-assets - User doesn't know what exists ->
exploring-data-catalog
5. Execute Source Workflow
Read the source-specific reference and follow its phases. Each is self-contained with job templates, gotchas, and troubleshooting:
- Local / S3 / JDBC / Snowflake / BigQuery / DynamoDB / catalog migration -- one reference per source
Common Glue 5.1 or higher job configuration and PySpark templates are shared in glue-job-config.md and glue-job-scripts.md.
6. Validate
Run all three, do not skip:
- Row count matches expected (source vs target)
- Null check on critical columns
- Spot-check 3-5 sample rows
See data-quality-validation.md.
7. Schedule (if recurring)
For recurring pipelines, create a Glue Trigger with a cron schedule. See testing-and-scheduling.md. Simple single-step pipelines use Glue Triggers; multi-step with branching uses MWAA.
Argument Routing
- S3 path only: Infer one-time load, start Step 2 with S3 files
- Connection name: Start Step 3 with the named connection
- Table name: Start Step 4, ask whether this is source or target
--targetflag: Pre-fill the target format in Step 4- No args: Walk through interactively
Gotchas
- S3 Tables requires Glue 5.1 or higher and
--datalake-formats icebergjob argument - All
spark.sql.catalog.*config MUST go in--confjob arguments, never inspark.conf.set(). Glue 5.x throwsAnalysisException: Cannot modify the value of a static configotherwise. See iceberg-catalog-config-and-usage.md for correct catalog configs. - The
warehouseparameter is required in S3 Tables catalog config. Without it Spark fails with "Cannot derive default warehouse location". - Table and column names in S3 Tables MUST be all lowercase
overwritePartitions()only replaces partitions present in the DataFrame -- for full refresh with deletes, usecreateOrReplace()- Standard Iceberg targets MUST include a LOCATION clause; S3 Tables MUST NOT
- DynamoDB does not need a Glue connection -- do not attempt to create one
- Connection failures during ingest delegate back to
connecting-to-data-source; do not debug network/credentials in this skill - For target tables in SageMaker Unified Studio projects, ensure the project role has write access to the target namespace before the Glue job runs
Troubleshooting
| Error | Likely cause | Action |
|---|---|---|
| Access Denied on S3 | Missing IAM permissions | Check Glue role has s3:GetObject, s3:PutObject |
| Access Denied on S3 Tables | Missing s3tables:* permissions | Add S3 Tables inline policy to Glue role |
| CTAS timeout | Dataset too large for Athena | Switch to Glue ETL or batch with WHERE filters |
| JDBC connection timeout/auth failure | Connection-level issue | Delegate to connecting-to-data-source |
| Throughput exceeded (DynamoDB) | Read percent too high | Lower read.percent or use native export |
See error-handling.md for the full catalog.
References
Source-specific
- local-upload.md -- Local files
- s3-files.md -- S3 files (CSV, JSON, Parquet, Avro, ORC)
- jdbc-ingest.md -- Oracle, SQL Server, PostgreSQL, MySQL, RDS, Aurora, Redshift
- snowflake-ingest.md -- Snowflake
- bigquery-ingest.md -- BigQuery
- dynamodb-ingest.md -- DynamoDB (export and Glue direct read)
- catalog-migration.md -- Existing Glue catalog tables (Hive, self-managed Iceberg)
Cross-cutting
- iceberg-catalog-config-and-usage.md -- S3 Tables, standard Iceberg, raw files: catalog config, engine access patterns
- glue-job-config.md -- Job sizing, monitoring, retry
- glue-job-scripts.md -- PySpark templates (append, upsert, custom SQL, full refresh)
- incremental-loading.md -- Watermark strategies
- testing-and-scheduling.md -- Glue Triggers, MWAA
- data-quality-validation.md -- Row counts, null checks, Glue Data Quality
- schema-evolution.md -- ALTER TABLE ADD COLUMNS, nested JSON
- type-transformations.md -- Type conflict resolution
- format-specific-loading.md -- CSV/JSON/Parquet/Avro/ORC specifics
- athena-loading.md -- Athena INSERT INTO as simple-load fallback
- error-handling.md -- Ingest errors (connection errors delegate to connecting-to-data-source)
- upload-options.md -- aws s3 cp vs sync, multipart
Migration-specific
- ctas-patterns.md -- Athena CTAS syntax and partition transforms
- glue-etl-migration.md -- Large-table migration via Glue 5.1 or higher PySpark
- migration-validation.md -- Full validation checklist
- migration-troubleshooting.md -- CTAS failures, visibility, partitions
JDBC-specific
- jdbc-schema-discovery.md -- Crawler, direct inspection, custom SQL
- jdbc-performance.md -- Parallel reads, partitioning
原文・著作権は Anthropic および各プラグイン作者に帰属します。日本語訳は Claude API による自動翻訳です。