🗄️databricks-iceberg
- プラグイン
- databricks
- ソース
- GitHub で見る ↗
説明
DatabricksにおけるApache Icebergテーブル — マネージドIcebergテーブル、External Iceberg Reads(旧称: Uniform)、互換モード、Iceberg RESTカタログ(IRC)、Iceberg v3、Snowflakeとの相互運用、PyIceberg、OSS Spark、外部エンジンアクセスおよびクレデンシャルベンディングに関するスキル。 次のような場合に使用: - Icebergテーブルを作成する場合 - DeltaテーブルでExternal Iceberg Reads(Uniform)を有効化する場合(互換モードを使用したストリーミングテーブルおよびマテリアライズドビューを含む) - Unity Catalog IRCを経由してDatabricksテーブルを読み取るよう外部エンジンを構成する場合 - SnowflakeカタログとForeign Icebergテーブルの読み取りを統合する場合
原文を表示
Apache Iceberg tables on Databricks — Managed Iceberg tables, External Iceberg Reads (fka Uniform), Compatibility Mode, Iceberg REST Catalog (IRC), Iceberg v3, Snowflake interop, PyIceberg, OSS Spark, external engine access and credential vending. Use when creating Iceberg tables, enabling External Iceberg Reads (uniform) on Delta tables (including Streaming Tables and Materialized Views via compatibility mode), configuring external engines to read Databricks tables via Unity Catalog IRC, integrating with Snowflake catalog to read Foreign Iceberg tables
ユースケース
- ✓Icebergテーブルを作成する
- ✓Deltaテーブルで互換モード有効化する
- ✓外部エンジンをIRCで構成する
- ✓Snowflakeカタログを統合する
本文(日本語訳)
DatabricksにおけるApache Iceberg
Databricksは、Apache Icebergを利用するための複数の方法を提供しています。 ネイティブマネージドIcebergテーブル、DeltaとIcebergの相互運用を実現するUniForm、 そして外部エンジンからアクセスするためのIceberg REST Catalog(IRC)です。
重要なルール(必ず遵守すること)
- 必須: Unity Catalogを使用すること — すべてのIceberg機能はUC対応ワークスペースが必要
- 禁止: DatabricksランタイムにIcebergライブラリをインストールすること(DBRにはIcebergサポートが組み込み済み。ライブラリを追加するとバージョン競合が発生する)
- 禁止:
write.metadata.pathまたはwrite.metadata.previous-versions-maxを設定すること — Databricksはメタデータの配置を自動管理しており、上書きするとデータ破損が発生する - 必須: コードを書く前に、ユースケースに適したIcebergパターンを特定すること — 下記の 使用タイミング セクションを参照
- 必須:
PARTITIONED BYとCLUSTER BYのどちらも外部エンジン向けには同一のIcebergメタデータを生成することを把握すること — UCは、クラスタリングキーに対応するパーティションフィールドを持つIceberg partition specを維持する。IRCを通じて読み取る外部エンジンからは、パーティション化されたIcebergテーブル(Hiveスタイルではなく、正規のIceberg partition fields)として見え、それらのフィールドでプルーニングが可能。UC内部ではこれらのフィールドをliquid clusteringキーとして使用する。2つの構文の違いは以下の通り: (1)PARTITIONED BYは標準的なIceberg DDL(どのエンジンでもテーブル作成可能)、CLUSTER BYはDBR専用DDL; (2)PARTITIONED BYはDV・row-trackingプロパティを自動処理するのに対し、CLUSTER BYはv2でTBLPROPERTIESの手動設定が必要 - 禁止: マネージドIcebergテーブルの
PARTITIONED BYで式ベースのパーティション変換(bucket()、years()、months()、days()、hours())を使用すること — サポートされるのはプレーンなカラム参照のみ。式変換を使用するとエラーが発生する - 必須: Iceberg v2テーブルで
CLUSTER BYを使用する場合、deletion vectorsとrow trackingを無効化すること — TBLPROPERTIESに'delta.enableDeletionVectors' = falseおよび'delta.enableRowTracking' = falseを設定する(Iceberg v3はこれを自動処理。PARTITIONED BYはv2・v3の両方で自動処理)
主要な概念
| 概念 | 説明 |
|---|---|
| マネージドIcebergテーブル | USING ICEBERG で作成するネイティブIcebergテーブル — Databricks上および外部Icebergエンジンからの完全な読み書きに対応 |
| 外部Iceberg読み取り(UniForm) | Icebergメタデータを自動生成するDeltaテーブル — 外部からIcebergとして読み取り可能、内部はDeltaとして書き込み |
| Compatibility Mode | SDPパイプラインのストリーミングテーブルおよびマテリアライズドビュー向けUniFormの変種 |
| Iceberg REST Catalog(IRC) | Iceberg REST Catalog仕様を実装したUnity Catalog組み込みのRESTエンドポイント — 外部エンジン(Spark、PyIceberg、Snowflake)がUC管理のIcebergデータにアクセス可能 |
| Iceberg v3 | 次世代フォーマット(Beta、DBR 17.3+)— deletion vectors、VARIANTタイプ、row lineageをサポート |
クイックスタート
マネージドIcebergテーブルの作成
-- クラスタリングなし
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
AS SELECT * FROM raw_events;
-- PARTITIONED BY(クロスプラットフォームに推奨): 標準的なIceberg構文。EMR / OSS Spark / Trino / Flinkで動作
-- DVおよびrow trackingを自動無効化 — v2・v3ともにTBLPROPERTIESの設定不要
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
PARTITIONED BY (event_date)
AS SELECT * FROM raw_events;
-- CLUSTER BY(Iceberg v2、DBR専用構文): DVおよびrow trackingの手動無効化が必要
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
TBLPROPERTIES (
'delta.enableDeletionVectors' = false,
'delta.enableRowTracking' = false
)
CLUSTER BY (event_date)
AS SELECT * FROM raw_events;
-- CLUSTER BY(Iceberg v3、DBR専用構文): TBLPROPERTIESの設定不要
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
TBLPROPERTIES ('format-version' = '3')
CLUSTER BY (event_date)
AS SELECT * FROM raw_events;
既存DeltaテーブルへのUniForm有効化
ALTER TABLE my_catalog.my_schema.customers
SET TBLPROPERTIES (
'delta.columnMapping.mode' = 'name',
'delta.enableIcebergCompatV2' = 'true',
'delta.universalFormat.enabledFormats' = 'iceberg'
);
読み書き機能マトリクス
| テーブルタイプ | Databricks読み取り | Databricks書き込み | 外部IRC読み取り | 外部IRC書き込み |
|---|---|---|---|---|
マネージドIceberg(USING ICEBERG) |
○ | ○ | ○ | ○ |
| Delta + UniForm | ○(Deltaとして) | ○(Deltaとして) | ○(Icebergとして) | ✕ |
| Delta + Compatibility Mode | ○(Deltaとして) | ○ | ○(Icebergとして) | ✕ |
リファレンスファイル
| ファイル | 説明 | キーワード |
|---|---|---|
| references/1-managed-iceberg-tables.md | ネイティブIcebergテーブルの作成と管理 — DDL、DML、Liquid Clustering、Predictive Optimization、Iceberg v3、制限事項 | CREATE TABLE USING ICEBERG, CTAS, MERGE, タイムトラベル, deletion vectors, VARIANT |
| references/2-uniform-and-compatibility.md | DeltaテーブルをIceberg読み取り可能にする方法 — 通常テーブル向けUniForm、ストリーミングテーブルおよびMV向けCompatibility Mode | UniForm, universalFormat, Compatibility Mode, ストリーミングテーブル, マテリアライズドビュー, SDP |
| references/3-iceberg-rest-catalog.md | IRCエンドポイントを通じてDatabricksテーブルを外部エンジンに公開する方法 — 認証、credential vending、IPアクセスリスト | IRC, REST Catalog, credential vending, EXTERNAL USE SCHEMA, PAT, OAuth |
| references/4-snowflake-interop.md | Snowflake-Databricks双方向統合 — catalog integration、foreign catalog、vended credentials | Snowflake, catalog integration, external volume, vended credentials, REFRESH_INTERVAL_SECONDS |
| references/5-external-engine-interop.md | PyIceberg、OSS Spark、AWS EMR、Apache Flink、Kafka ConnectのIRC経由接続 | PyIceberg, OSS Spark, EMR, Flink, Kafka Connect, pyiceberg.yaml |
使用タイミング
- 新しいIcebergテーブルを作成する → references/1-managed-iceberg-tables.md
- 既存のDeltaテーブルをIcebergとして読み取り可能にする → references/2-uniform-and-compatibility.md
- ストリーミングテーブルやマテリアライズドビューをIceberg読み取り可能にする → references/2-uniform-and-compatibility.md(Compatibility Modeセクション)
- マネージドIceberg、UniForm、Compatibility Modeの選択 → references/2-uniform-and-compatibility.md の判断テーブル
- REST APIを通じてDatabricksテーブルを外部エンジンに公開する → references/3-iceberg-rest-catalog.md
- DatabricksとSnowflakeを統合する(双方向) → references/4-snowflake-interop.md
- PyIceberg、OSS Spark、Flink、EMR、Kafkaを接続する → references/5-external-engine-interop.md
よくある問題
| 問題 | 解決策 |
|---|---|
| Change Data Feed(CDF)非対応 | CDFはマネージドIcebergテーブルではサポートされていません。CDFが必要な場合はDelta + UniFormを使用してください。 |
| UniFormの非同期遅延 | Icebergメタデータの生成は非同期で行われます。書き込み後、外部エンジンが最新データを参照できるようになるまで若干の遅延が生じる場合があります。DESCRIBE EXTENDED table_name でステータスを確認してください。 |
| 圧縮コーデックの変更 | マネージドIcebergテーブルはデフォルトで zstd 圧縮を使用します(snappy ではありません)。zstdに対応していない古いIcebergリーダーは失敗します。リーダーの互換性を確認するか、write.parquet.compression-codec を snappy に設定してください。 |
| Snowflakeの1000コミット制限 | SnowflakeのIceberg catalog integrationは直近1000件のIcebergコミットしか参照できません。書き込み頻度が高い場合はメタデータをコンパクトするか、Snowflakeが古いデータを見失う可能性があります。 |
| UniFormとdeletion vectors | UniFormはdeletion vectorsが無効化されている必要があります(delta.enableDeletionVectors = false)。テーブルでdeletion vectorsが有効になっている場合は、UniFormを有効化する前に無効化してください。 |
| IcebergのSHALLOW CLONE非対応 | SHALLOW CLONE はIcebergテーブルではサポートされていません。DEEP CLONE または CREATE TABLE ... AS SELECT を使用してください。 |
| 外部エンジンとのバージョン不一致 | 外部エンジンが使用するIcebergライブラリのバージョンが、テーブルのフォーマットバージョンと互換性があることを確認してください。Iceberg v3テーブルにはIcebergライブラリ1.9.0以降が必要です。 |
関連スキル
- databricks-unity-catalog — catalog/schemaの管理、ガバナンス、システムテーブル
- databricks-pipelines — SDPパイプライン(ストリーミングテーブル、Compatibility Modeを使用したマテリアライズドビュー)
- databricks-python-sdk — DatabricksオペレーションのためのPython SDKとREST API
- databricks-dbsql — SQLウェアハウスの機能、クエリパターン
リソース
- Iceberg Overview — DatabricksにおけるIceberg情報のメインハブ
- UniForm — Delta Universal Format
- Iceberg REST Catalog — IRCエンドポイントと外部エンジンアクセス
- Compatibility Mode — ストリーミングテーブルおよびMV向けUniForm
- Iceberg v3 — 次世代フォーマットの機能(Beta)
- Foreign Tables — 外部カタログデータの読み取り
原文(English)を表示
Apache Iceberg on Databricks
Databricks provides multiple ways to work with Apache Iceberg: native managed Iceberg tables, UniForm for Delta-to-Iceberg interoperability, and the Iceberg REST Catalog (IRC) for external engine access.
Critical Rules (always follow)
- MUST use Unity Catalog — all Iceberg features require UC-enabled workspaces
- MUST NOT install an Iceberg library into Databricks Runtime (DBR includes built-in Iceberg support; adding a library causes version conflicts)
- MUST NOT set
write.metadata.pathorwrite.metadata.previous-versions-max— Databricks manages metadata locations automatically; overriding causes corruption - MUST determine which Iceberg pattern fits the use case before writing code — see the When to Use section below
- MUST know that both
PARTITIONED BYandCLUSTER BYproduce the same Iceberg metadata for external engines — UC maintains an Iceberg partition spec with partition fields corresponding to the clustering keys, so external engines reading via IRC see a partitioned Iceberg table (not Hive-style, but proper Iceberg partition fields) and can prune on those fields; internally UC uses those fields as liquid clustering keys; the only differences between the two syntaxes are: (1)PARTITIONED BYis standard Iceberg DDL (any engine can create the table), whileCLUSTER BYis DBR-only DDL; (2)PARTITIONED BYauto-handles DV/row-tracking properties, whileCLUSTER BYrequires manual TBLPROPERTIES on v2 - MUST NOT use expression-based partition transforms (
bucket(),years(),months(),days(),hours()) withPARTITIONED BYon managed Iceberg tables — only plain column references are supported; expression transforms cause errors - MUST disable deletion vectors and row tracking when using
CLUSTER BYon Iceberg v2 tables — set'delta.enableDeletionVectors' = falseand'delta.enableRowTracking' = falsein TBLPROPERTIES (Iceberg v3 handles this automatically;PARTITIONED BYhandles this automatically on both v2 and v3)
Key Concepts
| Concept | Summary |
|---|---|
| Managed Iceberg Table | Native Iceberg table created with USING ICEBERG — full read/write in Databricks and via external Iceberg engines |
| External Iceberg Reads (Uniform) | Delta table that auto-generates Iceberg metadata — read as Iceberg externally, write as Delta internally |
| Compatibility Mode | UniForm variant for streaming tables and materialized views in SDP pipelines |
| Iceberg REST Catalog (IRC) | Unity Catalog's built-in REST endpoint implementing the Iceberg REST Catalog spec — lets external engines (Spark, PyIceberg, Snowflake) access UC-managed Iceberg data |
| Iceberg v3 | Next-gen format (Beta, DBR 17.3+) — deletion vectors, VARIANT type, row lineage |
Quick Start
Create a Managed Iceberg Table
-- No clustering
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
AS SELECT * FROM raw_events;
-- PARTITIONED BY (recommended for cross-platform): standard Iceberg syntax, works on EMR/OSS Spark/Trino/Flink
-- auto-disables DVs and row tracking — no TBLPROPERTIES needed on v2 or v3
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
PARTITIONED BY (event_date)
AS SELECT * FROM raw_events;
-- CLUSTER BY on Iceberg v2 (DBR-only syntax): must manually disable DVs and row tracking
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
TBLPROPERTIES (
'delta.enableDeletionVectors' = false,
'delta.enableRowTracking' = false
)
CLUSTER BY (event_date)
AS SELECT * FROM raw_events;
-- CLUSTER BY on Iceberg v3 (DBR-only syntax): no TBLPROPERTIES needed
CREATE TABLE my_catalog.my_schema.events
USING ICEBERG
TBLPROPERTIES ('format-version' = '3')
CLUSTER BY (event_date)
AS SELECT * FROM raw_events;
Enable UniForm on an Existing Delta Table
ALTER TABLE my_catalog.my_schema.customers
SET TBLPROPERTIES (
'delta.columnMapping.mode' = 'name',
'delta.enableIcebergCompatV2' = 'true',
'delta.universalFormat.enabledFormats' = 'iceberg'
);
Read/Write Capability Matrix
| Table Type | Databricks Read | Databricks Write | External IRC Read | External IRC Write |
|---|---|---|---|---|
Managed Iceberg (USING ICEBERG) |
Yes | Yes | Yes | Yes |
| Delta + UniForm | Yes (as Delta) | Yes (as Delta) | Yes (as Iceberg) | No |
| Delta + Compatibility Mode | Yes (as Delta) | Yes | Yes (as Iceberg) | No |
Reference Files
| File | Summary | Keywords |
|---|---|---|
| references/1-managed-iceberg-tables.md | Creating and managing native Iceberg tables — DDL, DML, Liquid Clustering, Predictive Optimization, Iceberg v3, limitations | CREATE TABLE USING ICEBERG, CTAS, MERGE, time travel, deletion vectors, VARIANT |
| references/2-uniform-and-compatibility.md | Making Delta tables readable as Iceberg — UniForm for regular tables, Compatibility Mode for streaming tables and MVs | UniForm, universalFormat, Compatibility Mode, streaming tables, materialized views, SDP |
| references/3-iceberg-rest-catalog.md | Exposing Databricks tables to external engines via the IRC endpoint — auth, credential vending, IP access lists | IRC, REST Catalog, credential vending, EXTERNAL USE SCHEMA, PAT, OAuth |
| references/4-snowflake-interop.md | Bidirectional Snowflake-Databricks integration — catalog integration, foreign catalogs, vended credentials | Snowflake, catalog integration, external volume, vended credentials, REFRESH_INTERVAL_SECONDS |
| references/5-external-engine-interop.md | Connecting PyIceberg, OSS Spark, AWS EMR, Apache Flink, and Kafka Connect via IRC | PyIceberg, OSS Spark, EMR, Flink, Kafka Connect, pyiceberg.yaml |
When to Use
- Creating a new Iceberg table → references/1-managed-iceberg-tables.md
- Making an existing Delta table readable as Iceberg → references/2-uniform-and-compatibility.md
- Making a streaming table or MV readable as Iceberg → references/2-uniform-and-compatibility.md (Compatibility Mode section)
- Choosing between Managed Iceberg vs UniForm vs Compatibility Mode → decision table in references/2-uniform-and-compatibility.md
- Exposing Databricks tables to external engines via REST API → references/3-iceberg-rest-catalog.md
- Integrating Databricks with Snowflake (either direction) → references/4-snowflake-interop.md
- Connecting PyIceberg, OSS Spark, Flink, EMR, or Kafka → references/5-external-engine-interop.md
Common Issues
| Issue | Solution |
|---|---|
| No Change Data Feed (CDF) | CDF is not supported on managed Iceberg tables. Use Delta + UniForm if you need CDF. |
| UniForm async delay | Iceberg metadata generation is asynchronous. After a write, there may be a brief delay before external engines see the latest data. Check status with DESCRIBE EXTENDED table_name. |
| Compression codec change | Managed Iceberg tables use zstd compression by default (not snappy). Older Iceberg readers that don't support zstd will fail. Verify reader compatibility or set write.parquet.compression-codec to snappy. |
| Snowflake 1000-commit limit | Snowflake's Iceberg catalog integration can only see the last 1000 Iceberg commits. High-frequency writers must compact metadata or Snowflake will lose visibility of older data. |
| Deletion vectors with UniForm | UniForm requires deletion vectors to be disabled (delta.enableDeletionVectors = false). If your table has deletion vectors enabled, disable them before enabling UniForm. |
| No shallow clone for Iceberg | SHALLOW CLONE is not supported for Iceberg tables. Use DEEP CLONE or CREATE TABLE ... AS SELECT instead. |
| Version mismatch with external engines | Ensure external engines use an Iceberg library version compatible with the format version of your tables. Iceberg v3 tables require Iceberg library 1.9.0+. |
Related Skills
- databricks-unity-catalog — catalog/schema management, governance, system tables
- databricks-pipelines — SDP pipelines (streaming tables, materialized views with Compatibility Mode)
- databricks-python-sdk — Python SDK and REST API for Databricks operations
- databricks-dbsql — SQL warehouse features, query patterns
Resources
- Iceberg Overview — main hub for Iceberg on Databricks
- UniForm — Delta Universal Format
- Iceberg REST Catalog — IRC endpoint and external engine access
- Compatibility Mode — UniForm for streaming tables and MVs
- Iceberg v3 — next-gen format features (Beta)
- Foreign Tables — reading external catalog data
原文・著作権は Anthropic および各プラグイン作者に帰属します。日本語訳は Claude API による自動翻訳です。