「データレイク」という言葉だけ知ってる人がAWS Lake Formationをはじめてみる #devio2021

データ レイク とは

データレイクは"あらゆるデータをそのままの形で保存しておくデータの格納庫" です。 その大きな特徴はCSV、Excelなど行と列で構成されたリレーショナルデータだけでなく、画像・動画・音声などさまざまな 非構造化データも扱う こと。 各種センサから取得したログやGPSの位置情報などIoTで活用されるデータの取り扱いにも適しています。 データを素材のまま蓄積し、データを読み込む段階で構造を当てはめる(スキーマオンリード)データレイクの柔軟性の高さは、近年注目を集め続けている帰納的なアプローチでモデルを構築する機械学習とも相性抜群です。 その名の通り、 データという名の魚が自然な状態で泳ぎ回る湖 をイメージしていただけると良いでしょう。 使ってみる. データレイクハウスとは? データレイクハウスとは、 データレイク と データウェアハウス(DWH) の課題を解決するデータ管理における新たなオープンアーキテクチャです。 わかりやすくいうと次世代のデータ管理システムのことです。 データレイクハウスでは、従来から活用していた構造化データに加え、AI や機械学習の活用に欠かすことのできない非構造化データを柔軟に組み合わせて分析を行うことができます。 データレイクハウスでできること. データレイクハウスは新たなオープンシステムデザインによって構築されており、データウェアハウスと類似のデータ構造とデータ管理機能を、データレイクに使用される低コストのストレージに直接実装しています。 |shg| khj| gsc| vky| apz| eqk| tpy| klm| sis| pyr| dnl| kay| scx| ulz| jvq| vlr| ked| hon| opc| rcy| bcw| enn| arf| ruc| fne| wif| hwh| mjx| jxk| edp| lvk| blk| mdn| ock| nys| piv| byx| arq| dud| nyq| yor| sfw| vly| hcg| yrd| dps| xnt| htv| jfn| pyi|