【データ分析】PowerBIのデータセットとは?

注目記事

PowerBIのデータセット

データセットとは?

データセットとは、Power BI Desktopで使われる用語の1つで、データの集合体やデータの組織化された形式のことを指しています。

具体的には、Power BI Desktop内で作成されたデータモデルやデータソースへの、
 

  • 接続
  • データの変換や結合
  • 関係性の設定
  • 計算列やメジャーの追加

 
などの操作を含むものです。
 

データソースとは?

データソースは、データを取得するための情報やリソースのことを指します。

英語の説明を直訳すると「データの取得やアクセスが可能な元のデータの出所や場所を指します。」などの説明が出てくるのですが、簡単に説明するとデータファイルやデータが存在する場所という意味です。
 

ファイルベースのデータソース

ファイルベースのデータソースは、
 

  • テキストファイル
  • CSVファイル
  • Excelファイル
  • JSONファイル
  • XMLファイル

 
などの形式で、データがファイル形式で格納されている場合を指します。

これらのファイルはローカルコンピュータ上に存在する場合や、ネットワーク共有ドライブ、クラウドストレージサービス(例: OneDrive、Google Drive)上に保存されている場合などがあります。
 

データベース(DB)

データベースは、データを組織化して管理するための専用のシステムです。

一般的なデータベースの種類には、
 

  • リレーショナルデータベース(RDB)
  • NoSQLデータベース
  • クラウドベースのデータベースサービス

 
などがあります。
 

データベースの種類と製品例

種類 製品
RDB SQL Server、MySQL、Oracle
NoSQL DB MongoDB、Cassandra
クラウド DB Azure SQL Database、Amazon RDS

 
データベースは、テーブルやビュー、ストアドプロシージャなどの形式でデータを格納し、データのクエリや操作が可能です。
 

オンラインサービス

オンラインサービスは、Web上で提供されるさまざまなデータソースを指し、主にクラウドベースのデータサービスです。
 

オンラインサービスの種類と製品例

種類 製品
クラウドデータサービス Salesforce、Google Analytics、Microsoft Dynamics 365

 
Web API(Web Application Programming Interface)を介してデータを取得することができるサービスで、データをリアルタイムに取得したり、定期的にデータを更新したりすることができます。
 

データセットの使用

データセットは、Power BI Desktop内での作業段階やデータの準備、モデリングを行うための概念的な表現であり、Power BIの可視化や分析を行う際に使用されます。

Power BI Desktop上で作成・編集され、Power BI Serviceや他のPower BIアプリケーションで利用されることがあります。

ただし、データセットは一般的なデータベースやデータの集合体とは異なり、Power BI固有の概念として使われる場合があります。
 

データソースの接続

Power BI Desktopでは、様々なデータソースに接続することができます。

一般的なデータソースとしては、Excelファイル、CSVファイル、SQLデータベース、SharePointリスト、Web APIなどがあり、データソースに接続するとデータセットが作成され、データの取り込みや更新が可能になります。
 

データの変換

取り込んだデータを必要な形式に変換するために、Power BI Desktopではデータの変換機能が提供されています。

例えば、データのクリーニング、列の追加や削除、データのフィルタリングなどの操作が可能で、データの品質向上や分析のためのデータ加工が行われます。
 

データの関係性の設定

Power BI Desktopでは、異なるデータテーブルの間に関係性を設定することができます。

関係性を設定することで、複数のテーブルを結合し、データの一貫性と統合性を確保することができ、顧客テーブルと注文テーブルの間に顧客IDを使用して関係性を設定することで、顧客ごとの注文情報を分析することができます。
 

データのモデリング

Power BI Desktopでは、データモデリングを行うことで、データセット内のデータを組織化し、計算列やメジャー(集計)を作成することができます。

データモデリングにより、データの集約や計算、フィルタリングなどの操作が可能になり、より高度な分析や可視化が行えます。
 

データの更新とリフレッシュ

データセットは通常、定期的に更新する必要があります。

Power BI Desktopでは、データソースからのデータの自動リフレッシュや手動リフレッシュの設定が可能で、最新のデータを保持しながら分析やレポートを作成することができます。
 

まとめ

データセットは、Power BI Desktop内で作成され、Power BI Serviceに公開されると、他のPower BIユーザーと共有や協力が可能になります。

データの準備とモデリングを行う重要な要素であり、データ駆動型の分析と可視化を実現するための基盤となり、データを効果的に管理し、Power BIレポートやダッシュボードで可視化するための基盤を構築するための、大元となるデータ(情報)のことです。