【データ分析】PowerBIのデータセットとは?
PowerBIのデータセット

データセットとは?
データセットとは、Power BI Desktopで使われる用語の1つで、データの集合体やデータの組織化された形式のことを指しています。
具体的には、Power BI Desktop内で作成されたデータモデルやデータソースへの、
- 接続
- データの変換や結合
- 関係性の設定
- 計算列やメジャーの追加
などの操作を含むものです。
データソースとは?
データソースは、データを取得するための情報やリソースのことを指します。
英語の説明を直訳すると「データの取得やアクセスが可能な元のデータの出所や場所を指します。」などの説明が出てくるのですが、簡単に説明するとデータファイルやデータが存在する場所という意味です。
ファイルベースのデータソース
ファイルベースのデータソースは、
- テキストファイル
- CSVファイル
- Excelファイル
- JSONファイル
- XMLファイル
などの形式で、データがファイル形式で格納されている場合を指します。
これらのファイルはローカルコンピュータ上に存在する場合や、ネットワーク共有ドライブ、クラウドストレージサービス(例: OneDrive、Google Drive)上に保存されている場合などがあります。
データベース(DB)
データベースは、データを組織化して管理するための専用のシステムです。
一般的なデータベースの種類には、
- リレーショナルデータベース(RDB)
- NoSQLデータベース
- クラウドベースのデータベースサービス
などがあります。
データベースの種類と製品例
種類 | 製品 |
---|---|
RDB | SQL Server、MySQL、Oracle |
NoSQL DB | MongoDB、Cassandra |
クラウド DB | Azure SQL Database、Amazon RDS |
データベースは、テーブルやビュー、ストアドプロシージャなどの形式でデータを格納し、データのクエリや操作が可能です。
オンラインサービス
オンラインサービスは、Web上で提供されるさまざまなデータソースを指し、主にクラウドベースのデータサービスです。
オンラインサービスの種類と製品例
種類 | 製品 |
---|---|
クラウドデータサービス | Salesforce、Google Analytics、Microsoft Dynamics 365 |
Web API(Web Application Programming Interface)を介してデータを取得することができるサービスで、データをリアルタイムに取得したり、定期的にデータを更新したりすることができます。
データセットの使用
データセットは、Power BI Desktop内での作業段階やデータの準備、モデリングを行うための概念的な表現であり、Power BIの可視化や分析を行う際に使用されます。
Power BI Desktop上で作成・編集され、Power BI Serviceや他のPower BIアプリケーションで利用されることがあります。
ただし、データセットは一般的なデータベースやデータの集合体とは異なり、Power BI固有の概念として使われる場合があります。
データソースの接続
Power BI Desktopでは、様々なデータソースに接続することができます。
一般的なデータソースとしては、Excelファイル、CSVファイル、SQLデータベース、SharePointリスト、Web APIなどがあり、データソースに接続するとデータセットが作成され、データの取り込みや更新が可能になります。
データの変換
取り込んだデータを必要な形式に変換するために、Power BI Desktopではデータの変換機能が提供されています。
例えば、データのクリーニング、列の追加や削除、データのフィルタリングなどの操作が可能で、データの品質向上や分析のためのデータ加工が行われます。
データの関係性の設定
Power BI Desktopでは、異なるデータテーブルの間に関係性を設定することができます。
関係性を設定することで、複数のテーブルを結合し、データの一貫性と統合性を確保することができ、顧客テーブルと注文テーブルの間に顧客IDを使用して関係性を設定することで、顧客ごとの注文情報を分析することができます。
データのモデリング
Power BI Desktopでは、データモデリングを行うことで、データセット内のデータを組織化し、計算列やメジャー(集計)を作成することができます。
データモデリングにより、データの集約や計算、フィルタリングなどの操作が可能になり、より高度な分析や可視化が行えます。
データの更新とリフレッシュ
データセットは通常、定期的に更新する必要があります。
Power BI Desktopでは、データソースからのデータの自動リフレッシュや手動リフレッシュの設定が可能で、最新のデータを保持しながら分析やレポートを作成することができます。
まとめ
データセットは、Power BI Desktop内で作成され、Power BI Serviceに公開されると、他のPower BIユーザーと共有や協力が可能になります。
データの準備とモデリングを行う重要な要素であり、データ駆動型の分析と可視化を実現するための基盤となり、データを効果的に管理し、Power BIレポートやダッシュボードで可視化するための基盤を構築するための、大元となるデータ(情報)のことです。