データ分析プロジェクトの手引 ーデータの前処理から予測モデルの運用までを俯瞰する20章ー
参加者
- 髙木 涼太
- 小林 和央
- 奈須 日向太
- 藤兼 由生
- 山本 啓太
- 大町 凌弥
- 嶋田 恭助
目次
第1章 はじめに 1 [教員]
第2章 ビジネス課題 9
* イントロダクション
* プロジェクトを実行可能なものとするための指針
* データの利用可能性におけるプロジェクトの実行可能性-特殊な検討事項
* プロジェクトの利益に影響する因子
* プロジェクトのコストに影響を与える因子
* 例1:カスタマーコールセンター-目的:顧客クレームへの対応
* ストロング氏のプロジェクトにおける利益およびコストの総括
* 例2:オンラインミュージックアプリの事例-目的:モバイルデバイスにおける広告効果
* メロディオンライン社のプロジェクトに関する利益とコストの総括
* まとめ
* もっと知りたい読者のために
第3章 さまざまなデータソースや情報を組み合わせる 23 [嶋田]
* イントロダクション
* 製品やサービスに関するデータ
* サーベイとアンケート
* サーベイとアンケート:データテーブルの実装について
* フォームを設計する際に気をつけること
* ポイントカード/お客様カード
* ポイントカードの登録フォーム:データテーブルの構成
* デモグラフィックデータ
* 国勢調査(2010 年のアメリカ国勢調査データより)
* マクロ経済データ
* 競合についてのデータ
* 株式,シェア,コモディティ,投資などの金融マーケットデータ
第4章 データ表現 61 [奈須]
* イントロダクション
* 基本的なデータ表現
* 基本的なデータ型
* 異なる型の変数の表現,比較,処理
* 変数の主な型
* 変数に含まれる値の標準化
* 変数に格納された値の分布
* 異常値(外れ値)
* 発展的なデータ表現
* 階層型データ
* セマンティックネットワーク
* グラフデータ
* ファジーデータ
第5章 データの質 83 [小林]
* イントロダクション
* データの質に関する典型的な問題
* データの内容のエラー
* ビジネス課題との関連性およびデータの信頼性
* データの質の定量的評価
* データ抽出とデータの質-よくあるエラーとそれを避ける方法
* データ抽出
* データの妥当性を確かめるための手順
* 派生データ(derived data)
* データ抽出のまとめ
* データ入力およびデータ生成がデータの質に与える影響
第6章 変数の選択と因子の推定 99 [大町]
* イントロダクション
* 利用可能なデータの選定
* 変数の統計的評価
* 相関
* 因子分析
* データフュージョン
* データから変数を選択するアプローチのまとめ
* 望ましい結果を得るための変数選択
* ビジネス課題に応じて説明変数を評価し選択する統計的手法
* 顧客セグメンテーション
* 変数選択-あらためて分析をやり直す
* 顧客セグメンテーションの最終的なモデル
* 本節のまとめ
* 変数選択に用いるデータマイニングの手法
* ルールインダクション
* ニューラルネットワーク
* クラスタリング
* パッケージ化されたソリューション
* オープンソースソフトウェアの利用
* 変数の前選択
* FAMS(詐欺検出システム)
第7章 サンプリングとパーティショニング 129 [小林]
* イントロダクション
* データを減らすためのサンプリング
* 一定の基準に従ってデータをパーティショニングする
* サンプリングに伴う問題
* ビッグデータとサンプリング
第8章 データ分析 145 [奈須]
* イントロダクション
* 可視化
* 連関
* クラスタリングとセグメンテーション
* セグメンテーションと可視化
* トランザクションデータの分析
* 時系列データの分析
* データ分析を行う上での典型的なミス
* 第9章 データモデリング 167 [大町]
* イントロダクション
* モデリングの概念および問題点
* 教師あり学習と教師なし学習
* クロスバリデーション
* モデリングの結果を評価する
* ニューラルネットワーク
* 教師あり学習のニューラルネットワーク
* クラスタリングを目的としたニューラルネットワーク
* 分類:ルールインダクション
* ID3 アルゴリズム
* C4.5 アルゴリズム
* 古典的統計モデル
* 回帰モデル
* 回帰モデルのまとめ
* k 平均法
* 予測モデル構築におけるその他の手法
* モデルをデータに適用する
* 「What-IF」を用いたシミュレーションモデル
* モデリングについてのまとめ
第10章 システムの開発:クエリレポーティングからEIS およびエキスパートシステムまで 193 [髙木]
* イントロダクション
* クエリとレポート生成
* クエリとレポーティングシステム
* エグゼグティブインフォメーションシステム
* EIS
* エキスパートシステム
* 事例ベースシステム
* まとめ
第11章 テキストマイニング 207
* テキストマイニングの基礎
* 高度なテキストマイニング
* キーワードの定義と情報検索
* 個人情報の識別
* 文章抽出
* 情報検索の概念
* ソーシャルメディアを対象にした感情分析
* 商用テキストマイニングツール
第12章 リレーショナルデータベースと連携したデータマイニング 219 [山本]
* イントロダクション
* データウェアハウスとデータマート
* データマイニングのためのファイルとテーブルの作成
第13章 CRM分析 237 [割り当てなし]
* イントロダクション
* CRM の手法とデータ収集
* カスタマーライフサイクル
* リテールバンキングでのCRM の例
* CRM システムの統合
* CRM アプリケーションソフトウェア
* 顧客満足度
* CRM アプリケーションの使用例
第14章 インターネット上のデータを分析する1-ウェブサイト分析とインターネット検索 255 [嶋田]
* イントロダクション
* ウェブサイト訪問者の行動履歴分析
* Cookie -ユーザ行動のトラッキングと情報の蓄積
* アクセス解析ソフトウェア
* インターネット上におけるマーケットセンチメント情報の検索と統合
* ウェブクローラとウェブスクレイパー
* まとめ
第15章 インターネット上のデータを分析する2-検索体験の最適化 271 [髙木]
* イントロダクション
* インターネットとインターネット検索
* ウェブの構造と検索エンジンにおけるランキングの仕組み
* インターネット検索のタイプ
* 検索ログのデータマイニング
* 検索行動の表現:クエリセッション
* 検索体験の質の定義
* 検索体験データに関するデータマイニング
* まとめ
第16章 インターネット上のデータを分析する3-オンラインソーシャルネットワーク分析 287 [藤兼]
* イントロダクション
* オンラインソーシャルネットワークの分析
* グラフ理論における指標
* グラフデータに用いるデータ形式
* グラフの可視化と解釈
* ソーシャルネットワーク分析ツール
* まとめ
第17章 インターネット上のデータを分析する4-検索トレンドの時系列変化をつかむ 309 [藤兼]
* イントロダクション
* 検索トレンドの時系列分析
* Google Trends-トレンドパターンの分類
* 検索トレンドデータへのデータマイニングの適用
* トレンドを表現するための説明因子
* データ抽出と前処理
* トレンドのクラスタリングと予測モデル
* まとめ
第18章 データにおけるプライバシーと匿名化技術 323 [山本]
* イントロダクション
* 主要なアプリケーションとデータプライバシー
* 法的側面-責任と制限
* プライバシー保護データパブリッシング
* プライバシーの概念
* 匿名化技術
* ドキュメントのサニタイズ
第19章 ビジネスデータ分析のための環境整備 341 [割り当てなし]
* イントロダクション
* 統合ビジネスデータ分析ツール
* ビジネスデータ分析のためのアドホック/低コスト環境の構築
第20章 おわりに 399 [割り当てなし]
付録 ケーススタディ 357 [割り当てなし]
* ケーススタディ1:保険会社における顧客ロイヤリティ
* ケーススタディ2:リテールバンクにおけるクロスセル
* ケーススタディ3:テレビ番組の視聴予測
スケジュール(予定)
参考資料
風間 一洋