総論
ビックデータの定義
既存の技術では管理するのが困難な大量のデータを分析すること
・Volume(大量)
・Variety(多様)
・Velocity(高頻度)
構造化データだけではなく、半構造化データも対象となる
応用例
・レコメンド
・画面個別化(ユーザごとに異なる画面を提供する)
・利用者の行動予測
・需要動向予測
・状態判断(パターン認識)
・CRM
・評判分析
・SCM(サプライチェーン・マネジメント)
The Next Big Thingsとしてのビックデータ
- ストレージ技術
- 大規模DWH(データウェアハウス)
- BI(ビジネス・インテリジェンス)や統計解析ツール
- クラスタ構築などのソリューション(Hadoopなど)
- データ分析のコンサルティングと受託業務
このうち、1から4までは需要が少ないか海外へ流れてしまう。SIとしては5だが、まだまだデータサイエンティストの数が少ない
第一章
ビックデータの活用
・異常を察知する(利用パターンやシステムログ、センサーログから)
・近未来を予測する
・今を描き出す(状況分析など)
Hadoop+Flumeでリアルタイムに近い性能でログ解析を行える
OSSの検索エンジンSolr
ビックデータの課題
・専門科の不足
・プログラミングの高度化、多様化
・プライバシーの侵害に対する懸念
・データマイニングへの過度の依存
・誤検出への懸念
ビックデータの活用事例
ビックデータの活用では、データを自ら生み出し、データに語らせ、データを深掘りすることが大事
・ウェザーニュースでは、ユーザからの天気に関する口コミ情報を天気予報へフィードバックしている
・カーナビやタクシーの情報を元に渋滞状況の把握
・機会の稼働情報から故障を予測
・Twitterから風邪の流行を予測
・試着したが購入されなかった商品データを分析(通常のPOSデータには含まれないデータ)
・Pontaを使ったWeb(Yahoo)と店舗(ローソン)の連携
・宿の予約状況や傾向をベースにしたキャンペーンの提案
とは言いつつ、ROI(費用対効果)が分からないシステムに初期投資をかける訳にはいかない
第二章
BI(ビジネス・インテリジェンス)
データを分析し、経営意思決定に活用する取り組み
・集計分析
・発見
・What-IF(現行の方式を変更した際の効果を試算する)
・プロアクティブ(ユーザの行動から、先回りしてサービスや機能を提供する)
これからはプロアクティブ型のBIが必要になってくる
ビックデータを使う時の方針
・データの品質に固執し過ぎない
・データの組み合わせが価値を生む
・データはふんだんに使う
M2M(Machine to Machine)
人手を介さない機器やシステム間のデータ連携
データ収集やデータ分析、イベント検知など
今後はこれが主流になっていく。
この部分は、Internet Of Thingsやスマートデバイスなんかと同じような話なのかもしれない
Hadoopの活用
・生データの蓄積
・掛け合わせによる価値の発見
・小さく産んで大きく育てる
とにかくデータの蓄積を始めてしまうべき
そして、それをHadoopに乗せて処理する
従来のバッチ処理の利用からCES(複合イベント処理)を使ったリアルタイム処理も
第三章 Hadoop
・Map-Reduceで元となるデータを繰り返し処理していくことで処理をすすめる
・集計、検索、抽出、変換、分類などの作業に向いている
・Key-ValueのKeyが一位に定まっているデータは、分散処理できないためあまり向いていない
レコメンドシステムの場合
元データは、「時間, 名前, メニュー」のようなデータ
1. 名前をベースにメニューをまとめる
<名前A, (メニュー1、メニュー2、メニュー3)>
2.メニューを食べた割合を名前ごとにまとめる
<名前A, <メニュー1, 0.5> >
<名前A, <メニュー2, 0.3> >
<名前A, <メニュー3, 0.1 >
<名前B, <メニュー1, 0.2> >
<名前B, <メニュー2, 0.4> >
<名前B, <メニュー3, 0.2> >
3.メニューごとに食べた割合をまとめる
<メニュー1, (<名前A, 0.5>, <名前B, 0.2> ) >
4.レコメンドしたいユーザとその他ユーザとの好みの距離をメニューごとに出す
<名前B, メニュー1, 0.3>
<名前C, メニュー1, 0.7>
<名前B, メニュー2, 0.2>
<名前C, メニュー2, 0.1>
5.名前ごとに好みの距離を出す
<名前B, 0.3>
<名前B, 0.5>
この時点で名前Aのユーザと好みの近いユーザが取得できる
6.好みが近いユーザが食べていて、レコメンドしたいユーザが食べていないものをレコメンドする
思考の類似度
ユーザとアイテムごとの評価が存在する場合、
・基準となるユーザと比較するユーザのアイテムごとの距離(差)を一つずつ計算する
・アイテムごとの距離を2乗したものの和を平方根することで全体的な好みの差が出る
・好みの差は値が近いものほど近い
第四章 個人情報の収集に関するリスクをどう取るか
はじめに考えて置かなければいけないこと
・データのパーソナル性を見極める
・グレーゾーン情報を取得する場合も明記する
・同意の仕組みを工夫する
・スマホ向けは、アプリの承諾と、個人情報の承諾の2段階で同意を得る
・国内外の法制度に注意を払う
・ユーザの親密度によって取得する情報の範囲を変える
・サービスに個人情報を取得する必然性を持たせる
・お節介はほどほどに
・人物の写真は残さない
・書き込みデータの中身はチェックする
・SNSの生データはそのまま使用しない
・個人が識別できるデータは消去する
・分母が少ないデータは非公開にする
人物の写真には想像以上に個人情報が含まれているので、原則として保存しない
ユーザの書き込みを公開する場合、ユーザが気づかないうちに他のユーザの個人情報を含めている場合があるため公開には気をつける
SNSから取得したデータは、IDやメールならばハッシュ化、住所ならば一部伏せるなどしておく
いずれにせよ、ビックデータとして活用する場合は、匿名化と統計化が必要
ケースバイケースで気をつけること
旅行業では、アクセス履歴などを元にユーザの好みを解析してもレコメンドには活用しにくい。
→ 同じユーザでも旅行先や目的、同行者などによって大きく異なるためそれよりは、ユーザの過去にアクセスした旅館などの情報を再掲するなどしたほうが効果は高い
楽天トラベル
また、医療系なども過度なレコメンドを行うとユーザに不信感や不快感をもたらすので注意すること
→ 癌について調べたからといって、すぐに癌関連の情報を勧められても喜ばない