概要
項目 | 内容 |
---|---|
日程 | 2014年04月23日(水) 19:00 – 20:00 |
会場 | Rubyコンテンツ産業振興センター |
公式ページ | http://www.zusaar.com/event/5027006 |
第一部
データ分析関連の勉強会
データ分析やビッグデータが流行している割には、特定のツールに関するモノ以外の勉強会は福岡でもは少ない。
・R勉強会@福岡
・Hadoop関連技術勉強会@福岡
データ分析ブームを起こしたい
データ分析
Data to Information, Information to Creation
モチベーションは事業のコアになる部分と重なる
・売上アップ
・作業の効率化
・今まで気づかなかった知見の創出
データ分析の流れ ###
- 収集
- (蓄積)
- 事前処理
- (蓄積)
- データ分析
- 可視化、予測
データ分析に焦点が当たりがちだが、可視化は特に重要
応用分野の紹介
化学分析
: 効率的な実験条件や環境をシミュレーションする。多目的な最適化やトレードオフ分析
医療分野
: カルテからの知見抽出。高血圧、肺がんなどの予測や症状からの薬のレコメンド
: 在宅健康支援ネットワーク。血圧や体重、生活習慣などの生体データから事前に予測する
センサー分析
: M2Mクラウド
会場での使用例の紹介
・BI
・地価の分析
・バグの発見
・成功事例の分析
質疑 ###
小規模なデータ解析の例にはどのようなものがあるのか?
15件〜300件のレコードを対象にした分析を行ったことがある。データ量は少なくとも多変量解析をやりだすと時間や計算量が増加してしまう。また、迅速に結果を出すためにもデータ分析は必要。また、少ないデータで予測するのは、大量のデータを相手にするより大変になる。
第二部 フリーソフトではじめる機械学習入門
参考書をベースにして読み進める
書籍について
・取っ掛かりとしてはよい
・事例としてWekaが取り上げられており、試しやすい
・ただし、難しいことを学ぶには不向き
また、Wekaはビッグデータの分析には使えないので要注意。
※ 帯や書籍にはビッグデータについて触れられているが、ほんとに触れられているだけ
特に、1章,2章,3章,4章,6章,7章,10章,11章,12章あたりが参考になる
分析ツールについて
・Weka
・Pentaho
・KNIME
・R
・Rapidminer
・SPSS
様々なツールがあるが、用途に合わせて使い分けることが大事
実際の分析では複数のアルゴリズムを使用するため、そのツールでサポートされているアルゴリズムは大事
分析ツールは、プログラムが掛けなくても分析が行えるのが利点
ビジュアル化には以下の様なツールがある ###
・Excel
・Pendtahoなど
分析について
モデル化する
数字の集まりから数式を導き出すこと
収集と整理 ###
・データセットに対してどのようなアルゴリズムや手法を用いるか、あたりを付けるには数をこなすのが大切
・Google Scholarなどで類似例や前例を探したり、一先ずやってみて当たりをつけたりする
生データをそのまま分析に書けるのはハイレベルすぎるので処理にかける
・クリーニング、クレンジング
・データの結合
・ノーマライズ(正規化)
・データの間引き(データが多すぎる場合など)
そもそもデータを集めるのが大変
→ ビッグデータとはいうけれど、そんな大きなデータはあまりない
評価基準
・分析に入る前に決めておく
・クロスバリデーション(交差検定)などを行うかどうかも
大まかなデータ解析の体系 ###
・教師あり解析
・識別(主に文字列に対して。ベイジアンネットワーク)
・回帰(主に数値に対して。関数)
・中間的手法
・半教師あり(機械的に行い、人手で調整する)
・深層学習(多層ニューラルネットワーク)
・教師なし
・モデル推定(クラスタリング)
・パターンマイニング(バスケット分析)
有名な「おむつとビール」の話はパターンマイニングに相当する。
その他
Code For Fukuoka
オープンデータを推進していく団体として「Code For Fukuoka」を立ち上げる。今後、福岡市など行政にたいいてオープンデータに関する意見や要請を行っていく。
会場からの事例紹介
ScutumというSaaS型のWeb Apprication Firewallでは、人手での攻撃パターンの学習には限界が有るため、攻撃の判定にベイジアンネットワークを利用している。
今後の会について
せっかく大人数集まった勉強会なので、今後も継続していきたい。まずは福岡でデータマイニングのコミュニティを作り、分析手法やツール、ハンズオンなどの勉強会を行っていきたい。
※ はじめにFacebookでグループを作る