コンテナ物語

 コンテナ物語読み終わったけど、畳み掛けてくるような勢いがすごいな。当事者たちはアレなんだろうけど、傍から見てると下手なフィクションより面白いわ。

コンテナ物語―世界を変えたのは「箱」の発明だった

コンテナ物語―世界を変えたのは「箱」の発明だった

 大筋としては、非常に時間とコストが掛かっていた荷揚げ荷下ろしを人手でやっている伝統的な海運業界に、アウトサイダーであるマルコム・マクリーンがコンテナを引っさげて殴り込みをかける、はじめは理解を示さない人たちを次第に巻き込みながら、的なところがあるんだろうけど、そうは問屋が卸さない。

 そもそも国は規制をかけて産業を保全しようとするし、海運業界はカルテル結ぶし、荷役の人たちは労働組合を組織して対抗するし、陸運の要であるトラックや鉄道は無視するし荷主はよくわかってないしで、誰も彼もコンテナなんか相手にしたくない。さて、コンテナは普及するのか否か。乞うご期待。

 と言いたいところなんだろうけど、結論から言えば現在のサプライチェーン、グローバリゼーション、ロジスティクスってのはコンテナのおかげで成り立っているわけで、最終的には国も業界も荷役の人たちもトラック業界、鉄道業界も荷主も小売もコンテナを受け入れざる負えなくなってくる。そんなことはわかっているんだけど、わかっていても面白い。

 正直言って近くにいてほしくないような起業家マルコム・マクリーン、それを妨害する各方面の人たちや規制、お互いがお互いを出し抜くための条件交渉や妨害工作それぞれがそれぞれの立場で良かれと思って様々な権謀術数を繰り広げる。そのダイナミズムが淡々としているはずの文章なのに、勢いで感じられる。

 でも、この本の醍醐味は、その良かれと思った権謀術数がほとんど読み外れて違った方へ違った方へ流れていくところじゃなかろうか。当のマルコム・マクリーンもコンテナという仕組みの与えるインパクトを読み間違った。会社は作るし、買うし、売るし、潰すしなんでもあり。国も業界も関係者も誰も彼もがやることなすこと裏目にでていく。それでもコンテナは普及していく。

 そういう人の思惑とは全く別に技術が広がっていく様は、技術の優越だけでは語れない色々なことを考えさせてくれる気がする。本文ではいろいろな統計や数字、グラフも出てくるんだけど、そういうのをすっ飛ばしながらでも十分楽しめるし、コンテナとか物流とかに興味がなくても大丈夫。物語としても十分に楽しめる一冊でした。

 ちなみにWikipediaのページを見てもこの物語の楽しさは全く伝わらない。そりゃそうだ。

一冊でわかるビックデータ

1冊でわかる-ビッグデータ, 日経BPムック, 日経コンピュータ

総論

ビックデータの定義

既存の技術では管理するのが困難な大量のデータを分析すること
・Volume(大量)
・Variety(多様)
・Velocity(高頻度)

構造化データだけではなく、半構造化データも対象となる

応用例

・レコメンド
・画面個別化(ユーザごとに異なる画面を提供する)
・利用者の行動予測
・需要動向予測
・状態判断(パターン認識)
・CRM
・評判分析
・SCM(サプライチェーン・マネジメント)

The Next Big Thingsとしてのビックデータ

  1. ストレージ技術
  2. 大規模DWH(データウェアハウス)
  3. BI(ビジネス・インテリジェンス)や統計解析ツール
  4. クラスタ構築などのソリューション(Hadoopなど)
  5. データ分析のコンサルティングと受託業務

このうち、1から4までは需要が少ないか海外へ流れてしまう。SIとしては5だが、まだまだデータサイエンティストの数が少ない

第一章

ビックデータの活用

・異常を察知する(利用パターンやシステムログ、センサーログから)
・近未来を予測する
・今を描き出す(状況分析など)

Hadoop+Flumeでリアルタイムに近い性能でログ解析を行える
OSSの検索エンジンSolr

ビックデータの課題

・専門科の不足
・プログラミングの高度化、多様化
・プライバシーの侵害に対する懸念
・データマイニングへの過度の依存
・誤検出への懸念

ビックデータの活用事例

ビックデータの活用では、データを自ら生み出し、データに語らせ、データを深掘りすることが大事

・ウェザーニュースでは、ユーザからの天気に関する口コミ情報を天気予報へフィードバックしている
・カーナビやタクシーの情報を元に渋滞状況の把握
・機会の稼働情報から故障を予測
・Twitterから風邪の流行を予測
・試着したが購入されなかった商品データを分析(通常のPOSデータには含まれないデータ)
・Pontaを使ったWeb(Yahoo)と店舗(ローソン)の連携
・宿の予約状況や傾向をベースにしたキャンペーンの提案

とは言いつつ、ROI(費用対効果)が分からないシステムに初期投資をかける訳にはいかない

第二章

BI(ビジネス・インテリジェンス)

データを分析し、経営意思決定に活用する取り組み
・集計分析
・発見
・What-IF(現行の方式を変更した際の効果を試算する)
・プロアクティブ(ユーザの行動から、先回りしてサービスや機能を提供する)

これからはプロアクティブ型のBIが必要になってくる

ビックデータを使う時の方針

・データの品質に固執し過ぎない
・データの組み合わせが価値を生む
・データはふんだんに使う

M2M(Machine to Machine)

人手を介さない機器やシステム間のデータ連携
データ収集やデータ分析、イベント検知など

今後はこれが主流になっていく。
この部分は、Internet Of Thingsやスマートデバイスなんかと同じような話なのかもしれない

Hadoopの活用

・生データの蓄積
・掛け合わせによる価値の発見
・小さく産んで大きく育てる

とにかくデータの蓄積を始めてしまうべき
そして、それをHadoopに乗せて処理する

従来のバッチ処理の利用からCES(複合イベント処理)を使ったリアルタイム処理も

第三章 Hadoop

・Map-Reduceで元となるデータを繰り返し処理していくことで処理をすすめる
・集計、検索、抽出、変換、分類などの作業に向いている
・Key-ValueのKeyが一位に定まっているデータは、分散処理できないためあまり向いていない

レコメンドシステムの場合

元データは、「時間, 名前, メニュー」のようなデータ

1. 名前をベースにメニューをまとめる
<名前A, (メニュー1、メニュー2、メニュー3)>

2.メニューを食べた割合を名前ごとにまとめる
<名前A, <メニュー1, 0.5> >
<名前A, <メニュー2, 0.3> >
<名前A, <メニュー3, 0.1 >
<名前B, <メニュー1, 0.2> >
<名前B, <メニュー2, 0.4> >
<名前B, <メニュー3, 0.2> >

3.メニューごとに食べた割合をまとめる
<メニュー1, (<名前A, 0.5>, <名前B, 0.2> ) >

4.レコメンドしたいユーザとその他ユーザとの好みの距離をメニューごとに出す
<名前B, メニュー1, 0.3>
<名前C, メニュー1, 0.7>
<名前B, メニュー2, 0.2>
<名前C, メニュー2, 0.1>

5.名前ごとに好みの距離を出す
<名前B, 0.3>
<名前B, 0.5>

この時点で名前Aのユーザと好みの近いユーザが取得できる

6.好みが近いユーザが食べていて、レコメンドしたいユーザが食べていないものをレコメンドする

思考の類似度
ユーザとアイテムごとの評価が存在する場合、
・基準となるユーザと比較するユーザのアイテムごとの距離(差)を一つずつ計算する
・アイテムごとの距離を2乗したものの和を平方根することで全体的な好みの差が出る
・好みの差は値が近いものほど近い

第四章 個人情報の収集に関するリスクをどう取るか

はじめに考えて置かなければいけないこと
・データのパーソナル性を見極める
・グレーゾーン情報を取得する場合も明記する
・同意の仕組みを工夫する
・スマホ向けは、アプリの承諾と、個人情報の承諾の2段階で同意を得る
・国内外の法制度に注意を払う
・ユーザの親密度によって取得する情報の範囲を変える
・サービスに個人情報を取得する必然性を持たせる
・お節介はほどほどに
・人物の写真は残さない
・書き込みデータの中身はチェックする
・SNSの生データはそのまま使用しない
・個人が識別できるデータは消去する
・分母が少ないデータは非公開にする

人物の写真には想像以上に個人情報が含まれているので、原則として保存しない

ユーザの書き込みを公開する場合、ユーザが気づかないうちに他のユーザの個人情報を含めている場合があるため公開には気をつける

SNSから取得したデータは、IDやメールならばハッシュ化、住所ならば一部伏せるなどしておく

いずれにせよ、ビックデータとして活用する場合は、匿名化と統計化が必要

ケースバイケースで気をつけること

旅行業では、アクセス履歴などを元にユーザの好みを解析してもレコメンドには活用しにくい。
→ 同じユーザでも旅行先や目的、同行者などによって大きく異なるため

それよりは、ユーザの過去にアクセスした旅館などの情報を再掲するなどしたほうが効果は高い
楽天トラベル

また、医療系なども過度なレコメンドを行うとユーザに不信感や不快感をもたらすので注意すること
→ 癌について調べたからといって、すぐに癌関連の情報を勧められても喜ばない