今のところ、Web検索をする際に日時について検索することは難しい
Webを検索する際に、そのコンテンツがいつ(作成|更新|削除)されたかは重要ではない
これはこれで面白いけど・・・
例)2006年1月1日に作成されたWebページを見たい
そのコンテンツはいつのことについて表現されているか?が重要
例)2005年12月31日に起こったことについて書かれたWebページを見たい
例)1192年に起こったことについて書かれたWebページを見たい
後者は難しい
・RSSなんかで表現されている時間は前者
・Internet Archiveなんかも前者
原因
日時を表す書式が統一されていない
・日時を解析するパターン?えらい沢山ある
・そもそも日時が書かれていない
省略されている場合
・書かれている事象からの日時のマッチング
・多分、人工知能っぽい話になる
考え方?
・数字の置き換え
・算用数字に変換する
・漢数字、ローマ数字など
・置き換えの妥当性。「十月十日」は10月10日か、それとも10ヶ月と10日か?
・数字の並びの解析
・日時を表すフォーマットのパターンとの比較
・文化的な違い。例)西暦、和暦、皇紀?
・フォーマット的な違い。http://www.kanzaki.com/docs/html/dtf.html
・省略されている項の補完
・日時の正規化
・特定のフォーマットへの変換
追記:似たような話
http://japan.cnet.com/news/media/story/0,2000056023,20100976,00.htm at 2006-04-11
日付を通り越して単位まで行っちゃったらしい