Web検索エンジンと日時

考えたこと

今のところ、Web検索をする際に日時について検索することは難しい

Webを検索する際に、そのコンテンツがいつ(作成|更新|削除)されたかは重要ではない
これはこれで面白いけど・・・
例)2006年1月1日に作成されたWebページを見たい

そのコンテンツはいつのことについて表現されているか?が重要
例)2005年12月31日に起こったことについて書かれたWebページを見たい
例)1192年に起こったことについて書かれたWebページを見たい

後者は難しい

・RSSなんかで表現されている時間は前者
・Internet Archiveなんかも前者

原因

日時を表す書式が統一されていない

・日時を解析するパターン?えらい沢山ある
・そもそも日時が書かれていない

省略されている場合
・書かれている事象からの日時のマッチング
・多分、人工知能っぽい話になる

考え方?

・数字の置き換え
 ・算用数字に変換する
 ・漢数字、ローマ数字など
 ・置き換えの妥当性。「十月十日」は10月10日か、それとも10ヶ月と10日か?
・数字の並びの解析
 ・日時を表すフォーマットのパターンとの比較
 ・文化的な違い。例)西暦、和暦、皇紀?
 ・フォーマット的な違い。http://www.kanzaki.com/docs/html/dtf.html
 ・省略されている項の補完
・日時の正規化
 ・特定のフォーマットへの変換

追記:似たような話
http://japan.cnet.com/news/media/story/0,2000056023,20100976,00.htm at 2006-04-11
日付を通り越して単位まで行っちゃったらしい

タイトルとURLをコピーしました