トップ «前の日記(2005-09-24) 最新 次の日記(2005-09-26)» 編集

豊田正史のSLとは関係ございません


2005-09-25

_ [開発] luceneインデックス作成速度

色々あったがインデックス作成にこぎつけたので、テキストにして1GB程度のデータでインデックス作成速度を測って見た。

  • 文書集合:1999年のアーカイブから取り出した約430,000文書から抜き出したテキスト
  • サイズ:タグ等を除いてテキストのみにした後で約1GB (2.3 KB/doc)
  • IndexWriterパラメタ:
    maxFieldLength=1000000
    minMergeDoc=1000
    mergeFactor=50
  • PC: 2CPU (Xeon 3.06GHz), 2GB Memory
  • インデックス作成時間:9863 sec. (43 doc/sec, 101 KB/sec)
  • インデックスサイズ:412 MB (文書量の42%)

ちなみに、minMergeDocを1000から10000に変えても、9579 secでそれほど時間短縮にはならなかった。やはりsenによる形態素解析に時間の大部分を喰われているのか、ちょっと遅めな感じ。bigramのCJKアナライザにすればもっと速くなりそうだが、日本語でbigramはごみを拾いすぎできついし、インデックスもでかくなるからなあ。まあでも、パラレルにインデックスを作って後でマージもできるようなので、クラスタを使えばそこそこリーズナブルな時間で大規模なインデックスもできそうだ。


README日記の書き方