2007年02月07日(水)

データ解析

コンピュータに関するりばにしの記事

研究室で後輩がシミュレーションの出力データを集計しようとしていたところに,ちょっと口出ししてみたら,結構面白くなってのめり込んでしまった.

何度も処理方法を改善しているうちに,途中から Perl で処理したい僕と C で処理したい別の後輩との競争みたいになって,どっちのプログラムが速く処理できるか試そう!と結構盛り上がってきた.

結果的には,後輩の C のプログラムは 2GB 超の出力データを使って動かそうとすると,エラーを吐いて落ちてしまった・・・.検索してみると, C のプログラムで 2GB 超のデータを扱うのには,何か工夫がいるっぽいことまではわかったが,検索結果の上位にある方法を試してみたがうまく動かなかった・・・.というわけで,暫定王者(笑).

で,肝心の処理は,最初に作ったプログラムが 1 日くらいかかりそうな勢いだったのに対し,最後に作ったプログラムは 30 分程度で完了することができた.たぶん後輩の C のプログラムが動けば,アルゴリズム的にも無駄が少ないので,もっと速くなるのではなかろうか.動かしてみたい・・・(笑).

2007年02月07日00時07分 | Permalink | このエントリーを含むはてなブックマーク
Trackback URL
Comment

プログラムに無駄が多かったので見直したところ,
12分程度で処理できるようになった.
ユーザビリティも見直した.
もうこれ以上はいいや・・・.

りばにし at 2007年02月07日01時37分
Comment Form

Currently you have JavaScript disabled. In order to post comments, please make sure JavaScript and Cookies are enabled, and reload the page.