2004年5月21日金曜日

wgetを使って保存してみる

Irvine で exblog の過去記事を保存
xiaoxiaさんのところで過去記事を保存と言うことをやってらしたので、ここではLinuxらしくwgetコマンドを使ってやってみます。
wgetコマンドは平たく言うとダウンローダーで、レジューム機能やミラーリング機能などオプションがかなり豊富な割に、実装がかなり軽く、バックグラウンドで走らせておくことも出来る便利コマンドです。
こいつを使ってFedoraのインストールCDをDLしたりしたんですが、今回はexblogの保存に挑戦。
ただ、私があまりwgetについて知りませんでして(爆) 有効なオプションを思いつかなかったので、最低限の設定だけでwgetしてみました。
使ったオプション
recursive=on ディレクトリを再帰的にDLする
noclobber=on 既にあるファイルはDLしない
add_hostdir=off Webページなどを保存する際、ドメイン名以下のディレクトリ構造のみ構成する
この設定でDLしてみたところ、無事全記事のバックアップに成功!
したんですが…ディレクトリがめちゃ多いです(爆) 各投稿に対して1つ1つディレクトリを構成して、その中にindex.htmlを作成してるみたいです。そのため、その全てをDLするとディレクトリ構造が冗長になってしまいます。
そこで、DLするページを「以前の記事」の部分にすることをお推めします。ここだと、その月の記事が一挙に保存できます。ただ、それをするのであればwgetでやる価値はあまり無いとも言えてしまうんですが…(苦笑)
でも、全部DLしたらコメントも入ったページを保存できるのがいいかもしれませんね。あと、各投稿のディレクトリ名.1(or 2)というファイルも存在し、これもHTMLファイルのようです。ディレクトリの中のindex.htmlと同じ内容にも見えるんですが、何が違うのかはちょっとハッキリとは分かりません m(_ _)m
あと、投稿に画像を頻繁に用いている方はこれだけでは保存できそうにありません。おそらく違う場所に保存されているためかとは思います。
テキストがメインの方なら、wgetはかなり手っ取りばやくバックアップが取れるので試してみる価値はあるかも知れません。
wgetに関してはGnuプロジェクトによってWindows用のバイナリも公開されていますので、興味のある方は、試してみるのもいいかも。
もう少しスマートに出来る方法がみつかれば、また投稿したいと思います。