MongoDBに格納されているデータのバックアップをsshで別のPCに転送する方法。

はじめに

オンプレミスなサーバにFedoraをインストールし(なんか「ナウなヤングにバカうけでヘモグロビン」みたいな書き方ですが…)、さらにそこにGROWIをインストールして運用している件についてはちょっと前の記事で書きました。

GROWIのデータはMongoDB上のデータベースに格納されるため、半期に一度のFedoraのアップグレードの際には、緊急事態に備えてそのMongoDBのデータもバックアップを取得せねばなりません。

そのバックアップが一筋縄ではいかなかったので、メモっておくことにしました。

MongoDBのバックアップ

以下、GROWIのデータはMongoDBにおいては”growi”という名前のデータベースに格納されていると仮定し、さらにそのデータベースのすべてのコレクションの取得を試みることにします。

ローカルにダンプする方法

MongoDB上のサーバをローカルにダンプするには、以下のコマンドを実行します。

$ mongodump --port 27017 --db growi --out mongodump

すると、上記コマンドの実行時のカレントディレクトリに”mongodump”という名前のディレクトリが作成され、さらにその直下に”growi”という名前のディレクトリが作成され、その下にコレクションが格納されます。

なお、”--out”オプションを指定しない場合には、コマンドの実行時のカレントディレクトリに”dump”という名前のディレクトリが作成され、さらにその直下に”growi”という名前のディレクトリが作成され、その下にコレクションが格納されます。

ここまでの方法でデータのダンプはできて、データの中身を確認することができるようになります。しかし、このダンプされたデータをバックアップに利用するためには別のPC等に転送する必要がありそうです。また、Fedoraのアップグレード時にはMongoDBだけではなく、MariaDBのデータベースもバックアップの取得の対象になりますので、ダンプファイルを1個にまとめることができるMariaDBと同様に、

データのダンプを1個のファイルにまとめることができて、
それが別のPC等に転送できる。

ことがMongoDBのバックアップ時にもできないか検討することにします。

ダンプしたデータをリモートに転送し、ついでにgzipで圧縮する方法

mongodumpのコマンドラインオプションには”--archive”オプションがあります。

“--archive=<filename>”と指定することでダンプした結果生成されたデータの出力先をfilenameで指定したファイルとすることができますが、これを指定しないことにより、ダンプした結果生成されたデータをまとめて、かつ標準出力に出力することができます。

また、”--gzip”オプションを追加すると、ダンプした結果をgzipで圧縮できます。

これらと前節のmongodumpのコマンドをsshでリモートのPC等から実行すれば前節の最後に示した条件を満たすことができそうです。

ひと通り役者が出そろったところで、リモートのPCより以下のコマンドを実行してみます(なお、ホスト名などの部分は一部編集しています)。

[panda@svo mongodump]$ ssh -l panda pandanote.info “mongodump --port 27017 --db growi --archive --gzip” > toranomonhills_20200606.mongodump.gz
Enter passphrase for key ‘/home/panda/.ssh/id_ed25519’:
2020-06-06T09:28:51.143+0900    writing growi.revisions to archive on stdout
(中略)
2020-06-06T09:28:51.274+0900    done dumping growi.tags (0 documents)
[panda@svo mongodump]$ ls -l toranomonhills_20200606.mongodump.gz
-rw-rw-r--. 1 panda panda 24071  6月  6 09:31 toranomonhills_20200606.mongodump.gz

とりあえず、ダンプしたデータをリモートへの転送はできているようです。

取得したバックアップデータのリストアの確認

ここで、前節でダンプしたデータが復旧のために使用できるかどうかを確認します。

実は、ダンプしたデータの転送先のPCにもMongoDBがインストールされています(以下、本節では単に「MongoDBサーバ」と書きます。)ので、このMongoDBに対して以下の手順でリストアしてみます。

mongoコマンド実行後、MongoDBサーバ上にgrowiテーブルがないことを確認します。
[panda@svo mongodump]$ mongo > show dbs admin 0.000GB config 0.000GB local 0.000GB
以下のコマンドを実行し、前節で取得したバックアップデータをリストアします。mongorestoreのコマンドラインオプションはmongodumpとほぼ同様ではありますが、gzipで圧縮されたダンプファイルをリストアするためにはそのダンプファイルを”--archive”オプションとともに指定せねばならないところに、軽めの曲者感を感じます。
[panda@svo mongodump]$ mongorestore --gzip --archive=toranomonhills_20200606.mongodump.gz 2020-06-06T09:50:08.229+0900 preparing collections to restore from (中略) 2020-06-06T09:50:09.462+0900 274 document(s) restored successfully. 0 document(s) failed to restore.
データベースがリストアされ、バックアップ元と同じデータが取得できることを確認します。”use growi”以降の出力結果については省略しますが、バックアップ元と記事数等を示すと思われる項目や、バックアップ元で格納したと思しきデータが取得できることが確認できればヨシ!!として良いと思います(※個人の意見です)。
[panda@svo mongodump]$ mongo > show dbs admin 0.000GB config 0.000GB growi 0.001GB local 0.000GB > use growi > db.getCollection(‘pages’).stats() > db[‘revisions’].find()