2015年07月07日

改めて、本の自炊(電子書籍化)の話を。

電子書籍も、コミックについてはずいぶん市民権を得てきたなと思う最近ですが(まあ、コミックは冊数が多くかさばるし、書店では全巻揃わないことも多々あるので自然な展開です)、私はもっぱら紙の本を自分でスキャンして電子化する「自炊」で電子書籍を作っています。

最初は自宅にある本を全部電子化(2000冊程度ありました)して、それ以降は主にブック○フで安い中古本を買っては電子化するということでライブラリを増やしてきたわけですが、スキャンしたページがとうとう110万枚のレベルになりました。110万枚、両面スキャンですから220万ページです。1冊の本が250ページ平均とすると、9000冊程度になります。実際、ライブラリのファイル数はそれくらいになっています。そしてライブラリのボリュームは600GB程度になっています。


↑こちらで109万枚になってますが、途中、この機種のオーバーホール中にもう1台同じ機種を買ってそちらで3万枚ほどスキャンしているので、既にスキャン枚数は110万枚オーバーです。

個人で、業務と関係なくこれだけの本をスキャンした人はあまりいないんじゃないかな?と思うので、これだけのスキャンをして分かったことを書いてみようと思います。

まず、スキャン環境です。
私は、スキャナにキヤノンのDR-C125(最新機種はDR-C225W)、裁断機にカール事務機のDC-210Nを使っていますが、個人的にはこの組み合わせは最強だと思っていて、会社で使ったことのあるScansnapに乗り換える気にはまったくなりません。


キヤノン DR-C225W


カール事務器 ディスクカッター DC-210N

理由は大きく分けて4つあります。

1つは、「ラウンドスキャン」という機構によって、スキャンした原稿が本来のページ順のままで本体にストックされるので、場所もとらず、原稿も散らからず、何らかの理由でスキャンした原稿をもう一度スキャンしなければならないとき(意外とよくあります)に手間がかからない点です。文庫本や新書、コミックをスキャンする際の手軽さは、この機構によるものが大きいです。

2つめは、重送検知の優秀さです。これだけスキャンしていて、重送しているのに検知されなかったケースは、10回もありません(私が気づいていないものも、もしかしたらあるかもしれませんが…)。基本的には、完全に信頼してしまっていいレベルです。

3つめは、標準の読み取りソフトの設定の細かさです。CaptureonTouchというソフトがついていますが、おまかせモードもある一方で、読み取りの濃度設定からノイズ除去のレベル、重送検知の方法や斜め補正の方法など、非常に細かいレベルまでマニアックに設定するモードもあり、こちらで設定を追い込んで、本の紙質ごとに最適な読み取りを行うことができます。

4つめは、裁断機との組み合わせの妙です。カール事務機のDC-210Nは、一度に文庫本で100〜140ページ分しかカットできませんが、DR-C125が一度に読み取れる紙の厚みが、ちょうどこの厚みと同じなのです。なので、DC-210Nで裁断した単位ごとにカットした本を積み上げて、それをその単位ごとにスキャナに放り込んでいくことで、スムーズに処理ができます。
流れとして、DC-210Nで100〜140ページごとにカットされた本の山を作り、それをスキャナに放り込んでスキャンし、終わった分はそのままラウンドスキャンで崩れずにストックされるのでそれを「スキャン済み」のほうに移してそっちにも本の山を作っていく感じになります。
スキャナの右に積み上げた裁断済み本の山が、スキャンしてだんだん左に移ってそこに山を作っていく、そういう美しい作業の流れが、この組み合わせで実現できるのですね。

作業スピードですが、雑誌とか大判本、カラー中心の単行本は時間がかかりますが、文庫本、新書、コミックであれば、1時間に4000ページは処理できます。250ページの本で15冊くらいですね。つまり、1冊あたりの処理時間は3〜4分で、途切れることなく流れ作業で進めていけます
スキャンしているすぐ横で、これからスキャンする本の裁断を行っています。つまり、上記の時間には、スキャンする時間だけでなく、裁断の時間も含んでいます。

読み取りのdpiについては、基本を300dpiとし、文庫サイズ以外のコミックは200dpiで読み取っています。コミックを200dpiとしているのは「それで十分読めるから」です。ファイルサイズも小さくなり、読むためのデバイスにもたくさんまとめて入れられるメリットを、細かく見るとボケているというデメリットより優先しています。
読み取りのファイル形式はJPG、ZIP形式でまとめて電子書籍化しています。

読み取る際には、本体と表紙を別々に裁断、スキャンすることで作業効率を高めています。本体と表紙では、裁断とスキャン、いずれも手順がかなり異なるので、本体は本体、表紙は表紙で別々にまとめて作業したほうがはかどります。
別々に作業するにあたって、本体と表紙のスキャン順を逆にすることで、あとでJPGをZIPにまとめる作業が効率化されます。
具体的には、A,B,Cの3冊の本があった場合、

Aの本体を裁断(表紙は別にして横に)
Aの本体をスキャン
Bの本体を裁断(表紙は別にしてAの表紙の上に)
Bの本体をスキャン
Cの本体を裁断(表紙は別にしてA,Bの表紙の上に)
Cの本体をスキャン
A,B,Cの表紙をこの順に裁断して順に積み上げる(これによって上から順にC,B,Aの順で表紙が積み上がる)
C,B,Aの表紙をスキャン


という手順で裁断・スキャンします。
そして、スキャンファイルがたまったフォルダを「作成時刻降順(新しい順)」でソートすると、次のようにファイルが並びます。

Aの表紙−Bの表紙−Cの表紙−Cの本体-Bの本体-Aの本体

そしてここで、「Cの表紙+Cの本体」をまとめて選択し、右クリックメニューから「送る」→「lhaz」で圧縮ソフトを起動、ZIPファイルを作成します。
エクスプローラでは、まだ選択したファイルが選択状態のままですから、そのままDELキーでファイルを削除、そうすると残ったファイルは

Aの表紙−Bの表紙−Bの本体-Aの本体

となりますから同じようにBの表紙と本体を選んでZIP化、ファイル削除、Aの表紙と本体を選んでZIP化、ファイル削除で作業終わりです。
このやり方だと、必ずZIP化が終わったファイルしか削除しないので、作業途中で間違ってまだZIP化していないファイルを削除してしまうミスも防げます。

というわけで、このスキャナとこの裁断機を使った、非常に効率的で無駄のない自炊作業フローが完成しているので、私はもうこの組み合わせ以外に移行したいとは全然思わないですね。

ちなみに耐久性ですが、スキャナは1回有償でオーバーホールしていて、そろそろその効果もなくなってもう少し使ったら壊れるかな、という感じ、裁断機も2回ほど部品が外れましたが、何とか直ってまだ1台目をそのまま使っている状態。こちらももう少しで寿命な感じですが、業務用でない機材でこれだけの枚数の裁断、スキャンをやっていることを考えると、耐久性は高いと評価できると思います。

ちなみに、キヤノンのこのスキャナの弱いところは、

・カラー原稿(色も変だしスキャンもよく滑ります)
・厚い紙(ラウンドスキャンもできないですし、ラウンドスキャンをキャンセルしてもダメなことがあります)
・薄い紙(読み取り時に紙の縁がめくれて変な影のついたスキャンになります)
・極端に紙質の悪い原稿(下手すると破れます)


といったところでしょうか。
弱点を知って、スキャンが大変そうな本は回避する(笑)ことも快適なスキャンのためには必要なことだったりします。
posted by そらパパ at 23:52| Comment(0) | TrackBack(0) | 電子書籍 | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック