読者です 読者をやめる 読者になる 読者になる

本好きに送る「電子書籍のつくり方」講座

誰でも 簡単 手作り 電子書籍

何を本にするのか?(素材の準備)

本を作るには、当たり前ですが「本の中身となる文字や写真*1」が必要です。第1回目のエントリでもお話ししましたが、もし皆さんご自身で書き貯めている文章や撮影した写真があれば、それを使って電子書籍をつくっていただくのが面白いと思います。

また、そのような原稿がない方は「ご自身の好きな作家さんの作品を本にする」ことで、電子書籍づくりの面白さを体験されることをお薦めします。

原稿を「データ」にする

電子書籍にしたい文字や写真が「アナログ」(紙に書かれたりプリントされたりしている状態)の場合、まずはそれを「デジタル」(データ)にする必要があります。

文字のデータ化

手書きの場合
原稿が、鉛筆やペンで書いた「手書きの原稿」の場合、それデータ化するには「文字を読みながらタイピングしてデータにする」しか方法はありません。手間は掛かりますがタイピングの練習と捉えて取り組むと良いかもしれません。

紙の本の場合
お手元にある本をの文字をデータにするのであれば、やり方はふた通りあります。

  • 読みながらタイピング入力
  • スキャナを使い文字を読み取る。

上は原稿が手書きである場合と同じです。下はスキャナやOCR光学文字認識)ソフト*2が必要ですが、読んで入力するよりも早く文字をデータにすることができます。ただスキャナにかけるには本を断裁する(背表紙を切り落としてバラバラにする)必要がありますし、OCRの読み取りは完璧ではないので誤字脱字を確認・修正する必要も出てきます。

文字が既にデータになっている場合
「既にパソコンのワープロソフトで書いた文章がある」というような場合は、それを電子書籍用の文字データとして使うことができます。また青空文庫*3で配布している文字データも電子書籍の素材として使えます。

青空文庫
http://www.aozora.gr.jp/

上記のウェブサイトにアクセスしていただき、ご自身のお好きな作品の「ファイル種別:テキストファイル」を選んでダウンロードしてください。このブログでは青空文庫の『こころ』夏目漱石著)のテキストデータを使って、実際に電子書籍づくりを進めていきます。

ファイル形式と文字コードについて

電子書籍の素材として使用する「文字データ」は、下記のようなものである必要があります。

ではまずファイル形式からみていきましょう。

プレーンテキスト*4のつくり方
ワープロソフトで作ったファイルは、通常ソフトごとの独自形式になっており、そのため拡張子も「.docx」「.JTD」「.ODT」など、作ったソフトごとに異なります。これを「.txt」という拡張子のファイル形式に変更する必要があります。

方法は下記の通りです。

  • ワープロソフトでファイルを開く。
  • “名前を付けて保存”を選択。
  • 保存ファイル形式に「.txt」を選んで保存する。(下図:ワードの場合)

テキスト形式での保存方法(ワードの場合)

なお「ファイルを開かず、拡張子を.txtに書き換えるだけ」というやり方はNGです。

文字コード*5の確認と変更
次に文字コードを確認していきます。

  • 作成した(もしくは青空文庫からダウンロードした)プレーンテキストのファイルをエディタで開きます。
  • もし下のようなウィンドウが開いたら「一覧からエンコードを選択する」を選び、OKをクリック。

EmEditorのアラートウィンドウ

  • 次に出てくるウィンドウの右側プレビュー表示欄内の文字が文字化けしないエンコードを、左側リストから選び、「開く」をクリック。

EmEditorのエンコード選択ウィンドウ

  • ファイルが開くとその文字コードが何なのか、エディタの機能で確認することができます。(ウィンドウのどこかに表示されるケースが多いです。EmEditorの場合ウィンドウの右下に表示されます)

EmEditorの文字コードを確認できる場所

ここが「UTF-8」になっていない場合は、文字コードを変更する必要があります。ちなみに青空文庫で配布されている文字データは「シフトJIS」という文字コードなので、続けて下記の手順で文字コードUTF-8に変更していきます。

  • メニューバーの「ファイル」から「名前を付けて保存」を選択します。
  • 下のようなウィンドウが出てくるので、そのウィンドウの右下にある「エンコード」ボタンをクリック。出てきたリストから「UTF-8(BOM無し)」を選び、保存してください。

EmEditorの保存時のエンコード選択方法

シフトJISで表示されなかった漢字を入力する
青空文庫からダウンロードしてきたデータの中には、ときおり下のような表記が見られます。

シフトjisで表示できなかった文字

これは一般的でない漢字(旧字体等)を表示することができなかった文字コードシフトJIS」において、「ここは本来こんな形の文字が表示されるんですよ」という情報の表示です。一方今回の電子書籍づくりで使う文字コードUTF-8」は、シフトJISに比べると一般的でない漢字も広く網羅しているので、このような表記部分は入力し直していきます。

入力の際、平仮名からの変換がうまくいかない場合は、IMEパッドの「手書き機能」を使うなどしてその文字を探して差し替えます。

シフトjisで表示できなかった文字を差し替える

なお、文章の「どこに差し替えるべき文字があるのか?」を探すには、「※」で検索すると簡単に見つけることができます。

シフトjisで表示できなかった文字の探し方

なお『こころ』の文章においてシフトJISで表示できなかった漢字は、UTF-8だとすべて表示が可能です。

写真のデータ化

原稿が紙(現像された写真)の場合
現像や印刷された写真を使う場合は、スキャナを使ってデータ化します。保存形式はJPEG形式(拡張子.jpg)にしてください。

写真が既にデータになっている場合
デジカメで撮影したデータを使うことももちろん可能です。こちらも保存形式はJPEGで。

なお電子書籍に写真を使用する場合、画素数(ピクセル数)を変更する必要があるのですが、その作業は実際本に組み込むところで説明します。

今日のまとめ

電子書籍に使う素材データは

  • 文字データのファイル形式 プレーンテキスト(.txt)
  • 文字コード UTF-8
  • 画像データのファイル形式 JPEG

で用意する。

次回からはいよいよ
電子書籍づくり実践(マークアップ)ついてお話します。

*1:写真は挿絵程度の扱いのものを想定しています。

*2:インクジェットプリンタにはスキャナ機能が付いている機種が多くあります。その場合OCRソフトがおまけでついていることが多いので、プリンタを所有されている方は確認してみると良いかもしれません。

*3:著作権の切れた著名作品を無償で公開しているウェブサイト。

*4:プレーンテキストとは、文字に対する装飾的要素(書体、サイズ、太さなどの指定)のない、シンプルな文字情報のファイル形式です。

*5:文字コードとは「文字データの規格」みたいなもので、この差異により「文字化け」と呼ばれる現象が起きます。