Internet Archiveは数多くのパブリックドメインを公開しているアメリカの非営利企業です。英語文献が充実していますが、そのままでは自動翻訳ができないため、Wordを使ったテキストの加工を考えました。
例として以下の文献を利用します。
https://archive.org/details/in.ernet.dli.2015.124872
上記リンクをクリックして文献を開きます。右下の「DOWNLOAD OPTIONS」に「FULL TEXT」という項目があります。これを開きます。…図1
ほとんどの文献はOCRで読み込まれています。機械で自動的にアルファベットを読み込んでいるだけなので、全ての文はページの右端で切れて次の行に移っています。これを手で直すのは中々の手間です。今回はMicrosoft Office Wordを使ってこれを直します。
今回は分かりやすいようにpreface(前文)から開始します。
まずFULL TEXTの内容をコピーします。…図2
Wordを開いて白紙の文書にペーストします。…図3
次に「ホーム」から「編集」、「置換」を開きます…図4
大抵このようになっています。まず「オプション」を開いて「あいまい検索」を外します。他の項目も全てオフにします。…図5
1.段落に印をつけます。
「検索する文字列」に下方の「特殊文字」から「段落記号(P)」を入れます。二回入れます。
「置換後の文字列」に@を入れます。…図6
「すべて置換」します。
段落のはじめに「@」がつきました。…図7
2.切れている文を全てつなぎます。
「検索する文字列」に下方の「特殊文字」から「段落記号(P)」を入れます。
「置換後の文字列」には何も入れません。…図8
「すべて置換」します。数が多いので時間がかかることがあります。
すべての文章がつながりました。…図9
3.段落を復活します。
「検索する文字列」に「@」を入れます。
「置換後の文字列」に下方の「特殊文字」から「段落記号(P)」を入れます。二回入れます。その後に半角スペースを入れます。…図10
「すべて置換」します。
段落が復活しました。…図11
4.途中で切れている単語をつなげます。例文中のSucces-siveの部分です。
「検索する文字列」に「-(と半角スペース)」を入れます。
「置換後の文字列」には何も入れません。…図12
「すべて置換」します。
切れている単語がつながりました。…図13
細々と訂正が必要な部分を直してGoogle翻訳にかければかなり良い訳文が出てきます。図14
2022.2.23