活字がもうないような古い書物の文字データを残すためOCR技術に期待しています

作成者:admin 作成日:水, 02/19/2020 - 23:40

昨日は重要なA4用紙資料をもらったけれど、インクジェットプリンターで印刷されているので、水に濡れて読めなくなったりしたときのために、スキャンしてデータ化していることを書きました。

ただスキャナーが古いのでガラス面が結構汚れていて、ガラスクリーナーで拭いてもきれいになりません。

読めればいいので、とりあえずデータ化を進めています。

スキャンしながら考えていたのですが、データ化といっても今はJPG画像にしているだけなので、理想的にはOCRで文字コードに変換できればいいですよね。

OCRは今ではかなり進化しているようですが、データ化している資料は三百ページを超えるので、見直し作業を考えると現実的ではありません。難しい漢字も多いし。

とはいうものの、OCRはとても期待している技術です。

以前古い書物の復刻版だと思うのですが、それを買って読んでいたら、数ページに一ページの割合でオリジナルの書物をそのままコピーしたんじゃないかと思えるようなページになっていました。

活字がもうないんじゃないかと思います。

そしてそのページだけ、難しい漢字が潰れて読めないところがあるんですね。

なのでそのコピーしたページだけでも、OCRで文字コードに変換すべきだと思ったのです。

OCRがものすごく進化して、私が今データ化を進めている資料も、見直し作業をしなくてもいいくらいになってくれると理想的だなと思います。