月別アーカイブ: 2024年2月

英語のPDFの文献を文字化する

海外の書籍を、参考にしたいという事になった

PDFをそのまま、翻訳するサービスもあるが、まずは、PDFの内容をテキストにすることにした

GoogleDriveにPDFをアップロードして、GoogleDocumentに変換することで、文字化することもできるが、大きな文章になると、途中までしか、変換されないなど、不具合が発生した。

Tesseractというアプリを使うと、文字化(OCR)できるということなので

Ubuntuにインストールしてみた

(Ubuntu 22.04にて)

ttps://www.kkaneko.jp/ai/ubuntu/tesseract.html

早速、PDFファイルをテキスト化するために

tesseract 入力ファイル名.pdf 出力ファイル名 -l 言語

ということで、行うとのこと

対象の言語指定を調べるために

tesseract --list-langs
List of available languages (5):
Japanese
Japanese_vert
eng
jpn
osd

英語は、eng のよう

tesseract 入力ファイル名.pdf 出力ファイル名 -l eng

Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.

調べて見たが、PDFの読み込みが出来ていないよう

試しに、PNGのファイルを行ったところ、無事にできた

PDF->PNGができればいいので

pdftoppm

で、できそうである

ttps://ubunlog.com/ja/pdftoppm-convierte-archivos-pdf-en-imagenes/

を、参考にして
pdftoppm

sudo apt update; sudo apt install poppler-utils
にて、インストール

使い方は

ttps://qiita.com/syoyo/items/1585de5b897b2de290bd

を、参考にして
pdftoppm input.pdf -png output.png

とのこと

mkdir pdf01
cd pdf01

pdftoppm /home/ubuntu/ドキュメント/xx.pdf -png output.png

ls

output.png-01.png output.png-04.png output.png-07.png output.png-10.png
output.png-02.png output.png-05.png output.png-08.png
output.png-03.png output.png-06.png output.png-09.png

PDFの1ページ毎に変換されるようである

早速、PDF->PNG化された、内容をテキスト化してみる

tesseract output.png-01.png kekka01.txt -l eng

ls

kekka01.txt.txt output.png-03.png output.png-06.png output.png-09.png
output.png-01.png output.png-04.png output.png-07.png output.png-10.png
output.png-02.png output.png-05.png output.png-08.png

cat kekka01.txt.txt

無事変換ができた(変換後のファイルには、txtは要らないようである)

ページ単位の変換なので、バッチファイルを作って、あげよう

vim auto.sh
i :挿入モード
コピペ  :入力
ESC  :コマンドラインモード
:wq   :保存終了

cat auto.sh
tesseract output.png-01.png kekka01 -l eng
tesseract output.png-02.png kekka02 -l eng
tesseract output.png-03.png kekka03 -l eng
tesseract output.png-04.png kekka04 -l eng
tesseract output.png-05.png kekka05 -l eng
tesseract output.png-06.png kekka06 -l eng
tesseract output.png-07.png kekka07 -l eng
tesseract output.png-08.png kekka08 -l eng
tesseract output.png-09.png kekka09 -l eng

chmod 755 auto.sh
./auto.sh

できた、テキストをまとめてあげる

vim join.sh
cat kekka01.txt > kekkaall.txt
cat kekka02.txt >> kekkaall.txt
cat kekka03.txt >> kekkaall.txt
cat kekka04.txt >> kekkaall.txt
cat kekka05.txt >> kekkaall.txt
cat kekka06.txt >> kekkaall.txt
cat kekka07.txt >> kekkaall.txt
cat kekka08.txt >> kekkaall.txt
cat kekka09.txt >> kekkaall.txt

chmod 755 join.sh
./join.sh

kekkaakk.txtにまとめることができた

PDF->PNGは、外部に情報がでても問題がなければ

ttps://pdf2png.com/ja/

でも可能である

ZIPで、ダウンロードできるので、その後に

tesseract

で、テキスト化できるので、

pdftoppm

なしでもできる

ubuntuにて行いましたが、Mac,Windowsでも可能かと思います

PDFの英語の文献を、テキスト化できるため、DeepLや、ChatGPTなどで、翻訳することで、活用することができるかと思います。