海外の書籍を、参考にしたいという事になった
PDFをそのまま、翻訳するサービスもあるが、まずは、PDFの内容をテキストにすることにした
GoogleDriveにPDFをアップロードして、GoogleDocumentに変換することで、文字化することもできるが、大きな文章になると、途中までしか、変換されないなど、不具合が発生した。
Tesseractというアプリを使うと、文字化(OCR)できるということなので
Ubuntuにインストールしてみた
(Ubuntu 22.04にて)
ttps://www.kkaneko.jp/ai/ubuntu/tesseract.html
1 |
を、参考にして、インストールしてみた<br><br>sudo apt -y install tesseract-ocr tesseract-ocr-jpn libtesseract-dev libleptonica-dev tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert<br><br><br> |
早速、PDFファイルをテキスト化するために
tesseract 入力ファイル名.pdf 出力ファイル名 -l 言語
ということで、行うとのこと
対象の言語指定を調べるために
tesseract --list-langs
List of available languages (5):
Japanese
Japanese_vert
eng
jpn
osd
英語は、eng のよう
tesseract 入力ファイル名.pdf 出力ファイル名 -l eng
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
調べて見たが、PDFの読み込みが出来ていないよう
試しに、PNGのファイルを行ったところ、無事にできた
PDF->PNGができればいいので
pdftoppm
で、できそうである
ttps://ubunlog.com/ja/pdftoppm-convierte-archivos-pdf-en-imagenes/
を、参考にして
pdftoppm
を
sudo apt update; sudo apt install poppler-utils
にて、インストール
使い方は
ttps://qiita.com/syoyo/items/1585de5b897b2de290bd
を、参考にして
pdftoppm input.pdf -png output.png
とのこと
mkdir pdf01
cd pdf01
pdftoppm /home/ubuntu/ドキュメント/xx.pdf -png output.png
ls
output.png-01.png output.png-04.png output.png-07.png output.png-10.png
output.png-02.png output.png-05.png output.png-08.png
output.png-03.png output.png-06.png output.png-09.png
PDFの1ページ毎に変換されるようである
早速、PDF->PNG化された、内容をテキスト化してみる
tesseract output.png-01.png kekka01.txt -l eng
ls
kekka01.txt.txt output.png-03.png output.png-06.png output.png-09.png
output.png-01.png output.png-04.png output.png-07.png output.png-10.png
output.png-02.png output.png-05.png output.png-08.png
cat kekka01.txt.txt
無事変換ができた(変換後のファイルには、txtは要らないようである)
ページ単位の変換なので、バッチファイルを作って、あげよう
vim auto.sh
i :挿入モード
コピペ :入力
ESC :コマンドラインモード
:wq :保存終了
cat auto.sh
tesseract output.png-01.png kekka01 -l eng
tesseract output.png-02.png kekka02 -l eng
tesseract output.png-03.png kekka03 -l eng
tesseract output.png-04.png kekka04 -l eng
tesseract output.png-05.png kekka05 -l eng
tesseract output.png-06.png kekka06 -l eng
tesseract output.png-07.png kekka07 -l eng
tesseract output.png-08.png kekka08 -l eng
tesseract output.png-09.png kekka09 -l eng
chmod 755 auto.sh
./auto.sh
できた、テキストをまとめてあげる
vim join.sh
cat kekka01.txt > kekkaall.txt
cat kekka02.txt >> kekkaall.txt
cat kekka03.txt >> kekkaall.txt
cat kekka04.txt >> kekkaall.txt
cat kekka05.txt >> kekkaall.txt
cat kekka06.txt >> kekkaall.txt
cat kekka07.txt >> kekkaall.txt
cat kekka08.txt >> kekkaall.txt
cat kekka09.txt >> kekkaall.txt
chmod 755 join.sh
./join.sh
kekkaakk.txtにまとめることができた
PDF->PNGは、外部に情報がでても問題がなければ
ttps://pdf2png.com/ja/
でも可能である
ZIPで、ダウンロードできるので、その後に
tesseract
で、テキスト化できるので、
pdftoppm
なしでもできる
ubuntuにて行いましたが、Mac,Windowsでも可能かと思います
PDFの英語の文献を、テキスト化できるため、DeepLや、ChatGPTなどで、翻訳することで、活用することができるかと思います。