とあるサイトを PDF に保存した。今思えば先のことを考えていなかった。 データを活用しようと思ったが、PDF のままでは無理と気づく。 そこで Python を使って文字を取り出すことにした。 ネットで調べると pypdf というライブラリーに関する記述が多かった ...
これは翔泳社が発行している「Python ゼロからはじめるプログラミング」の内容を、授業などで教材として活用できるよう、著者である筑波大学システム情報系教授の三谷純氏がPowerPointファイルおよびPDFファイルで無料公開しているもの。
PDFファイルからテキストを抽出することは、データ解析やドキュメント処理でよく必要とされるタスクです。Pythonを使えば、PDFの内容を簡単にテキストとして取り出すことができます。本記事では、初心者の方でも理解できるように、Pythonを使ったPDF ...