今回はOCR(PDFや画像データの文字認識)用ライブラリを紹介します。OCR用のサンプルデータは下記の通りです。 シンプルな読み込みはtabula.read_pdf(filepath, pages='all')とします。またfilepathにurlを指定すればweb経由で取得も可能です。 下記の通り戻り値はリスト ...
PDFを`Python`で解析するためのライブラリです。`pip`でインストールできます。 公式ドキュメントに`pdfminer`のチュートリアル ...
LambdaにPythonのライブラリを読み込ませたい時がありますね。でもAWSページを見てもよくわからない。Dockerを使えというページもあるけどDockerが使えない環境だったりする場合もある。 ということでWindowsエクスプローラを使いLambdaにPythonのライブラリを ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する