PDFファイルからテキストを一括抽出するpythonコードです。
初めてpymupdfを使う場合には、インストールします。
!pip install pymupdf
初めてでない場合には、下記コードを使えばOK。
import fitz # PyMuPDFのモジュール
def extract_text_from_pdf(pdf_path):
# PDFファイルを開く
pdf_document = fitz.open(pdf_path)
# ページごとにテキストを抽出
text = ""
for page_number in range(pdf_document.page_count):
page = pdf_document[page_number]
text += page.get_text()
# PDFファイルを閉じる
pdf_document.close()
return text
# PDFファイルのパスを指定
pdf_path = r"フォルダパスをここに記入"
# テキストを抽出
extracted_text = extract_text_from_pdf(pdf_path)
# 抽出されたテキストを表示
print(extracted_text)