Python

PDFからテキスト抽出

PDFファイルからテキストを一括抽出するpythonコードです。

初めてpymupdfを使う場合には、インストールします。

!pip install pymupdf

 

初めてでない場合には、下記コードを使えばOK。

import fitz  # PyMuPDFのモジュール

def extract_text_from_pdf(pdf_path):
    # PDFファイルを開く
    pdf_document = fitz.open(pdf_path)
    
    # ページごとにテキストを抽出
    text = ""
    for page_number in range(pdf_document.page_count):
        page = pdf_document[page_number]
        text += page.get_text()
    
    # PDFファイルを閉じる
    pdf_document.close()
    
    return text

# PDFファイルのパスを指定
pdf_path = r"フォルダパスをここに記入"

# テキストを抽出
extracted_text = extract_text_from_pdf(pdf_path)

# 抽出されたテキストを表示
print(extracted_text)