Python

pythonでデータの統合

2種類のエクセルデータを、pythonでデータ統合するコードです。

下記種類のエクセルファイルが存在するとします。

  1. 売上実績データ…売上日付、品番、品名、顧客番号
  2. 顧客管理データ…顧客番号、生年月日、住所、性別

このデータを組み合わせて、次のような分析を行いたいとします。

  • 商品Aが男性・女性どちらに売れているのか?
  • 商品Bがどのエリアでよく売れているのか?
  • 商品Cはどの年代の方によく売れているのか?

その場合には、エクセルならばvlookupで紐づけてピボットテーブルを組むことができますが、ビックデータの場合にはpythonを使うと効率的です。

そんな場合には、売上実績データに対して、顧客管理データを紐づける、という処理が可能です。その場合にはこの順番通り、売上実績を左に、顧客管理を右側に書き、データ統合します。

#pandasをimport
import pandas as pd

#pandasを用いて、変数「uriage」「kokyaku」にエクセルを読み込み
urige = pd.read_excel(r'売上実績データのファイルパスをここに記入')
kokyaku = pd.read_excel(r'顧客管理データのファイルパスをここに記入')

#抽出した2つのデータフォーマットを統合する
tougou = pd.merge(uriage, kokyaku, how = "inner", on = "顧客番号")

how = “inner” で示される部分についての補足。
left と right 両方のデータベースに共通するキーを持つ行が残る。これがデフォルト。

その他「左結合」「右結合」「外部結合」とあるが詳細はchatGPTへ聞いてみよう!