2種類のエクセルデータを、pythonでデータ統合するコードです。
下記種類のエクセルファイルが存在するとします。
- 売上実績データ…売上日付、品番、品名、顧客番号
- 顧客管理データ…顧客番号、生年月日、住所、性別
このデータを組み合わせて、次のような分析を行いたいとします。
- 商品Aが男性・女性どちらに売れているのか?
- 商品Bがどのエリアでよく売れているのか?
- 商品Cはどの年代の方によく売れているのか?
その場合には、エクセルならばvlookupで紐づけてピボットテーブルを組むことができますが、ビックデータの場合にはpythonを使うと効率的です。
そんな場合には、売上実績データに対して、顧客管理データを紐づける、という処理が可能です。その場合にはこの順番通り、売上実績を左に、顧客管理を右側に書き、データ統合します。
#pandasをimport
import pandas as pd
#pandasを用いて、変数「uriage」「kokyaku」にエクセルを読み込み
urige = pd.read_excel(r'売上実績データのファイルパスをここに記入')
kokyaku = pd.read_excel(r'顧客管理データのファイルパスをここに記入')
#抽出した2つのデータフォーマットを統合する
tougou = pd.merge(uriage, kokyaku, how = "inner", on = "顧客番号")
how = “inner” で示される部分についての補足。
left と right 両方のデータベースに共通するキーを持つ行が残る。これがデフォルト。
その他「左結合」「右結合」「外部結合」とあるが詳細はchatGPTへ聞いてみよう!