[概要]
グループ会社の Web サイトへの流入向上を目指したアクセスデータ解析を行いました。具体的には、GoogleAnalyticsから得られるアクセス情報やユーザ情報と、Web上に公開されている国が集めた統計情報とを組み合わせた流入予測などを行っていました。
GoogleAnalyticsからは、ユーザー情報として性別、年代、アクセス地域などが得られます。GA(GoogleAnalytics)から得られる情報は表層の部分でしかありません。どのような年齢、性別の人なのか?どこに住んでいる人なのか?といった情報は得られますが、その裏にある何故東京に住んでいる20代女性のアクセスが多いのか?といった、深層に関わってくる情報までは読み取れません。この深層にある情報を、顧客データや外部データと照らし合わせて読み解くことが私がやるべきところになります。
[分析体制]
社内で分析系の知見を有している者が私だけなので、一人ですべてを行っておりました。基本的には、Google Analyticsのダッシュボードより分析を行っておりましたが、外部の統計データとの組み合わせの際には、API経由でアクセスデータを取得し、Pythonを用いて統計的な分析を行っておりました。
[課題に対するアプローチ]
今回のWebサイトでは、ソーラーパネルの販売を行う企業のアクセスデータになります。足掛かりとして、今回は人口統計情報を用いました。人口統計情報には、全国の給与水準や住宅購入数/形態といった情報があります。
ソーラーパネルは高い買い物となるため、給与水準の高い層でないと購入は厳しいです。そこで、アクセス数の多い地域と給与水準の高い地域とを照らすと、見事に相関がありました。また、アクセス数の多い層が30~40代後半に見られたのは、その年代になるとある程度の役職と所帯を持つようになってくるということが、全国の給与水準統計情報から推測できます。
ソーラーパネルは、住居の形態によって、種類が複数あります。そこで、地域によるアクセス数の変動については、地域毎の給与水準と住宅形態(戸建て/アパート,マンション/分譲など)の比率に起因するのではと考え、照らしたところ、相関が見られました。これらの集計/解析は全てPythonで行いました。Pythonのライブラリのnumpyとscipyを使うことで、集計/統計解析が行えるのでとても便利です。
[成果]
これらの解析結果を元に、アクションを起こすのが次のステップなのですが、諸事情により、プロジェクトが凍結となってしまい、解析結果を元にしたアクション検証まではできませんでした。
しかしながら、実データと人口統計情報を組み合わせてみることで、詳細なユーザー像を推測することができること、ユーザー像を推測するまでのアプローチといった知見を得ることができたので、次同じような案件が来た際には、よりレベルの高いWebアクセス解析ができると思います。