(7) Google コミュニティ モビリティ レポートをHyperCube化する
前回は、「ジョンズ・ホプキンス大学が開示しているCOVID-19関連データ」を、実際にHyperCube化することで、縦軸・横軸を自在に入れ替えたPivot分析ができるようになることを示しました。
しかし、HyperCubeの真の効果は、由来の異なる複数のデータセットを統合して分析することにあります。今回は、ジョンズ・ホプキンス大学とは無関係なデータをHyperCube化し、両者を並列で分析してみます。
Google コミュニティ モビリティ レポート とは
Google コミュニティ モビリティ レポートは、コロナ前と比較した「人の移動率」のデータです。簡単に言うと、「本日はどの程度、人が外出/移動しているか」といった指標です。
- 数字が大きければ「たくさん外出/移動している」ということになります
- ただし、数値自体は単純な訪問者数とか滞在時間ではなく、「COVID-19が流行し始める前である、 2020 年 1 月 3 日〜2 月 6 日の 5 週間の中央値」を基準とした変化率です
- また、基準値は曜日別に設定され、日々、当該の曜日基準値との変化率がレポートされます
- 対象地域は131 カ国で、可能な範囲で地域ごと(日本においては県単位)にレポートされます
- 以下の分類ごとにレポートされます
- 娯楽関連施設(Retail & recreation)
- 食料品店やドラッグストア(Grocery & pharmacy)
- 公園(Parks)
- 公共交通機関(Transit stations)
- 職場(Workplaces)
- 住宅(Residential)
つまり、例えば「7月24日(金)の日本の大阪府では、職場への外出/移動が、 1 月 3 日〜2 月 6 日の 5 週間の曜日別中央値と比べて、何パーセント減った」というレベルの情報が毎日レポーティングされている、ということです。
COVID-19に対して、欧米では「社会的距離を取る」といった対策が、日本でも「3つの密を避ける(密閉・密集・密接/Avoid the Three Cs : Closed-spaces, Crowded-places, and Close-contact-settings)」という対策が取られ、具体的には在宅勤務が推奨されたり、外出自粛が求められたり、また国によっては自宅待機令が発令されたりしています。
Google コミュニティ モビリティ レポートを活用することで、これらの対策によって具体的にどの程度、人の移動を抑制したのかを確認できるようになります。また、人の移動が抑制されることで、COVID-19による感染者数や死亡者数がどの程度低減されたのかを確認できるようになります。
実際のデータを確認し、HyperCube化する
Google コミュニティ モビリティ レポートのデータはCSVでも開示されており、毎日更新されます。そのCSVファイルの実データは以下のような形式です。
これらの列名と列の意味は以下の通りです。
No |
列名 |
列の意味 |
1 |
country_region_code |
国・地域コード |
2 |
country_region |
国・地域名 |
3 |
sub_region_1 |
サブ地域1 |
4 |
sub_region_2 |
サブ地域2 |
5 |
iso_3166_2_code |
ISO3133-2 コード |
6 |
census_fips_code |
連邦情報処理規格 (FIPS) 郡コード |
7 |
date |
日付 |
8 |
retail_and_recreation_percent_change_from_baseline |
人的移動変化率_娯楽関連施設 |
9 |
grocery_and_pharmacy_percent_change_from_baseline |
人的移動変化率_食料品店やドラッグストア |
10 |
parks_percent_change_from_baseline |
人的移動変化率_公園 |
11 |
transit_stations_percent_change_from_baseline |
人的移動変化率_公共交通機関 |
12 |
workplaces_percent_change_from_baseline |
人的移動変化率_職場 |
13 |
residential_percent_change_from_baseline |
人的移動変化率_住宅 |
これをデータベースに取り込み、ジョンズ・ホプキンス大学のデータと同様に、HyperCube化していきます。
Conceptは、No.10~13です。Dimensionは「国・地域」「サブ地域」そして「日付」が考えられます。
ジョンズ・ホプキンス大のデータとのクロス分析
HyperCube化されてしまえば、「ジョンズ・ホプキンス大学」か「Googleコミュニティ モビリティ」か、という由来の違いを超越して、同じ土俵でデータ活用することができます。
以下の図はシンガポールについて、「ジョンズ・ホプキンス大学由来の感染者数」のデータと、「Googleコミュニティ モビリティ由来の移動者の変化」を比較し折れ線グラフにしたものです。
まとめ:HyperCubeでデータセットの違いを超える
今回は、ジョンズ・ホプキンス大学のCOVIDデータをに続き、Google コミュニティ モビリティのデータもHyperCube化し、両者を使って比較する分析をしました。このとおり、出自の異なるデータを簡単に比較可能にするのが、HyperCubeというデータモデルの強さです。
次回はHyperCubeから離れて、各国の様々な属性情報をNoSQLデータベース内で一箇所に集約して、自由自在な相関分析をしてみます。