COVID-19 アドホック分析 (7)｜Column｜ABLER｜NTT DATA REAL INTELLIGENCE with Agility

(7) Google コミュニティモビリティレポートをHyperCube化する

前回は、「ジョンズ・ホプキンス大学が開示しているCOVID-19関連データ」を、実際にHyperCube化することで、縦軸・横軸を自在に入れ替えたPivot分析ができるようになることを示しました。

しかし、HyperCubeの真の効果は、由来の異なる複数のデータセットを統合して分析することにあります。今回は、ジョンズ・ホプキンス大学とは無関係なデータをHyperCube化し、両者を並列で分析してみます。

Google コミュニティモビリティレポートとは

Google コミュニティモビリティレポートは、コロナ前と比較した「人の移動率」のデータです。簡単に言うと、「本日はどの程度、人が外出／移動しているか」といった指標です。

数字が大きければ「たくさん外出／移動している」ということになります
ただし、数値自体は単純な訪問者数とか滞在時間ではなく、「COVID-19が流行し始める前である、 2020 年 1 月 3 日〜2 月 6 日の 5 週間の中央値」を基準とした変化率です
また、基準値は曜日別に設定され、日々、当該の曜日基準値との変化率がレポートされます
対象地域は131 カ国で、可能な範囲で地域ごと（日本においては県単位）にレポートされます
以下の分類ごとにレポートされます
- 娯楽関連施設（Retail & recreation）
- 食料品店やドラッグストア（Grocery & pharmacy）
- 公園（Parks）
- 公共交通機関（Transit stations）
- 職場（Workplaces）
- 住宅（Residential）

つまり、例えば「7月24日(金)の日本の大阪府では、職場への外出／移動が、 1 月 3 日〜2 月 6 日の 5 週間の曜日別中央値と比べて、何パーセント減った」というレベルの情報が毎日レポーティングされている、ということです。

COVID-19に対して、欧米では「社会的距離を取る」といった対策が、日本でも「３つの密を避ける（密閉・密集・密接／Avoid the Three Cs : Closed-spaces, Crowded-places, and Close-contact-settings）」という対策が取られ、具体的には在宅勤務が推奨されたり、外出自粛が求められたり、また国によっては自宅待機令が発令されたりしています。

Google コミュニティモビリティレポートを活用することで、これらの対策によって具体的にどの程度、人の移動を抑制したのかを確認できるようになります。また、人の移動が抑制されることで、COVID-19による感染者数や死亡者数がどの程度低減されたのかを確認できるようになります。

実際のデータを確認し、HyperCube化する

Google コミュニティモビリティレポートのデータはCSVでも開示されており、毎日更新されます。そのCSVファイルの実データは以下のような形式です。

country_region_code,country_region,sub_region_1,sub_region_2,iso_3166_2_code,census_fips_code,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
AE,United Arab Emirates,,,,,2020-02-15,0,4,5,0,2,1
AE,United Arab Emirates,,,,,2020-02-16,1,4,4,1,2,1
AE,United Arab Emirates,,,,,2020-02-17,-1,1,5,1,2,1
:

これらの列名と列の意味は以下の通りです。

No	列名	列の意味
1	country_region_code	国・地域コード
2	country_region	国・地域名
3	sub_region_1	サブ地域１
4	sub_region_2	サブ地域２
5	iso_3166_2_code	ISO3133-2 コード
6	census_fips_code	連邦情報処理規格 (FIPS) 郡コード
7	date	日付
8	retail_and_recreation_percent_change_from_baseline	人的移動変化率_娯楽関連施設
9	grocery_and_pharmacy_percent_change_from_baseline	人的移動変化率_食料品店やドラッグストア
10	parks_percent_change_from_baseline	人的移動変化率_公園
11	transit_stations_percent_change_from_baseline	人的移動変化率_公共交通機関
12	workplaces_percent_change_from_baseline	人的移動変化率_職場
13	residential_percent_change_from_baseline	人的移動変化率_住宅

これをデータベースに取り込み、ジョンズ・ホプキンス大学のデータと同様に、HyperCube化していきます。

Conceptは、No.10～13です。Dimensionは「国・地域」「サブ地域」そして「日付」が考えられます。

ジョンズ・ホプキンス大のデータとのクロス分析

HyperCube化されてしまえば、「ジョンズ・ホプキンス大学」か「Googleコミュニティモビリティ」か、という由来の違いを超越して、同じ土俵でデータ活用することができます。

以下の図はシンガポールについて、「ジョンズ・ホプキンス大学由来の感染者数」のデータと、「Googleコミュニティモビリティ由来の移動者の変化」を比較し折れ線グラフにしたものです。

まとめ：HyperCubeでデータセットの違いを超える

今回は、ジョンズ・ホプキンス大学のCOVIDデータをに続き、Google コミュニティモビリティのデータもHyperCube化し、両者を使って比較する分析をしました。このとおり、出自の異なるデータを簡単に比較可能にするのが、HyperCubeというデータモデルの強さです。

次回はHyperCubeから離れて、各国の様々な属性情報をNoSQLデータベース内で一箇所に集約して、自由自在な相関分析をしてみます。

COVID-19 アドホック分析 (7)

(7) Google コミュニティ モビリティ レポートをHyperCube化する

Google コミュニティ モビリティ レポート とは

実際のデータを確認し、HyperCube化する

ジョンズ・ホプキンス大のデータとのクロス分析

まとめ：HyperCubeでデータセットの違いを超える

(7) Google コミュニティモビリティレポートをHyperCube化する

Google コミュニティモビリティレポートとは