Column

COVID-19 アドホック分析 (7)

2020年 7月 31日公開
ニルセン 大河 (Taiga Nielsen@NTT DATA)
白水 淳 (Jun Shiromizu@NTT DATA)

本連載ではCOVID-19を題材に、バラエティデータをアドホックに取り込んで分析する「データ統合」の方法論を示します。

(7) Google コミュニティ モビリティ レポートをHyperCube化する

前回は、「ジョンズ・ホプキンス大学が開示しているCOVID-19関連データ」を、実際にHyperCube化することで、縦軸・横軸を自在に入れ替えたPivot分析ができるようになることを示しました。

しかし、HyperCubeの真の効果は、由来の異なる複数のデータセットを統合して分析することにあります。今回は、ジョンズ・ホプキンス大学とは無関係なデータをHyperCube化し、両者を並列で分析してみます。

Google コミュニティ モビリティ レポート とは

Google コミュニティ モビリティ レポートは、コロナ前と比較した「人の移動率」のデータです。簡単に言うと、「本日はどの程度、人が外出/移動しているか」といった指標です。

  • 数字が大きければ「たくさん外出/移動している」ということになります
  • ただし、数値自体は単純な訪問者数とか滞在時間ではなく、「COVID-19が流行し始める前である、 2020 年 1 月 3 日〜2 月 6 日の 5 週間の中央値」を基準とした変化率です
  • また、基準値は曜日別に設定され、日々、当該の曜日基準値との変化率がレポートされます
  • 対象地域は131 カ国で、可能な範囲で地域ごと(日本においては県単位)にレポートされます
  • 以下の分類ごとにレポートされます
    • 娯楽関連施設(Retail & recreation)
    • 食料品店やドラッグストア(Grocery & pharmacy)
    • 公園(Parks)
    • 公共交通機関(Transit stations)
    • 職場(Workplaces)
    • 住宅(Residential)

つまり、例えば「7月24日(金)日本大阪府では、職場への外出/移動が、 1 月 3 日〜2 月 6 日の 5 週間の曜日別中央値と比べて、何パーセント減った」というレベルの情報が毎日レポーティングされている、ということです。

COVID-19に対して、欧米では「社会的距離を取る」といった対策が、日本でも「3つの密を避ける(密閉・密集・密接/Avoid the Three Cs : Closed-spaces, Crowded-places, and Close-contact-settings)」という対策が取られ、具体的には在宅勤務が推奨されたり、外出自粛が求められたり、また国によっては自宅待機令が発令されたりしています。

Google コミュニティ モビリティ レポートを活用することで、これらの対策によって具体的にどの程度、人の移動を抑制したのかを確認できるようになります。また、人の移動が抑制されることで、COVID-19による感染者数や死亡者数がどの程度低減されたのかを確認できるようになります。

実際のデータを確認し、HyperCube化する

Google コミュニティ モビリティ レポートのデータはCSVでも開示されており、毎日更新されます。そのCSVファイルの実データは以下のような形式です。

これらの列名と列の意味は以下の通りです。

No 列名 列の意味
1 country_region_code 国・地域コード
2 country_region 国・地域名
3 sub_region_1 サブ地域1
4 sub_region_2 サブ地域2
5 iso_3166_2_code ISO3133-2 コード
6 census_fips_code 連邦情報処理規格 (FIPS) 郡コード
7 date 日付
8 retail_and_recreation_percent_change_from_baseline 人的移動変化率_娯楽関連施設
9 grocery_and_pharmacy_percent_change_from_baseline 人的移動変化率_食料品店やドラッグストア
10 parks_percent_change_from_baseline 人的移動変化率_公園
11 transit_stations_percent_change_from_baseline 人的移動変化率_公共交通機関
12 workplaces_percent_change_from_baseline 人的移動変化率_職場
13 residential_percent_change_from_baseline 人的移動変化率_住宅

これをデータベースに取り込み、ジョンズ・ホプキンス大学のデータと同様に、HyperCube化していきます。

Conceptは、No.10~13です。Dimensionは「国・地域」「サブ地域」そして「日付」が考えられます。

ジョンズ・ホプキンス大のデータとのクロス分析

HyperCube化されてしまえば、「ジョンズ・ホプキンス大学」か「Googleコミュニティ モビリティ」か、という由来の違いを超越して、同じ土俵でデータ活用することができます。

以下の図はシンガポールについて、「ジョンズ・ホプキンス大学由来の感染者数」のデータと、「Googleコミュニティ モビリティ由来の移動者の変化」を比較し折れ線グラフにしたものです。

まとめ:HyperCubeでデータセットの違いを超える

今回は、ジョンズ・ホプキンス大学のCOVIDデータをに続き、Google コミュニティ モビリティのデータもHyperCube化し、両者を使って比較する分析をしました。このとおり、出自の異なるデータを簡単に比較可能にするのが、HyperCubeというデータモデルの強さです。

次回はHyperCubeから離れて、各国の様々な属性情報をNoSQLデータベース内で一箇所に集約して、自由自在な相関分析をしてみます。

Contact

本取組みに関するお問い合わせは
下記までご連絡ください。
株式会社NTTデータ
第一金融事業本部
 金融グローバルITサービス事業部 
ABLER推進担当