日経 XTREND SPECIAL

日経新聞の経済記事からコロナ禍での変化をキャッチ

野中 芽依氏

中央⼤学 ⼤学院 理⼯学研究科
経営システム⼯学専攻

野中 芽依

 日々、目にする経済記事。これをデータとして見つめ直すと、トレンド分析ができる。そこに着眼し、新型コロナウイルス感染症の流行は、経済にどのような影響を与えたか・与えるかを分析したのが野中芽依氏だ。研究発表「日経記事の経済データを用いたコロナウイルス流行前後でのトピックの変化」で、NTTデータ数理システムが主催する「2020年度NTTデータ数理システム学生研究奨励賞」の優秀賞を受賞した。野中氏は中央大学大学院理工学研究科経営システム工学専攻修士課程の2年生だ。「もともとモノづくりに興味があり、その原点を勉強したいと思い、マーケティングサイエンスの研究室に所属しています。卒業論文では、店舗における消費者の視点観測データを基に購買行動を分析しましたが、今回は、日本経済新聞社から新聞記事データの提供を受けられることを知り、テキストデータの分析に挑戦することにしました」(野中氏)。

野中芽依氏

中央⼤学 ⼤学院理 ⼯学研究科
経営システム⼯学専攻

野中芽依

 記事データという、それまで触れてきたのとは異なるデータを前に野中氏は「新聞記事はそのときの状況をダイレクトに報道するので、経済記事の時間変化を分析すれば、経済状況の変化を把握できると考えました」。そこで、学生としての自身の日常にも大きな影響を与えている新型コロナウイルスの感染拡大が、経済の動きをどのように変えたかを明らかにしようと考えた。

 分析ツールには、NTTデータ数理システムの「Text Mining Studio」を利用した。分析の対象とした記事データは、「全データを対象とすると分析に時間がかかりすぎますし、最終的に経済の動きを知りたかったので、対象記事を金融政策・経済活動・マーケットの3分類に絞り」、2019年9月1日から「小中学校が休校になるなど、ここが境目だと感じた」20年2月29日までを“流行前”、20年3月1日から9月30日を“流行後”に分割した。

 その上で、流行前後での単語頻度を比較し、言葉の属性や関連性を可視化する「ことばネットワーク」も流行前後で比較。記事中の“感情表現”にも着目して、感情表現の時系列推移を明らかにし、さらには、それらの感情表現と景気動向指数のうち、景気の拡大を示す指標の割合を示すDI値の相関についても分析した。

ネガティブな感情が経済の動きを予見する

 まずは、記事で使われる単語がどのように変化していったのかを調べたところ、流行を境に「新型コロナウイルス」「感染拡大」という単語が急増していた。また、ことばネットワークにより、流行前は新型コロナウイルス感染症だけでなく、為替市場や株・投資、アメリカなど多様だった記事のトピックが、流行後には新型コロナウイルス感染症関連に集約されていることもわかった。

「ただ、ここまでの結果は予想通りでした。予想していたことをデータとして可視化できたので、その可視化された結果を見て、次の切り口を探しました」(野中氏)

 そこで着目したのが感情表現だった。このヒントは同期の学生の研究テーマから得たという。

「同期の一人が日記データの感情表現を研究しているのですが、そこで、経済の記事データからも感情が読み取れれば面白いなとひらめきました」(野中氏)

 対象とした記事で“怒”“喜”“哀”など10の感情表現の時系列変化を比較したところ、野中氏が流行の境とした、1度目の緊急事態宣言が発令された20年3月前後は、“驚”の割合が他の時期に比べて最も大きくなっており、国内の新規感染者数が初めて1日当たり1000人を超えた20年7月には“怖”が全体の6割近くいることがわかった。

感情表現についての時系列単語頻度

感情表現についての時系列単語頻度

「とても興味深い結果が得られました。ただ、ここがゴールではない、せっかく経済記事を分析しているのだから経済の動きを結びつけられないかと考え、この感情表現と、大学院1年生のときに触れていたDI値を算出することにしました」(野中氏)

 その結果、“怖”のDI値のうち、景気動向に先行する先行指数と景気動向と同時に動く一致指数が、“厭”でもDI値のうちの先行指数と一致指数に相関があるとわかり、その二つの感情では、p値が有意水準5%を満たす結果となった。どういうことだろうか。

「相関関係がないとはいえないということです。この相関については、ここまではっきりわかるとは、予想していませんでした」(野中氏)

 同様に“好”でも先行指数と一致指数、“安”では一致指数、“喜”では景気動向に遅れて動く遅行指数で相関関数が正となったが、p値は有意水準を満たさなかった。

 “怖”“厭”という負の感情を示す記事の増減は、経済の動向と関連がある――日経新聞の経済記事を分析した結果、新たな知見がもたらされた。

高品質なテキストデータだから無駄なく分析できる

 野中氏が指摘したように、新聞記事にはそのときの状況がはっきりと反映される。また、日々コンスタントに記事を蓄積し、何か大きな出来事が起これば、その前後で、扱われる分野の多寡やそこに表れる感情が大きく変わる。この事実が、トレンドの分析対象として適していた。

 ビッグデータ分析の際に課題となることが多いデータの質も均一だ。野中氏は、分析のための前処理が非常に少なかったと感じているという。「正しい日本語で、しっかりした文章になっていますし、校閲されているので用語も統一されていて、日記などに比べると非常に楽だと思います。今回は、“新型コロナ”や“新型肺炎”を“新型コロナウイルス”の類義語として手動で辞書登録しましたが、それだけで済みました」。

 記事は新聞社によってあらかじめ分類もされているので、野中氏のように経済に着目するなら経済記事だけを分析の対象とすることで、分析のリソースを最低限に抑えることができる。

 今回の成果に手応えを感じた野中氏は「同じように、東日本大震災の前後での変化がわかれば、今後の防災にも役立つのではないかと感じました」と言う。

機械学習用だけでなく経済予測や戦略立案にも

 野中氏が使用した「日経コーパス」は、日経新聞をはじめとする、日本経済新聞社が発行する記事のテキストデータを、法人向けに、研究・教育用途で提供するサービスだ。日本経済新聞社デジタル事業 情報サービスユニット データ事業G部長の高松純子氏は「機械学習のニーズが高まるにつれ、正しい日本語のデータとして記事を提供してほしいという要望が多く寄せられるようになりました」とサービス立ち上げの背景を説明する。

 提供されるデータにはタイトル、本文の他、業界、会社名、人物名、キーワード、分類など詳細情報なタグを付与されているので、たとえAIでも、初めて見る固有名詞が会社名なのか人物名なのかを迷わずに判断でき、効率よく学習できる。

 また、そうしたAI・機械学習以外にも、経済トレンドの分析にも使われている。

「野中さんの研究発表を読みましたが、記事内容の変化と他のデータの変化に関連性を見出して未来を予測するという、まさに想定していた使い方をしていただいています」(高松氏)

日経新聞の記事データは
様々な用途に活用可能

AI・機械学習に使える

AI・機械学習
に使える

トレンド分析に使える

トレンド分析
に使える

センチメント分析に使える

センチメント分析
に使える

 記事は経済全般の他、企業動向を広く網羅しているため、企業の戦略立案にも適していると高松氏は言う。

「たとえば、多くの企業は伝統的に、論文や特許から今後進出すべき分野を検討してきましたが、それでは、技術の誕生は把握できても、それがいつ実際に世の中で使われ始めたか、あるいは使われないままなのかまではわかりません。しかし、記事の分析というフィルターがあれば実態がつかめます」(高松氏)

 経営にもデータを活用するのが当たり前になった今、毎日、ダッシュボードで自社や社会の動向を追っている経営層も多いだろう。そこに、いつも読んでいる日経新聞の記事を定量的に分析したデータが加われば、視界の解像度が上がるはずだ。

「日経コーパス」の記事データ一例

「日経コーパス」の記事データ一例
野中芽依氏の研究発表 「日経記事の経済データを用いたコロナウイルス流行前後でのトピックの変化」 詳細はコチラ 日経コーパス 公式サイト