Blog
渋谷で考える統計問題
統計問題
AILabの森脇です。永田町から渋谷に職場を移してから1年半以上経ちました。すっかりテック企業に染まりGDPの公表日すら気にしなくなってしまいましたが、最近、そんな私の耳にも届くほど、公的統計を巡る議論は激しさを増しています。
会社が従業員に支払う給与などについて調査している毎月勤労統計という統計に不備が発見され、予算の閣議決定のやり直しなど、多方面に影響が出ているのです。
詳細は厚生労働省のリリースや、経過を究明した報告書をご覧いただければと思いますが、要は調査票(アンケート用紙みたいなイメージ)の収集方法とその後の処理に一貫性がなく、出来上がった数字にバイアスがかかっていたということです。
厚生労働省については、昨年3月に裁量労働制に関する調査データを撤回したこともあり、政府統計への信頼性について批判が相次いでいます。1ほかの省庁でも統計のミスが相次いでいることから公的統計一般の信頼性についての疑問が呈される状況になっています。2
今回は、この1年半の経験を踏まえつつ、かつて内閣府で経済分析を担当していたときの記憶を頼りに統計問題を自分なりに考えたいと思います。
公的統計を取り巻く現状
一般的にいえば、日本の統計システムは限定されたリソースで精緻さを限界まで追求しながら速報性も追った高い品質のものとなっているといえます。毎月勤労統計調査は、(本来は)すべての大規模事業所について毎月調査を行うものであり、ほかにも様々な工業製品の生産、出荷などを調査する生産動態統計でも、一定規模以上の事業所について全数調査を毎月行っています。
全数調査は、母集団そのものを調査するわけですから、正確を期すためにはベストな方法です。しかし、調査のために動員される人的リソースは莫大なものになります。近年、行政効率化の方針の下、政府が統計にかけられるリソースは削減されており、現場では厳しい状況になっているようです。また、調査客体である企業側にとって自社の売上につながらない調査回答をどこまで許容できるのか。労働時間短縮や生産性向上に対する要求が厳しくなる中でジレンマが募ります。
調査側も調査客体側も疲弊する中で、無理に回収率を上げようとしたり、調査の規模を維持しようとすれば、無理がたたって統計の数字に影響がでるのは必然で、結果的に精度の高い統計を得たいという当初の目的を達成できないことになります。
さらに、既存の統計を維持するだけでいいのかという問題もあります。Eコマース(ネット通販)の利用率が高まり、消費の中心がリアルからオンラインに移る中で、オンラインの消費をどうとらえるのか。家計消費状況調査という全国30,000世帯のオンライン消費を調査する統計があるものの、日々の購入履歴を悉皆的に調査するわけには行かないため、ECサイトを運営するプラットフォーマーがにぎるデータからすればごく一部に留まっています。クラウドソーシングや民泊、といったギグエコノミー・シェアリング経済の台頭にも対応していく必要があります。
まとめると、日本の統計部隊は前線で兵站が細くなるなか現状の統計の精度を維持しつつ、経済の変化に対応した統計の作成を迫られるという辛い二正面作戦を展開しているといえます。
本当の問題は既存統計の正確性なのか
こうした状況を踏まえて、「博士号レベルの統計専門家を増やそう」とか「統計予算をもっとつけよう」、「調査方法をシステム化して効率化しよう」という声はあるのですが、統計より優先すべき(と国民の大多数が思っている)課題が山積する中で、統計作成に対するリソース配分を大幅に増加させようという提言は現実的とは言えません。3
仮に人員を拡充しようと言っても、実務ができる統計専門家やデータエンジニアは今の労働市場でもっともニーズが高い人材で、待遇がよいとはいえないパブリックセクターに行く人を見つけるのは難しそうです。4
リソースが限られる中で統計を作成するのであれば、優先度を付ける必要があります。毎月勤労統計の問題で確実に影響を受けたのは失業給付の受給者です。法律によって失業給付の額の算定の際に毎月勤労統計を参照することになっているからです。ただし、参照する数値は年度別の全国平均の給与額であって、地域や産業による違いや毎月の変化の情報は不要です。それであれば、調査頻度を引き下げたり、標本サイズを小さくしても問題なさそうです。調査頻度や対象が少なくなれば一回の調査にかけられるコストもあげられるのでミスを防ぐことができます。アメリカの類似調査であるCES (Current Emplouyment Statistics)は標本調査になっています。また、調査用紙は1年分でたった1枚となっており、毎月エクセルシートを埋める必要がある毎月勤労統計調査より負担は軽そうです。
毎月勤労統計が毎月の賃金(実際には給与)の動きを長期にわたって捕捉している重要な統計であるのは事実です。今回の問題に関する議論を聞いていても、賃金が上昇したのか減少したのかが焦点になっています。しかし、統計表をみると、「所定内給与」「きまって支給する額」「常用労働者」など、聞いたことがない用語が並び、一般の人がみて理解できるようにはなっていません。これを解釈可能なように分析するのがエコノミストや労働経済学者の仕事といえばそうなのですが、この数字自体から、直感的な議論をしようとすると混乱すると思われます。
毎月勤労統計が公表されるときによく引用される数字は現金給与総額ですが、これが前年と比較して下がったら必ずしも給与カットがあったというわけではないのです。この数字はあくまでも事業所全体の人数と給与を集計して平均を算出したものであって、たとえば、事業所が採用を急拡大して給与水準の低い若手や労働時間の短い人がたくさん入れば下がります。また、この数字はいわゆる「額面」なので、制度改正で社会保険料があがったりすれば、現金給与総額があがっても手取りは減少しているかもしれません。また、事業所単位の調査なので残業を減らして副業収入で稼いでいる人がいても数字には出てきません。
重要なのは統計から何をみたいのかです。政策を実現するにあたって目標とすべき指標についてコンセンサスがないのに、統計の正確さばかり議論しても仕方ありません。毎月勤労統計が示すような、事業所ごとの給与が本当にターゲットとして適切なのか。そうでないなら、ターゲットの数値を捕捉できるように新たな統計をつくるなり指標を作る必要があります。
毎月黙っていても統計が公表されるから、そこからなんとか知見を引き出そうという姿勢は誤りではないですが、リソースが限られる中では、分析目的に沿ってもっとも効率のいい方法でデータづくりから見直すほうが得策だと思います。統計作成側はギリギリの人員で頑張って統計をつくっているのに、ユーザー側がその解釈を巡って紛糾していては報われません。見たいものを規定してからそれを直接計測していくほうがシンプルで効率的です。歴史ある統計もかつての政策担当者が必要にかられて苦労してつくったものです。時代とともに新たな統計をつくっていくのは当然とも言えます。
データを分析者側に引き寄せる
以前であれば、新たな統計調査をするのは大変でした。予算を獲得し、調査機関に委託し、関係機関の協力を得る必要があります。しかし、幸運なことに、今はデータが溢れています。ちょっと手を動かして求人サイトからデータをとってくれば、求人の傾向は見えてくるし、ウェブ経由で大規模な調査を行うことも可能です。5さらに踏み込んで、アプリをつくって直接労働者から給与明細のスクショを買い取るサービスもありかもしれません。給与明細の電子化が進んでる今、企業から調査票の記入の代わりに電子データをそのまま送ってもらうことも考えられます。前述の米国CESでは、半数の企業が調査票をEDI(電子データ交換)、2割がコンピューターアシスト付電話、また別の2割がウェブ経由で報告しています。6
最初は、ノイズ処理やサンプリングバイアスなどデータのクセと格闘することになると思いますが、自動化してしまえば、粒度の細かい情報がすばやく手に入ることになります。多くの統計が調査月の翌々月公表となるなかで、リアルタイムに統計が追えることの利点は大きいです。
また、分析者が自らデータを収集しておけば、好きなように集計することが可能です。統計が公表されるたびにエコノミストをはじめとする分析者はその解説を求められますが、多くの場合検証できていない仮説レベルの説明をせざるを得ません。生データが手元にあればいくらでも仮説をたてて集計し直したり、時には計量分析を行うことでその仮設を検証することが可能です。データの取得過程や加工プロセスも公表すれば、恣意的な介入に対する疑念も晴れます。データを分析者の手元に引き寄せ、データ収集から加工・分析までのパイプラインを統合することで効率化を図れます。
強制力を持って収集した調査票データと比較すれば、ネットを経由して収集されたデータは当然網羅性はなく、半ば経済の一部を切り取ったスナップショットといえます。しかし、スナップショットも時系列でみれば、(少なくとも観察対象については)その方向感が捉えられます。経済全体の構造は、数年に一度悉皆的に行われる国勢調査や経済センサスなどで捉え、その間の動きは低コストで速報性の高い代替データで把握するというように使い分けることが適切です。大規模全数調査が「アンカー」として機能すれば、代替データをうまく飼いならすことができます。
調査票を経由させず、データをとることにはもうひとつ意味があります。調査票を介在させることで、記入者が「間違える」、「回答しない」、「あえて誤った回答をする」といったリスクが発生します。家計調査という世帯の消費などに関する統計では、調査期間が長くなるにつれ、だんだん報告される消費額が少なくなっていく現象が観察されており、調査に疲れてきて記入を怠っているのではないかと指摘されています(宇南山, 2015)。また、お金持ちは自分の資産額を言いたがらないため、資産調査の集計すると過少になるという報告もあります(Kennickell and McManus, 1993)。求人にせよ、給与にせよ、調査客体を挟まずにデータをとることで、こうした問題を迂回することが期待できます。いうなれば人間という名のブラックボックスを迂回することでノイズを除去するという思想です。
「経済統計入門」という、1992年に刊行された本では、「わざわざ統計調査を行うよりも、既存の適切な資料を集計するほうが、手間も費用も少なくてすむから、できるだけ業務資料を利用するほうが望ましい」とあります(中村ほか, 1992)。統計の理想形は、調査統計ではなく業務データの二次利用であることは20年以上前から主張されています。
現状でも、有効求人倍率でおなじみの職業安定業務統計や、税関を通った物品のデータを集計した貿易統計、住民基本台帳をもとにした人口統計が存在し、いずれも重要な統計として機能しています。現在は統計として使われていない行政記録についても、有用なものはどんどん統計化していくべきでしょう。
静かに社会に浸透するビッグデータ
「ビッグデータ」というと今更感はありますが、ビッグデータブームが過ぎ去ったあともデータの量はどんどん増え続けています。スマホアプリでなんでもできるようになったのは最近のことであり、決済サービスなどはむしろこれから拡大することが見込まれます。個人データのポータビリティ性が高まり、あるいは消費者が個人データをマネタイズすることが一般的になれば、個人のデータを収集することも容易になるでしょう。特に政府が公的な目的のためにデータを使うということであれば抵抗感も少ないと思われます。
すでに、総務省はインターネット調査である家計消費単身モニター調査を実施しており、経済産業省も先月から、POSデータを用いた統計を試験的に公表しています。コスト低減や速報性の強化、経済の変化への対応のため、政府によるウェブ調査、ビッグデータの統計活用は進んでいくものと思われます。
おわりに
統計問題は3年ほど前にも一度盛り上がり、その対応のため内閣府で経済統計全般について、その諸問題を議論する場が設けられました7
当時、私は研究会の裏方として様々な有識者の方や統計作成担当者へのヒアリングをしながら、統計問題について勉強していたのですが、どうしてもよくわからなかったことがありました。それはいわゆるビッグデータが経済を計測する統計として使いうるかどうかでした。データといえば、csvにきれいに並んだものしか扱ったことがなかった当時の私にとって、世の中を飛び交っている大量のデータというのが一体どういうものなのかイメージも湧かず、それがどういうふうに有用なのか皆目検討が付きませんでした。
サイバーエージェントに移ってから、位置情報、POSデータ、衛星画像、ウェブデータ、アドテクデータなど様々なデータを触らせてもらい、最初はその規模や一筋縄ではいかない特性に難渋しましたが、必要な技術を身につけ、データ生成過程を理解すると、難しい用語が並ぶ公的統計に比べてシンプルで理解しやすいものだと感じるようになりました。人の介入が少ない分、透明性が高く、わかりやすい統計として活用することができます。データの生成過程はすべてコードとして保存されているので、再現性も担保できます。
また、分析に必要なデータがなければ開発チームに依頼して必要なログをとってもらうことも可能です。有り物のデータで足りなければ作るという発想は、ソフトウェアエンジニアに囲まれなければ出てこなかったと思います。というわけで、この記事はかつての自分に対する宿題の回答みたいなものです。
この記事を読んで、データへの思いを熱くした方はぜひ弊社採用ページをご覧ください。データを作りたい人、分析したい人、研究したい人をお待ちしています。
最後まで読んでいただきありがとうございました。
参考文献
Hughes-Cromwick, E., & Coronado, J. (2019). The Value of US Government Data to US Business Decisions. The Journal of Economic Perspectives, 33(1), 131-146.
中村隆英, 新家健精, 美添泰人, 豊田敬(1992) 経済統計入門 東京大学出版会, 1992.
宇南山卓 (2015) 消費関連統計の比較, フィナンシャル・レビュー, 財務省総合政策研究所, [PDF]
Arthur B. Kennickell and Douglas A. McManus (1993) Sampling for household financial characteristics using frame information on past income. Proceedings of the Section on Survey Research Methods. 1993. [PDF]
- 裁量労働制に関する調査データの撤回経緯については、第1回裁量労働制実態調査に関する専門家検討会資料を参照。 ↩
- 近年、経済産業省の繊維統計や国土交通省の建設着工統計などでも誤りが見つかっています。 ↩
- 統計へのリソース配分はアメリカでも減少していて、2017年度の統計予算は、2004-2013年の平均の8.7%減という報告もあります。(Hughe-Cromwick and Coronado, 2019) ↩
- 求人サイトIndeedによるデータサイエンティスト職求人の平均給与は月給40万円程度ですが、中には月給100万円を超える求人もあります。 ↩
- ウェブを用いた大規模な統計調査としては、リクルート全国就業実態調査パネルなどがあげられます。 ↩
- 労働省労働統計局 ↩
- より正確な景気判断のための経済統計の改善に関する研究会(内閣府ウェブページ) ↩
Author