1. PHPオンライン
  2. 仕事
  3. アクチュアリー・統計実務家の思考法「PPDAC」とは?

仕事

アクチュアリー・統計実務家の思考法「PPDAC」とは?

藤澤陽介(アクチュアリー)

2014年02月05日 公開 2018年06月26日 更新

すべては統計にまかせなさい』より


 

「PDCA」ではなく「PPDAC」

 PDCAサイクルという言葉を聞いたことのあるビジネスマンは多いと思う。PDCAは、Plan(計画)、Do(実行)、Check(評価)、Act(改善)のプロセスを順に実施するサイクルのことだ。元来、これは品質管理の分野で用いられてきた考え方であるが、最近では一般企業にも浸透している。

 では、PPDACという言葉を聞いたことがあるだろうか。これは、Googleで検索しても日本語の検索結果がほとんど出てこないので、日本での認知度はあまり高くないと思われる。PPDACとは、Problem(問題)、Plan(計画)、Data(データ)、Analysis(分析)、Conclusion(結論)のプロセスを順に実施するビジネス統計学のサイクルのことだ。

(1) Problem(問題)……何を達成しようとしているのかを文書化した明確な問題
(2) Plan(計画)……分析を行なうために用いる手順などの計画
(3) Data(データ)……(2)で立案した計画に沿って集められたデータ
(4) Analysis(分析)……(1)で提起された問題に答えるためのデータ集計と分析
(5) Conclusion(結論)……(4)の過程で学んだことから導かれる結論

 アクチュアリー(統計実務家)の仕事では、このPPDAC的な思考回路が求められる。具体的には、個人や会社のリスクを特定し(Problem)、保険や年金などを用いてそのリスクを移転する商品を企画し(Plan)、リスクを測定するためのデータを集め(Data)、そのデータを統計的手法で分析し(Analysis)、保険や年金という商品のカタチで将来のリスクに対応するための帰結を導く(Conclusion)。この一連のプロセスを繰り返すのがアクチュアリーだ。

 扱うリスクの種類によって、用いる統計的手法も異なる。伝統的な生保数理、損保数理、年金数理に加え、多様化するリスクにあわせて、アクチュアリーが具備すべき統計的手法も刻々と変化している。たとえば、保険会社が保有する資産を株式で運用すると、保険会社は株価が変動するリスクにさらされる。この株価変動リスクを計量化する標準的な手法として、「時系列解析」と呼ばれる統計的手法がある。また、保有する株式の発行主体が倒産するリスクも考えられる。このようなリスクを信用リスクと呼ぶが、この信用リスクを計量化するには「金融工学」の知識が必要になる。

 どの統計的手法を用いるのかによって、集めるデータも変わってくる。Planの段階で、どの統計的手法を用いるのかを熟考しておかなければ、統計分析を実行する段階で再びデータ収集に戻る事態を招いてしまうかもしれない。

 また、データがあるとそれを分析したくなるのが、理系出身のビジネスマンの性であるが、そんな人がいたら、一度立ち止まって、なぜ分析しているのか(→Problem)、どうやって分析するのか(→Plan)を考えてほしい。PPを省略してDAを行なっても、有益なCを導くことはできない。
 

PPDAC思考法の実践―喫煙行動の調査をしてみよう

 あなたは、上司から、東京在住の未成年者の喫煙者が増加している気がするので、現在の喫煙行動について調査してほしいと言われたものとする。この場合、Problem(問題)は「東京在住の未成年者の喫煙行動」であり、それを時系列的に比較することで喫煙者が増加傾向にあるのか否かを判断することができる。ただし、この文章は日本語としては意味を成すが、統計処理を行なううえで不明瞭な部分がある。

 まず、未成年者とは何を指すのかを明確にする必要がある。日本では、未成年者は満20歳未満とされている。では、調査対象も満20歳未満とすべきだろうか。答えはNOである。3歳児が自分の意思で喫煙行動を行なうとは考えにくい。ここでは、高校生以上の未成年者の喫煙者を減らす目的でこの調査を依頼されたとして、15歳以上20歳未満を調査対象とする。

 また、喫煙者の定義も暖昧だ。先輩から勧められて1回だけ喫煙を行なった高校生は喫煙者に含めるべきか否か。通常、問題視されるのは恒常的な喫煙行動なので、1回だけ喫煙を行なった人は非喫煙者に含めるべきだろう。また、過去にタバコを吸っていたけれど、現在吸っていない人を喫煙者に含めるか否かは調査の目的に依存する。ここでは、常習性を「過去1か月以内に、少なくとも3日に1度タバコを吸っている者」として定義する。

 喫煙行動は時間とともに変わる。喫煙行動の変化を調査するには複数年のデータを用いる必要があるが、ここではある一時点の母集団のスナップショット(たとえば、2014年3月末)をとるものとする。また、すべての母集団、すなわち東京在住の15歳から20歳の人すべてにアクセスすることは難しいので、サンプルを取ることにする。各々の人から集めるデータは、年齢、性別、住所、職業、現在タバコを吸っているかなどであるが、調査の目的によって収集するデータは異なる。

 ここで、どの程度の数のサンプルを取るのかを決めなければならない。それも、どこかに偏ったサンプルではなく、出来るだけランダムなサンプルが望ましい。サンプルは母集団を代表するデータであってほしい。そうでなければ、母集団の属性の推定を誤ってしまう。最後に、実務においては、調査に費やすことができる時間とコストも考慮する必要があるという点も忘れてはならない。このように、どのようなデータをどの程度集めるのかを決めるのが、Planのフェーズで求められる。

 東京在住の15歳から20歳の人をランダムに選んだ結果を図表1-5に示す。ここでは、男女別にサンプルの喫煙行動を調査することにする。

 15歳から20歳の喫煙者の割合を単純に計算すると、59/200=0.295となる。でも、これはあくまでもサンプルにおける喫煙者の割合だ。私たちが興味を持っているのは、母集団の喫煙者割合であり、サンプルのものではない。たとえば、もう一度サンプルを取り直して、喫煙者割合を計算してみると、0.295とは違う数値になるだろう。サンプルから計算した喫煙者割合には、一定の不確実性がともなう。

 結論は、0.295ではなく、0.295に一定の不確実性を加味したものとなる。サンプルの数が少なければ、その不確実性は増加し、サンプルの数が多ければ、不確実性は減少する。一方、サンプルの数が少なければ、調査にかかる時間とコストは減り、サンプルの数が多ければ、時間とコストは増える。Planの段階では、どの程度の不確実性を許容するのかを検討したうえで、調査時間とコストのバランスも考慮し、抽出するサンプル数を決める必要がある。

次のページ
不確実性を味方にする

関連記事

アクセスランキングRanking