はじめに
実験データをはじめとする実世界を対象としたデータ群を統計的に扱うときにかなり高い確率で登場し、かつ何とかする必要に迫られるのが、「外れ値」です。
例えば、得られたデータが のようなものであったりすると、16000は他のデータ値と比較すると桁違いに大きいので何となく除外したくなります。
しかし、上記のデータが、
「東京の港区在住の方をランダムに10人ピックアップしたときの、各人の年収(単位:万円)。」
のようなデータだと、年収16000万円(=1.6億円)の方が(自分の周囲にはいなかったとしても)実際にはいらっしゃる可能性があるだけに、「16000」というデータは外れ値として除外してはいけないものなのかも、と思いたくなります。
こういうときにはデータを対数にすると、もしかすると正規分布みたいな分布になったりするのかもしれません(※個人のこじつけです)。
そこで、あるデータ列 の各データに対して を考え、データ列 が正規分布になるような分布を考えることにします。
スポンサーリンク
対数正規分布
確率変数の変数変換の確認
前節の分布にもすでにれっきとした日本語の名称がつけられています。
「対数正規分布」といいます。
前節ではデータ列については離散的に扱いましたが、ここからは計算の都合上、連続的な確率分布について扱うことにします。
対数正規分布の確率密度関数をとりあえずを確率変数とします。とおきます。
少々見慣れない形ですが、しばらくの間辛抱願います。
は以下の()式で表される正規分布の確率密度関数
スポンサーリンク
からの確率変数の変換を行うことで導出することができますが、確率密度関数の導出を行う前に確率変数の変換の方法について確認しておきます。
()式の確率密度関数に従う確率変数があったときに、となる確率は近似的にと考えることができます。同様に確率密度関数に従う確率変数があったときにとなる確率も同様にと考えることができます。
ここで及びが連続関数であるとすると、及びについては()式が成り立つようにとることができます。
さらに()式の両辺を形式的にで割ります。
すると…
スポンサーリンク
であることがわかります。
対数正規分布の確率密度関数の導出
一方で、確率変数の対数であるが正規分布に従う確率変数であるため、及びの関係は()式の関係式で表すことができます。
そこで、()式の両辺をで微分したものを()式に代入しつつ()式を用いると、()式のように変形できます。
は確率密度関数であるためとなります。また、()式の右辺もで負でない値をとるため、両辺ともに絶対値記号を外すことができて…
スポンサーリンク
となります。ここまではが連続関数であると仮定して計算しましたが、()式より求まったは連続関数であることがわかります。
なお、()式の変数及び関数を示す記号という文字自体は特別な意味を持ちません。したがって、それぞれ及びと書き換えても良いので…
と書くことができます。
なお、()式のの定義域はとなります。
Wikipediaの対数正規分布のページ[1]にはで固定してを変化させたときの確率密度関数のグラフが掲載されています(※この記事を最初に書いた時点(2022年3月)の情報です。)ので、で固定してを変化させたときのグラフをInkscape(1.1.2)で作ってみました↓

(対数でない一般的な)正規分布の場合にはを変化させるとグラフの形は変化せずに軸方向にだけ移動しますが、対数正規分布の場合には山の頂が移動するだけでなく、グラフの形も変化することがわかります。
対数正規分布の期待値
次に、()式に従う確率変数の期待値について考えます。
例によって、サクサクと計算していきます。
とここまでは分子にあったが消えてくれていい感じに計算できますが、と置くとすこし様子が変わってきます。
がと変化するとはと変化することに注意しつつ計算を進め、()式のように変形します。
()式ののの部分は、以下のように変形できます(とは文字の形が似ていますが、めげずに計算します)。
()式を()式に代入すると及びは定数ですので…
になります。ここで()式の右辺の被積分関数に着目すると、平均で分散の正規分布を表していて、かつそれをの範囲で積分することになりますが、この計算結果は1になります。
よって、
となることがわかります。
なお、()式の及びは対数正規分布の平均値及び標準偏差を表すものではないことに注意が必要です。
対数正規分布の分散
次に、()式に従う確率変数の分散について考えます。
なお、と表すことができて、については前節で計算済みですので、を計算することに注力します。
は()式のように表すことができます。
前節の議論と同様に、とおいて、がと変化するとはと変化することに注意しつつ計算を進めます。
()式ののの部分は、以下のように変形できます(期待値を計算した際の計算と似たような感じの計算が続きます。)。
()式を()式に代入すると及びは定数ですので…
になります。ここで()式の右辺の被積分関数に着目すると、平均で分散の正規分布を表していて、かつそれをの範囲で積分することになりますが、この計算結果は1になります。
よって、
となることがわかります。
()式及び()式の結果より、は
と計算できます。
まとめ
()式は変換元の正規分布の式(()式)のを単純にで置き換えただけでなく、全体をで割ったものになることに注意が必要です。
本記事の最初に挙げた個人の年収の分布のように外れ値にも何らかの意味があると考えられる時には正規分布に無理に当てはめるよりは対数正規分布等の他の分布関数を当てはめた方が良い場合がありそうです。
確率変数の変数変換は計算がややこしかったり間違えやすい計算になることが多いので、ついでに復習することにしました。何かのご参考にしていただけると幸いです。
この記事は以上です。
References / 参考文献
- Wikipediaの対数正規分布のページ