情報理論
1 情報量
情報量はシャノン(shannon)が提唱した概念です。シャノンは重力や密度、長さ、速度といった物理量と同様に情報にも量があり、それが測れるものだと考えました。シャノンは不確実性を減少させるものを情報と考えました。ありふれたことが起こったことを知ってもたいした「情報」にならないが、珍しいことが起こるとそこには多くの情報が含まれていると考えました。
いつも遅刻している学生が遅刻した・・・聞いても驚かない⇒情報量は小さい |
遅刻したことのない学生が遅刻した・・・驚く⇒情報量は大きい |
このことを数学的に表現してみましょう。例えば事象aの発生確率(生起確率)がp(a)だとして、実際に事象aが発生したときに、これを知ることによって得られる情報量は
と定義したとすると、情報量は生起確率に反比例します。p(a)が大きい場合は、I(a)は小さく、p(a)が小さい時は、I(a)は大きくなります。しかし、100%起こることに関しては、情報量I(a)はゼロでなくてはならないのですが、上の定義式では、そうはいきません。どうしたらいいでしょうか?
ところで情報量に関しては、2行で書かれた情報は、1行で書かれた情報の2倍の情報量を持っていると考えるのが自然です。このことから、情報量には加法性があるとみてはどうでしょうか。AとBが独立の事象のとき、「AもBも起こる」という事象の情報量はAの情報量とBの情報量の和だと考えるのです。これは素直な考え方だと思います。例えばさいころの1の目が出たことを直接的に知らせる情報量をI0、奇数の目が出たことを知らせる情報量をI1、奇数の目が出たことを知ったうえでそれが1の目であることを知らせる情報量をI2とすると、I0、I1、I2の間には、次の関係(情報量の加法性)があると考えるのです。
発生確率に関して、p0 = p1×p2 を満足するp0、p1、p2について、情報量の加法性を満たす初等関数は対数関数だけです。従って、確率pの事象が生じたことを知らせる情報の量を I(p) = - log p のように対数関数で定義できるとしてはどうでしょうか?
それぞれの発生確率はp0 = 1/6、p1 = 1/2、p2 = 1/3ですので、I(1/2)+I(1/3) = log2 + log3 = log6 = I(1/6) となって、整合性が生まれます。そこで、1/p(a)の対数をとって、事象aの情報量とするのがいいだろうということになったのだと思います。1/p(a)の対数をとったものを事象aの自己情報量と定義します。
確率p(>0)で起こる事象aを観測したときに得られる自己情報量 = -logp(a) |
情報量の単位はどう考えたらいいでしょうか。I(a) = - log p において対数の底を2にとった場合は、情報量の単位はビット、10にとればデジット、自然対数の底e(=
2.71828...)にとれば、ナットということになります。発生確率1/28の事象の情報量は、-log2(1/28) = log228 = 8ビットとなります。一般的には底2の対数が利用されます。
確率p(>0)で起こる事象aを観測したときに得られる自己情報量 = -log2p(a) |
このように事象aの発生確率p(a)と、自己情報量I(a)の関係を定義する時、ある事象の発生確率が0~1まで分布するとき、その事象発生の自己情報量は次のようになります。
P |
I(ビット) |
0.00 |
∞ |
0.01 |
6.644 |
0.05 |
4.322 |
0.10 |
3.322 |
0.20 |
2.322 |
0.30 |
1.737 |
0.40 |
1.322 |
0.50 |
1.000 |
0.60 |
0.737 |
0.70 |
0.515 |
0.80 |
0.322 |
0.90 |
0.152 |
1.00 |
0.000 |
事象aが発生したときの自己情報量と、事象の発生確率の関係をグラフで表すと、次のようになります。
例1)確率1/256で起こる事象の自己情報量は次のようになります。
-log2(1/256) = log228 = 8(bit)
例2)トランプカードのハートのエースを引いた時の自己情報量は次のようになります。
トランプのエースを引く確率は1/13、ハートのエースを引く確率は1/52です。自己情報量は -log2(1/52) = log252 = log1052/log102 =1.716/0.301=5.701(bit)
自己情報量に関しては加法が成り立つことを利用すると次のようになります。ハートを引く事象をE1、トランプのエースを引く事象をE2、ハートのエースを引く事象をEとすると、I(E) = I(E1) + I(E2) = - log2(1/4) + (- log2(1/13)) = log222 + log213 = 2 + log1013/log102 = 2 + (1.114/0.301) = 2 + 3.701 = 5.701
2 平均情報量/エントロピー
以上の議論は、系の状態に関する具体的な知らせを得た場合の、その知らせのもたらす情報量(自己情報量)に関するものです。系が様々な確率で時々刻々異なる状態になることが分かっているとき、多数回の観測を行って得られるであろう1情報当たりの情報量を予め見積もることができます。これを自己情報量の期待値あるいは、平均情報量といいます。
ある事象系AをA = {a1、a2、...、an} として、これらn個の事象は互いに排反で、その発生確率p(ai)の総和を1とするとき、情報量I(ai)の期待値(平均情報量)H(a)は次のようになります。
平均情報量 = Σp(ai)I(ai) = - Σp(ai) log p(ai) |
熱力学には分子の無秩序さを表す「エントロピー(entropy)」という言葉がありますが、エントロピーを表す式は上の式と全く同じ形をしていますので、平均情報量を「エントロピー」ということもあります。
※熱力学における分子の無秩序さを表す尺度は次のように表されます。
H = - KΣnkloge nk
ここで、Kはボルツマン定数、nkは気体分子のk番目のエネルギー状態にある確率を表します。対数の底にはeが使われています。
例)ある都市のある日の天気予報が晴れる確率25%、曇りの確率25%、雨の確率50%、雪の確率0パーセントの時のエントロピーは次のようになります。
H = -(1/4)log2(1/4)-(1/4)log2(1/4)-(1/2)log2(1/2) - 0 = 2/4 + 2/4 + 1/2
- 0 = 1.5(ビット)
3 アナログとデジタル
アナログ(analog)とデジタル(digital)という言葉は最近よく使われる言葉ですが、どんな意味でしょうか。アナログとデジタルの違いは何かの「量」を表す情報の違いです。例えばアナログ時計は針の回転角度によって「量」を表します。従って、アナログ量とは「連続した量」のことです。これに対してデジタル時計は、10時15分26秒などのように飛び飛びの値で表します。26秒から27秒までの間は、ずっと10時15分26秒に表示が止まっています。そして、1秒経過すると突然10時15分27秒になります。秒までの表現だと、その間の時間は表現できないのです。
参考文献
数と計算の歩み 五十嵐善英・船田真理子・バーバラ神山 牧野書店
更新履歴
2016/11/28 作成 |