【読書メモ】情報理論(甘利, 1970)「§1:情報の数量的認識」

情報理論1 の読書メモ.著者は情報幾何(情報理論と微分幾何学とを併せた学問分野)の第一人者であるためか,さわりの情報量(§1)の説明が非常に明快で分かりやすい2.そのため以下に備忘を示す.

「§1.1:情報量とエントロピー」のメモ

  • 情報に共通な本質:「情報とはわれわれに何事かを教えてくれるものであり,われわれの不確実な知識を確実にしてくれるものである」(P.11 より)
  • 情報の量は,その情報をもらったことによって知識の不確実さがどのくらい減ったかで計ればよい(P.11 より)
  • 情報量の加法性:情報は直接さらけ出そうと,ちょびりちょびり出そうとその量は変わらない(P.13 より)
  • 情報の持つ情報量はエントロピー(平均情報量)の変化量から定義される(P.23 より)3
  • 統計力学におけるエントロピーは,微視的な状態がどうなっているかの分からなさの度合いを示すもの(P.44 より)

「§1.2:情報源」のメモ

  • 以下の式の証明はエントロピー展開を使ってすぐに証明できる(P. 53),とあるが自分は時間がかかったぞ(というよりそもそも正しいのか?)
$$ \lim_{n\to \infty} H(X \mid X^n) = \lim_{n\to \infty} \frac{H(X^n)}{n} := H_0$$

(証明)

$H(X^n)$ のエントロピー展開について,$H(X \mid X^n)$ が $n$ と共に単調減少であることに注意すると, $$H(X^n) = \sum_{k=0}^{n-1} H(X \mid X^k) \geq n H(X \mid X^n)$$

すなわち

$$H(X \mid X^n) \leq \frac{H(X^n)}{n}$$

を得る. また $m \geq n$ となる $m$ について

$$H(X^{m+n}) = \sum_{k=0}^{m+n-1} H(X \mid X^k) \leq n H(X \mid X^m) + H(X \mid X^n)$$

すなわち

$$\frac{H(X^{m+n})-H(X^{m})}{n} \leq H(X \mid X^n)$$

を得る. したがって

$$\frac{H(X^{m+n})-H(X^{m})}{n} \leq H(X \mid X^n) \leq \frac{H(X^n)}{n}$$

であり,定義より

$$\lim_{n\to \infty} \frac{H(X^n)}{n} := H_0$$

また,$m = n + l$ (ただし $l=0,1,2,\cdots$)とおけば,

$$\lim_{n\to \infty} \frac{H(X^{m+n})-H(X^{m})}{n} = \lim_{n\to \infty} \left[ \left(2+\frac{l}{n}\right)\frac{H(X^{2n+l})}{2n+l} - \left(1+\frac{l}{n}\right)\frac{H(X^{n+l})}{n+l}\right] = 2H_0 - H_0 = H_0$$

以上よりはさみうちの定理から

$$ \lim_{n\to \infty} H(X \mid X^n) = H_0$$

を得る. (証明終)

  • 情報源の冗長度 $r$(P.69 より):$N$ 個の文字を持つ情報源の1文字あたりのエントロピーを $H$ ビットとした場合に以下で表される量.無駄の割合に相当4. $$r = \frac{\log N - H}{\log N}$$

  • 雑談の記載(P.84):以下の内容は重要な普遍的発想であると考える.

初めから,現実に密着ばかりしていたのでは,有効な理論はつくれない.現実の中から,その現実の現象を中心となって支配する論理的な構造を理想化して抜き出し,そのような構造についての数学的な理論をつくり,それを現実に応用する.これこそが数理的な現実認識の方法である.

以上

  1. 甘利俊一, “情報理論,” ダイヤモンド社,1970.

  2. §2以降,同書は情報理論の基礎だけではなく,情報幾何の入門部分についても記載がある.しかし,それらの部分の理解は今後の課題になりそうである…

  3. 研究室配属された際にエントロピーの変化量を利用した信号検出のアイデアを使った記憶あり.当該書籍等きちんとサーベイしていればう〜んと唸る必要はなかったのかもしれない.

  4. ただし冗長さは「理解をよくするために絶対に必要」(P.70)であると記載があり,個人的にも賛同している.