Keyd's Personal Blog > tech > Про книгу Information Theory, Inference, and Learning Algorithms автора Sir David MacKay

Про книгу Information Theory, Inference, and Learning Algorithms автора Sir David MacKay

8 июня 2026 г.

TL;DR: Маккей написал эту книгу, чтобы показать: теория информации, байесовский вывод, сжатие данных, помехоустойчивое кодирование, машинное обучение и нейросети — не разные “курсы”, а один язык. Его главный тезис: информация — это вероятность, превращённая в биты; обучение — это вывод; хороший вывод — это хорошее сжатие; декодирование сообщения — это тоже вывод; а сложные вычисления часто можно делать локальной передачей сообщений.

1. Что это за книга на самом деле

Information Theory, Inference, and Learning Algorithms — не просто учебник по формальным теоремам Шеннона. Это книга о том, как думать о неопределённости, данных, моделях, кодах и обучении как о частях одной системы.

Дэвид Маккей был не кабинетным автором учебника, а исследователем, который сам работал на стыке машинного обучения, эффективной коммуникации, нейросетей и инженерии; Royal Society описывает его вклад как охватывающий machine learning, efficient communication и sustainable energy, а Кембридж отдельно отмечает его фундаментальные работы по байесовским методам для искусственных нейронных сетей. (Royal Society)

В предисловии Маккей прямо объясняет замысел: обычные курсы по теории информации дают идеи Шеннона и коммуникационные приложения, а он хочет пойти дальше — включить байесовское моделирование данных, Монте‑Карло, вариационные методы, кластеризацию и нейросети. Его ответ на вопрос “зачем объединять теорию информации и машинное обучение?”: потому что это “две стороны одной монеты”; мозги он рассматривает как предельные системы сжатия и коммуникации, а современные алгоритмы кодирования и машинного обучения используют одни и те же инструменты.

2. Центральная идея: всё начинается с вероятности

Для Маккея вероятность — не декоративная статистика, а основной язык разумного мышления в условиях неопределённости.

Когда мы видим данные, мы не просто “подгоняем кривую”. Мы задаём вопрос: какая скрытая причина, модель, сообщение, кодовое слово или параметр могли породить это наблюдение? Это и есть inference — вывод в обратную сторону от наблюдений к причинам.

Байесовская формула в книге играет роль не технического трюка, а философского ядра:

Posterior ∝ Likelihood × Prior

То есть: после данных наше мнение о гипотезе должно быть пропорционально тому, насколько хорошо гипотеза предсказывает данные, умноженному на то, насколько правдоподобной она была до наблюдения. В главе о сравнении моделей Маккей подчёркивает, что модель задаётся не только формой, но и prior distribution по параметрам и conditional distributions, которые определяют, какие данные модель ожидает увидеть. (Internet Archive)

Отсюда одна из его самых важных мыслей: невозможно делать вывод без предположений. Если ты утверждаешь, что “просто смотришь на данные”, ты всё равно используешь предположения — только часто неявные. Маккей хочет, чтобы читатель сделал эти предположения явными.

3. Информация — это неожиданность, измеренная в битах

Обыденное слово “информация” часто означает “смысл”. У Маккея оно означает нечто более точное: насколько событие было неожиданным при данной вероятностной модели.

Если событие имеет вероятность P(x), то его информационное содержание примерно равно:

h(x) = log₂(1 / P(x))

Редкое событие несёт больше битов, потому что его труднее угадать и длиннее описать. Частое событие несёт меньше битов, потому что его можно кодировать коротко.

Энтропия — это средняя неожиданность, или средняя длина оптимального описания исхода. Маккей подводит к этой идее через игры угадывания, коды и примеры вроде “20 вопросов”: если нужно выбрать один из 64 равновероятных вариантов, шесть yes/no-вопросов достаточно, потому что 2⁶ = 64; это и есть шесть бит информации. (Internet Archive)

Главный инсайт: бит — это не просто единица компьютерной памяти; это единица различения возможностей.

4. Сжатие данных и моделирование — одно и то же

Один из самых глубоких тезисов книги: сжатие данных и моделирование данных — это один и тот же процесс.

Чтобы хорошо сжать файл, нужно предсказывать, какие символы вероятнее появятся дальше. А чтобы хорошо предсказывать, нужно иметь модель источника данных. Поэтому компрессор фактически является вероятностной моделью, а хорошая модель автоматически даёт хороший код.

Маккей прямо формулирует это как тему книги: data compression и data modelling должны рассматриваться вместе через inverse probability, то есть через байесовский вывод. (Internet Archive)

Это меняет взгляд на машинное обучение. Модель не просто “имеет accuracy”. Она распределяет вероятность по возможным данным. Если она присваивает реальным данным высокую вероятность, она хорошо их объясняет и хорошо их сжимает. Если она присваивает им низкую вероятность, то даже при красивой архитектуре она плохая.

Отсюда практический принцип:

хорошее обучение = хорошее вероятностное предсказание = короткое описание данных.

5. Теорема о кодировании источника: энтропия — предел сжатия

В части о data compression Маккей ведёт читателя к теореме Шеннона о кодировании источника. Её смысл прост, но фундаментален: если источник порождает независимые одинаково распределённые символы с энтропией H(X), то длинные сообщения можно сжать примерно до N H(X) бит без потерь; если пытаться сжать существенно ниже этого предела, информация почти наверняка потеряется. (Internet Archive)

Это одна из тех идей, ради которых стоит читать книгу: энтропия — не метафора хаоса, а рабочая граница возможного сжатия.

Маккей особенно хорош тем, что не оставляет теорему абстрактной. Он связывает её с реальными кодами: symbol codes, stream codes, arithmetic coding, codes for integers. То есть сначала показывает предел, а потом показывает, как к нему приближаться.

6. Шумный канал: надёжность возможна не вопреки шуму, а благодаря кодированию

Вторая великая шенноновская идея — noisy-channel coding theorem. Её смысл: даже через шумный канал можно передавать информацию с произвольно малой вероятностью ошибки, если скорость передачи ниже capacity канала. Маккей подчёркивает два аспекта: выше capacity надёжная коммуникация невозможна, но до capacity она возможна. (Internet Archive)

Это контринтуитивно. Обычный инженерный рефлекс: если канал шумный, надо либо снизить скорость почти до нуля, либо смириться с ошибками. Шеннон показал: нет, существует резкая информационная граница. Можно добавлять избыточность умно, а не тупо.

Отсюда главный инсайт:

надёжность — это не отсутствие шума; надёжность — это правильная структура избыточности.

Именно поэтому Маккей так много говорит об error-correcting codes: Hamming codes, linear codes, parity checks, syndromes, LDPC, turbo codes, fountain codes. Для него код — это не просто инженерная техника, а пример того, как глобальный смысл можно восстановить из локальных ограничений.

7. Декодирование — это байесовский вывод

Одна из лучших “склеек” книги: когда получатель видит искажённое сообщение, он решает inference-задачу.

Было скрытое сообщение x. Канал породил наблюдение y. Нужно найти вероятное x при данном y.

Это та же логика, что в машинном обучении:

скрытые параметры модели → наблюдаемые данные;
скрытый кластер → наблюдаемые точки;
скрытый сигнал → шумное измерение;
скрытое кодовое слово → полученная последовательность битов.

Так теория связи и машинное обучение становятся одной дисциплиной: везде есть скрытые переменные, наблюдения, likelihood и posterior.

8. Message passing: сложные глобальные задачи решаются локальными сообщениями

Глава о message passing — один из мостов между кодированием, графическими моделями и машинным обучением. Маккей формулирует тему так: сложные вычисления можно делать простыми распределёнными устройствами, где локальные процессоры передают простые сообщения, а итогом становится решение глобальной задачи. (Internet Archive)

Это фундаментально. В фактор-графах, trellis-моделях, LDPC-кодах, hidden Markov models, belief propagation, sum-product algorithm — везде одна и та же идея:

не нужно держать всю задачу в голове централизованно; если структура факторизуется, можно передавать локальные вероятностные сообщения.

Этот подход объясняет, почему некоторые огромные задачи оказываются вычислимыми. Не потому, что мы “перебрали всё”, а потому, что использовали структуру зависимостей.

9. Главный враг inference — комбинаторный взрыв

Маккей постоянно подчёркивает: байесовский вывод в принципе говорит, что надо суммировать или интегрировать по всем скрытым возможностям. Но прямой перебор быстро становится невозможным.

В книге прямо говорится, что экспоненциальный рост вычислений с размером модели делает complete enumeration редко осуществимой стратегией. (Internet Archive)

Отсюда рождается весь арсенал learning algorithms:

exact marginalization, когда структура позволяет;
trellises и dynamic programming;
belief propagation и message passing;
Laplace approximation;
Monte Carlo methods;
efficient Monte Carlo;
variational methods;
mean-field approximations;
graphical models;
latent variable models.

Здесь Маккей даёт важную интеллектуальную дисциплину: алгоритм — это не магия, а способ приблизить или упростить правильную вероятностную сумму.

10. Occam’s razor у Маккея — не моральный принцип, а математика evidence

Один из самых ценных разделов книги — model comparison and Occam’s razor.

Наивный подход говорит: выберем модель, которая лучше всего подходит к данным. Маккей показывает, что так мы неизбежно придём к переусложнённым моделям: сложная модель почти всегда может подогнать данные лучше. Поэтому нужен баланс между fit и complexity. (Internet Archive)

Байесовский ответ — evidence:

P(D | H)

Это вероятность данных при модели, с учётом всех возможных параметров, взвешенных prior’ом. Не лучший параметр, а вся масса вероятности.

Occam factor у Маккея — это отношение “объёма” параметрического пространства, оставшегося правдоподобным после данных, к исходному доступному объёму. Сложные модели обычно штрафуются сильнее, потому что они распыляют вероятность по большому пространству возможностей. (Internet Archive)

Инсайт:

простая модель выигрывает не потому, что мы заранее любим простоту, а потому что она делает более концентрированные предсказания.

Сложная модель должна “заработать” свою сложность. Если она объясняет данные лишь после тонкой настройки параметров, evidence может быть низкой. Если же сложность действительно нужна, она победит.

11. Learning as inference: нейросеть — это вероятностная модель

Маккей не рассматривает нейросеть просто как чёрный ящик с весами. Он переводит обучение нейросети на язык вероятностей.

Обычная функция ошибки становится negative log likelihood: она задаёт модель шума. Регуляризация, например weight decay, становится log prior по весам. А обучение весов становится выводом posterior distribution по параметрам. (Internet Archive)

Это одна из самых современных по духу идей книги, несмотря на то что она была написана до эпохи нынешних больших нейросетевых архитектур.

Маккей хочет, чтобы читатель увидел:

регуляризация — это не хак; это prior. Ошибка — это не просто loss; это предположение о шуме. Обучение — это не просто optimization; это inference.

Отсюда меняется смысл overfitting. Переобучение — это не только “слишком много параметров”. Это ситуация, где модель объясняет тренировочные данные способом, который имеет плохую полную вероятностную цену: она подгоняет шум, требует тонкой настройки и плохо распределяет вероятность на будущие данные.

12. Maximum likelihood полезен, но недостаточен

Маккей уважает maximum likelihood как инструмент, но показывает его ограничения.

Maximum likelihood спрашивает: “при каких параметрах эти данные наиболее вероятны?” Bayesian inference спрашивает больше: “каково распределение по параметрам после данных?” Bayesian model comparison спрашивает ещё больше: “какая модель в целом лучше предсказывает данные, с учётом prior и всей неопределённости?”

Это критично. Точка максимума может быть обманчива. В реальном выводе важна не только вершина горы, но и ширина области, где модель остаётся правдоподобной.

Поэтому Маккей возвращает читателя от “найди лучший параметр” к “учти всю posterior distribution”.

13. Maximum entropy — интересный инструмент, но не универсальная философия

Маккей аккуратно, но довольно резко ограничивает роль maximum entropy. Он признаёт, что maximum entropy даёт правило выбора распределения при известных constraints, но не считает его правильным универсальным методом назначения prior’ов или решения inference-задач. В книге он прямо противопоставляет этому байесовский вывод: inference-задачи следует решать через Bayes’ theorem. (Internet Archive)

Это важный методологический урок: энтропия — мощная величина, но не заменитель модели.

Маккей не хочет, чтобы читатель поклонялся формуле. Он хочет, чтобы читатель задавал правильный вопрос: какая вероятностная модель порождает данные и какие предположения я в неё вложил?

14. Частотная статистика у Маккея — объект критики

Книга не скрывает байесовскую позицию автора. Маккей критикует p-values, confidence intervals и stopping rules не потому, что они “старые”, а потому что часто отвечают не на тот вопрос, который реально интересует исследователя.

Он показывает, что sampling theory может объявлять результат “значимым” или “незначимым” в зависимости от деталей дизайна эксперимента, которые не должны менять то, что мы узнали из уже наблюдённых данных. В обсуждении Bayesian inference vs sampling theory он приходит к мысли, что людям обычно нужна posterior probability distribution, а Bayesian methods прямо используют всю информацию в данных. (Internet Archive)

Смысл не в том, что “все p-values плохие”. Смысл глубже:

хорошо поставленный inference-вопрос должен говорить о вероятности гипотез после данных, а не о вероятности воображаемых данных при одной выбранной null-гипотезе.

15. Кодирование, графы и нейросети сходятся в sparse graph codes

Финальная часть книги посвящена sparse graph codes: LDPC, convolutional and turbo codes, repeat-accumulate codes, digital fountain codes. Содержание книги явно выделяет эти темы в отдельную часть после нейросетей и inference-разделов.

Почему это важно? Потому что sparse graph codes — это место, где всё сходится:

есть вероятностная модель канала;
есть скрытое исходное сообщение;
есть наблюдаемые шумные биты;
есть граф локальных ограничений;
есть message passing / belief propagation;
есть практическая инженерная задача — надёжная передача данных.

Маккей показывает, что передовые коды — это не отдельная инженерная хитрость, а частный случай общего вывода на графах. В главе по LDPC он обсуждает sum-product decoding и практический дизайн таких кодов; к моменту текста они уже рассматривались для применений от hard drives до satellite communications. (Internet Archive)

16. Почему в книге есть кроссворды, кодбрейкинг, эволюция и секс

На первый взгляд такие главы выглядят эксцентрично. Но у Маккея они не случайны.

Кроссворды и codebreaking показывают inference под ограничениями: есть частичные наблюдения, вероятностные языковые модели, структура, скрытое решение.

Эволюция и sex показывают information acquisition: популяции исследуют пространство генотипов, комбинируют информацию, передают признаки, обновляют распределения.

Эти “интерлюдии” демонстрируют главный авторский жест: теория информации — это не узкая теория телефонных линий; это теория различения, передачи, обновления и использования возможностей. Google Books также описывает книгу как соединяющую theory and applications и отмечает такие интерлюдии как часть стиля изложения. (Google Books)

17. Как устроена вся архитектура книги

Если сжать книгу до карты, она выглядит так:

Сначала Маккей даёт базовый язык: probability, entropy, inference. Затем показывает, что entropy задаёт пределы data compression. Потом переходит к noisy-channel coding: как передавать данные через шум и почему capacity — фундаментальная граница. Затем расширяет теорию информации через hash codes, binary codes, constrained channels, message passing и нестандартные примеры. После этого он строит большой блок probabilistic inference: clustering, marginalization, Monte Carlo, variational methods, decision theory, Bayesian model comparison. Затем показывает neural networks как learning-as-inference. И наконец связывает всё с sparse graph codes, где message passing становится реальным рабочим инструментом современных кодов. Структура с этими частями видна в оглавлении Cambridge frontmatter.

То есть путь книги такой:

биты → вероятность → сжатие → шумный канал → коды → графы → вывод → обучение → нейросети → современные коды.

18. Самые важные инсайты, ради которых книга написана

Первый: информация — это не вещество, а логарифм вероятности. Чтобы измерять информацию, нужно иметь модель вероятностей.

Второй: энтропия — это предел сжатия. Она говорит, сколько бит в среднем нужно, чтобы назвать исходы источника.

Третий: сжатие и предсказание неразделимы. Хорошо сжать данные можно только хорошо предсказывая их структуру.

Четвёртый: байесовский вывод — единая логика обратных задач. Декодирование сообщения, оценка параметров, кластеризация, распознавание, обучение нейросети — всё это posterior inference.

Пятый: шум не уничтожает надёжную коммуникацию, если скорость ниже capacity и код устроен правильно.

Шестой: сложность модели должна оплачиваться evidence. Байесовский Occam factor автоматически штрафует модели, которые дают себе слишком много свободы.

Седьмой: локальные сообщения могут решать глобальные задачи. Message passing — это не только алгоритм, а принцип вычислений в структурированных вероятностных системах.

Восьмой: оптимизация — лишь тень inference. Минимизация loss часто соответствует максимуму posterior, но полная история включает uncertainty, priors, evidence и model comparison.

Девятый: модель всегда содержит предположения. Нельзя “просто извлечь знание из данных” без prior, likelihood, выбора гипотезного пространства и вычислительного метода.

Десятый: хорошее мышление о данных должно быть generative. Нужно спрашивать не только “какой ответ?”, а “какой процесс мог породить эти наблюдения?”.

19. Что особенно ценно для современного читателя

Эта книга не является справочником по современным transformer-архитектурам или нынешнему deep learning tooling. Её ценность глубже: она даёт язык, без которого современные методы часто воспринимаются как набор рецептов.

После Маккея начинаешь видеть:

cross-entropy loss как кодовую длину;
regularization как prior;
variational inference как приближение posterior;
belief propagation как локальный inference;
autoencoding и compression как probabilistic modelling;
overfitting как провал model evidence;
decoding как inference;
uncertainty как часть ответа, а не дефект модели.

Именно поэтому книга пережила своё время: она учит не конкретной моде, а тому, как соединять информацию, вероятность и обучение в одну картину. Кембриджский некролог называет её “instant classic” и отмечает, что она оставалась широко читаемой; также подчёркивается, что Маккей рано верил в открытый доступ, и книга была доступна бесплатно на его сайте. (eng.cam.ac.uk)

20. Одним предложением

Маккей написал Information Theory, Inference, and Learning Algorithms, чтобы читатель увидел: когда мы сжимаем данные, передаём сообщение через шум, исправляем ошибки, подбираем модель, обучаем нейросеть или принимаем решение, мы делаем разные версии одного и того же — вероятностного вывода о скрытой структуре мира по ограниченным наблюдениям.