《Mathematics for Machine Learning》基本信息与中文导读
一、基本信息
- 书名:《Mathematics for Machine Learning》(机器学习数学基础)
- 作者:Marc Peter Deisenroth、A. Aldo Faisal、Cheng Soon Ong
- 出版信息:2020 年由剑桥大学出版社出版,2024 年更新修订版(草案日期:2024-01-15)
- 核心定位:专为机器学习学习者打造的数学基础教材,填补高中数学与进阶机器学习教材之间的知识鸿沟,聚焦机器学习核心数学概念及实际应用关联
- 适用人群:本科学生、在线机器学习课程学习者、行业实践者,要求具备高中数学和物理基础(如导数、积分、二维 / 三维几何向量知识)
- 资源获取:个人可通过官网(https://mml-book.com)免费查看和下载,包含补充教程、勘误表等额外资源
二、中文目录
前言(Foreword)
第一部分 数学基础(Mathematical Foundations)
-
引言与动机(Introduction and Motivation)
- 1.1 为直觉寻找精准表述(Finding Words for Intuitions)
- 1.2 本书的两种阅读方式(Two Ways to Read This Book)
- 1.3 练习与反馈(Exercises and Feedback)
-
线性代数(Linear Algebra)
- 2.1 线性方程组(Systems of Linear Equations)
- 2.2 矩阵(Matrices)
- 2.3 线性方程组的求解(Solving Systems of Linear Equations)
- 2.4 向量空间(Vector Spaces)
- 2.5 线性无关(Linear Independence)
- 2.6 基与秩(Basis and Rank)
- 2.7 线性映射(Linear Mappings)
- 2.8 仿射空间(Affine Spaces)
- 2.9 延伸阅读(Further Reading)
- 练习(Exercises)
-
解析几何(Analytic Geometry)
- 3.1 范数(Norms)
- 3.2 内积(Inner Products)
- 3.3 长度与距离(Lengths and Distances)
- 3.4 角度与正交性(Angles and Orthogonality)
- 3.5 标准正交基(Orthonormal Basis)
- 3.6 正交补(Orthogonal Complement)
- 3.7 函数的内积(Inner Product of Functions)
- 3.8 正交投影(Orthogonal Projections)
- 3.9 旋转(Rotations)
- 3.10 延伸阅读(Further Reading)
- 练习(Exercises)
-
矩阵分解(Matrix Decompositions)
- 4.1 行列式与迹(Determinant and Trace)
- 4.2 特征值与特征向量(Eigenvalues and Eigenvectors)
- 4.3 乔列斯基分解(Cholesky Decomposition)
- 4.4 特征分解与对角化(Eigendecomposition and Diagonalization)
- 4.5 奇异值分解(Singular Value Decomposition)
- 4.6 矩阵逼近(Matrix Approximation)
- 4.7 矩阵系统发育(Matrix Phylogeny)
- 延伸阅读与练习(Further Reading Exercises)
-
向量微积分(Vector Calculus)
- 5.1 单变量函数的微分(Differentiation of Univariate Functions)
- 5.2 偏微分与梯度(Partial Differentiation and Gradients)
- 5.3 向量值函数的梯度(Gradients of Vector-Valued Functions)
- 5.4 矩阵的梯度(Gradients of Matrices)
- 5.5 计算梯度的实用恒等式(Useful Identities for Computing Gradients)
- 5.6 反向传播与自动微分(Backpropagation and Automatic Differentiation)
- 5.7 高阶导数(Higher-Order Derivatives)
- 5.8 线性化与多元泰勒级数(Linearization and Multivariate Taylor Series)
- 延伸阅读与练习(Further Reading Exercises)
-
概率与分布(Probability and Distributions)
- 6.1 概率空间的构造(Construction of a Probability Space)
- 6.2 离散与连续概率(Discrete and Continuous Probabilities)
- 6.3 加法规则、乘法规则与贝叶斯定理(Sum Rule, Product Rule, and Bayes’ Theorem)
- 6.4 汇总统计与独立性(Summary Statistics and Independence)
- 6.5 高斯分布(Gaussian Distribution)
- 6.6 共轭性与指数族(Conjugacy and the Exponential Family)
- 6.7 变量替换 / 逆变换(Change of Variables/Inverse Transform)
- 延伸阅读与练习(Further Reading Exercises)
-
优化(Optimization)
- 7.1 基于梯度下降的连续优化(Continuous Optimization Using Gradient Descent)
- 7.2 带约束的优化与拉格朗日乘数(Constrained Optimization and Lagrange Multipliers)
- 7.3 凸优化(Convex Optimization)
- 7.4 延伸阅读(Further Reading)
- 练习(Exercises)
第二部分 核心机器学习问题(Central Machine Learning Problems)
-
模型与数据的结合(When Models Meet Data)
- 8.1 数据、模型与学习(Data, Models, and Learning)
- 8.2 经验风险最小化(Empirical Risk Minimization)
- 8.3 参数估计(Parameter Estimation)
- 8.4 概率建模与推断(Probabilistic Modeling and Inference)
- 8.5 有向图模型(Directed Graphical Models)
- 8.6 模型选择(Model Selection)
-
线性回归(Linear Regression)
- 9.1 问题表述(Problem Formulation)
- 9.2 参数估计(Parameter Estimation)
- 9.3 贝叶斯线性回归(Bayesian Linear Regression)
- 9.4 最大似然作为正交投影(Maximum Likelihood as Orthogonal Projection)
- 9.5 延伸阅读(Further Reading)
-
基于主成分分析的降维(Dimensionality Reduction with Principal Component Analysis)
- 10.1 问题背景(Problem Setting)
- 10.2 最大方差视角(Maximum Variance Perspective)
- 10.3 投影视角(Projection Perspective)
- 10.4 特征向量计算与低秩逼近(Eigenvector Computation and Low-Rank Approximations)
- 10.5 高维数据中的 PCA(PCA in High Dimensions)
- 10.6 实际应用中 PCA 的关键步骤(Key Steps of PCA in Practice)
- 10.7 潜变量视角(Latent Variable Perspective)
- 10.8 延伸阅读(Further Reading)
-
基于高斯混合模型的密度估计(Density Estimation with Gaussian Mixture Models)
- 11.1 高斯混合模型(Gaussian Mixture Model)
- 11.2 基于最大似然的参数学习(Parameter Learning via Maximum Likelihood)
- 11.3 EM 算法(EM Algorithm)
- 11.4 潜变量视角(Latent-Variable Perspective)
- 11.5 延伸阅读(Further Reading)
-
支持向量机分类(Classification with Support Vector Machines)
- 12.1 分离超平面(Separating Hyperplanes)
- 12.2 原始支持向量机(Primal Support Vector Machine)
- 12.3 对偶支持向量机(Dual Support Vector Machine)
- 12.4 核函数(Kernels)
- 12.5 数值解法(Numerical Solution)
- 12.6 延伸阅读(Further Reading)
参考文献(References)
索引(Index)
三、内容概要
核心目标
本书并非传统机器学习算法教材,而是聚焦 “机器学习背后的数学基础”,通过将数学概念与机器学习核心问题紧密结合,帮助读者理解算法设计的底层逻辑、适用边界及局限性,为阅读进阶机器学习教材、设计新算法奠定基础。
第一部分:数学基础(核心支撑)
- 线性代数:机器学习的 “语言基础”,涵盖线性方程组、矩阵运算、向量空间、线性映射等核心内容,是数据表示(向量 / 矩阵)、模型参数存储与运算的核心工具。
- 解析几何:赋予线性代数几何意义,介绍范数、内积、正交性、投影等概念,为后续降维(PCA)、分类(SVM)中的距离计算、特征提取提供理论支撑。
- 矩阵分解:聚焦行列式、特征分解、奇异值分解(SVD)等关键分解技术,解决高维数据压缩、矩阵逼近、特征提取等实际问题,是 PCA、模型参数优化的核心数学工具。
- 向量微积分:重点讲解梯度、雅各比矩阵、海森矩阵、自动微分等,是模型优化(如梯度下降)、损失函数求导、反向传播的数学核心。
- 概率与分布:构建不确定性量化框架,涵盖概率规则、高斯分布、指数族等,为概率建模(如高斯混合模型)、贝叶斯推断、模型不确定性评估提供基础。
- 优化:介绍梯度下降、约束优化、凸优化等方法,是机器学习模型参数求解的核心手段,直接决定模型训练效率与效果。
第二部分:核心机器学习问题(实践应用)
通过四个代表性机器学习问题,展示第一部分数学知识的实际应用,形成 “数学基础→问题建模→求解思路” 的完整链条:
- 线性回归:最基础的回归问题,演示如何用线性代数(最小二乘)、概率(最大似然 / 贝叶斯推断)解决连续值预测问题。
- 主成分分析(PCA):经典降维算法,核心是利用线性代数中的正交投影、特征分解,在保留数据关键信息的前提下降低维度。
- 高斯混合模型(GMM):密度估计方法,通过概率分布建模数据生成过程,利用 EM 算法求解参数,体现概率建模与优化的结合。
- 支持向量机(SVM):经典分类算法,基于解析几何中的超平面、正交性、核函数,实现高维数据的高效分类。
阅读特点
- 支持两种阅读方式:“自下而上”(从基础数学到机器学习应用)和 “自上而下”(从实际问题反向学习所需数学)。
- 章节模块化设计,第一部分章节循序渐进,第二部分章节相对独立,可根据需求选择性阅读。
- 注重实操与反馈,提供笔纸练习(第一部分)和编程教程(第二部分),官网提供补充资源与错误反馈渠道。
注
以上为豆包生成内容
《机器学习乐团:从聆听者到作曲家》