代码细节

some code staff

二元函数的偏导数、方向导数、梯度

2024-10-07

·

admin
梯度下降法（或者其改进算法）是机器学习的基础算法之一。在了解梯度下降算法的过程中，会经常看到一句话：“梯度是函数在某一点变化率最大的方向”。本文从较为严格数学证明的角度说明为什么是这样。理解这个证明过程，可以很好的理解梯度下降算法，及其优化算法或者优化方向。

本文主要考虑二元函数场景，即$ z=f(x,y) $。原因是一元函数场景过于简单，不具有代表性，另外，二元场景向多元场景推广也还比较好理解。

目录
1 偏导数
2 梯度向量
3 方向导数
4 直观理解方向导数
5 方向导数的计算与证明
6 关于上述证明
7 向量形式化表达
8 多维场景扩展
9 说明：直觉
10 所以，最后

偏导数

偏导数的定义比较好理解，即固定一个变量（当做常数），对另一个变量求导，记作：

$$ \frac{\partial z}{\partial x} \; , \; \frac{\partial z}{\partial y} $$

梯度向量

由各个偏导数组成的向量，就叫梯度向量，通常记作：$ \nabla $，有：

$$ \nabla f = (\frac{\partial z}{\partial x} , \frac{\partial z}{\partial y} ) $$

多元/多维场景，则常记作：

$$ \nabla f = (\frac{\partial f}{\partial x_1} , \frac{\partial f}{\partial x_2} … , \frac{\partial f}{\partial x_n} ) $$

方向导数

多元函数没有简单的“导数”的概念。但为了研究多元函数在某点的变化率，我们可以考虑“方向导数”。

具体的，考虑函数 $ z = f(x,y) $，该函数定义域为$ \mathbb{R}^2 $，其方向向量是 $$ \{ u,v | u^2 +v^2 = 1 \} $$，取其中的一个方向 $ l = (u_0,v_0) $，并假设该方向与$ x $轴正方向夹角为$ \theta $。

那么，函数$ z = f(x,y) $在点$ (x_0,y_0) $处，在方向 $ l = (u_0,v_0) $的导数记作

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} $$

直观理解方向导数

图1是一个非常清晰的关于方向导数的图例。绿色曲面即为 $ z = f(x,y) $，在点$ A^\prime $上考虑方向为$ \vec{h}$的方向导数。过点$ A^\prime $与方向$ \vec{h}$，与$ z $轴平行，存在一个平面，即图1中的半透明的平面，该平面与 $ z = f(x,y) $相交与一条曲线，即图1中的黄色曲线。

那么，该方向导数，即为在该黄色曲线上，$ A^\prime $位置的导数。这就是关于方向导数的直观理解。

所以，偏导数$ \frac{\partial z}{\partial x} \; , \; \frac{\partial z}{\partial y} $可以理解为在$ (1,0) $和$ (0,1) $这两个方向上的方向导数。

图1：来自Wikipedia: Directional derivative

与一般的导数定义类似的，可以定义方向导数：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \lim\limits_{P \to P_0} = \frac{f(P) – f(P_0)}{||P-P_0||} = \lim\limits_{\rho \to 0} \frac{\Delta z}{ \rho } $$

图2：$ P $ 点在$ (u,v) $方向逼近$ P_0 $

可以到如下结论（详细证明参考后续小节“方向导数的计算与证明”），如果方向$ l = (u_0,v_0) $与 $ x $轴的夹角是$ \theta $，那么$ z = f(x,y) $在点$ (x_0,y_0) $处，在方向 $ l = (u_0,v_0) $的导数取值如下：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} cos(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} sin(\theta) \tag{1} $$

根据柯西不等式，我们有如下结论：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} cos(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} sin(\theta)
\\
\le \sqrt{ ((\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2)(sin^2(\theta)+cos^2(\theta)) }
\\
= \sqrt{ (\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2 }
$$

上面表示的极值 $ \sqrt{ (\frac{\partial z}{\partial x} |_{(x_0,y_0)})^2 + (\frac{\partial z}{\partial y} |_{(x_0,y_0)})^2 } $ 正是偏导数向量的“范数”（长度），根据柯西不等式取最大值的条件也有：

$$
\frac{cos(\theta)}{\frac{\partial z}{\partial x}} = \frac{sin(\theta)}{\frac{\partial z}{\partial y}}
\\
tan(\theta) = \frac{\frac{\partial z}{\partial y} } { \frac{\partial z}{\partial x} } = \frac{\Delta y}{\Delta x}
$$

所以，即，即当方向恰好为偏导数向量时，方向导数取最大值。也就是，我们经常会说的，会看到的，“偏导数向量是所有方向中最为陡峭的方向”或者说“梯度是函数在某一点变化率最大的方向”。

方向导数的计算与证明

在前面，我们是直接给出了如下的结论的：

$$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \frac{\partial z}{\partial x} |_{(x_0,y_0)} sin(\theta) + \frac{\partial z}{\partial y} |_{(x_0,y_0)} cos(\theta)$$

这个结论的获得，是需要有一些比较复杂的计算或者说证明的。这里，其主要证明步骤/方法之一，如下：

$ \frac{\partial z}{\partial l} |_{(x_0,y_0)} = \lim\limits_{P->P_0}\frac{f(P)-f(P_0)}{|P-P_0|} = \lim\limits_{P->P_0}\frac{f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
$

由拉格朗日中值定理：存在$ \alpha \; \beta $，使得下式成立，且 $ 0 \le \alpha \le 1 \; and \; 0 \le \beta \le 1 $：

$
f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)
\\
= [f(x_0+\Delta{x},y_0+\Delta{y}) – f(x_0,y_0+\Delta{y})] + [f(x_0,y_0+\Delta{y}) -f(x_0,y_0)]
\\
= f_x'(x_0 + \alpha\Delta{x} ,y_0+\Delta{y})\Delta{x} + f_y'(x_0, y_0 + \beta\Delta{y} )\Delta{y}
$

容易有，这几个条件是等价的： $ P \to P_0 $、$ \Delta{x} \to 0 \, and \, \Delta{y} \to 0 $ 、$ \sqrt{\Delta{x}^2+\Delta{y}^2} \to 0 $

考虑$ \frac{\partial z}{\partial x} $在$ (x_0,y_0)$处连续（这是一个条件），则有： $$ \lim\limits_{\Delta{x} \to 0 \\ \Delta {y} \to 0 }f_x'(x_0 + \alpha\Delta{x} ,y_0+\Delta{y}) = f_x'(x_0,y_0) $$

故：

$$
\begin{align}
\frac{\partial z}{\partial l} |_{(x_0,y_0)} & = \lim\limits_{P->P_0}\frac{f(P)-f(P_0)}{|P-P_0|}
\\
& = \lim\limits_{P->P_0}\frac{f(x_0+\Delta{x},y_0+\Delta{y})-f(x_0,y_0)}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
& =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x} + f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
& =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} + \frac{f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\end{align}
$$

根据上面的图2，容易有：

$$
\frac{\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} = cos(\theta) \quad \frac{\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} = sin(\theta)
$$

所以：

$ =\lim\limits_{P->P_0}\frac{f_x'(x_0+\alpha\Delta{x},y_0+\Delta{y})\Delta{x}}{\sqrt{\Delta{x}^2+\Delta{y}^2}} + \frac{f_y'(x_0,y_0+\Delta{y})\Delta{y}}{\sqrt{\Delta{x}^2+\Delta{y}^2}}
\\
=f_x'(x_0,y_0)cos(\theta) + f_y'(x_0,y_0)sin(\theta)
\\
$

好了，这就证明完成了。

关于上述证明

上述证明，在一般的《数学分析》教程的“多元函数微分”相关章节都会有，或者会有类似的问题证明。过程还是比较巧妙的，先是“无中生有”新增了一个项（$ f(x_0,y_0+\Delta{y}) $），分别构造了关于 $ x $和$ y $的偏导数，然后使用了“中值定理”，将差值变成，导数和微分变量的积（准确的说，还要加上一个关于$ \rho $的高阶无穷小）。

向量形式化表达

使用向量形式化表达，看起来会简洁很多。对于方向向量（这也是一个单位向量） $ \mathbf{l} = (u,v)$，函数$ f $的偏导数向量记为$ \nabla f = (\frac{\partial z}{\partial x} , \frac{\partial z}{\partial y} ) $ ，那么方向导数为 $ D_{\mathbf{l}}f(P_0) = \nabla f \cdot \mathbf{l} $ ，这与上面表达式的意义是相同的。

根据点击的性质，我们有：

$ D_{\mathbf{l}}f(P_0) = \nabla f \cdot \mathbf{l} = ||\nabla f|| ||\mathbf{l} || cos\theta = ||\nabla f|| cos\theta $

从这里，更容易看出，方向向量与梯度向量相同时，方向导数取最大值，最大值即为梯度向量的模。

多维场景扩展

在很多的材料中，在前面的表达式中，经常会看到的是 $ cos(\alpha) \; cos(\beta) $，而不是本文中的 $ sin(\theta) \; cos(\theta) $。这里的 $ \alpha $是方向向量与x轴正方向的夹角， $ \beta $是方向向量与y轴正方向的夹角；在定义域 $ \mathbb{R}^2 $上有：$ \alpha + \beta = 90^{\circ} $，即有 $ cos^2\alpha + cos^2\beta = 1 $。

这种写法有着更好的扩展性，当在更多元的情况下，例如三元场景下，即 $ z = f(x_1,x_2,x_3) $，方向向量与 x，y，z轴的夹角分别是：$ \alpha \; \beta \; \gamma $，则有： $ cos^2\alpha + cos^2\beta + cos^2 \gamma = 1 $。

任意维度，也有类似的结论，并且应用柯西不等式时，上述结论也是类似的。

说明：直觉

本文内容需要或者可以建立如下的“直觉”：

在一维空间（即$ \mathbb{R}$上的函数，在某一点上的一阶导数的符号（正/负），可以代表在该方向上，函数的趋势是增长还是下降，“正号”，则是增长；“负号”，则是下降。

在一维空间（即$ \mathbb{R}$上的函数，在某一点上的一阶导数的绝对值大小，即为其“陡峭程度”（更多的时候理解为，变化率大小）

上述两个结论，基本上认为是显然的。下面扩展到多维场景，也几乎是显然的：

在高维空间/多维变量（即$ \mathbb{R}^n$时，在某一点的任意方向上，都有导数，称为方向导数，该方向导数的符号（正/负），可以代表在该方向上，函数的趋势是增长还是下降，“正号”，则是增长；“负号”，则是下降。

在高维空间/多维变量（即$ \mathbb{R}^n$时，在某一点的任意方向上，都有导数，该导数的绝对值大小，即为其“陡峭程度”（更多的时候理解为，变化率大小）

更进一步的，也就是本文中的一个结论：高维空间/多维变量（即$ \mathbb{R}^n$时，函数的所有的方向导数，在偏导数向量方向上，取值最大，即是最为“陡峭”的方向。

所以，最后

所以，这就是为什么梯度下降算法中，总是倾向于选择偏导数向量方向进行下一次迭代。

在本科毕业后，最后留了几本书：《数学分析》（上下册）、概率论，一直到研究生毕业、再到工作都一直带着，还从北京邮寄到了杭州。本想只是做个纪念的，没想到竟然还能用上…
十年磨一剑，阿里巴巴企业级数据管理平台：iDB

2017-09-04

·

admin

本文前段时间写的介绍云端企业数据管理产品DMS的“软”文，文章首发在阿里巴巴数据技术公众号，扫描下面的二维码关注：

摘要：在安全稳定的前提下，为了解决DBA的服务效率问题，十年前我们开始iDB的研发，完成手工变更的在线化，成为了DBA能力产品化的载体。在最新的4.0版本中，iDB面向云时代，是业界首创的数据库devops解决方案，形成了云时代企业数据管理的最佳实践。

一、为了效率与安全而生

在阿里巴巴，数据库团队是数据的守护者，保障着数据库的安全、稳定、高效的运行。在早期，DBA除了负责数据库的基础运维，对于研发流程中的数据库变更也都由DBA负责，包括线上库表设计、结构变更发布、数据变更、SQL审核、性能优化、容量评估等等。这种精细的业务支持方式，企业早期发展中，可以有效的保障数据库的稳定与安全，支撑业务的快速发展。

业务持续增长，很快我们遇到了两个问题：(1) DBA繁重的工作量可能会成为业务研发瓶颈；(2) 大量的重复工作会限制DBA的成长。企业快速发展中，会不断的有新业务上线，成熟的业务也会快速迭代创新，伴随会有大量的数据库相关的变更和服务，如果所有这些都由DBA来处理，那么业务繁多DBA可能成为瓶颈，另外，DBA也会陷入各种“做不完”的日常工作，很难进一步成长。

既要有DBA的安全把控能力，又希望高效支撑大量业务的发展，阿里数据库团队研发了自己的企业数据库管理平台：iDB。企业内部的研发、测试等人员，可以使用iDB完成大部分数据库相关的操作，包括数据查询、数据变更、结构变更、实例申请等等。另外，iDB产品中还继承了大量DBA的经验，比如判断哪些DDL会锁表、InnoDB表结构设计是需要主要哪些问题等等。 (more…)
index merge的补充说明

2013-03-13

·

orczhou
在除了前面介绍的常见index merge的案例(Index Merge Union Access Algorithm)之外，还有一类很少见也比较特殊的index merge，多个索引扫描后进行交集，即 Index Merge Intersection。这类执行计划比较少见(因为MySQL需要ROR的原因)，但是，在合适的场景使用，效率仍然会有很大的提示，本文将看看MySQL优化器如何评估和选择此类执行计划。MySQL手册对此只是三言两语简单介绍了一下，这里做个较为详细的说明。

这类执行计划完整名称应该是：The Index Merge Intersection Access Algorithm，下文简称Intersection。

1. 为什么需要考虑Intersection

考虑如下查询:

SELECT COUNT(*) FROM t1 WHERE key1=1 AND key2=1;

优化器可以考虑使用索引key1或者key2进行REF/Range访问，如果使用key1，那么key2=1则作为过滤条件。另外，优化器还会考虑使用Intersection，即同时使用索引key1和key2。这样做可能的好处是：

(a) 如果两次索引扫描后做交集，如果最后ROWID很少，则回表次数大大减少

(b) 如果扫描这两个索引能是覆盖扫描的话，则无需回表 (more…)
MySQL优化器：index merge介绍

2013-01-29

·

orczhou

在MySQL官方手册上，关于index merge的介绍非常非常少。甚至还有不少误导的地方，这次把5.1版本关于此类优化处理的代码细看了一遍，以案例的方式介绍了各种实用index merge访问类型的SQL。后续的还会继续介绍index merge实现的主要数据结构，以及成本评估。

1. 什么是index merge

MySQL优化器如果发现可以使用多个索引查找后的交集/并集定位数据，那么MySQL优化器就会尝试index merge这类访问方式。index merge主要分为两大类，多个索引交集访问(intersections)，多个索引并集访问，当然这两类还可以组合出更为复杂的方式，例如多个交集后做并集。

1.1 index merge的限制：range优先

MySQL在5.6.7之前，使用index merge有一个重要的前提条件：没有range可以使用。这个限制降低了MySQL index merge可以使用的场景。理想状态是同时评估成本后然后做出选择。因为这个限制，就有了下面这个已知的bad case(参考)：

SELECT * FROM t1 WHERE (goodkey1 < 10 OR goodkey2 < 20) AND badkey < 30;

优化器可以选择使用goodkey1和goodkey2做index merge，也可以使用badkey做range。因为上面的原则，无论goodkey1和goodkey2的选择度如何，MySQL都只会考虑range，而不会使用index merge的访问方式。这是一个悲剧…（5.6.7版本针对此有修复) (more…)
MySQL源码：索引相关的数据结构(后篇)

2012-11-23

·

orczhou

前篇介绍了MySQL存储索引信息的基本数据结构。本篇将延续下去，介绍MySQL如何找到可以使用的索引，以及期间需要使用的主要数据结构。

谁适合阅读: 本文不打算从High Level来介绍MySQL索引及其使用，相反是从MySQL源码对应的数据结构开始介绍。如果你了解MySQL索引的基本原理，还打算继续从源码的角度解决一些索引使用的问题，那么你适合参考本文，否则，打住，真的很枯燥:(。在可见的未来，作者还将介绍Range优化相关的数据结构等。

0. 概述

本文介绍MySQL如何发现WHERE条件中的等值表达式，并通过分析这些等值表达式，找到可以使用的索引。在这个过程中，MySQL将递归的访问所有WHERE条件”谓词”，并将等值表达式都存储到KEY_FIELD对象的数组中。

然后遍历该KEY_FIELD数组，并同时对比所有索引列，找到哪些字段是在索引列中出现，这些字段则可能可以使用索引，MySQL将所有这些字段都存储在对象KEYUSE数组中。

最后，对KEYUSE进行处理，包括排序、删除无法使用的索引列。这时KEYUSE数组就是所有可以使用REF的索引列了。 (more…)
MySQL源码：索引相关的数据结构(前篇)

2012-11-20

·

orczhou
很枯燥的，配首背景音乐吧：

本文将尝试介绍MySQL索引存储相关的数据结构。程序=数据结构+算法，了解数据结构，然后就可以进一步了解MySQL源码中如何使用索引，如何选择自己的执行计划。

1. MySQL如何描述某个数据表的索引

MySQL使用TABLE对象来描述一个数据表，那么数据表的索引是如何描述，索引的统计信息又是如何存储的呢? 例如我们有如下数据表：

CREATE TABLE `users` ( `id` int(11) NOT NULL, `nick` varchar(32) DEFAULT NULL, `reg_date` datetime DEFAULT NULL, PRIMARY KEY (`id`), KEY `IND_NICK` (`nick`), KEY `IND_REGDATE` (`reg_date`) )

该表有索引，PRIMARY KEY、IND_NICK、IND_REGDATE，我们来看看MySQL内部是如何存储这三个索引，以及如何使用这些索引的统计信息的。下图，描述了存储一个数据表索引的主要结构：

(more…)

代码细节

二元函数的偏导数、方向导数、梯度

偏导数

梯度向量

方向导数

直观理解方向导数

方向导数的计算与证明

关于上述证明

向量形式化表达

多维场景扩展

说明：直觉

所以，最后

十年磨一剑，阿里巴巴企业级数据管理平台：iDB

一、为了效率与安全而生

index merge的补充说明

1. 为什么需要考虑Intersection

MySQL优化器：index merge介绍

1. 什么是index merge

1.1 index merge的限制：range优先

MySQL源码：索引相关的数据结构(后篇)

0. 概述

MySQL源码：索引相关的数据结构(前篇)

1. MySQL如何描述某个数据表的索引