关于机器学习数学的基础,我们正在讨论线性代数的一些基本概念。我们从向量开始,讨论了矩阵,基本矩阵,它们的转换,特征向量,特征值,最重要的是试图建立将这些概念应用于机器学习的直觉。
在这里,我们将最后总结关于线性代数的讨论,这将有助于理解机器学习。
在机器学习数学的上一部分中,我们讨论了特征值和特征向量。现在我们知道如何计算它们。我们谈到了变更基础的概念。让我们结合这两种学习,看看会发生什么。
合并特征向量并更改基础会发生什么?我们得到一种称为对角化的有效执行矩阵运算的方法。如果必须多次执行矩阵乘法会怎样?让我们看一下,从一个步骤开始。
考虑向量v0乘以变换矩阵T,将其位置更改为v1。为了在两步之后找到v0的位置,我们可以将v1乘以T或将v0乘以T两次。
但是您还记得3D空间中矩阵乘法的技巧。如果步数达到数百万该怎么办?假设您需要在两周后找到v0在太空中的位置!
现在,让我们触摸另一个概念。除前导对角线外,所有位置均为0的矩阵称为对角线矩阵。这个对角矩阵将帮助我们进行更高维度的乘法。
看一看。
这似乎很容易。但是,如果矩阵不是对角线呢?
如果您从本征分析中猜到什么,那是对的!
我们将更改变换矩阵T将成为对角矩阵的基础。这种变化的基础就是我们所谓的本征基础。
我们已经看到对角矩阵很容易求解。我们可以将其转换回为n的幂的变换矩阵T。这使工作变得更加容易。
现在让我们回想一下,转换矩阵中的每一列实际上都是转换后的单位矢量的新位置。因此,通过在各列中插入特征向量,我们可以获得特征基改变矩阵。
考虑数学形式的3D空间,它们显示如下。
在最后一步之前,请全部修改。应用变换T实际上是转换为本征基,应用对角化矩阵,然后再次将其转换回T。
在中间,我们看到矩阵乘以它的逆,这根本不起作用。因此,我们可以简化表达方式。
最后,我们现在有了一个方程,该方程将帮助我们将T乘以n的幂,而无需花费大的计算成本。
通过几何解释,我们总是会更好地理解这个想法。因此,我们来看一个相对简单的2D示例,并以图形方式查看该过程。
考虑变换矩阵T并将其应用于空间中的向量。
由于第一列是1、0,我们可以看到绿色矢量或i矢量将保持不变。但是,第二个向量j或粉红色向量将移动到点1 2。此外,考虑点1 1处的橙色向量或对角向量。
我们可以将这个特定的转换分解为两个转换。1是垂直缩放比例为2,然后是水平剪切比例的一半。
您认为特征向量和值是什么?
这些是
现在,我们可以使用特征根方法再次遍历整个方法。
我们已经有了具有特征向量的转换矩阵C(请参见上文)
但是,我们需要它的逆函数。当我们选择了一个更简单的问题时,我们可以轻松地计算出逆。由于C只是向右迈出一步的水平方向。C逆必须在水平方向上位于左侧。
这是我们上面发现的相同结果。
在处理机器学习时,您可能不会手动进行任何操作。但这是目标。了解足够好的概念,计算机可以为您做到!
Google Page排名算法。以1998年Google Larry Page的创建者及其同事的名字命名。此算法旨在确定搜索后网站的显示顺序。现在,请记住,这是在很久以前开发的,当时互联网上的流量和内容与今天相比并不多。该算法经过多年发展,但核心概念保持不变。
要考虑的主要点是,网站的重要性取决于其与其他网站之间的链接。这正是本征理论出现的地方。
考虑下图。假设它是一个微型Internet,其中每个节点都是一个网页,箭头是这些网页之间的链接。
我们有兴趣找到与搜索人最相关的网页。
通过映射所有链接,我们可以以某种方式确定用户在每个网页上花费的时间。链接可以描述为向量,如果有链接,则为0;如果没有链接,则为1。我们可以进一步标准化链接以获得该页面的概率。
例如,来自网页A的链接向量将具有值0、1、1、1、1。然后我们将使用向量3进行归一化,因为页面A总共有3个链接。通过这种方式,我们的概率总和为1。
我们现在可以使用这些链接向量作为列向量来形成链接矩阵。此矩阵将帮助我们找出在每个页面上着陆的可能性。
就像到达A的唯一方法是通过B。到达B的概率只能通过A和D来确定。这表明所有页面上的排名取决于其他页面。
现在尝试在表达式中进行总结。
考虑向量r来存储所有页面的等级。要计算说出页面A的等级,我们应该知道三件事。
你的等级是多少?
您是否链接到A页?
您总共有多少个传出链接?
其中n是与页面A和位置j相关的链接矩阵的网页总数,乘以位置j的等级。这将滚动浏览我们所有的网页。
因此,页面A的等级是所有链接到页面A的页面的等级的总和,以它们从矩阵L中获得的链接概率加权。我们可以为所有页面编写这样的表达式,然后同时求解。修改线性代数,我们可以通过矩阵乘法来实现。
r = Lr
对于r,请考虑所有页面均等排名,然后以本例中4的页面总数对其进行标准化。
重复应用此表达式意味着我们正在迭代计算它。r的值不断更新,并最终停止更改。r现在是特征值为1的特征向量。
您可能会认为,使用对角线化方法可以迭代地求解L。但是请记住,要应用对角线化,我们必须首先知道特征向量,这就是我们正在尝试做的事情。
现在,我们可以将上述方程式提供给计算机,以迭代地求解直到达到秩向量。
上图显示,某人可能将其40%的时间花在D页上,12%在A页上以及24%在B和C页上。
这样,我们获得了4页的排名,其中D页位于顶部,A页位于最后。
有多种方法可以有效地计算特征向量,但是将随机选择的初始向量与矩阵重复乘以幂(称为幂法)对于页面秩问题最有效。主要由于2个原因。
首先,幂法给您一个特征向量。我们已经构造了链接矩阵,以使其给出的向量始终是我们想要找到的特征值为1的向量。
其次,在现实世界中,Internet链接矩阵会将大多数值设置为0。因为并非所有网页都相互链接。这种称为稀疏矩阵的矩阵可以通过可轻松实现乘法的算法轻松解决。
今天的互联网拥有超过10亿个网页,而1998年只有几百万个。为了提高效率,已经对排名和搜索算法进行了改进,但是核心概念保持不变。
我们已经非常浅层地讨论了页面排名算法的工作原理。但是希望我们对工作原理有了基本的了解,可以自己将其应用于某些机器学习网络。
结论:
这就是我们对理解机器学习很重要的线性代数概念的结尾。在这个机器学习的数学中,我们总结了特征向量和特征值的主题。我们还研究了谷歌页面排名问题的实际应用。
希望能帮助你更好地理解线性代数的一个重要主题,即特征分析。在机器学习数学系列的其余部分中,我们将研究更多的数学概念,以更好地实现和理解机器学习。