23.現代數學教學

23.現代數學教學

1. 現代數學教育的意義

數學是人類文化的一個組成部分,它在人類社會生活中有著重要的地位和作用。數學是一切科學的基礎,是打開科學大門的鑰匙。數學既是科學的語言,又是思維的工具。當今人類進入信息時代,信息時代也是數學大發展的時代,人類社會日益走向數學化,從來沒有像今天這樣,人們需要進行數學式的思維。1984年美國一個由數學家相有關專家組成的專門委員會提出的“進一步繁榮美國數學”報告中指出:“高科技的出現把我們的社會推進到數學工程技術的新時代.”這個專門委員會的主席指出:“高技術本質上是一種數學技術”,提法點出了高科技與數學的內在聯繫[1]。前不久,華為負責人任正非先生也提到數學對華為發展的基礎性作用。

2. 我國數學教育現狀

我國目前的數學教育處於怎樣的狀況呢?基本上還保持著50年代初學習蘇聯的模式。總的看來,中學的數學課內容大體上屬於初等數學階段,數學系以外的大學數學課程(如高等數學、工程數學、數學物理方法等)的內容,都屬於高等數學階段,也就是說,接受了大學數學教育,還對現代數學幾乎沒有接觸,

但是現代數學的許多基本概念,如算子、泛函、空間、拓撲、張量、流形等等已成為現代的科學語言而在科技文獻上大量出現,沒有現代數學的基本概念和基本知識,不僅難以從事具有現代水平的科學研究,甚至連看文獻、進行學術交流都有困難。數學教育的落後,直接影響到現代水平的人才培養和科研的發展。因此,對大學數學課程進行現代化改革,在我國大學裡和科技界普及現代數學教育,具有迫切的重要意義,應該引起學術界、教育界等有關部門和領導的重視 [2]

在電子信息專業的教學過程中,筆者對此有深刻的體會。現代信號處理技術中,傅里葉變換、小波變換是處理信號的基本手段,但學生在這方面的數學基礎是零,這樣的教學完全是在給學生強制灌輸“懸空循環概念”,對學生的自信心和創新能力是一種破壞。

3. 現代數學教育的困境

人們也常常把現代數學比喻成一株茂密的大樹,它包含著並且正在繼續生長出越來越多的分枝。按美國《數學評論》(Mathematical Reviews)雜誌的分類,當今數學包括了約60個二級學科,400多個三級學科,更細的分科已難以統計。面對著如此龐大的知識系統,職業數學家越來越被限制於一、二個專門領域。龐加萊(H.Poincare,1854-1912)曾經被稱為“最後一位數學通才”,雖然比他稍晚的希爾伯特(D. Hilbert,1862-1943)也跨越過眾多的領域,但這樣的數學家畢竟越來越難得了,而正是希爾伯特曾在著名的巴黎演講中指出:“數學科學是一個不可分割的整體,它的生命力正是在於各個部分之間的聯繫”,並提醒人們警惕數學“被分割成許多孤立的分支”的危險

[3]

數學的高度抽象性是其最重要的特點,但也正是這種高度抽象性使得數學的理解成為了極其困難的事情,嚴重製約了其普及性,這是我國在高技術領域的創新能力不足的一個主要原因。

4. 突破現代數學教育的困境

現代數學教育的重要性是毋庸置疑了,然而,現實的數學教育困難重重,造成這種困難的原因是多方面的,但一個重要的原因是現代數學的抽象程度越來越高,造成理解也變得十分艱難,如果不改變數學的高度抽象的理解問題,現代數學教育的困境是無法突破的。

在筆者看來,突破現代數學教育的關鍵是改變目前現代數學的高度抽象現狀,具體的解決辦法是讓現代數學的概念體系接地性能提高,即降低其抽象的深度,使得對它的學習理解變成一件輕鬆愉快的事情。也許有人對這種可能性表示懷疑,以下通過筆者近年來收集到的一些這方面成功的例子來說明,這種努力是可能的,也是現實中在不斷髮生的。

例子一:奎因(Willard Van Orman Quine)”的《語言與對象》(整體論哲學)關於數學的一些論斷:

公理其實是約定;科學定理其實是定義;邏輯真理來自約定;任何一種翻譯都是正確的

例子二:拓撲就是橡皮膜[4]

代數,分析,和拓撲,被稱為是現代數學的三大柱石。最初讀拓撲,由於學習流形理論的需要。可是,隨著知識的積累,發現它是很多理論的根基。可以說,沒有拓撲,就沒有現代意義的分析與幾何。我們在各種數學分支中接觸到的最基本的概念,比如,極限,連續,距離(度量),邊界,路徑,在現代數學中,都源於拓撲。拓撲學是一門非常奇妙的學科,它把最直觀的現象和最抽象的概念聯繫在一起了。拓撲描述的是普遍使用的概念(比如開集,閉集,連續),我們對這些概念習以為常,理所當然地使用著,可是,真要定義它,則需要對它們本質的最深刻的洞察。數學家們經過長時間的努力,得到了這些概念的現代定義。這裡面很多第一眼看上去,會感覺驚奇——怎麼會定義成這個樣子。首先是開集。在學習初等數學時,我們都學習開區間 (a, b)。可是,這只是在一條線上的,怎麼推廣到二維空間,或者更高維空間,或者別的形體上呢?最直觀的想法,就是“一個不包含邊界的集合”。可是,問題來了,給一個集合,何謂“邊界”?在拓撲學裡面,開集(Open Set)是最根本的概念,它是定義在集合運算的基礎上的。它要求開集符合這樣的條件:開集的任意並集和有限交集仍為開集。我最初的時候,對於這樣的定義方式,確實百思不解。不過,讀下去,看了和做了很多證明後,發現,這樣的定義一個很重要的意義在於:它保證了開集中每個點都有一個鄰域包含在這個集合內——所有點都和外界(補集)保持距離。這樣的理解應該比使用集合運算的定義有更明晰的幾何意義。但是,直觀的東西不容易直接形成嚴謹的定義,使用集合運算則更為嚴格。而集合運算定義中,任意並集的封閉性是對這個幾何特點的內在保證。另外一個例子就是“連續函數”(Continuous Function)。在學微積分時,一個耳熟能詳的定義是“對任意的epsilon > 0,存在delta > 0,使得……”,背後最直觀的意思就是“足夠近的點保證映射到任意小的範圍內”。可是,epsilon, delta都依賴於實空間,不在實空間的映射又怎麼辦呢?拓撲的定義是“如果一個映射的值域中任何開集的原象都是開集,那麼它連續。”這裡就沒有epsilon什麼事了。“開集的原象是開集”這裡的關鍵在於,在拓撲學中,開集的最重要意義就是要傳遞“鄰域”的意思——開集本身就是所含點的鄰域。這樣連續定義成這樣就順理成章了。稍微把說法調節一下,上面的定義就變成了“對於f(x)的任意鄰域U,都有x的一個鄰域V,使得V裡面的點都映射到U中。”這裡面,我們可以感受到為什麼開集在拓撲學中有根本性的意義。既然開集傳達“鄰域”的意思,那麼,它最重要的作用就是要表達哪些點靠得比較近。給出一個拓撲結構,就是要指出哪些是開集,從而指出哪些點靠得比較近,這樣就形成了一個聚集結構——這就是拓撲。可是這也可以通過距離來描述,為什麼要用開集呢,反而不直觀了。某種意義上說,拓撲是“定性”的,距離度量是“定量”的。隨著連續變形,距離會不斷變化,但是靠近的點還是靠近,因此本身固有的拓撲特性不會改變。拓撲學研究的就是這種本質特性——連續變化中的不變性。在拓撲的基本概念中,最令人費解的,莫過於“緊性”(Compactness)。它描述一個空間或者一個集合“緊不緊”。正式的定義是“如果一個集合的任意開覆蓋都有有限子覆蓋,那麼它是緊的”。乍一看,實在有點莫名其妙。它究竟想描述一個什麼東西呢?和“緊”這個形容詞又怎麼扯上關係呢?一個直觀一點的理解,幾個集合是“緊”的,就是說,無限個點撒進去,不可能充分散開。無論鄰域多麼小,必然有一些鄰域裡面有無限個點。上面關於compactness的這個定義的玄機就在有限和無限的轉換中。一個緊的集合,被無限多的小鄰域覆蓋著,但是,總能找到其中的有限個就能蓋全。那麼,後果是什麼呢?無限個點撒進去,總有一個鄰域包著無數個點。鄰域們再怎麼小都是這樣——這就保證了無限序列中存在極限點。Compact這個概念雖然有點不那麼直觀,可是在分析中有著無比重要的作用。因為它關係到極限的存在性——這是數學分析的基礎。瞭解泛函分析的朋友都知道,序列是否收斂,很多時候就看它了。微積分中,一個重要的定理——有界數列必然包含收斂子列,就是根源於此。在學習拓撲,或者其它現代數學理論之前,我們的數學一直都在有限維歐氏空間之中,那是一個完美的世界,具有一切良好的屬性,Hausdorff, Locally compact, Simply connected,Completed,還有一套線性代數結構,還有良好定義的度量,範數,與內積。可是,隨著研究的加深,終究還是要走出這個圈子。這個時候,本來理所當然的東西,變得不那麼必然了。兩個點必然能分開?你要證明空間是Hausdorff的。有界數列必然存在極限點?這隻在locally compact的空間如此。一個連續體內任意兩點必然有路徑連接?這可未必。一切看上去有悖常理,而又確實存在。從線性代數到一般的群,從有限維到無限維,從度量空間到拓撲空間,整個認識都需要重新清理。而且,這些絕非僅是數學家的概念遊戲,因為我們的世界不是有限維向量能充分表達的。當我們研究一些不是向量能表達的東西的時候,度量,代數,以及分析的概念,都要重新建立,而起點就在拓撲。

例子三:圖、譜、馬爾可夫過程、聚類結構[4]

題目中所說到的四個詞語,都是Machine Learning以及相關領域中熱門的研究課題。表面看屬於不同的topic,實際上則是看待同一個問題的不同角度。不少文章論述了它們之間的一些聯繫,讓大家看到了這個世界的奇妙。

從圖說起

這裡面,最簡單的一個概念就是“圖”(Graph),它用於表示事物之間的相互聯繫。每個圖有一批節點(Node),每個節點表示一個對象,通過一些邊(Edge)把這些點連在一起,表示它們之間的關係。就這麼一個簡單的概念,它對學術發展的意義可以說是無可估量的。幾乎所有領域研究的東西,都是存在相互聯繫的,通過圖,這些聯繫都具有了一個統一,靈活,而又強大的數學抽象。因此,很多領域的學者都對圖有著深入探討,而且某個領域關於圖的研究成果,可以被其它領域借鑑。

矩陣表示:讓代數進入圖的世界

在數學上,一種被普遍使用的表達就是鄰接矩陣(Adjacency Matrix)。一個有N個節點的圖,可以用一個N x N的矩陣G表示,G(i, j)用一個值表示第i個節點和第j個節點的聯繫,通常來說這個值越大它們關係越密切,這個值為0表示它們不存在直接聯繫。這個表達,很直接,但是非常重要,因為它把數學上兩個非常根本的概念聯繫在一起:“圖”(Graph)和“矩陣”(Matrix)。矩陣是代數學中最重要的概念,給了圖一個矩陣表達,就建立了用代數方法研究圖的途徑。數學家們幾十年前開始就看到了這一點,並且開創了數學上一個重要的分支——代數圖論(Algebraic Graph Theory)。

代數圖論通過圖的矩陣表達來研究圖。熟悉線性代數的朋友知道,代數中一個很重要的概念叫做“譜”(Spectrum)。一個矩陣的很多特性和它的譜結構——就是它的特徵值和特徵向量是密切相關的。因此,當我們獲得一個圖的矩陣表達之後,就可以通過研究這個矩陣的譜結構來研究圖的特性。通常,我們會分析一個圖的鄰接矩陣(Adjacency Matrix)或者拉普拉斯矩陣(Laplace Matrix)的譜——這裡多說一句,這兩種矩陣的譜結構剛好是對稱的。

譜:“分而治之”的代數

譜,這個詞彙似乎在不少地方出現過,比如我們可能更多聽說的頻譜,光譜,等等。究竟什麼叫“譜”呢?它的概念其實並不神秘,簡單地說,譜這個概念來自“分而治之”的策略。一個複雜的東西不好直接研究,就把它分解成簡單的分量。如果我們把一個東西看成是一些分量疊加而成,那麼這些分量以及它們各自所佔的比例,就叫這個東西的譜。所謂頻譜,就是把一個信號分解成多個頻率單一的分量。

矩陣的譜,就是它的特徵值和特徵向量,普通的線性代數課本會告訴你定義:如果A v = c v,那麼c 就是A的特徵值,v就叫特徵向量。這僅僅是數學家發明的一種數學遊戲麼?——也許有些人剛學這個的時候,並一定能深入理解這麼個公式代表什麼。其實,這裡的譜,還是代表了一種分量結構,它為使用“分而治之”策略來研究矩陣的作用打開了一個重要途徑。這裡我們可以把矩陣理解為一個操作(operator),它的作用就是把一個向量變成另外一個向量:y = A x。對於某些向量,矩陣對它的作用很簡單,A v = cv,相當於就把這個向量v 拉長了c倍。我們把這種和矩陣A能如此密切配合的向量v1, v2, ... 叫做特徵向量,這個倍數c1, c2, ...叫特徵值。那麼來了一個新的向量x 的時候,我們就可以把x 分解為這些向量的組合,x = a1 v1 + a2 v2 + ...,那麼A對x的作用就可以分解了:A x = A (a1 v1 + a2 v2 + ...) = a1 c1 v1 + a2 c2 v2 ... 所以,矩陣的譜就是用於分解一個矩陣的作用的。

這裡再稍微延伸一點。一個向量可以看成一個關於整數的函數,就是輸入i,它返回v( i )。它可以延伸為一個連續函數(一個長度無限不可數的向量,呵呵),相應的矩陣 A 變成一個二元連續函數(面積無限大的矩陣)。這時候矩陣乘法中的求和變成了積分。同樣的,A的作用可以理解為把一個連續函數映射為另外一個連續函數,這時候A不叫矩陣,通常被稱為算子。對於算子,上面的譜分析方法同樣適用(從有限到無限,在數學上還需要處理一下,不多說了)——這個就是泛函分析中的一個重要部分——譜論(Spectral Theory)。

馬爾可夫過程——從時間的角度理解圖

回到“圖”這個題目,那麼圖的譜是幹什麼的呢?按照上面的理解,似乎是拿來分解一個圖的。這裡譜的作用還是分治,但是,不是直觀的理解為把圖的大卸八塊,而是把要把在圖上運行的過程分解成簡單的過程的疊加。如果一個圖上每個節點都有一個值,那麼在圖上運行的過程就是對這些值進行更新的過程。一個簡單,大家經常使用的過程,就是馬爾可夫過程(Markov Process)。

學過隨機過程的朋友都瞭解馬爾可夫過程。概念很簡單——“將來只由現在決定,和過去無關”。考慮一個圖,圖上每個點有一個值,會被不斷更新。每個點通過一些邊連接到其它一些點上,對於每個點,這些邊的值都是正的,和為1。在圖上每次更新一個點的值,就是對和它相連接的點的值加權平均。如果圖是聯通並且非週期(數學上叫各態歷經性, ergodicity),那麼這個過程最後會收斂到一個唯一穩定的狀態(平衡狀態)。

圖上的馬爾可夫更新過程,對於很多學科有著非常重要的意義。這種數學抽象,可以用在什麼地方呢?(1) Google對搜索結果的評估(PageRank)原理上依賴於這個核心過程,(2) 統計中一種廣泛運用的採樣過程MCMC,其核心就是上述的轉移過程,(3) 物理上廣泛存在的擴散過程(比如熱擴散,流體擴散)和上面的過程有很重要的類比,(4) 網絡中的信息的某些歸納與交換過程和上述過程相同 (比如Random Gossiping),還有很多。非常多的實際過程通過某種程度的簡化和近似,都可以歸結為上述過程。因此,對上面這個核心過程的研究,對於很多現象的理解有重要的意義。各個領域的科學家從本領域的角度出發研究這個過程,得出了很多實質上一致的結論,並且很多都落在了圖的譜結構的這個關鍵點上。

圖和譜在此聯姻

根據上面的定義,我們看到鄰接矩陣A其實就是這個馬爾可夫過程的轉移概率矩陣。我們把各個節點的值放在一起可以得到一個向量v,那麼我們就可以獲得對這個過程的代數表示, v(t+1) = A v(t)。穩定的時候,v = A v。我們可以看到穩定狀態就是A的一個特徵向量,特徵值就是1。這裡譜的概念進來了。我們把A的特徵向量都列出來v1, v2, ...,它們有 A vi = ci vi。vi其實就是一種很特殊,但是很簡單的狀態,對它每進行一輪更新,所有節點的值就變成原來的ci倍。如果0 < ci < 1,那麼,相當於所有節點的值呈現指數衰減,直到大家都趨近於0。

一般情況下,我們開始於一個任意一個狀態u,它的更新過程就沒那麼簡單了。我們用譜的方法來分析,把u分解成 u = v1 + c2 v2 + c3 v3 + ... (在數學上可以嚴格證明,對於上述的轉移概率矩陣,最大的特徵值就是1,這裡對應於平衡狀態v1,其它的特徵狀態v2, v3, ..., 對應於特徵值1 > c2 > c3 > ... > -1)。那麼,我們可以看到,當更新進行了t 步之後,狀態變成 u(t) = v1 + c2^t v2 + c3^t v3 + ...,我們看到,除了代表平衡狀態的分量保持不變外,其它分量隨著t 增長而指數衰減,最後,其它整個趨近於平衡狀態。

從上面的分析看到,這個過程的收斂速度,其實是和衰減得最慢的那個非平衡分量是密切相關的,它的衰減速度取決於第二大特徵值c2,c2的大小越接近於1,收斂越慢,越接近於0,收斂越快。這裡,我們看到了譜的意義。第一,它幫助把一個圖上運行的馬爾可夫過程分解為多個簡單的子過程的疊加,這裡麵包含一個平衡過程和多個指數衰減的非平衡過程。第二,它指出平衡狀態是對應於最大特徵值1的分量,而收斂速度主要取決於第二大特徵值。

我們這裡知道了第二大特徵值c2對於描述這個過程是個至關重要的量,究竟是越大越好,還是越小越好呢?這要看具體解決的問題。如果你要設計一個採樣過程或者更新過程,那麼就要追求一個小的c2,它一方面提高過程的效率,另外一方面,使得圖的結構改變的時候,能及時收斂,從而保證過程的穩定。而對於網絡而言,小的c2有利於信息的迅速擴散和傳播。

聚類結構——從空間的角度理解圖

c2的大小往往取決於圖上的聚類結構。如果圖上的點分成幾組,各自聚成一團,缺乏組與組之間的聯繫,那麼這種結構是很不利於擴散的。在某些情況下,甚至需要O(exp(N))的時間才能收斂。這也符合我們的直觀想象,好比兩個大水缸,它們中間的只有一根很細的水管相連,那麼就需要好長時間才能達到平衡。有興趣的朋友可以就這個水缸問題推導一下,這個水缸系統的第二大特徵值和水管流量與水缸的容積的比例直接相關,隨比例增大而下降。

對於這個現象進行推廣,數學上有一個重要的模型叫導率模型(Conductance)。具體的公式不說了,大體思想是,節點集之間的導通量和節點集大小的平均比例和第二大特徵值之間存在一個單調的上下界關係。導率描述的是圖上的節點連接的空間結合,這個模型把第二特徵值c2和圖的空間聚集結構聯繫在一起了。

圖上的聚類結構越明顯, c2越大;反過來說,c2越大,聚類的結構越明顯,(c2 = 1)時,整個圖就斷裂成非連通的兩塊或者多塊了。從這個意義上說,c2越大,越容易對這個圖上的點進行聚類。機器學習中一個重要課題叫做聚類,近十年來,基於代數圖論發展出來的一種新的聚類方法,就是利用了第二大特徵值對應的譜結構,這種聚類方法叫做譜聚類(Spectral Clustering)。它在Computer Vision裡面對應於一種著名的圖像分割方法,叫做Normalized Cut。很多工作在使用這種方法。其實這種方法的成功,取決於c2的大小,也就是說取決於我們如何構造出一個利於聚類的圖,另外c2的值本身也可以作為衡量聚類質量,或者可聚類性的標誌。遺憾的是,在paper裡面,使用此方法者眾,深入探討此方法的內在特點者少。

5. 現代數學教育的改革方向

從以上給出的例子,可以說明降低現代數學抽象深度,提高其接地性能是可能的。現代數學的教學過程中,一旦某個抽象概念懸空,與之相關的所有概念都會形成“懸空循環概念群”,而“懸空循環概念群”是創新能力被摧毀的罪魁禍首。

現代數學的高速發展和高度抽象化的傾向是值得反思的,通俗點說:現代數學跑得太快太遠了(從“思”和“學”的角度看,就是“思”不足,而“學”有餘),應該稍稍慢下來反思一下,改善其現有概念的體系結構,提高其接地性能,這需要大量人力物力的投入,尤其是需要按照新原則,重新編寫全新的現代數學教材,這是必需的,尤其對於我國目前的現代數學教育現狀,我們急需要整理現代數學大量的抽象概念,使其儘可能接地,降低學生學習理解的門檻。

參考文獻:

[2]. 杜珣.現代數學引論. 北京:北京大學出版社,1996

[3]. 李文林.數學史概論(第二版). 北京:高等教育出版社,2002

[4]. 林達華.博客心得


分享到:


相關文章: