林軒田機器學習基石課程學習筆記1 -- The Learning Problem

林軒田機器學習基石課程學習筆記1 -- The Learning Problem

林軒田機器學習基石課程學習筆記1 -- The Learning Problem

來源 | AI 算法與圖像處理

主要內容

  • What is Machine Learning

  • Applications of Machine Learning

  • Components of Machine Learning

  • Machine Learning and Other Fields

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

What is Machine Learning

什麼是“學習”?學習就是人類通過觀察、積累經驗,掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字,就是學習的過程。而機器學習(Machine Learning),顧名思義,就是讓機器(計算機)也能向人類一樣,通過觀察大量的數據和訓練,發現事物規律,獲得某種分析問題、解決問題的能力。

機器學習的過程是從資料出發,經過電腦的計算之後,最終得到某一種表現。

比如通過電腦讓電腦學會預測股票。利用十年前的數據去學習,告訴我明天該怎麼去投資,如果機器真的做到了,那麼說明機器真的學到了這些。這是我們希望機器學習能做的事情。

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

舉例:如何識別一棵樹

  • 設計一個程序去定義一棵樹,是非常困難的

  • 通過學習數據去辨認一棵樹(3歲小孩能做)

  • 機器學習系統去識別一棵樹比設計一個程序更加容易的多

通過我們的腦力去分析這些東西比較困難,因為希望通過機器自己去學習和分析,發現這些規律。

機器學習在構建一個複雜系統的時候是一個可選的方法:

比如:

  • 當人類沒辦法做一個複雜的系統,將所有的規律都寫清楚,比如機器人探測火星,沒辦法預測機器人在火星上會遇到什麼情況,例如遇到坑,要怎麼辦,這就需要機器自己去學習怎麼處理

  • 沒辦法定義一個規則的時候——語音/可視化識別

  • 有一些人沒想過的應用——股市交易

  • 在大規模的數據下一個用戶取向的問題——用戶個性化的市場

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

機器學習要做的事情,是類似於教電腦釣魚的方法,讓它可以一輩子受用。

那麼什麼場景下,考慮使用機器學習解決呢?

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

機器學習的三個關鍵條件:

  • 事情本身存在某些潛在規律可以去學習,並且有明確的目標

  • 事情存在一定的規則,但是我們不知道怎麼把它用代碼寫下來

  • 機器學習需要資料,否則機器不知道如何去學習

當三個關鍵條件都滿足的時候才考慮使用機器學習

測試&答案:

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

1、預測小孩子接下來的幾分鐘後會哭?no(沒有規則)

2、判斷圖中是否存在圓?no(規則可以輕鬆定義)

3、決定是否該給用戶分發信用卡?yes,不容易編程實現,有大量的客戶歷史信息

4、地球什麼時候會毀滅?no(沒有足夠的數據)

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

Applications of Machine Learning

機器學習在我們的衣食住行等各個方面中都有應用。

(1)Food:

功能:瞭解這家飯店食物的味道如何

(2)Clothing

數據:商品的圖片、用戶穿搭

功能:告訴我們怎樣去搭配衣服才能更加Fashion

(3)Housing

數據:房子的建築特點、使用的能源

功能:預測房子在節能減排上面的能力

(4)Transportation

數據:交通燈的圖片和含義

功能:準確識別交通燈信號

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

上面只是舉一些例子,當然這樣子的例子還有很多!

機器學習在教育上的應用

數據:學生在上網課中的一些記錄,答題記錄和上課記錄等

功能:預測學生會哪些內容,不會哪些內容,並推薦一些資料。

那麼機器學習要如何去設計呢?

  • 從3000學生中給出900萬數據

  • 利用機器學習去自動確定問題的難度等

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

娛樂方面的應用,推薦系統

數據:有多少用戶喜歡什麼電影

功能:預測一個用戶有多大概率喜歡一個沒看過的電影

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

那麼電腦是如何去學習這些特徵呢?

利用模型將用戶和電影用一串特徵來描述,對兩串特徵求內積,如果相乘的分數高,則會給非常高的推薦分數。但是我們沒有辦法去定義這些特徵,所以機器學習通過以往的數據,去學習這些特徵,並預測用戶有多喜歡這部電影。

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

測試&答案

機器在以下哪些領域用不到?

1、金融 (預測股市)

2、醫療 (預測藥效)

3、法律 (從公文書自動給出摘要,便於搜尋和閱讀)

4、不是上述的任何一個 yes

林轩田机器学习基石课程学习笔记1 -- The Learning Problem
林轩田机器学习基石课程学习笔记1 -- The Learning Problem

Components of Machine Learning

如何公式化機器學習的問題

基礎的術語:

  • 輸入:x(用戶的行為)

  • 輸出:y(根據預測結果好/壞,決定是否要髮卡)

  • 目標函數:f,未知的規則--->目標函數

  • 數據,訓練樣本(過去收集的數據)

  • 假說,選擇一個最佳的假說對應的函數稱為矩g,g能最好地表示事物的內在規律,也是我們最終想要得到的模型表達式

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

機器學習流程圖:

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

從未知規律的數據中,通過學習算法去挖掘,讓最終的 g 接近 f

注意點:

  • 目標函數,f是未知

  • 假說是希望g儘可能的接近f,但是可能還是不同於f

舉例,以信用卡為例

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

g 到底長什麼樣

今天決定要不要發給客戶信用卡,以下是一些可能的公式

h1:年收入有沒有超過800000,超過就給

h2:負債超過100000給信用卡

h3:工作不滿兩年給他信用卡

將所有的可能h,都放到g的集合中,並從集合中找到最有可能的結果

學習模型=算法+假說

機器學習的定義:從資料出發,機器學習算法要算出一個假說(hypothesis)g,我們希望這個g要很接近我們最渴望的那個f。

測試&答案

歌曲推薦

林轩田机器学习基石课程学习笔记1 -- The Learning Problem
林轩田机器学习基石课程学习笔记1 -- The Learning Problem

Machine Learning and Other Fields

與機器學習相關的領域有:

  • 數據挖掘(Data Mining) ——>從數據中挖掘一些有用的資料

  • 人工智能(Artificial Intelligence)——>計算一些東西並顯示出很聰明的行為(比如AI下棋)

  • 統計(Statistics)——>使用數據做一些推論(比如硬幣問題)

機器學習和數據挖掘,非常相像,有些地方還是一樣,密不可分

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

機器學習是實現人工智能的一種方式

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

統計是實現機器學習的一種方法,統計更加關注使用數學理論來給出結果,很少關心計算的問題。統計學給機器學習提供了很多有用的工具。

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

測試&答案

林轩田机器学习基石课程学习笔记1 -- The Learning Problem
林轩田机器学习基石课程学习笔记1 -- The Learning Problem

總結

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

本節課主要引入了機器學習的概念,機器學習實際上是從資料出發找到一個函數,然後找到的函數和我們最渴望的目標是很接近的。機器學習在很多地方都有應用,其核心 算法,數據(資料),假說(hypothesis)最後得到g。

機器學習和數據挖掘、人工智能、統計這三個領域做個比較,和各個領域的關係,他們各自有各自的取向。

https://www.bilibili.com/video/BV1Cx411i7op?p=1

https://blog.csdn.net/red_stone1/article/details/101303228

【end】




晚8點,我們一起來看Sophon KG如何追尋新冠病毒軌跡,運用AI技術、工具建立相關知識圖譜,通過確診案例的親屬、同事和朋友的關係網找出密切接觸者進行及時隔離,同時刻畫出確診案例的活動軌跡,找到其關係網之外的密切接觸者及病毒可能的“行兇環境”。

林軒田機器學習基石課程學習筆記1 -- The Learning Problem
  • 用於單圖像超分辨率的對偶迴歸網絡,達到最新SOTA | CVPR 2020

  • 悼念前端大牛司徒正美

  • 羅永浩抖音直播首秀:3小時1.1億;微軟曝三屏摺疊機專利;Linux Mint 20僅提供64位版本

  • “死扛”高併發大流量,大麥搶票的技術涅槃之路

  • 比特幣由"蒙面人"創造,那下一個"比特幣"還會由蒙面人創造嗎?

  • 在容器上構建持續部署及最佳實踐初探


分享到:


相關文章: