人工智能(深度學習)簡單解釋

人工智能(深度學習)簡單解釋

像HAL 9000這樣的科幻級人工智能(AI)早在20世紀60年代就已經被承諾,但直到最近,個人電腦和機器人還很笨。現在,科技巨頭和初創公司正在宣佈人工智能革命:自動駕駛汽車、機器人醫生、機器人投資者等。PwC剛剛表示,到2030年,人工智能將為世界經濟貢獻15.7萬億美元。“人工智能”是2018年的流行語,就像1999年的“。com”一樣,每個人都聲稱自己喜歡人工智能。不要被人工智能的炒作所迷惑。這是泡沫還是真實的?舊的人工智能有什麼新特點?

人工智能的應用既不容易也不快速。最令人興奮的人工智能例子來自大學或科技巨頭。自封的人工智能專家承諾,將在短時間內用最新的人工智能給任何一家公司帶來革命性的變化。他們在做人工智能的錯誤信息,一些人只是將舊技術重新命名為人工智能。每個人都已經通過谷歌、微軟、亞馬遜等服務使用了最新的AI。但“深度學習”不會很快被大多數企業用於定製內部項目。大多數都沒有足夠的相關數字數據,不足以可靠地訓練人工智能。因此,人工智能不會殺死所有的工作,尤其是因為它需要人類訓練和測試每一個人工智能。

AI現在可以“看見”,和掌握視覺工作,喜歡從醫學圖像識別癌症或其他疾病,統計上比人類的放射科醫生,眼科醫生,皮膚科醫生,等等,開汽車,讀唇,等。AI可以在任何風格從油漆樣本(例如,畢加索或你的),並應用樣式的照片。反過來說:從一幅畫中猜出一張真實的照片,幻想缺失的細節。ai查看網頁或應用的截圖,可以編寫代碼生成類似的網頁或應用。

風格轉換:從一張照片中學習,應用到另一張照片中。

人工智能(深度學習)簡單解釋

人工智能現在可以“聽”,不僅可以理解你的聲音:它可以像披頭士或你的樂隊那樣創作音樂,模仿它聽到的任何人的聲音一段時間,等等。一般人不能說什麼繪畫或音樂是由人或機器創作的,或什麼聲音是由人或人工智能的模仿者說的。

機器學習(ML)是人工智能的一個子集,它讓機器從經驗中學習,從現實世界的例子中學習:數據越多,它學習的就越多。如果一臺機器在完成一項任務時的性能隨著經驗而提高,那麼它就可以從一項任務的經驗中學習。大多數人工智能仍然由固定的規則組成,並且不學習。從現在開始,我將用“ML”來指代“從數據中學習的AI”,以強調區別。

人工神經網絡(ANN)只是ML的一種方法,其他方法(不是ANN)包括決策樹、支持向量機等。深度學習是一種具有多層抽象的神經網絡。儘管“深度”炒作,但許多ML方法是“淺顯”的。勝過MLs通常是一種混合,一種方法的集合,像樹+深度學習+其他,獨立訓練,然後結合在一起。每種方法可能會產生不同的錯誤,因此對它們的結果進行平均有時會勝過單個方法。

老人工智能沒有學習。它是基於規則的,由人類編寫的幾個“if this then that”:這可以是AI,因為它能解決問題,但不能是ML,因為它不能從數據中學習。目前大多數人工智能和自動化系統仍然是基於規則的代碼。ML自20世紀60年代就為人所知,但與人腦一樣,它需要對大量數據進行數十億次計算。在上世紀80年代的個人電腦上,培養一名ML電腦需要幾個月的時間,而且數字數據很少。手工編寫的基於規則的代碼可以快速解決大多數問題,因此ML被遺忘了。但是有了今天的硬件(NVIDIA gpu,谷歌tpu等),您可以在幾分鐘內訓練一個ML,優化的參數是已知的,並且可以獲得更多的數字數據。然後,在2010年之後,一個又一個人工智能領域(視覺、演講、語言翻譯、遊戲等)被MLs所掌握,戰勝了基於規則的人工智能,通常也戰勝了人類。

為什麼人工智能在1997年的國際象棋比賽中打敗了人類,而在2016年的圍棋比賽中才打敗了人類:對於人類能夠作為一個有限的、定義良好的規則集來解決的問題,例如,在國際象棋比賽中打敗卡斯帕羅夫(當時的世界冠軍),用舊的方式編寫基於規則的代碼就足夠了(也是最好的)。在國際象棋(8×8格有極限)中,接下來可能出現的十幾個走法只有數十億:1997年,計算機的速度變得足夠快,足以探索出足夠多的走法序列的結果,從而擊敗人類。但是在圍棋(19×19網格,自由)中,移動的次數比宇宙中的原子還多:沒有任何機器可以在十億年裡嘗試所有的移動。這就像嘗試所有隨機的字母組合來得到這篇文章,或者嘗試隨機的繪畫筆觸直到得到畢加索的作品:這永遠不會發生。目前已知的唯一希望是訓練ML來完成這項任務。但是ML是近似的,不是精確的,只用於直觀的任務,您不能在相當少的循環中將其簡化為“if this that then”確定性邏輯。ML是“隨機的”:對於模式,您可以進行統計分析,但無法準確預測。

ML實現自動化,只要您正確地準備了要訓練的數據。這與人工自動化不同,在人工自動化過程中,人們會制定規則來自動化一項任務,比如,大量的“如果這個那麼那個”描述,什麼電子郵件可能是垃圾郵件,或者一張醫學照片是否代表癌症。在ML中,我們只提供需要解決的問題的數據樣本:大量(數千或更多)垃圾郵件和無垃圾郵件、癌症和無癌症照片等,所有這些都是首先由人類進行排序、打磨和標記的。然後ML神奇地自己找出(學習)規則,但它沒有解釋這些規則。你給他看一張貓的照片,ML說這是一隻貓,但沒有說明原因。

人工智能(深度學習)簡單解釋

大多數ML是監督學習,其中訓練的示例與標籤、每個示例的描述或轉錄一起提供給ML。你首先需要一個人來區分貓和狗的照片,或從合法的電子郵件垃圾郵件等。如果你標籤的數據不正確,ML的結果將是不正確的,這是非常重要的,我們將在後面討論。它是一種無監督學習,ML在其中發現數據上的模式和集群,這對於探索很有用,但單獨解決許多問題還不夠。一些MLs是半監督的。

在異常檢測中,您可以識別與正常情況不同的異常情況,例如欺詐或網絡入侵。一名ML只接受舊的欺詐訓練,它將會錯過總是新的欺詐思想。然後,您可以教正常的活動,要求ML警告任何可疑的差異。政府已經依賴ML來發現逃稅行為。

強化學習在1983年的電影《戰爭遊戲》(War Games)中得到了展示。在這部電影中,一臺電腦決定不發動第三次世界大戰,而是以光速運行每一個場景,結果發現所有場景都將導致世界毀滅。人工智能通過在遊戲規則或環境中數百萬次的嘗試和錯誤發現哪些行為能帶來最大的回報。AlphaGo是這樣訓練的:它與自己對弈了數百萬次,掌握了超人類的技能。它做出了以前從未見過的令人驚訝的舉動,人類會認為是錯誤的。但後來,這些被證明是出色的創新策略。在圍棋比賽中,ML變得比人類更有創造力。在撲克或其他隱藏紙牌的遊戲中,美國職業足球大聯盟(MLs)也學會了虛張聲勢和欺騙:它會盡最大努力贏得比賽。

“人工智能效應”是指人們認為人工智能不是真正的智能。人類潛意識裡需要相信自己有一種神奇的精神,在宇宙中扮演著獨特的角色。每當一臺機器在一項新的智能上(如下棋、識別圖像、翻譯等)超過人類時,人們總是說:“那只是蠻力計算,不是智能。”許多應用程序都包含了大量的人工智能,但一旦被廣泛使用,它就不再被貼上“智能”的標籤。如果“智能”只是人工智能還沒有完成的事情(這對大腦來說仍然是獨一無二的),那麼字典應該每年更新一次,比如:“直到20世紀50年代,數學一直被認為是智能,但現在不是了,因為電腦可以做到”,這很奇怪。關於“蠻力”,人腦有100萬億的神經元連接,比地球上任何一臺計算機都多。ML不能做“蠻力”:嘗試所有的組合可能需要十億年。ML使用比大腦更少的計算進行“有根據的猜測”。因此,它應該是“更小”的人工智能,聲稱人類大腦不是真正的智能,而只是蠻力計算。

ML不是人腦模擬器:真正的神經元是非常不同的。這是另一種獲得類似大腦的結果的方法,類似於馬的大腦類似於汽車。重要的是,汽車和馬都能把你從一個地方帶到另一個地方:汽車跑得更快,消耗更多的能量,而且缺乏大部分的馬的特徵。大腦和ML都運行統計信息(概率)來近似複雜的功能:它們給出的結果只會有一點錯誤,但卻是有用的。MLs和大腦在相同的任務上給出不同的結果,因為它們以不同的方式近似。每個人都知道,雖然大腦會忘記事情,在做明確的數學題時受到限制,但這些機器對於記憶和數學來說是完美的。但是,機器要麼給出準確的結果,要麼壞掉的舊觀念是錯誤的,過時的。人類會犯很多錯誤,但不是說:“這個大腦壞了!”,你聽到的是:“多學習!”MLs犯錯誤也不是“壞的”,他們必須研究更多的數據,或者不同的數據。用有偏見的(人為產生的)數據訓練的MLs將以種族主義、性別歧視和不公平的方式結束:人類最糟糕的方式。人工智能不應該僅僅和我們的大腦比較,人工智能是不同的,這是一個機會。我們用數據訓練MLs,只模擬人類的工作、活動和大腦。但是同樣的MLs,如果在其他星系中訓練,可以模仿不同(也許更好)的外星大腦。讓我們也試著用外星人的方式思考。

人工智能正變得和人類一樣神秘。計算機不可能具有創造性、說謊者、錯誤或類人的想法來自於舊的基於規則的人工智能,確實是可以預測的,但ML似乎改變了這一點。剩下的真正問題是:通用AI vs .狹義AI。

請忘記電影裡的AI將軍。但“狹義人工智能”也很聰明!

與其他一些科學不同,您不能使用邏輯理論來驗證ML是否正確。要判斷ML是否正確,您只能在不可見的新數據上測試其結果(錯誤)。ML不是一個黑盒:您可以看到它生成並運行的“如果這個那麼那個”列表,但是它通常太大太複雜,任何人都無法理解。這是一門實用科學,它試圖再現現實世界的混亂和人類的直覺,卻沒有給出一個簡單的或理論的解釋。它給出了太大以至於無法理解產生結果的線性代數。這就像當你有一個工作的想法,但是你不能解釋你如何想出了主意:對大腦這叫做靈感,直覺,潛意識中,而在計算機叫做毫升。如果你能神經元信號的完整列表,導致人類大腦決定,你能明白為什麼和真正的大腦如何決定?也許吧,但它很複雜。

每個人都能憑直覺想象(有些人甚至畫出)一個人的臉,用的是畢加索的原作風格。或者想象(有些人甚至演奏)聲音或音樂風格。但沒有人能用一個完整有效的公式來描述面部、聲音或風格的變化。人類只能看到三維空間:即使是愛因斯坦,它也無法有意識地想象出,比如說500維的ML-like數學。這種500D的數學問題一直都是由我們的大腦憑直覺解決的,就像魔法一樣。為什麼沒有有意識地解決?想象一下,如果對於每一個想法,大腦也給出了我們使用的公式,有上千個變量。這些額外的信息會讓我們迷惑,讓我們慢下來,為什麼呢?沒有人能使用長達數頁的數學,我們也沒有進化到頭上有USB數據線。

如果沒有人能預測某些事情,ML通常也不能。很多人用多年的市場價格變化來訓練最小二乘,但是這些最小二乘並不能預測市場。ML會猜測如果過去學到的因素和趨勢保持不變,事情會怎樣發展。但是股票和經濟趨勢經常變化,就像隨機的一樣。當較舊的數據變得不那麼相關或錯誤時,MLs就會失敗。學習到的任務或規則必須保持不變,或者至少很少更新,以便您可以重新培訓。例如,學習開車、打撲克、用一種風格繪畫、根據給定的健康數據預測一種疾病、在不同語言之間轉換,這些都是MLs的工作: 舊的規則在將來繼續有效。

ML可以在數據上找到相關性,但相關性並不意味著因果關係,ML在猜測因果關係方面不可靠。不要讓ML試圖找到數據集中不存在的相關性:ML會找到其他不相關的模式,很容易把您想要找到的錯誤理解為它們。在一項奇怪的研究“使用面部圖像自動推斷犯罪行為”中,ML被訓練在被監禁和誠實人的貼有標籤的面部照片上(讓我補充一句,其中一些人可能是未被發現的罪犯?)作者聲稱,ML僅僅從一張面部照片就學會了捕捉新的壞蛋,但“感覺”進一步的研究將駁斥面相(種族主義)的有效性。事實上,他們的數據集是有偏見的:一些白領罪犯假裝誠實的人,笑著說。ML學會了它能找到的唯一關係:高興或生氣的嘴,衣領(頸布)的類型。白領微笑的人被歸類為誠實,白領悲傷的人被歸類為騙子。ML的作者試圖通過人們的臉來判斷他們(不是科學!)沒有相關性),但沒有看到ML人學會了通過衣服(社會地位)來判斷。ML擴大了一種不公正的偏見:穿著廉價衣服(也許是深色皮膚)的街頭小偷比腐敗的政客和頂級企業欺詐者更容易被發現和監禁。這個ML會把所有街頭的傢伙都送進監獄,而且沒有一個白領,如果不也告訴他,街頭的小偷被發現的頻率比白領高x%。如果這樣說,它會隨機或不做決定,這不是科學。一個教訓是:MLs沒有像成年人一樣生活在我們的世界裡。MLs不可能知道給定數據之外的情況,包括“明顯的”。

在某些情況下,MLs可以預測人類無法預測的事情。紐約西奈山醫院(M. Sinai Hospital)從70萬名患者的數據中訓練出的“深度患者”(Deep Patient),可以預測精神分裂症的發作:沒人知道怎麼回事!這是一個問題:對於一項投資、醫療、司法或軍事決策,你可能想知道人工智能是如何得出結論的,但你做不到。你不知道為什麼ML拒絕了你的貸款,建議法官把你關進監獄,或者把工作交給別人。ML是公平的還是不公平的?不受種族、性別或其他因素的影響?ML計算是可見的,但是太多了,無法形成一個人類可讀的摘要。ML像先知一樣說話:“你們人類不能理解,即使我給你們看數學,所以要有信心!”你驗證了我過去的預言,這些預言是正確的!”

人類也從來沒有完全解釋過他們的決定:我們給出的理由聽起來合理,但總是不完整、過於簡化。舉個例子:“我們入侵伊拉克是因為伊拉克擁有大規模殺傷性武器”看起來是對的,但還有幾十個原因。這看起來是錯誤的,即使ML是正確的:“我們轟炸了那個村莊,因為一個有名望的ML說他們是恐怖分子”。它只是缺乏解釋。人們從大ls得到的幾乎總是正確的答案會開始編造虛假的解釋,只是為了讓公眾接受大ls的預測。有些人會秘密使用MLs,把這些想法歸功於他們自己。

ML結果只與您訓練ML時使用的數據一樣好。在ML中,您很少編寫由谷歌(Keras, Tensorflow)、Microsoft等提供的軟件,算法是開源的。ML是一門由實驗而非理論定義的不可預測的科學。你花了大部分時間準備數據來訓練和研究結果,然後做了很多改變,主要是通過猜測和重試。ML如果輸入的數據太少或不準確,就會給出錯誤的結果。谷歌的圖片錯誤地將非洲裔美國人歸類為大猩猩,而微軟的Tay機器人在Twitter上僅僅訓練了幾個小時就學會了納粹、性和仇恨語言。問題是數據,而不是軟件。

不受歡迎的偏見隱含在人類產生的數據中:一種ML訓練谷歌新聞相關的“父親是醫生,母親是護士”反映性別偏見。如果是這樣的話,它可能會優先考慮男性求職者而不是女性求職者。執法人員ML可以根據膚色進行區分。在特朗普競選期間,一些ML可能減少了推薦“墨西哥”餐館的數量,這是閱讀了許多關於墨西哥移民的負面帖子的副作用,即使沒有人特別抱怨墨西哥食物或餐館。您不能簡單地將數據從internet複製到ML中,然後期望它最終是平衡的。要訓練一個聰明的ML是很昂貴的:你需要人來回顧和“消除偏見”什麼是錯的或邪惡的,但自然發生在媒體上。

ML是有限的,因為它缺乏一般的智能和先驗常識。即使將所有的專業語言學習結合在一起,或者對ML進行所有方面的培訓,它在一般的AI任務上仍然會失敗,例如在理解語言方面。你不能像和真人一樣和Siri、Alexa或Cortana談論每一個話題:他們只是助手。2011年,IBM沃森在《危險邊緣》(Jeopardy!)電視問答,但把加拿大和美國搞混了。ML可以生成有用的長文本摘要,包括情緒分析(觀點和情緒識別),但不如人類作品可靠。聊天機器人無法理解太多的問題。目前沒有任何一款人工智能能夠做到所有人都能做到的事情:當客戶感到沮喪或挖苦時,它能夠一直猜測,並相應地改變語氣。在電影中沒有任何AI將軍。但我們可以單獨得到一些科幻風格的人工智能小部件,讓人類在有限的(特定的)任務中勝出。新發現的是,“狹義”可以包括創造性的或被認為是人類獨有的任務:繪畫(風格、幾何圖形,如果是象徵性或概念性的,就不太可能)、創作、創造、猜測、欺騙、虛假情感等等,令人難以置信的是,所有這些似乎都不需要一般的人工智能。

沒有人知道如何構建一個通用AI。這是偉大的:我們有超人類專業(狹義人工智能)的工人,但沒有任何終結者或黑客帝國將決定自己殺死我們很快。不幸的是,人類現在可以訓練機器來殺死我們,比如一個恐怖分子教自動駕駛卡車撞行人。擁有一般情報的人工智能可能會自我毀滅,而不是聽從恐怖分子的命令。有關人工智能末日辯論的細節,請閱讀:人工智能會在奪走我們的工作後殺死我們所有人嗎?

人工智能倫理將被黑客攻擊,並被非法重新編程。目前的ML不是一般意義上的人工智能,也不是有知覺的人工智能,它總是遵循人類給出的命令(訓練數據):不要指望人工智能出於良心拒服兵役。每個政府都必須制定法律,詳細說明自動駕駛汽車是否更願意殺死乘客或行人。兩個孩子突然跑到一輛只有一個乘客的汽車前面,為了避開孩子,汽車只能在致命的情況下跑,比如懸崖。民意調查顯示,大多數人寧願擁有一輛撞死行人的車,也不願擁有一輛撞死自己的車。大多數人對這些非常罕見的事件還不以為然,但當第一起事件發生時,他們會反應過度,並對政客提出質疑,即使每10億輛車只發生一次。在一些國家,汽車將被要求殺死一名乘客以拯救多名行人,車主將要求黑客對汽車進行秘密編程,以拯救乘客。但是在盜版的AI補丁中,隱藏的AI惡意軟件和病毒可能也會被安裝!

教一個人很容易:對於大多數任務,你給出一打例子,讓他/她嘗試幾次。但是一個ML需要上千倍的標記數據:只有人類才能從少量數據中學習。一個ML必須再試一百萬次:如果現實世界的實驗是強制性的(不能像國際象棋、圍棋等遊戲那樣完全模擬),那麼在完成一項訓練之前,你將不得不撞毀數千輛真實的汽車,殺死或傷害數千名真實的人類患者,等等。ML與人類不同,它會過度適應:它記住的是訓練數據中過於具體的細節,而不是一般的模式。因此,它在真實任務中失敗的概率超過了之前從未見過的數據,甚至與訓練數據稍有不同。當前的ML缺乏對每種情況建模並將其與之前經驗聯繫起來的人類一般智力,無法從很少的例子或嘗試和錯誤中學習,只能記住一般性的東西,忽略不相關的東西,避免嘗試可以預測為失敗的東西。

在學習了100萬個例子之後,ML在百分比上比人類犯的錯誤要少,但是錯誤可以是另一種類型,人類永遠不會犯的錯誤,比如把牙刷歸類為棒球棒。它與人類的這種區別可以被用作惡意的人工智能黑客,例如,在街道信號上畫出微小的“對抗性”變化,雖然不為人類察覺,但對自動駕駛汽車來說,卻會造成極大的困惑。

人類將繼續做一般的人工智能任務,這是ML無法做到的。智商(IQ)測試是錯誤的:他們不能預測人們成功的因為有許多不同的智能(視覺、言語、邏輯、人際關係等),這些合作混合,但是結果不能量化一個智商數量從0到n。我們將昆蟲定義為“愚蠢”相比,人類的智商,但是蚊子贏得我們在狹窄的“咬和逃逸”的任務。每個月,人工智能都會在更狹窄的任務上擊敗人類,比如蚊子。等待“奇點”時刻——人工智能將在所有方面擊敗我們——是愚蠢的。我們得到了許多狹窄的奇點,一旦人工智能在一項任務上贏了我們,除了監督人工智能的人,所有人都可以放棄這項任務。由於人工智能具有一定的創造性,我們無法預測它下一步將贏得哪些任務,但它將缺乏“一般智力”。一個例子:喜劇演員和政客是安全的,儘管不需要特殊的(狹隘的)研究,他們只是可以用有趣或令人信服的方式談論任何事情。如果你專門從事一項困難但狹窄而常見的工作(如放射科醫生),MLs將為你培訓並取代你。


分享到:


相關文章: