使用4個機器學習庫來處理大數據

2018-07-14 20:13:02 不靠譜的貓

在Booking.com，我們可以根據客戶和合作夥伴（酒店，住宅，度假租賃等）如何與我們的平臺互動來處理大量數據。我們的主要挑戰之一是在合理的時間內在這些非常大且稀疏的數據集上訓練準確的機器學習模型。

在這篇文章中，我們比較了四種最流行的機器學習庫的性能，這些庫為大數據提供瞭解決方案：H2O，TensorFlow，SparkMLlib 和VowpalWabbit。目前我們將僅涵蓋線性模型，將其他機器學習模型的比較作為未來的工作。我們的目標是專注於更大的數據集的解決方案，這些數據集無法融入單個計算機的內存中。

數據集的描述

Booking.com網站為任何能上網的人提供全球各地的住宿機會。為了更好地分析我們的數據，我們將世界分為超過100k個不同的位置，併為它們分配一個唯一的id。當然可以通過相似的地點聚類或使用目標編碼來降低維度問題。然而，由於booker和property location的每種組合都表現出非常不同的市場行為，因此將每個位置作為單獨的特性使用通常更有效。

另一方面，訓練一個具有如此多特徵的模型需要大量的數據來防止過度擬合，在某些情況下，還需要大量的內存來執行計算。當數據科學家不得不選擇一個機器學習庫來使用時，這對他們來說是一個巨大的挑戰。

為了比較最流行的庫的算法和性能，我們使用了簡化版的數據集來處理我們在Booking.com上正在處理的問題:

當客戶到達Booking.com網站時，他們需要指定目的地和日期間隔。然後將向他們顯示可用屬性列表。在搜索會話期間，我們希望預測客戶下次單擊的屬性的評分。良好的預測使Booking.com能夠為用戶提供更好，更個性化的體驗。

不幸的是，一種簡單的啟發式方法並不能帶來令人滿意的結果。圖2中的表格顯示了基線預測的主要指標，這些指標是在會話中單擊的評論分數的平均值。如果這是不可用的，我們使用一個給定目的地的平均評論分數。下面我們報告通過比較標記數據和基線預測獲得的均方根誤差（RMSE），決定係數（R 2）和平均絕對誤差（MAE）。

圖2:使用簡單啟發式的目標變量預測結果

為了改善這種預測，我們對80％的數據進行線性迴歸，將20％作為測試集。我們使用H2O，TensorFlow，SparkMLlib和VowpalWabbit來做到這一點。

線性迴歸

最簡單但性能最佳且使用最廣泛的機器學習算法之一是線性迴歸。要預測的變量Y被假定為一組特徵的線性函數。如果我們有一個包含N個示例和M個特徵的數據集，我們假設保持以下關係：

Y是 N個目標值的矢量，X是特徵（ N × M矩陣）， α是必須估計的 M個係數的矢量。假設線性估計和ground truth 之間的剩餘偏差ε的分佈正態地分佈為零均值。

訓練線性迴歸意味著找到最適合觀察數據的向量α。這相當於找到α最小化最小平方損失函數：

最小化損失函數的α值是將其梯度設置為零的值。找到這一點的典型方法是運行梯度下降算法。從α空間中的隨機點開始，算法計算該點的損失函數的梯度，並將係數更新為負梯度方向的一步：

該步驟的大小由參數λ控制，稱為學習率。該算法通常在有限次數的迭代之後收斂，即參數值的微小變化不會導致損失函數值的任何顯著降低。另一種流行的方法是使用二階方法，通過將梯度與Hessian的倒數（或其近似值）相乘來選擇下降方向。

一種流行的二階方法是Broyden-Fletcher-Goldfarb-Shanno算法(L- bfgs)，其中“L”只用於有限的內存使用。L-BGFS使用的是Hessian的逆的近似，它要求在內存中保留以前的梯度值的固定數量。

為了計算梯度，（如果需要的話），對逆Hessian的近似值，並更新系數，計算機必須記住所有的數據和每個迭代中係數的所有值。對於大於O(10GB)的數據集來說，這在技術上是不可行的，這是Booking.com的標準。幸運的是，有一些機器學習工具提供了不同的策略來解決這個問題:

H2O通過將數據集拆分為塊來分配計算。在每次迭代時，為每個塊計算梯度和近似逆Hessian。這部分計算就像一個“mapper”，因為與隨機梯度下降相比，模型參數沒有更新。在迭代的第二部分中，就像在“reducer”中一樣，漸變和近似Hessian被組合以更新權重。默認優化算法是LBGFS，但用戶可以選擇其他幾種算法。所有數據都存儲在內存中，因此H2O需要分配一個固定的，相對較大的內存來運行。
SparkML使用類似於H2O的方法在執行程序上分配計算。然而，使用稀疏向量存儲特徵示例，這允許減少所需的存儲量。用戶可以通過調整分區數來控制數據集分割的塊的大小。增加spark會話的執行程序的數量可能有助於減少訓練時間，因為可以並行執行更多操作。
VowpalWabbit使用隨機梯度下降（SGD）。該算法一次讀取一行數據，並僅使用該行的信息更新梯度和係數。然後它重新計算損失函數並進入下一個例子。消耗的內存量與數據集中的行數無關，並且相對較小，因為只需要存儲係數的值和損失函數的值。對於在每個更新步驟讀取所有數據的方法，在SGD需要更多迭代（即，更多數據點）來收斂時使用僅一行的信息。VowpalWabbit針對讀取數據進行了高度優化。係數更新比普通梯度下降更復雜。學習率不是恆定的，而是取決於隨時間更新和衰減的係數。根據讀取的新值重新標準化功能。
TensorFlow肯定是這四個中最可定製的庫。它主要用於構建深度學習算法，但也提供了使用張量操作構建模型的通用框架。用戶可以完全控制最小化算法，並可以根據需要進行修改。在本研究中，我們使用了小批量梯度下降，與SGD非常相似，但是使用一批數據而不是僅僅一行來更新梯度。在小批量大小表示在每個迭代中使用的行數。在本研究中，我們使用64的小批量大小。與Vowpal Wabbit類似，默認情況下，梯度更新規則比普通梯度下降更復雜。默認優化器是Follow-The-Regularized-Leader（FTRL）。

TensorFlow還支持散列技巧。與VowpalWabbit的主要區別在於可以獨立地為每個特徵列設置散列大小。

特徵編碼

超出數據集的大小，特徵的數量也在訓練所需的內存量中起著重要作用。事實上，在每次迭代時，需要計算所有的一階導數，並且應該更新所有係數（對於L-BFGS，還需要保留在一些先前步驟中計算的導數）。這意味著訓練具有多個分類變量的模型（例如屬性的位置）可能是內存昂貴的。我們來解釋一下原因。

要在線性迴歸中使用分類特徵，必須先對其進行編碼。最常用的編碼之一是one hot編碼，即將分類變量轉換為二進制向量，如下所示：

圖3：分類功能的one-hot編碼，例如屬性所在的國家/地區

包含200個不同值(大致相當於世界上國家的數量)的分類特徵將被轉化為200個單獨的特徵。對於我們想要解決的問題，我們有這樣一個數據集:

圖4：用於訓練線性重新生成的數據的快照

不同的列是：

visitor_loc_id：訪問者的位置ID
dest_id：屬性的位置ID
avg_score：會話中單擊的屬性的平均評分
prev_score：點擊最後一個屬性的評分
target：點擊下一個屬性的得分，我們想要預測的內容

所有特徵都被視為分類。為此，prev_score和avg_score的值已在第一個小數位被截斷。每個特徵的基數如下表所示：

圖5：數據集中分類特徵的基數

經過one-hot-encoding後，我們獲得了280164種不同的特徵。為了在不事先知道VowpalWabbit特徵的基數的情況下執行one-hot-encoding，使用所謂的散列技巧。它首先通過哈希函數將所有要特徵轉換為整數，然後對結果進行one-hot-encoding。用戶可以通過指定散列值的位數來選擇散列函數的共域的大小。對於這項研究，我們使用28位，即268435456可能的散列函數的不同結果（VowpalWabbit的默認值是18位）。較大數量的比特減少但不消除衝突的機會，即將兩個不同的特徵映射到相同的散列值。

我們使用H2O，SparkML，TensorFlow和VowpalWabbit，使用490M數據點（~20GB）對該數據集進行了線性迴歸。

機器學習庫比較

我們為所有四個庫訓練了一個線性迴歸模型。由於行數與特徵數量之比非常大，我們決定不應用任何正則化項。我們嘗試儘可能少地從庫的基本實現中進行更改，以重現典型用法。

在不改變初始參數的情況下，H2O在測試集上給出RMSE = 0.323 ，顯著高於用所有其他庫獲得的RMSE <0.3。這是因為，默認情況下，H2O將彈性網正則化項添加到最小平方損失函數，強度為λ。使用基於訓練數據的試探法計算參數λ的值。參數α，控制L1和L2之間的平衡懲罰默認設置為0.5。對於大數據和稀疏數據的問題，這種正則化太強，導致最小化算法陷入局部最小值。為了避免這個問題，H2O用戶需要在每次訓練線性迴歸時明確設置λ= 0。

將正則化項設置為零，H2O的性能與SparkML，TensorFlow和VowpalWabbit保持一致。四個庫之間比較的最終結果如下圖6所示：

圖6:測試集上的RMSE和MAE與正在研究的四個庫的比較

我們觀察到訓練速度和內存消耗之間的權衡，如下圖所示：

圖7:觀察到的訓練時間。* TensorFlow有兩個值:一個是默認值，另一個是經過優化的管道

圖8:訓練過程中使用的內存

我們已經報告了TensorFlow的兩個訓練時間，因為我們已經觀察到根據數據讀取方式的顯著變化。具體來說，我們使用TensorFlow版本1.8並使用推薦的tf.data API讀取數據。此外，訓練數據以推薦的T FRecords格式存儲，使用TensorFlow連接器在Spark中編寫。TFRecords是針對閱讀優化的序列化訓練示例，然後在訓練時對其進行反序列化。

使用默認設置，我們觀察了6小時15分鐘的訓練時間，這段時間大大減少到2小時7分鐘，優化了數據讀取過程。識別數據讀取管道中的瓶頸被證明是非常重要的。關於這個優化的技術討論超出了本文的範圍。我們發現，在反序列化之前對tf記錄進行批處理，並創建一個預取數據的緩衝區，可以顯著提高速度。

對每個模型最重要的指標、訓練的內存和時間、以及所使用的算法的完整概述如下表所示

圖9：包含每個庫最重要指標的表

括有關訓練時間和內存使用情況的信息。* TensorFlow訓練時間引用兩個值：一個具有默認值，另一個具有優化管道

特徵交互

為了用線性迴歸來描述非線性關係，通常將特徵相互作用包括在最小化中。如果這些特性是絕對的，這就意味著創建新的級別，由原始級別的組合提供，並將它們插入到損失函數中。創建所有交互將產生超過170億個獨特的特徵。

因為我們只有490M的數據點，所以不可能限制這麼多的參數，因此顯式地對所有級別進行one-hot編碼沒有多大意義。我們考慮了兩種不同的方法:

散列所有特徵空間。無論所有特徵交互的基數如何，都將考慮最多2 ^ b個級別，其中b是散列函數的位數。如前所述，這種方法與VowpalWabbit開箱即用。用戶只需要指定他想用二次或三次交互作為命令行參數訓練模型。然而，我們注意到，在VW（-q ::）中交互所有特徵的默認方法在訓練時間中引入了大量開銷。因此，我們使用參數-q aa和分配給同一名稱空間a的所有功能手動指定了交互。與前一節一樣，我們使用b = 28。TensorFlow允許使用交叉層創建交互，交叉層交互兩個分類層，並將結果散列為用戶指定的每個交互的多個buckets。對於6對成對相互作用中的每一個，我們使用了大小為10⁶的buckets。使用SparkML和H2O，用戶需要預處理數據以創建散列記錄。Spark版本2.3.0提供了一種允許非常容易地執行此操作的方法。但是，在我們的例子中，當我們使用Spark 2.2.0時，我們使用MurmurHash3實現了轉換Scala 2.11庫中提供的函數。我們將位數限制為24，否則程序將在one-hot編碼階段崩潰。H2O不是為執行此操作而設計的。用戶原則上可以在Spark中進行散列，然後將數據複製到H2O。然而，這將是一個相當複雜的程序，我們不建議這樣做。相反，要遠離線性迴歸並使用其中一種H2O方法進行非線性算法，例如：隨機森林或梯度增強機器，這樣更容易，更有效。
削減低發生類別。只考慮了一些相互作用。在我們的問題中，我們有兩個具有非常高基數的特性：dest_id和visitor_loc_id。我們只考慮了涉及這些特徵的級別的相互作用，其發生次數大於10000.每個交互的其他組合被放在一個區域中。這導致了具有626310獨特功能的數據集，可以通過H2O和SparkML消化，而無需用戶進行任何進一步操作。

如下面的圖10所示，使用交互對模型進行訓練，可以使RMSE和MAE有一個小的改進，同時可以顯著增加內存消耗和訓練時間。對於SparkML，我們將結果繪製為切割低發生率類別。由於所採用的方法是不同的，所以在庫中進行訓練時間和內存消耗的比較是不完全公平的。

圖10：在測試集上測量的RMSE和MAE與所研究的四個庫的比較，包括模型中的特徵相互作用

圖11：包含每個庫最重要指標的表

包括有關訓練時間和內存使用情況的信息。“Strategy”列指示了在模型中包含要素交互的方法。* TensorFlow使用優化和默認管道運行

結論

我們比較了四種最流行的機器學習庫來訓練生產線性模型。儘管這些庫以固有的不同方式處理大數據，但它們的表現非常相似。

H2O 強大賣點是其易於使用的語法和詳細的界面。這使得即使是非專家也可以在很短的時間內訓練大數據的機器學習模型。這種用戶友好性的代價是，有時H2O對於其背後發生的事情並不完全透明。這使得難以理解為什麼模型表現不佳。事實上，在我們的例子中，最好覆蓋默認參數以明確地將正則化項設置為零。

SparkML代表了分佈式機器學習的有效替代方案，訓練時間非常短。內存和資源佔用空間很大，但可以根據可用資源進行調製（以速度為代價）。SparkML還具有在同一框架中提供機器學習工具和強大的Spark數據重複功能的巨大優勢。不幸的是，沒有任何界面來監控訓練進度，並且語法不像H2O那樣友好。

VowpalWabbit已經提供了開箱即用設置的良好效果。散列函數的位數基本上是在大型稀疏數據集上訓練線性模型時唯一需要關注的參數。由於哈希技巧的開箱即用實現，它在內存消耗方面是最有效的庫。另一方面，這些庫提供了有限的非線性算法選擇和一個非常基本的界面來監控訓練的進度。用戶需要努力計算最基本的訓練指標。為了解釋模型，需要反轉散列函數。對於大位值，此操作可能在計算上很昂貴。

TensorFlow具有與VowpalWabbit類似的內存和資源佔用空間，具有更好的用戶界面和靈活的算法。用戶可以完全定製最小化策略以使其適應每個特定問題。訓練時間的顯著增加是由於底層代碼的複雜性更高。實際上，該庫是一個針對各種優化問題的通用求解器。找到最小化訓練時間的最佳配置本身就是一項非常重要的任務。在這裡，我們使用了一種簡單的方法來嘗試重現庫的標準用法，並使用更復雜的方法來顯示可以觀察到多少變化。

總之，關於使用哪個庫的選擇實際上取決於手頭的問題和可用的資源量。有了適合您的大型集群，可以使用H2O庫，特別是如果您熟悉大數據的機器學習。如果數據準備部分也在Spark中完成，SparkML提供了一個很好的選擇。如果資源有限，VowpalWabbit在大型數據集上提供了良好的性能，但非線性選項很少。對於更具可擴展性和定製的解決方案，TensorFlow提供了其他任何庫都無法提供的良好性能和靈活性。

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: 科技機器模型

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

通過線性迴歸理解機器學習

機器視覺基礎知識

人工智能公司思必馳宣佈完成4.1億元E輪融資

在線教育破局指南：跑通3種流量轉化模型，100%規模化增長

歐洲盃沒了，"世界盃"來了，阿里引領人工智能升級2.0時代

羅永浩抖音直播貨品再曝光：網易嚴選，安慕希在列

是什麼原因導致了Go對Python的衝擊？

直面疫期配送大考驗，智慧物流這波作答你給幾分？

2G看文字，3G看圖片，4G看視頻，5G看什麼？中國移動告訴你

02.29 Facebook Messenger將獲得更簡潔的新設計

02.28 智聯Python相關職位的數據分析及可視化-Excel篇

科技戰疫丨更安全些機器“小哥”上場了

5G可以做或不能做什麼的擔憂和困惑，5G的前5個謬論，您需知道

自我升級智能體的邏輯與認知問題

12.26 2019 AI收購：五巨頭打響人才爭奪戰

破案了！僅用一個智能雲臺攝像頭就抓獲了“敗家”嫌疑犯

中國移動北京公司攜手合作夥伴折桂世界5G大會5G應用設計揭榜賽

EVG與DELO聯手提升晶圓級光學元件和納米壓印光刻技術

索尼AI正式成立未來將與谷歌和Facebook並肩

我國正式開啟6G網絡研發工作，OPPO又一次走到了行業前列

5G下的金融科技向何處去神州信息高管全方位解答

iPhone 11 Pro Max DxOMark攝像頭評分出爐

10.23 AI能讓人類“永生”？或許可行

10.21 AI+CRM：客戶管理會變得更容易？

09.09 AI除了當客服，電商還在用它做些啥？

努力搶佔時代的風口

MongoDB + Spark: 完整的大數據解決方案

深度學習應用於太空

《nature》雜誌：我們有義務搞懂我們所創造出來的技術

智能運維（AIOps）中幾處問題的解決方案與思路

機器“創作”的圖書問世，你有興趣讀一讀嗎？

機器、動物與人類思維的本質與邊界

谷歌啟動人工智能平臺，看起來像一個RASPBERRY PI

三星Galaxy S10+琉璃綠，簡單開箱

人工智能，機器，編程，未來

01.10 2019，齒輪易創合作伙伴智見MAX之天使投資提前知

網際網路風雲背後的人工智慧生長

人類 VS 機器

人文與「機器」的對立與融合

09.06 首發｜Splunk>live!2018中國用戶大會上海站完整議題曝光！

08.15 這些高校專業即將撤銷，有你的專業嗎？

國外工業製造巨頭都在怎麼玩物聯網？

金華開啓刷臉支付福泰隆首批推出21台「刷臉」機器

06.17 人工智能算法Facebook的新AI研究可讓睡美人睜開眼比Photoshop好

人類1000多種工作將被人工智慧替代，俄羅斯發明智能作曲機器

05.16 內部員工請願辭職，外界發公開信批判，谷歌能否恪守不作惡信條？

05.03 2018Facebook年度開發者大會你想知道的新品發佈都在這！

03.14 這九位中國人工智能領域傑出女性，你應該知道

小米太無恥了。

小米高管不只口嗨了，在國內拳打友商，在國外卻開始下跪了。下一步，我猜小米會喊，高通爸爸，人家愛死你了，人家已經五體投地了喲。

蹭熱點！說說我理解的手機包裝盒事件。

今早醒來刷頭條，發現大批米系自媒體鋪天蓋地發文嘲諷華為系自媒體，忍不住好奇瞭解了一下情況，原來是剛發佈的一加8 海外版手機的手機包裝盒上面印了一句話:with easy access to the Google apps you use most.而這句話也印在前段時間發佈的小

蘋果公司正式發佈iPhone SE二代手機

新品名為“iPhoneSE”，擁有跟iPhone 8相似的外觀，搭載了蘋果當前最新的A13仿生芯片，具備IP67級別防水防塵能力，配備4.7英寸LCD材質屏幕，支持原彩顯示，配備了Touch ID指紋識別。

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

至於受很多人關注的華為河圖全面落地問題，官方有消息稱，2020年第二季度會提供100個華為河圖測試點，測試點到第四季度會增加至1000個，測試覆蓋空間包括智慧園區、旅遊景點、高鐵站和機場等。

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

小米科技高管盧偉冰在近日表示，5G旗艦手機如果5G網絡全開，功耗會比4G手機高20%，4000mAh的5G手機大約等於4G手機的3200mAH；今年Redmi堅持把5G手機的容量控制在4500mAh以上，也是考慮到5G網絡耗電大的原因，今年很多5G智能手機均採用大電池的設計。

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

榮耀30Pro/30 Pro+同時搭載麒麟990 5G SoC，相應的其它配置更高：Wi-Fi6+，支持紅外遙控，USB 3.0 Type-C接口。

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

現在，家庭寬帶都在500M左右，大部分手機也不支持Wifi6標準，換Wifi 6無線路由器有點早，因為換了Wifi 6無線路由器網速也不會變快。

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

都說蘋果手機賣不動了，可我看想買iPhone手機的人還是那麼多，不然之前蘋果公司怎麼會限購？數據顯示，3月份在國內的 iPhone 銷量比 2 月份激增 416%，達到約 250 萬部。

幹翻華為P40系列榮耀30也玩中

而今天的華為發佈會上，榮耀30、30 Pro、30 Pro +3個版本中、大、特大杯齊亮相，又一片全新5G SOC，麒麟985也要登場。

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

原來男子是從事互聯網工作，後面覺得是互聯網寒冬來了，就堅決辭去互聯網工作，跨行選擇了一個教育傳統上市公司，可是第1天上班就蒙了，公司讓做的活兒太死板了，沒有發揮空間，同事一點都不友善，領導不放權，而且管理線超級單一，氛圍一點都不一樣，所以想離職。

蘋果發佈新款iPhoneSE，3299元起售

北京時間4月15日晚，蘋果正式發佈了新款iPhone SE，搭載了A13仿生芯片，支持最新的iOS 13系統，支持 18W快充，也支持Qi無線充電。SE機型蘋果到目前為止只發布了兩款，這是iPhone產品體系裡小屏和低價的典型機器。

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

政府對於跨境電商行業的大力支持給咱們廣大跨境電商賣家吃了一顆“定心丸”。我們所做的跨境電商事業在一定程度上不再是為個人謀利益，而是成為了中國產品走向世界，為國家賺取外匯的主力軍。

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

在開始文章的乾貨分享之前，先給大家講一個商家被用戶勒索的案例。有一位朋友剛剛加入亞馬遜跨境電商平臺兩個多月，在這期間有位美國用戶在他店鋪裡面購買了一個毛巾架。

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

做過跨境電商朋友肯定知道，很多國外客戶對於有些商品看不懂說明書，想索要商品使用視頻教程，畢竟視頻信息量大，容易理解和快速上手。

值得收藏！三類賣家三種選品方案，總有適合你的一個……

網上很多所謂的“大佬”喜歡吹噓用某某工具就可以迅速選品效率，迅速取得很高效率等等，其實這類人就是在賣軟件，收培訓費用…

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

咱們今天不說主打歐美市場的亞馬遜，只談一下以東南亞市場為主的Shopee。好多人都聽說過，但是沒有真正瞭解過，好多人想加入Shopee但是顧慮重重，今天我來給大家普及一下關於Shopee小秘密。

馬雲終於要辭職了，留下的話句句觸動人心

去年，在教師節這天，阿里巴巴集團創始人馬雲今天公開信宣佈：一年後的阿里巴巴20週年之際，即2019年9月10日，也就是今天，他將不再擔任集團董事局主席，卻留下句句觸動心靈的話！！

等等，明年5G手機將迎來大降價

11月26日下午，聯發科技（MediaTek）在深圳舉辦“聯發科技 5G方案發布暨全球合作伙伴大會”，正式發佈了全新的5G新芯片品牌——“天璣”，同時帶來了首款集成式旗艦級5G移動平臺——天璣1000。

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

微信公開課pro版2019，為期兩天微信大會正在廣州火熱進行中，本次會議主題為：同行WITHUS。微信這一款超級應用，已經深入到我們生活的方方面面，所以這48小時的未來盛宴必將吸引無數眼球。

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

小海按：美團的超級App夢想更近了？Tech星球文 | 馬微冰陳橋輝頭圖 | IC Photo王興曾說，“太多人關注邊界，而不關注核心。”

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

而且在我們國內和美企中，有相當一部分覺得我們研發不了5G，更特說超越他們了。由於，我們在科技領域一直是，裝備一代，研發一代，探索一代。

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

前段時間，英國首相呼籲員工在家辦公的第二天，英國網絡就出現大面積崩潰現象，不僅無法正常上網，而且電話也不能打、短信也不能發，給用戶造成了很大的困擾。

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？因為五年內沒有人能超過整個5G領域，所以美國人無法超越，為什麼？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

小海按：前端殺手級應用，後端雲服務，在線辦公「四小龍」之戰開啟。本來，在線辦公更多的是阿里巴巴的主場。

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

原來華為P40Pro+在上一代P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上，進一步採用全新的多反射潛望式光路摺疊技術，實現5次反射光路，光程比上一代潛望式長焦提升178%。

今天聊一聊直播

今天聊一聊直播突然談到這個話題，是因為後知後覺的我，突然發現幾乎所有大互聯網公司都進軍了網絡直播行業，或者正在準備進軍直播領域。

通過直播賺錢不容易，既要豁得出去，又要端得起來

今天咱們繼續聊一聊直播吧當下，像頭條、網易、百度等公司，看上去和直播八竿子打不著的公司，也開始涉足直播了。

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

並非危言聳聽，AI和自動化結合，勢必會把數十億人類踢出勞動力市場，數量巨大的失業工人，將會構成一個規模龐大的新階級。AI最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

長期以來，一直令人擔心的IPv4地址耗盡的問題，今天這一刻終於發生——所有43億個IPv4地址已分配完畢，這意味著沒有更多的IPv4地址可以分配給ISP和其他大型網絡基礎設施提供商。

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

很多人認為12306系統很不好，之前我也是這麼認為的，因為我覺得像雙十一這麼大流量，阿里都能承受住，為什麼12306不行，這其實是誤解，12306擁有著神一般的架構設計，平時的壓力比淘寶大的多。

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

據路透社消息，10月25日，美國防部將高達100億美元的十年期戰略合同授予微軟公司，這一舉動引起亞馬遜的不滿。

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

北京時間26日消息，國際開源芯片技術組織RISC-V基金會週一宣佈，由於擔心美國的貿易限制，計劃將總部從美國特拉華州遷往瑞士。該基金會首席執行官卡利絲塔-雷蒙德（Calista Redmond）表示，希望確保美國以外的大學、政府和企業能夠幫助開發其開源技術。

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

比特幣價格今年如同坐上過山車，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是這半年來的最低點了。說起比特幣，給人印象最深刻的，莫過於2017年末到2018年初的暴漲了吧。

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

可是，蘋果事實上一直都在推動終端產品進入全面無線時代，所以他們是不太可能在真正意義上放棄這款產品。有外媒稱，蘋果目前正準備重新啟動AirPower項目。

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰隨著網絡的不斷髮展，如何確保網絡信息安全成為人們十分重視的問題。

互聯網流量需求增大希臘民眾“宅生活”考驗網速

英國諮詢公司Tech4i2報告指出，在疫情期間，希臘的互聯網流量需求至少增長50%，但網速僅下降1.2%，而在大多數歐洲國家，網速平均下降了5%-7%。

互聯網科技企業，傳統辦公模式該走向何處?

　　紐約，處於美國疫情震中的城市，工作模式大多是使用公司發放的電腦進行遠程辦公，而在這之前，部分互聯網企業本來默認每週三為在家辦公日，所以大家對在線辦公可以說駕輕就熟。

微信又悄悄上線一新功能～網友卻開始擔心

備註後的群聊名稱僅自己可見往後再也不用為分清亂糟糟的微信群聊而困擾不過從目前來看只有iOS端上線了這一新功能安卓用戶還需要再等等並且此次更新為後臺更新無需到AppStore更新即可看到這個新功能該功能上線後網友們紛紛站隊但也有網友視野開闊擔心起另一件事對於微信新功能群備註你覺得實

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

文：小娜說到孫正義這個名字，我們很多人都知道他是日本軟銀集團的創始人兼總裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成為今天的阿里，與孫正義的投資是分不開的。當時，馬雲和孫正義僅僅交談了五分鐘，孫正義當即就決定投資阿里，而且一下就投資2000萬美元。

科技添柴“非接觸經濟”升溫

新華社記者王全超攝中國同拉美和加勒比國家舉行視頻工作會議，就新冠肺炎疫情防控開展交流。亞歷山大·培尼亞攝在中國科學技術大學附屬第一醫院，乘客用“無接觸電梯按鈕”操作電梯。

好像在哪見過？華為nova7官宣餘承東:何必只有一點點

全新iPhoneSE根據此前爆料，此次華為nova7系列將有nova7 SE、nova7和nova7 Pro三個版本，可能會採用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”兩種芯片組合。

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

2018年，線下培訓機構受到了相關部門政策的影響，整體發展勢頭趨降，然而市場上對於教育的需求卻在不斷增加，於是，大量學員開始把需求放到了線上，其中，職業教育在這方面的變化尤其明顯。

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

蘇州相城區政府相關人士對此未予置評，區金融局人士表示“不便答覆”，其他多個當地機關單位稱尚不知情，央行蘇州市中心支行表示“以總行口徑為準”，央行總行方面未予確認。新京報記者程維妙陳鵬編輯嶽彩周校對薛京寧

實例 | 200 SMART運動控制基本指令詳解

C_Dir:表示電機的當前方向信號狀態，0 = 正向 1 = 反向。 START:觸發開始發脈衝信號，必須要在運動軸空閒時發送一次信號，必須用邊沿觸發。

使用4個機器學習庫來處理大數據

數據集的描述

線性迴歸

特徵編碼

機器學習庫比較

特徵交互

結論

相關文章:

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

通過線性迴歸理解機器學習

機器視覺基礎知識

人工智能公司思必馳宣佈完成4.1億元E輪融資

在線教育破局指南：跑通3種流量轉化模型，100%規模化增長

歐洲盃沒了，"世界盃"來了，阿里引領人工智能升級2.0時代

羅永浩抖音直播貨品再曝光：網易嚴選，安慕希在列

是什麼原因導致了Go對Python的衝擊？

直面疫期配送大考驗，智慧物流這波作答你給幾分？

2G看文字，3G看圖片，4G看視頻，5G看什麼？中國移動告訴你

02.29 Facebook Messenger將獲得更簡潔的新設計

02.28 智聯Python相關職位的數據分析及可視化-Excel篇

科技戰疫丨更安全些 機器“小哥”上場了

5G可以做或不能做什麼的擔憂和困惑，5G的前5個謬論，您需知道

自我升級智能體的邏輯與認知問題

12.26 2019 AI收購：五巨頭打響人才爭奪戰

破案了！僅用一個智能雲臺攝像頭就抓獲了“敗家”嫌疑犯

中國移動北京公司攜手合作夥伴折桂世界5G大會5G應用設計揭榜賽

EVG與DELO聯手提升晶圓級光學元件和納米壓印光刻技術

索尼AI正式成立 未來將與谷歌和Facebook並肩

我國正式開啟6G網絡研發工作，OPPO又一次走到了行業前列

5G下的金融科技向何處去 神州信息高管全方位解答

iPhone 11 Pro Max DxOMark攝像頭評分出爐

10.23 AI能讓人類“永生”？或許可行

10.21 AI+CRM：客戶管理會變得更容易？

09.09 AI除了當客服，電商還在用它做些啥？

努力搶佔時代的風口

MongoDB + Spark: 完整的大數據解決方案

深度學習應用於太空

《nature》雜誌：我們有義務搞懂我們所創造出來的技術

智能運維（AIOps）中幾處問題的解決方案與思路

機器“創作”的圖書問世， 你有興趣讀一讀嗎？

機器、動物與人類思維的本質與邊界

谷歌啟動人工智能平臺，看起來像一個RASPBERRY PI

三星Galaxy S10+琉璃綠，簡單開箱

人工智能，機器，編程，未來

01.10 2019，齒輪易創合作伙伴智見MAX之天使投資提前知

網際網路風雲背後的人工智慧生長

人類 VS 機器

人文與「機器」的對立與融合

09.06 首發｜Splunk&gt;live!2018中國用戶大會上海站完整議題曝光！

08.15 這些高校專業即將撤銷，有你的專業嗎？

國外工業製造巨頭都在怎麼玩物聯網？

金華開啓刷臉支付 福泰隆首批推出21台「刷臉」機器

06.17 人工智能算法Facebook的新AI研究可讓睡美人睜開眼比Photoshop好

人類1000多種工作將被人工智慧替代，俄羅斯發明智能作曲機器

05.16 內部員工請願辭職，外界發公開信批判，谷歌能否恪守不作惡信條？

05.03 2018Facebook年度開發者大會 你想知道的新品發佈都在這！

03.14 這九位中國人工智能領域傑出女性，你應該知道

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

科技戰疫丨更安全些機器“小哥”上場了

索尼AI正式成立未來將與谷歌和Facebook並肩

5G下的金融科技向何處去神州信息高管全方位解答

機器“創作”的圖書問世，你有興趣讀一讀嗎？

09.06 首發｜Splunk>live!2018中國用戶大會上海站完整議題曝光！

金華開啓刷臉支付福泰隆首批推出21台「刷臉」機器

05.03 2018Facebook年度開發者大會你想知道的新品發佈都在這！

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點