數據成本是否會將AI創企扼殺在搖籃中?

目前,數據逐步成為AI創企的“金鐘罩鐵布衫”:初創企業收集的數據越多,就越能訓練出更好的AI模型,使得新的市場競爭者難以與之匹敵。然而,這些數據並非免費獲取,許多AI創企認為,這筆額外的費用大大侵蝕了他們的利潤。隨著時間的推移,這些公司可能希望降低在數據上的投入,但目前尚不清楚如何預測這種情況出現的時間,以及降低至何種程度,這就增加了公司對未來增長進行建模的難度。

在軟件創企中,產品開發費用在損益表上歸屬於研發成本,而AI創企則將數據成本作為銷售成本(cost of goods sold,COGS)的一部分,後者這種做法有助於企業發掘擴大規模同時降低成本的機遇,從而提高利潤率。

下面的數據價值鏈流程圖顯示了大多數AI創企獲取和使用數據的方式。首先,企業將基礎事實的片段作為原始數據進行記錄。企業可將原始數據存儲在某處,然後建立流程或途徑進行維護和訪問。在運用於AI模型之前,企業需要對數據進行標註,以便AI模型實施處理每個數據點的行為。隨後,訓練有素的模型接收數據併產生反饋,企業便可以使用這種反饋來執行驅動終端用戶某種行為的操作。該過程可以分為三個不同的步驟:獲取數據、存儲數據和為了訓練模型而標註數據。每一步都會產生相應的成本。

數據成本是否會將AI創企扼殺在搖籃中?

數據採集成本

在所有的數據價值鏈中,任何傳感器(無論是物理設備還是人類)在收集原始數據時,首先需要捕捉對現實的觀測。在這種情況下,數據採集的成本將來自於傳感器的創建、分配和操作。如果該傳感器是一種硬件,企業必須考慮材料和製造的成本;如果傳感器是人,則成本來自於人員的招募以及提供他們製作和記錄觀察結果所需的工具。根據覆蓋範圍的不同,企業可能需要支付大量的費用來分佈傳感器。不僅如此,在某些用例中還可能需要進行高頻率的數據收集,這也可能會增加人工和維護成本。例如,受眾測量公司尼爾森(Nielsen)就需要承擔上述所有成本,因為它既提供收視率收集盒,也需承擔獲取參與者電視節目觀看情況的許可費。這樣一來,隨著覆蓋範圍越來越廣泛,尼爾森的數據就越有價值,規模經濟也就自然而然降低了單位數據採集成本。

數據成本是否會將AI創企扼殺在搖籃中?

在某些用例中,企業向終端用戶提供管理工作流程的工具(例如,自動電子郵件響應生成器),將他們捕獲的數據存儲在他們的工作流程中,或者觀察他們與工具的交互並將其記錄為數據,從而將數據採集的工作和成本轉移給終端用戶。如果企業選擇免費分佈這些工具,那麼數據採集的成本就將是獲取用戶的成本。或者企業可以選擇對工作流工具進行收費,這種方式可能會減慢和限制客戶採用率,從而在抵消數據採集成本的同時減少數據採集,具體的降低和限制程度將取決於企業對該工具的定價。

例如,我們公司的投資組合之一,大數據公司InsideSales為銷售代表提供了一個可直接與銷售線索建立聯繫的平臺。在銷售代表使用的過程中,平臺會自動記錄互動的相關數據,例如時間、模式、其他元數據,以及該銷售渠道中的銷售線索是否有進展。這些數據將被運用於AI模型的訓練,從而計算出聯繫潛在客戶最佳的通信時間和通信方式。在這種情況下,隨著越來越多用戶入駐該平臺,網絡效應就有可能會提高工具的實用性,從而降低獲取用戶的成本。

另外一種方式是,在另一個實體已經建立了數據收集渠道的情況下,確保建立戰略伙伴關係可以進一步降低成本。例如,我們的另一家公司Tractable採用計算機視覺來實現汽車保險調節器的自動化。該公司目前正與幾家業內出色的汽車保險公司合作,致力於研發獲取受損汽車圖像的技術。除此之外,我們無需使車主下載應用程序,從而節約了應用程序推廣所需的成本。

存儲和管理成本

在數據存儲和訪問方面,初創企業也面臨著一個成本問題。除了數據收集之外,企業可能還需要客戶提供其他相關數據來豐富模型。由於許多行業近期才逐步實現數字化,因此任何擁有企業所需數據的潛在客戶都不容小覷。為了獲取這些數據,企業可能會在低利潤率的數據準備工作中花費大量的人力。

數據成本是否會將AI創企扼殺在搖籃中?

此外,如果數據分佈在不同的系統和孤島中,那麼企業可能需要花費大量的時間來構建各個集成,從而使模型完全正常運行。有些行業圍繞整體式和異質性技術堆棧建立,使集成很難在客戶之間重複使用。如果無法獲取集成服務提供商,那麼這家AI創企很快就可能發現自己陷入了這樣的泥潭:只有為每個新客戶構建定製集成,才能部署其AI系統。數據的結構方式也可能因客戶而異,這就要求AI工程師花費額外時間對數據進行規範化或將其轉換為標準化模式,從而應用AI模型。企業可以採用建立公共集成庫的方法降低成本,因為它可以在新客戶中被重複使用。

訓練成本

大多數建立AI模型的方法都需要對數據進行標註,這對AI創企來說是最大的和最可變的成本之一。如果這些示例簡單明瞭或是通俗易懂,外行人就可以進行標註。例如,在圖片中畫一些蘋果,然後在所有蘋果周圍畫一個框,即可標註為外包勞務服務。

但有時,註釋需要更多的專業知識和經驗,例如根據視覺線索來確定蘋果的質量和成熟度,或者判斷石油鑽機上的一小塊鏽斑是否具有風險。對於這種更專業的勞動力,企業可能需要建立一個高薪的內部專家標註團隊。根據企業的標註方式,可能還必須構建自己的標註工作流工具,儘管Labelbox等公司目前已經開始提供此類工具。

數據成本是否會將AI創企扼殺在搖籃中?

在某些AI應用程序中,終端用戶會是最有效的標註器,企業可以通過設計產品來減輕標註成本,這樣用戶就可以在與產品交互時進行數據標記。例如,Constructor提供針對電子商務的人工智能網站搜索,觀察用戶實際點擊和購買每個產品的搜索詞,使這些網站能夠優化搜索結果從而獲得更高的銷售額。這種標註不可能通過外包或專家搜索服務進行人工操作,而且這種方式大大節約了Constructor潛在的鉅額標註成本。

即使受到了高精度的訓練,但當模型無法確切地解釋一項新輸入的內容時,仍然需要進行偶爾的人工干預。根據模型向終端用戶傳遞價值的方式,該用戶自己可以對模型進行更正或標註,企業也可以通過使用質量控制的“AI保姆”來處理異常。如果企業正在建模的環境不穩定且變化速率很高,那麼企業可能需要在穩定狀態下保留一組標註器,以便根據需要使用新的數據更新模型。

擴展AI業務

第一批成功的AI企業進入市場時,通過提供無AI的工作流工具來捕獲訓練AI模型的數據,並且該數據最終提高了工具的價值。這些初創企業在早期就能夠實現軟件利潤,因為數據和人工智能在其價值主張中居於次要地位。然而,隨著市場轉向更專業的AI應用,下一波AI創企將面臨更高的啟動成本,並將耗費更多的人力來為客戶提供初始價值,導致其成為低利潤率的服務企業。

獲得大量客戶和數據最終將降低單位經濟效益和構建至關重要的複合防禦能力,但許多初創企業並不確切地瞭解這一點,也不明白他們需要採取哪些行動才能更快地實現目標。而出色的AI創企則會通過這種方式進行優化權衡,有計劃地進行投資並迅速擴張。


分享到:


相關文章: