
2017年是人工智能爆發的元年,但今年以來,AI步入更加冷靜的狀態,那么AI新的驅動力是什么呢?近日,AI商業周刊記者與京東副總裁、京東大數據平臺負責人翁志進行了一場深入對話,他分享了對這個問題的看法。此外,我們還探討了京東大數據平臺規劃、AI芯片、無界零售等話題。本文共十個問題,從不同維度深度碰撞,干貨滿滿。
01
2018年以來AI步入更加冷靜的狀態,AI新的驅動力是什么?
翁志:AI技術發展當中,數據基礎和數據的處理能力是非常重要的。人工智能的底層是數據,數據越多,我們可以看到的現象越全面。
每年京東產生和要處理的數據量都是翻番的、倍增的,這源于我們對于入口的掌握,數據流越來越多,數據量越來越大,來自于手機、端、內部產生的各種各樣的數據。
數據量越來越多就產生一個問題:如何有效管理?
我們的任務就是在數據的增長情況下,讓數據的實效性增長、數據處理能力倍增,但是服務器的數量和投入是有一個有序、可控的增長,而不是跟著數據的增長倍增。
這背后,涉及到軟硬件一系列的改造和增進,需要很多內部的軟件挖掘。
市場有很多開源軟件,是針對通用的使用方式,而不是為一個特定的需求進行定制。開源軟件在一定的數據范圍內達到一定的效能是OK的,當我們增長超過這個范圍,它的性能會急劇下降。我們就要對這個軟件進行深度定制,打破它的瓶頸,處理更大規模的數據。
總結數據處理的核心價值就兩個:一個是降低成本,包括運營成本和維護成本;另一個是提升效率,在沒增加硬件投入情況下,軟件效率提升是線性提升,在有限投入下,對公司開源節流節省大量成本。
02
京東大數據平臺未來有怎樣的規劃?
翁志:我們曾經和國內BAT及一些獨角獸公司做過深刻的技術交流,大多數公司都是使用開源軟件搭建大數據平臺。就像找來不同的施工隊蓋了許多不同高度,不同規格的房子,整個小區的效果可想而知。
我們的思考是按照用戶的需求,進行有效合理統一的規劃,比如說,底層存儲硬件,如何使用硬盤、SSD、NvMe的SSD、Optane,甚至未來的AEP進行有機的組合將成本與效能進行合理的搭配;硬件上面的軟件存儲層是HDFS和有限的scalable的分布式文件系統組成,可以支持不同類型的數據存儲,對于冷數據通過有序的搬遷和擦除。對于它之上的數據存取,根據用戶的不同需求API化。降低使用過程中不必要的復雜度。
同時,利用深度學習將整個數萬臺服務器的IO使用以及數據分布進行有效分析,并且通過增強學習的方式指引調度器控制數據的分布和使用等等。應該說京東大數據對于未來數據平臺的發展規劃已經有了完整的規劃。
03
你們具體是如何將數據轉化成產品的?
翁志:這涉及到對不同行業的深刻理解,針對行業特點,做有針對性的數據分析。我們通過深度學習的方式找出規律、趨勢,給用戶提供反饋,做預測,決策。
例如,化妝品的種類很多,通過數據可以知道某一類化妝品在全國各地的銷售情況;同品類這些細分化的產品在什么地區好賣。我們可以分析出這個產品在哪些城市做得不足,這些產品缺少哪些用戶所喜好的特性,它的競爭者有哪些缺失。
機器可以根據銷量做預測,分析同類化妝品哪些特殊成分對用戶吸引程度高,找出改進的空間。
除了商品的維度,還可以分析商品的庫存、供應鏈的管理以及送貨快慢影響用戶體驗,決定是否增加儲存倉。
品牌的忠誠度方面,可以知道什么收入階層對什么商品感興趣,用戶年齡段,男孩還是女孩,根據這個推送相關產品,或者做關聯銷售。
京東在行業內擁有全價值鏈的大數據,數據鏈條是很完整的,數據質量很高。擁有自建物流,可以了解到送達到用戶最后一公里的各類數據,通過不同的維度來分析。數據獲取方面我們有優勢。
04
中國芯片技術處于什么水平?中美差距有多大?
翁志:半導體的發展,美國從頭到尾都參與,而且是領先的。芯片設計上美國還是走在最前面,他們有英特爾、Nvidia,高通、AMD等芯片大廠。但在制造工藝上,美國不是獨占鰲頭,亞洲已經非常領先,三星和臺積電的制成技術甚至比美國還強。未來的市場亞洲并沒有落后,但中國在半導體行業制造水平上還沒達到這種水準。中國最好的就是華為的海思、紫光的展訊。
移動端芯片方面,海思也進步到一流水平,進入5G時代中國縮小差距了與美國的差距,只是還不能達到領先。
芯片積累非常重要,它需要一個過程,目前中國還沒有一個世界領先的芯片大廠。
05
國內也有很多AI芯片廠商,比如寒武紀、地平線,你怎么看?
翁志:我們做一個細分領域的AI芯片不難,但要做一個通用化的AI芯片還是很難的。我個人認為地平線和寒武紀還需要一個很艱辛的發展歷程,初創公司人力財力有限,不可能鋪得非常廣。
06
京東有沒有研發芯片的規劃?
翁志:我相信也會有一系列的行動、舉措跟蹤這方面,但現在還不是很方便透露。
我們做過inference端用于OCR領域的FPGA實現,提供API服務滿足需求,也有團隊嘗試過CPU定制化的歷程,對于技術的探索我們從未停止。
07
谷歌IO大會上推出TPU3.0,有人說它能夠與英偉達GPU對標,您怎么看?
翁志:谷歌Brain在出第一版本TenserFlow的時候就有跟硬件合作,那時候是TPU1.0版本,他們設計的時候會把軟硬件有機結合,知道什么方面的算力需要放到硬件是最有效的。它的TenserFlow做了很多優化,很多工作由硬件完成能夠使能效最高。
我感覺谷歌應該不會售賣TPU3.0,而是通過云的方式來輸出。要想使它的TPU,就要用它的云。
08
京東的無界零售,未來規劃是要做成什么樣?
翁志:無界零售就是線上線下數據有機融合,供應鏈一體化。把線上電商的技術優勢帶到線下門店來,包括非結構化數據的轉化的能力,供應鏈的集成,物流配送體系的結合。線下店可以得到線上的效率,服務更到位,用戶對商品的需求可以通過超越時空的方式滿足。商戶、用戶、商店各種場景有機結合。
京東的無界零售就是重新定義人、貨、場,達到效率、成本和用戶體驗有機結合。這是一個新生事物,有一個摸索過程,有失敗也會有成功,它不會是坦途,是一個經驗的積累,需要一定的時間,不斷嘗試。
從客戶、商家,to B到to C全面來布局。成立專門從事無界零售的事業部,調動整個體系來做連接,以及投資的方式來布局。布局非常廣泛。IOT也是其中一個方面。
09
商湯、曠視也在切新零售,和京東相比AI創業公司做新零售的優勢和弊端有哪些?
翁志:商湯、曠視是技術公司,他們切入更多是對人臉識別、場景識別等領域。他們更多的是通過合作獲取數據。很難自己獨立完成這件事情,更多的是和各種電商線下店一塊合作做。對我們來說,電商本身就擁有很多應用場景。
現在技術和算法彼此差距都不是很大,體現出差距的地方是在數據。獲取數據的能力在這方面決定了對公司的未來成功與否,技術公司必須與場景結合才能有獲取數據的能力。
這些數據的能力又可以反哺使其技術得到升華,數據的獲取能力決定了技術的深度。大家都看到了這是問題癥結所在。
10
在AI這波浪潮,很多公司是非常激進的,尤其是百度全面押寶于人工智能,但京東相對來說節奏更慢一些,為什么呢?
翁志:其實京東的人工智能的應用并不慢,我們在腳踏實地的將我們的業務場景去實現。并且在人工智能學術領域的研究也在穩步的探索,并將研究成果在京東豐富的業務場景中得到實踐。在京東內部有太多應用場景,AI的滲透可以說是各個方面的,從我們的無人倉、無人車、無人門店、智慧供應鏈等等,每一個業務場景都有著我們AI的助力。而AI的應用就是隨著這些業務場景的不斷積累,最終產生質變的。
百度的投入很大,大力在推動阿波羅計劃。這些公司都看到AI的方向和潛在價值,包括谷歌、微軟都在調整重心。這個行業會越來越熱,但會是一個漫長的征途,不會在兩三年內有一個翻天覆地的變化,它還是一個漸進式的過程。大家還是把人工智能看得非常觸手可及,在很多方面還需要更多的耐心。
關鍵詞:
人工智能
要回
副總裁