「真格老友記」是真格基金全新推出的對話系列欄目,邀請真格從天使輪開始陪伴成長的“老朋友”分享他們的創業故事。
在「真格老友記」中,你將看到投資人與創業者的對話實錄,聽他們復盤從0到1的創業之路,探討獨到的行業見解,分享經歷過的試煉與挑戰。
作為一家早期投資機構,真格基金一直在尋找優秀的創業團隊,在這個過程中,我們參與并見證了許多初創項目的成長和發展。故事千千萬,雖然形式不斷變化,底層邏輯和方法論卻多有互通。我們需要探索的遠遠超出了我們的所見所聞。希望你能從對話中,找到自己的靈感繆斯。
毫無疑問,數據是這個時代的新能源。
數據提高預測的精準度,決定了推薦機制,成為每個企業升級或調整戰略的基礎依據。
日常數據可分為由程序生成的結構化數據,與視頻圖像文字等非結構化數據。其中,非結構化數據占九成企業全部數據量的 55% 以上,如何管理和使用好這些數據是所有企業面臨的挑戰。
結構化數據與非結構化數據
這里存在一個引人深思的“倒掛”現象,人工智能工程師將近 90% 的時間和精力并不是在做真正的產品化業務,而是在做基本的數據挖掘、清洗標注和管理工作。就像原油需要提煉和加工才能進入工業生產流程,數據同樣需要一系列處理才能進入人工智能生產流程。
Google Paper: Hidden Technical Debt in Machine Learning Systems
這正是 Graviti 想解決的問題。作為一家 AI 數據 SaaS 提供商,Graviti 希望實現以數據管理為核心,服務于數據獲取、加工和使用的全數據旅程,通過提供更加高效、便捷和安全的軟件產品,幫助 AI 開發者和 AI 應用公司更加專注于 AI 本身。公司成立后便獲得真格基金參與的種子輪投資。
創始人崔運凱曾任 Uber 無人駕駛部門的 Tech Lead Manager,是該部門最早期一批員工。對科技的熱忱讓他相信,人工智能基礎軟件是構建人工智能生態中,不可或缺的那一部分。
本期對話欄目中,真格基金投資總監尹樂和 Graviti 創始人崔運凱將討論以下話題:
- Uber 的工作經歷,對創業有什么影響?從工程師到創業者,思考方式有哪些區別?
- 數據處理的難點在哪里?
- SaaS 服務和數據標注的主要區別是什么?
- 如何讓 AI 變得觸手可及?
01
“Uber的工作經歷
讓我提前5年看到AI落地痛點”
Uber 的文化強調要做規則挑戰者、顛覆者,從里面走出了不少優秀的創業者。
作為 Uber 無人駕駛部門的早期員工,崔運凱接觸了大量復雜的非結構化數據處理問題。決定創業時,他很快地選擇了投身數據 SaaS 軟件行業。
為什么是數據 SaaS 軟件行業?從工程師到組織者,Uber 的經歷對崔運凱的創業有什么影響?
Graviti創始人 崔運凱
尹樂:你最早在Uber負責的是無人駕駛業務,為什么決定從數據基礎軟件切入創業?
崔運凱:我在 Uber 時主要做無人駕駛技術的研發,需要處理大量數據。在Uber,灌滿 100PB(1PB=1024TB)的數據池可能只需要幾個月的時間,這是硅谷其他以處理結構化數據為主的公司不可能遇到的。所以相當于提前 5-6 年看到了 AI 落地面臨的問題,這個認知是遠超其他企業的。
當時,Uber 除了在印度有很大的數據生產團隊外,還將部分數據的需求外包給位于西雅圖的一家創業公司。除了要承受昂貴的價格(當時的定價是 1 張圖片 5 美金),冗長的等待時間(5000 張圖片大概需要做 4 個月),還要解決數據的對接、跨境分發、檢索、整理及真值數據的保存和使用等一系列難題。
但無人駕駛訓練至少要億級圖片,相當于把之前要解決的問題難度又放大了數萬倍。
2018 年我離開 Uber 回國,加入了一家做高精度地圖的公司,為了高精度地圖的研發需要收集海量的數據和訓練大量的模型。為了管理和使用這些數據,我們聊了七八家國內知名的云服務商,沒有一家可以提供滿足我們需求的軟件平臺。
為了獲取真值,我們找了 12 家數據標注公司,只有 2 家說可以滿足我們的需求,最便宜的也要 12 元一張圖片,結果做出來一張能用的圖片都沒有。
這時我們就意識到,無論是國內還是國外,人工智能的整個工具鏈都非常早期和不完善,仍然是大片的市場空白。如果我們再做一家人工智能公司,還會遇到同樣的工具問題,還是得花很大代價把這些問題再解決一遍。與其這樣,我們不如專門做一家解決開發者痛點的公司,讓開發者能更好地把時間集中在解決業務問題上。
尹樂:剛剛你提到在 Uber 的工作經歷, Uber 的文化強調要做規則挑戰者、顛覆者,里面也走出了不少優秀的創業者。除了幫助你發現行業機會,Uber 對你這次創業還有其他影響嗎?
崔運凱:還有兩個比較大的影響:
第一是怎么做一個由文化驅動快速迭代的組織。
Uber 把文化深入到了組織架構和激勵機制當中。Graviti 在這點上和 Uber 很接近,我們特別希望把文化做成一種烙印。招聘時,Graviti 對于文化和技術的考察各占 50%,就是希望找到最契合的一群人共同成長。
我認為對于早期創業者,盡早確立公司文化,并以此為基礎花足夠的時間在招聘上是非常重要的。我們寧愿緩慢地擴張,去招到最有潛力、最合適的人,這樣的團隊在跑起來后才沒有人會掉隊,不會出問題。
第二是讓我從一個 Engineer 變成了 Engineering Manager。
Uber 對新晉升的管理人員提供了很多培訓項目,讓第一次做管理者的人可以快速成長為相應領域的領袖。當真正決定創辦一家公司的時候,容易產生對未知的恐懼,而管理者的思維方式和訓練幫助我很好地適應了角色的轉變。
這也是創業早期很關鍵的一點,不只盯著自己擅長的部分,而是要從全盤考慮認清自己的不足,根據不足去找最合適的人補齊短板。像我在銷售和產品上有知識性缺失,我就一定要找到最優秀的產品負責人、銷售負責人,所有人長板的集合才決定著公司發展的上限。
02
人工智能的核心是數據
由于人工智能應用開發需要的數據體量龐大,這種對于系統設計的挑戰是前所未有的,如何高效調度大量的算力和存儲,利用大規模分布式并行化技術,將是支撐人工智能進一步落地的核心。
很多人對 Graviti 的產品和業務模式有誤解。實際上,數據標注只是 Graviti 數據核心戰略的一部分。數據的痛點是連貫的,從獲取、管理、加工到使用的完整數據旅程需要突破性的創新方案來支撐,所以行業真正需要的是一站式的解決方案。
Graviti 對此是如何應對的?疫情之下,公司的行業布局和戰略計劃有何調整?
尹樂:數據對于 AI 來講是一個非常核心的訓練來源。大眾可能不太了解,數據的處理難度到底有多大?到底是難在哪里?
崔運凱:最近我們內部在講,設計產品的時候要有并行化思維的意識。
舉個例子,我們經常處理的 Excel 表格大概為 100KB,你可以在你的個人電腦上打開處理。
但人工智能要處理的問題是什么樣的?人工智能就是剛剛我說的問題乘以 100 萬倍,甚至是 10 億倍。100KB 的數據乘以 100 萬大概是 95GB,現在任何個人電腦都無法打開 95GB 的文件,因為一般電腦的運行內存只有 8GB-16GB。
人工智能處理的實際上是億萬量級的生活問題,走到這個數量級別上,許多問題都變得極具挑戰性。
比如像上面的問題,在一個機器上解決不了,怎樣才能用分布式的方法解決?你用 1000 臺機器去解決一個問題,機器一多,不同的機器就容易出現死機、斷電等不同的問題,怎么能讓軟件強大到可以處理這些不確定性還可以流暢地把問題解決掉?這是我們需要突破的難點,也是我們提供服務的價值所在。
尹樂:沒錯,人工智能解決的是高數量級的問題,再小的差異也會被極度放大,這就更考驗系統設計架構的合理性。現在很多人提到 Graviti,可能下意識會覺得是一家數據標注公司,對于這種說法你怎么看?SaaS 服務和數據標注的主要區別是什么?
崔運凱:我能理解為什么別人容易把我們定義成標注公司,因為我們做的是非結構化數據的基礎軟件,標注是其中很重要又最容易理解的一個環節。但數據的痛點是連貫的,不僅僅是標注問題,所以我們提供的是一站式的解決方案。
Graviti 的產品分為兩大部分,第一個部分是面向開發者和人工智能工程師的 SaaS 工具。
大家猜一猜,支持一個 10 人算法團隊高效運轉需要多少資源?
至少要三個軟件工程師提供工具開發和運維服務,百萬元左右的深度學習訓練機器,百人左右的標注團隊,和上百 TB 到 PB 級的共享存儲空間。這些加起來往往需要企業千萬級的前置成本和百萬級的維護費用。即便這些都具備了,算法工程師還是需要將大量的時間花在找數據,清洗數據,管理權限和可視化上。
而我們的 SaaS 工具就是通過軟件和云來解決這些痛點:從幫助獲取和管理數據,到最后輸出模型,以及過程中團隊的協作。可以讓公司 0 前置成本啟動人工智能應用開發,費用跟隨團隊的擴張而增加、收縮而減少,還可以節省大量的算法工程師的時間,讓他們真正專注在重要的事情上。
我們發現整個人工智能開發的過程就是數據流轉的過程,非結構化是其中的一個關鍵痛點,所以我們也提供標注服務去解決非結構化數據的問題。
和其他標注公司不一樣的是,我們的數據標注服務是一鍵式的。國內的標注公司通常是先聯系 BPO(商務流程外包Business Process Outsourcing),在線下的微信群里對接需求,發數據文檔,他再去聯系標注員,而很多標注員可能是第一次接觸這樣的任務,也沒有特別適用的工具。
但是在我們的體系里,所有對接都是在軟件中交互完成,分發程序有一套算法,會自動找到最合適的標注員,通過發現任務、自主登錄、接受培訓考試去完成這樣的工作。整個過程都是自動化的,效率和準確率都有很大的提升。
尹樂:所以 Graviti 提供的數據軟件是真正切中開發者痛點的。說到這里,現在 Graviti 內部開始實施項目、人員、數據全面自動化的管理,為什么?自動化管理是 AI 行業里的普遍現象嗎?
崔運凱:肯定不是普遍現象,其實是困擾大家很久的問題。自動化過程涉及到各個任務節點的處理,并不是業界都有這樣的經驗或者業務需求。這對整個系統設計、架構設計有很高的要求和挑戰,我們見過和了解這樣的系統,所以知道如何設計與使用是最好的。
Graviti 的特別之處在于,我們從一開始就用了大量的全自動化工具,來實現輔助工作流程的進行。
我們會利用開源工具進行個性化改造,也會設計工作工具,通過不斷求最優解優化工作效率。正是因為這套工具,疫情對我們的工作效率幾乎沒有影響,因為一切都是在系統中進行,溝通和協調成本是非常低的。
這個事情業界能做的人不多,所以我們也會逐步開源我們自己的工具,幫助更多的人。
尹樂:疫情有影響我們的行業布局和戰略調整嗎?我知道你們的業務領域最近從汽?拓展到了互聯?視頻、新零售、醫療健康、智能制造等,未來在布局上還會有什么嘗試?
崔運凱:疫情驗證了一些趨勢,讓我們看到物理世界的數字化和線上化,看到靈活用工、云服務的可接受度和現實效益,也看到了更多領域增長的機會。
確實,我們原來的一些工作計劃被打亂了,比如我們接觸比較多的汽車行業,客戶受到影響,預算肯定也會受到影響。但這反向也讓我們思考如何及時做出調整、適應整個大方向的發展,在行業布局上我們已經從汽車拓展到了很多其他的領域,包括視頻、零售、醫療。
Graviti 本身的技術能力就可以服務不同種類的客戶。我們會針對客戶的業務情況做咨詢,很多客戶是做不到明確架構需求的,這時候就需要有人來從專業角度做梳理和設計,這也是我們服務的獨特性所在。
03
如何讓AI觸手可及?
任何技術都需要普及化才能造福大眾。人工智能新生態的形成同樣需要各個成員的參與,才能服務到每一個人。
尹樂:隨著人工智能行業的逐漸成熟,Graviti 的成長與發展會越來越快。Graviti 的 slogan 是叫做“讓 AI 觸手可及”,你怎么理解這句話?在實際操作過程中,怎么去落地這句話呢?
崔運凱:“讓 AI 觸手可及”是我們公司的愿景。希望通過我們提供的服務,讓開發者更快地完成AI應用的開發。
只有更多的人進入到這個領域,去解決不同的問題,有更多的活躍度,我們才能建立一個更好的社區,社區中的人都可以去做新的嘗試和應用,然后幫助其他人。那時候, AI 就可以服務到每一個人。
在未來, AI 的各個工具一定是會對外開放的,我們也會在一定的時間點考慮開源部分我們的產品或去做開放平臺,通過 API 讓更多的人參與到產品的開發。我們是一個非常開放的心態,希望和合作伙伴朋友們一起去營造新生態。
尹樂:沒錯,我也會覺得開源已經成為了一個新的趨勢,在未來帶來的益處肯定是無可估量的,也能更快地讓技術大眾化、普及化。最后請運凱再分享下你眼中人工智能行業的未來會是什么樣的?
崔運凱:實際上我一直認為人工智能分為兩個部分。
第一個部分是對人類知識的積累,這是一個結構化的過程,讓更多人把自己的知識體現出來。Graviti 是堅信知識積累過程的一家企業,所以在做系統架構的時候,也會充分考慮到主動學習、遷移學習的價值,讓我們的系統變得越來越聰明。
第二個部分是用這些知識去解決一些實際的問題,比如怎么更好地組織知識,甚至以一些我們不理解的方式去學習這些知識,再把這些抽象的概念給解釋表達出來。
我相信人工智能永遠是個工具,而工具是要解決實際問題的,所以不能本末倒置。
責任編輯:pj
-
數據處理
+關注
關注
0文章
613瀏覽量
28619 -
無人駕駛
+關注
關注
98文章
4088瀏覽量
120901
發布評論請先 登錄
相關推薦
評論