在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據處理的難點在哪里?

lhl545545 ? 來源:真格基金 ? 作者:真格基金 ? 2020-06-10 14:57 ? 次閱讀

「真格老友記」是真格基金全新推出的對話系列欄目,邀請真格從天使輪開始陪伴成長的“老朋友”分享他們的創業故事。

在「真格老友記」中,你將看到投資人與創業者的對話實錄,聽他們復盤從0到1的創業之路,探討獨到的行業見解,分享經歷過的試煉與挑戰。

作為一家早期投資機構,真格基金一直在尋找優秀的創業團隊,在這個過程中,我們參與并見證了許多初創項目的成長和發展。故事千千萬,雖然形式不斷變化,底層邏輯和方法論卻多有互通。我們需要探索的遠遠超出了我們的所見所聞。希望你能從對話中,找到自己的靈感繆斯。

毫無疑問,數據是這個時代的新能源

數據提高預測的精準度,決定了推薦機制,成為每個企業升級或調整戰略的基礎依據。

日常數據可分為由程序生成的結構化數據,與視頻圖像文字等非結構化數據。其中,非結構化數據占九成企業全部數據量的 55% 以上,如何管理和使用好這些數據是所有企業面臨的挑戰。

結構化數據與非結構化數據

這里存在一個引人深思的“倒掛”現象,人工智能工程師將近 90% 的時間和精力并不是在做真正的產品化業務,而是在做基本的數據挖掘、清洗標注和管理工作。就像原油需要提煉和加工才能進入工業生產流程,數據同樣需要一系列處理才能進入人工智能生產流程。

Google Paper: Hidden Technical Debt in Machine Learning Systems

這正是 Graviti 想解決的問題。作為一家 AI 數據 SaaS 提供商,Graviti 希望實現以數據管理為核心,服務于數據獲取、加工和使用的全數據旅程,通過提供更加高效、便捷和安全的軟件產品,幫助 AI 開發者和 AI 應用公司更加專注于 AI 本身。公司成立后便獲得真格基金參與的種子輪投資。

創始人崔運凱曾任 Uber 無人駕駛部門的 Tech Lead Manager,是該部門最早期一批員工。對科技的熱忱讓他相信,人工智能基礎軟件是構建人工智能生態中,不可或缺的那一部分。

本期對話欄目中,真格基金投資總監尹樂和 Graviti 創始人崔運凱將討論以下話題:

- Uber 的工作經歷,對創業有什么影響?從工程師到創業者,思考方式有哪些區別?

- 數據處理的難點在哪里?

- SaaS 服務和數據標注的主要區別是什么?

- 如何讓 AI 變得觸手可及?

01

“Uber的工作經歷

讓我提前5年看到AI落地痛點”

Uber 的文化強調要做規則挑戰者、顛覆者,從里面走出了不少優秀的創業者。

作為 Uber 無人駕駛部門的早期員工,崔運凱接觸了大量復雜的非結構化數據處理問題。決定創業時,他很快地選擇了投身數據 SaaS 軟件行業。

為什么是數據 SaaS 軟件行業?從工程師到組織者,Uber 的經歷對崔運凱的創業有什么影響?

Graviti創始人 崔運凱

尹樂:你最早在Uber負責的是無人駕駛業務,為什么決定從數據基礎軟件切入創業?

崔運凱:我在 Uber 時主要做無人駕駛技術的研發,需要處理大量數據。在Uber,灌滿 100PB(1PB=1024TB)的數據池可能只需要幾個月的時間,這是硅谷其他以處理結構化數據為主的公司不可能遇到的。所以相當于提前 5-6 年看到了 AI 落地面臨的問題,這個認知是遠超其他企業的。

當時,Uber 除了在印度有很大的數據生產團隊外,還將部分數據的需求外包給位于西雅圖的一家創業公司。除了要承受昂貴的價格(當時的定價是 1 張圖片 5 美金),冗長的等待時間(5000 張圖片大概需要做 4 個月),還要解決數據的對接、跨境分發、檢索、整理及真值數據的保存和使用等一系列難題。

但無人駕駛訓練至少要億級圖片,相當于把之前要解決的問題難度又放大了數萬倍。

2018 年我離開 Uber 回國,加入了一家做高精度地圖的公司,為了高精度地圖的研發需要收集海量的數據和訓練大量的模型。為了管理和使用這些數據,我們聊了七八家國內知名的云服務商,沒有一家可以提供滿足我們需求的軟件平臺。

為了獲取真值,我們找了 12 家數據標注公司,只有 2 家說可以滿足我們的需求,最便宜的也要 12 元一張圖片,結果做出來一張能用的圖片都沒有。

這時我們就意識到,無論是國內還是國外,人工智能的整個工具鏈都非常早期和不完善,仍然是大片的市場空白。如果我們再做一家人工智能公司,還會遇到同樣的工具問題,還是得花很大代價把這些問題再解決一遍。與其這樣,我們不如專門做一家解決開發者痛點的公司,讓開發者能更好地把時間集中在解決業務問題上。

尹樂:剛剛你提到在 Uber 的工作經歷, Uber 的文化強調要做規則挑戰者、顛覆者,里面也走出了不少優秀的創業者。除了幫助你發現行業機會,Uber 對你這次創業還有其他影響嗎?

崔運凱:還有兩個比較大的影響:

第一是怎么做一個由文化驅動快速迭代的組織。

Uber 把文化深入到了組織架構和激勵機制當中。Graviti 在這點上和 Uber 很接近,我們特別希望把文化做成一種烙印。招聘時,Graviti 對于文化和技術的考察各占 50%,就是希望找到最契合的一群人共同成長。

我認為對于早期創業者,盡早確立公司文化,并以此為基礎花足夠的時間在招聘上是非常重要的。我們寧愿緩慢地擴張,去招到最有潛力、最合適的人,這樣的團隊在跑起來后才沒有人會掉隊,不會出問題。

第二是讓我從一個 Engineer 變成了 Engineering Manager。

Uber 對新晉升的管理人員提供了很多培訓項目,讓第一次做管理者的人可以快速成長為相應領域的領袖。當真正決定創辦一家公司的時候,容易產生對未知的恐懼,而管理者的思維方式和訓練幫助我很好地適應了角色的轉變。

這也是創業早期很關鍵的一點,不只盯著自己擅長的部分,而是要從全盤考慮認清自己的不足,根據不足去找最合適的人補齊短板。像我在銷售和產品上有知識性缺失,我就一定要找到最優秀的產品負責人、銷售負責人,所有人長板的集合才決定著公司發展的上限。

02

人工智能的核心是數據

由于人工智能應用開發需要的數據體量龐大,這種對于系統設計的挑戰是前所未有的,如何高效調度大量的算力和存儲,利用大規模分布式并行化技術,將是支撐人工智能進一步落地的核心。

很多人對 Graviti 的產品和業務模式有誤解。實際上,數據標注只是 Graviti 數據核心戰略的一部分。數據的痛點是連貫的,從獲取、管理、加工到使用的完整數據旅程需要突破性的創新方案來支撐,所以行業真正需要的是一站式的解決方案。

Graviti 對此是如何應對的?疫情之下,公司的行業布局和戰略計劃有何調整?

尹樂:數據對于 AI 來講是一個非常核心的訓練來源。大眾可能不太了解,數據的處理難度到底有多大?到底是難在哪里?

崔運凱:最近我們內部在講,設計產品的時候要有并行化思維的意識。

舉個例子,我們經常處理的 Excel 表格大概為 100KB,你可以在你的個人電腦上打開處理。

但人工智能要處理的問題是什么樣的?人工智能就是剛剛我說的問題乘以 100 萬倍,甚至是 10 億倍。100KB 的數據乘以 100 萬大概是 95GB,現在任何個人電腦都無法打開 95GB 的文件,因為一般電腦的運行內存只有 8GB-16GB。

人工智能處理的實際上是億萬量級的生活問題,走到這個數量級別上,許多問題都變得極具挑戰性。

比如像上面的問題,在一個機器上解決不了,怎樣才能用分布式的方法解決?你用 1000 臺機器去解決一個問題,機器一多,不同的機器就容易出現死機、斷電等不同的問題,怎么能讓軟件強大到可以處理這些不確定性還可以流暢地把問題解決掉?這是我們需要突破的難點,也是我們提供服務的價值所在。

尹樂:沒錯,人工智能解決的是高數量級的問題,再小的差異也會被極度放大,這就更考驗系統設計架構的合理性。現在很多人提到 Graviti,可能下意識會覺得是一家數據標注公司,對于這種說法你怎么看?SaaS 服務和數據標注的主要區別是什么?

崔運凱:我能理解為什么別人容易把我們定義成標注公司,因為我們做的是非結構化數據的基礎軟件,標注是其中很重要又最容易理解的一個環節。但數據的痛點是連貫的,不僅僅是標注問題,所以我們提供的是一站式的解決方案。

Graviti 的產品分為兩大部分,第一個部分是面向開發者和人工智能工程師的 SaaS 工具。

大家猜一猜,支持一個 10 人算法團隊高效運轉需要多少資源?

至少要三個軟件工程師提供工具開發和運維服務,百萬元左右的深度學習訓練機器,百人左右的標注團隊,和上百 TB 到 PB 級的共享存儲空間。這些加起來往往需要企業千萬級的前置成本和百萬級的維護費用。即便這些都具備了,算法工程師還是需要將大量的時間花在找數據,清洗數據,管理權限和可視化上。

而我們的 SaaS 工具就是通過軟件和云來解決這些痛點:從幫助獲取和管理數據,到最后輸出模型,以及過程中團隊的協作。可以讓公司 0 前置成本啟動人工智能應用開發,費用跟隨團隊的擴張而增加、收縮而減少,還可以節省大量的算法工程師的時間,讓他們真正專注在重要的事情上。

我們發現整個人工智能開發的過程就是數據流轉的過程,非結構化是其中的一個關鍵痛點,所以我們也提供標注服務去解決非結構化數據的問題。

和其他標注公司不一樣的是,我們的數據標注服務是一鍵式的。國內的標注公司通常是先聯系 BPO(商務流程外包Business Process Outsourcing),在線下的微信群里對接需求,發數據文檔,他再去聯系標注員,而很多標注員可能是第一次接觸這樣的任務,也沒有特別適用的工具。

但是在我們的體系里,所有對接都是在軟件中交互完成,分發程序有一套算法,會自動找到最合適的標注員,通過發現任務、自主登錄、接受培訓考試去完成這樣的工作。整個過程都是自動化的,效率和準確率都有很大的提升。

尹樂:所以 Graviti 提供的數據軟件是真正切中開發者痛點的。說到這里,現在 Graviti 內部開始實施項目、人員、數據全面自動化的管理,為什么?自動化管理是 AI 行業里的普遍現象嗎?

崔運凱:肯定不是普遍現象,其實是困擾大家很久的問題。自動化過程涉及到各個任務節點的處理,并不是業界都有這樣的經驗或者業務需求。這對整個系統設計、架構設計有很高的要求和挑戰,我們見過和了解這樣的系統,所以知道如何設計與使用是最好的。

Graviti 的特別之處在于,我們從一開始就用了大量的全自動化工具,來實現輔助工作流程的進行。

我們會利用開源工具進行個性化改造,也會設計工作工具,通過不斷求最優解優化工作效率。正是因為這套工具,疫情對我們的工作效率幾乎沒有影響,因為一切都是在系統中進行,溝通和協調成本是非常低的。

這個事情業界能做的人不多,所以我們也會逐步開源我們自己的工具,幫助更多的人。

尹樂:疫情有影響我們的行業布局和戰略調整嗎?我知道你們的業務領域最近從汽?拓展到了互聯?視頻、新零售、醫療健康、智能制造等,未來在布局上還會有什么嘗試?

崔運凱:疫情驗證了一些趨勢,讓我們看到物理世界的數字化和線上化,看到靈活用工、云服務的可接受度和現實效益,也看到了更多領域增長的機會。

確實,我們原來的一些工作計劃被打亂了,比如我們接觸比較多的汽車行業,客戶受到影響,預算肯定也會受到影響。但這反向也讓我們思考如何及時做出調整、適應整個大方向的發展,在行業布局上我們已經從汽車拓展到了很多其他的領域,包括視頻、零售、醫療。

Graviti 本身的技術能力就可以服務不同種類的客戶。我們會針對客戶的業務情況做咨詢,很多客戶是做不到明確架構需求的,這時候就需要有人來從專業角度做梳理和設計,這也是我們服務的獨特性所在。

03

如何讓AI觸手可及?

任何技術都需要普及化才能造福大眾。人工智能新生態的形成同樣需要各個成員的參與,才能服務到每一個人。

尹樂:隨著人工智能行業的逐漸成熟,Graviti 的成長與發展會越來越快。Graviti 的 slogan 是叫做“讓 AI 觸手可及”,你怎么理解這句話?在實際操作過程中,怎么去落地這句話呢?

崔運凱:“讓 AI 觸手可及”是我們公司的愿景。希望通過我們提供的服務,讓開發者更快地完成AI應用的開發。

只有更多的人進入到這個領域,去解決不同的問題,有更多的活躍度,我們才能建立一個更好的社區,社區中的人都可以去做新的嘗試和應用,然后幫助其他人。那時候, AI 就可以服務到每一個人。

在未來, AI 的各個工具一定是會對外開放的,我們也會在一定的時間點考慮開源部分我們的產品或去做開放平臺,通過 API 讓更多的人參與到產品的開發。我們是一個非常開放的心態,希望和合作伙伴朋友們一起去營造新生態。

尹樂:沒錯,我也會覺得開源已經成為了一個新的趨勢,在未來帶來的益處肯定是無可估量的,也能更快地讓技術大眾化、普及化。最后請運凱再分享下你眼中人工智能行業的未來會是什么樣的?

崔運凱:實際上我一直認為人工智能分為兩個部分。

第一個部分是對人類知識的積累,這是一個結構化的過程,讓更多人把自己的知識體現出來。Graviti 是堅信知識積累過程的一家企業,所以在做系統架構的時候,也會充分考慮到主動學習、遷移學習的價值,讓我們的系統變得越來越聰明。

第二個部分是用這些知識去解決一些實際的問題,比如怎么更好地組織知識,甚至以一些我們不理解的方式去學習這些知識,再把這些抽象的概念給解釋表達出來。

我相信人工智能永遠是個工具,而工具是要解決實際問題的,所以不能本末倒置。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據處理
    +關注

    關注

    0

    文章

    613

    瀏覽量

    28619
  • 無人駕駛
    +關注

    關注

    98

    文章

    4088

    瀏覽量

    120901
收藏 人收藏

    評論

    相關推薦

    康謀分享 | 如何應對ADAS/AD海量數據處理挑戰?

    如何有效處理ADAS/AD海量數據并從中獲得見解?IVEX數據處理流程可自動從原始傳感器數據等輸入中識別出值得關注的事件和場景,推動數據高效
    的頭像 發表于 12-25 10:05 ?3566次閱讀
    康謀分享 | 如何應對ADAS/AD海量<b class='flag-5'>數據處理</b>挑戰?

    緩存對大數據處理的影響分析

    緩存對大數據處理的影響顯著且重要,主要體現在以下幾個方面: 一、提高數據訪問速度 在大數據環境中,數據存儲通常采用分布式存儲系統,數據量龐大
    的頭像 發表于 12-18 09:45 ?231次閱讀

    cmp在數據處理中的應用 如何優化cmp性能

    CMP在數據處理中的應用 CMP(并行處理)技術在數據處理領域扮演著越來越重要的角色。隨著數據量的爆炸性增長,傳統的串行處理方法已經無法滿足
    的頭像 發表于 12-17 09:27 ?381次閱讀

    上位機實時數據處理技術 上位機在智能制造中的應用

    上位機實時數據處理技術 上位機實時數據處理技術是指上位機(通常是指PC或服務器上的應用程序)通過各種通信協議與下位機(如PLC、嵌入式系統等)進行交互,實現數據的實時收集、處理、顯示和
    的頭像 發表于 12-04 10:29 ?693次閱讀

    智慧燈桿到底“智慧”在哪里?條形智能為您專業解讀 AI燈桿屏

    智慧燈桿到底“智慧”在哪里?條形智能為您專業解讀 AI燈桿屏
    的頭像 發表于 11-14 13:51 ?240次閱讀
    智慧燈桿到底“智慧”<b class='flag-5'>在哪里</b>?條形智能為您專業解讀 AI燈桿屏

    eda中常用的數據處理方法

    探索性數據分析(EDA)是一種統計方法,用于使用統計圖表、圖形和計算來發現數據中的模式、趨勢和異常值。在進行EDA時,數據處理是至關重要的,因為它可以幫助我們更好地理解數據集,為進一步
    的頭像 發表于 11-13 10:57 ?403次閱讀

    海量數據處理需要多少RAM內存

    海量數據處理所需的RAM(隨機存取存儲器)內存量取決于多個因素,包括數據的具體規模、處理任務的復雜性、數據庫管理系統的效率以及所使用軟件的優化程度等。以下是對所需內存量的分析: 一、內
    的頭像 發表于 11-11 09:56 ?451次閱讀

    FPGA在數據處理中的應用實例

    FPGA(現場可編程門陣列)在數據處理領域有著廣泛的應用,其高度的靈活性和并行處理能力使其成為許多高性能數據處理系統的核心組件。以下是一些FPGA在數據處理中的應用實例: 一、通信協議
    的頭像 發表于 10-25 09:21 ?521次閱讀

    實時數據處理的邊緣計算應用

    實時數據處理的邊緣計算應用廣泛,涵蓋了多個行業和領域。以下是一些典型的應用場景: 一、工業制造 在工業制造領域,邊緣計算技術被廣泛應用于生產線上的設備監控、數據處理和實時控制。通過在生產線上安裝
    的頭像 發表于 10-24 14:11 ?471次閱讀

    貼片電容與貼片電阻的本質差異在哪里

    貼片電容與貼片電阻的本質差異在哪里
    的頭像 發表于 08-27 15:51 ?435次閱讀
    貼片電容與貼片電阻的本質差異<b class='flag-5'>在哪里</b>?

    請問fpga與單片機最大的區別在哪里

    fpga和單片機是用得最多的兩款芯片,那么兩者最大的不同點在哪里呢?
    發表于 07-30 21:32

    邊緣計算物聯網關如何優化數據處理流程

    在物聯網技術日新月異的今天,數據的產生、傳輸與處理已成為推動行業智能化轉型的關鍵。邊緣計算物聯網關,作為這一生態系統中的核心組件,正以其獨特的優勢,在數據處理效率、實時性、安全性及成本效益等方面
    的頭像 發表于 07-30 17:27 ?481次閱讀
    邊緣計算物聯網關如何優化<b class='flag-5'>數據處理</b>流程

    SPI數據速率影響定時器中斷,問題出在哪里

    取決于配置的 SPI 數據速率。 數據率越高,任務執行時間越長;數據率越低,任務執行時間越短。 你知道問題出在哪里嗎? 感謝你抽出時間。
    發表于 07-23 07:07

    巖土工程監測中振弦采集儀數據處理與解讀的挑戰與方法

    巖土工程監測中振弦采集儀數據處理與解讀的挑戰與方法 巖土工程監測是確保工程安全的重要環節,而振弦采集儀是巖土工程監測中常用的一種設備。振弦采集儀通過測量土體的振動響應,可以獲取土體的力學性質和結構
    的頭像 發表于 06-03 13:59 ?336次閱讀
    巖土工程監測中振弦采集儀<b class='flag-5'>數據處理</b>與解讀的挑戰與方法

    光纖技術的進步方向在哪里?19芯光纖是世界上最快的嗎?

    光纖技術的進步方向在哪里?高速光通訊牽引力度大。
    的頭像 發表于 02-22 10:43 ?783次閱讀
    主站蜘蛛池模板: 一级视频在线免费观看 | 婷婷久久精品 | 中国人黑人xxⅹ性猛 | 午夜毛片福利 | 最新版天堂资源官网 | 三级成人影院 | 成人一二 | 在线观看亚洲专3333 | 天堂网传媒| 伊人网综合在线 | 亚洲综合免费 | 美女骚网站 | 99色99| 免费在线观看污视频 | 亚1州区2区3区4区产品乱码 | 午夜性福| 成人久久久精品乱码一区二区三区 | 色色色色色色网 | 国产视频每日更新 | 四虎在线最新地址4hu | 国产在线观看网址你懂得 | yy6080理aa级伦大片一级 | 天天狠狠弄夜夜狠狠躁·太爽了 | 国产婷婷高清在线观看免费 | 免费激情网址 | 欧美一卡2卡三卡四卡五卡 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 免费看的一级毛片 | 性欧美精品久久久久久久 | 亚州视频一区二区 | 天堂网免费 | 特级黄色淫片 | 欧美精品影院 | 天天操网 | 亚洲精品欧洲久久婷婷99 | 国产精品资源网 | 激情五月宗合网 | 色香蕉色香蕉在线视频 | 亚洲伊人网站 | 亚洲天堂网在线观看 | 亚洲香蕉影视在线播放 | 亚洲国产欧美在线人成aaa |