在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

研究者最近仔細估算了各種知識圖譜每創建一條記錄所需要的成本

MqC7_CAAI_1981 ? 來源:lq ? 2019-02-18 16:35 ? 次閱讀

我們知道強大的深度模型需要很多計算力,那你知道創建一個知識圖譜的成本到底是多少嗎?德國 Mannheim 大學的研究者最近仔細估算了各種知識圖譜每創建一條記錄所需要的成本,他們表示對于大型知識圖譜,手動創建一個三元組(即一條記錄)的成本在 2 到 6 美元之間,總成本在數百萬到數十億美元之間。

知識圖譜廣泛用于各種領域,它的統計信息也常被分析。但有一個問題一直缺乏研究:產出價格是多少?在此論文中,研究者提出了一種方法預估知識圖譜的成本。他們表示手動創建一個三元組(triple)的成本大約在 2 到 6 美元左右,而自動創建知識圖譜的成本要降低 15 到 250 倍(即一個三元組 1 美分到 15 美分)。

注意其中 15 美分每條的「自動化」知識圖譜還是需要大量人力進行數據的驗證。此外,作者表示成本也應該作為知識圖譜的評價標準,例如可以使用每個三元組的成本或其他更優的度量方法。

論文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation

論文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf

估計知識圖譜的成本

隨著知識圖譜的廣泛應用,我們越來越關注大型知識圖譜,例如 DBpedia、YAGO 等。我們已經有很多方法從各種角度檢查這些大型知識圖譜,例如大小、覆蓋度和質量等。然而這些分析不足的地方在于成本,即創建知識圖譜的價格。

人工創建:Cyc 和 Freebase

對于人工創建的知識圖譜,我們必須評估提供這些陳述語句(statement)的工作量,從而估計平均成本。

Cyc 是最早的通用知識圖譜之一,同時它的開發成本也能公開獲得。在 2017 年的一項會議中,Cyc 的創建者 Douglas Lenat 表示:構建 Cyc 的成本為 1.2 億美元。在同一個 PPT 中,Lenat 表示 Cyc 一共有 21M 斷言(assertion),因此每條陳述語句或斷言需要 5.71 美元。若 1000 人有一年的時間完成,則每人每 9.5 分鐘需要完成一條斷言。

Freebase 是由志愿者共同完成的,因此其工作量更難判斷。截止至 2011 年 4 月份,創建英文維基百科的估計時長為 41M 工時。同時維基百科包含 3.6M 的頁面,平均每一個頁面 36.4 個句子,因此換算下來每一條語句需要 18.7 分鐘。由于大多數維基百科條目都是由美國構建的,我們可以使用每小時 7.25 美元的美國聯邦最低工資作為人工成本估算,因此每一句的成本可以換算為 2.25 美元。借鑒這個成本,我們可以假設 Freebase 每一條陳述語句的成本也是 2.25 美元。

這比 Cyc 的平均成本低了一半,這種低成本也是合理的,因為 Cyc 是由人類專家構建的,而 Freebase 由非專業人員創建。總的而言,對于包含 30 億事實(fact)的最新版 Freebase,它的總成本約為 67.5 億美元($6.75B)。

自動創建: DBpedia、YAGO 和 NELL

評估自動創建知識圖譜所花費成本不同于人工創建知識圖譜。我們參考了用于創建知識圖譜的軟件,基于代碼行數(LOC)來估計開發知識圖譜的成本。我們遵循 [2] 中的分析,即一個軟件生成項目平均每小時生產 37 行代碼(LOC)。

DBpedia 主要是基于 DBpedia 提取框架從維基百科 Dump 得到的,它通過映射中心實體而創建知識圖譜。DBpedia 兩部分需要 4.9M 和 2.2M LOC,它需要的總開發成本為 510 萬美元。鑒于英語 DBpedia[11] 共有 400M 陳述語句,每一條成本約為 1.85 美分。相比于人工搭建的知識圖譜(每一條 2.25 美元),自動搭建的要節省百倍的成本。

YAGO 也是一種知識圖譜,它將維基百科提取的知識與 WordNet[7] 相結合。為了公平比較,它的成本應該包含 WordNet 的搭建費用。YAGO 代碼庫有 1.6M LOC(包括將信息框映射到本體的規則),因此它的總體成本為 160 萬美元。此外,WordNet 本身還包含了 117k 個同義詞集,每一個包含一條注釋。我們估計定義一個同義詞集的成本與構建一個維基百科頁面的成本相近,即最高 1000 萬美元。若 YAGO 有 14 億條陳述語句 [11],那么每一條的成本為 0.83 美分。相比人工搭建,它的成本要節省 250 倍。

NELL 是一個學習關系抽取 [8] 模式的系統,其核心技術包含 103k 的 LOC,預估開發成本為 10.9 萬美元。此外,該數據集每月還需要人工校驗 1467 條陳述語句。假設人工校驗一條陳述語句的成本和創建成本一樣,那么總的校驗成本為 37.6 萬美元,即通成本為 48.5 美元。因此換算下來,NELL 每條陳述語句的成本為 14.25 美分,即比手動搭建便宜 16 倍。

新的評估標準

把成本作為創建知識圖譜的一種測量方法也能為其他評估方法鋪平道路。例如,可以通過成本查驗為知識圖譜補充缺失信息提供新方法 [9]:一個人一年半開發知識圖譜應該可以添加 2800 條陳述語句,這應該是人力手動產出的三元組數量。

另一個有趣的思路是開發成本與數據質量之間的關系。在圖 1 中,我們圖像描述了該論文討論的知識圖譜中每個三元組成本與錯誤率之間的關系。我們可以看到,高成本創建的三元組準確率也會更高,NELL 是個例外,準確率與成本之間關系極差。

每個三元組成本與錯誤率之間的關系展示圖。

總結

在這篇論文中,我們大體估計了創建一個流行的知識圖譜所花費的成本,這也是當前研究忽視的一個方面。我們量化了自動創建知識圖譜相比于手動方法的收益,并提出使用成本定義新型的評價標準,例如權衡成本與準確率。

有研究者反饋,我們也意識到有很多假設或估計在計算中都存在著問題(例如,我們沒有考慮第三方庫或基礎設施的成本)。其次,知識圖譜的來源或數據成本當前也沒有考慮在內。然而,我們相信:知識圖譜自身帶來的價值將遠超過各種構建成本的總和。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7085

    瀏覽量

    89233
  • 自動化
    +關注

    關注

    29

    文章

    5598

    瀏覽量

    79432
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7718

原文標題:67 億美金搞個圖,創建知識圖譜的成本有多高你知道嗎?

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    傳音旗下人工智能項目榮獲2024年“上海產學研合作優秀項目獎”等獎

    和華東師范大學聯合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創新性和技術先進性榮獲等獎。該項目成功突破了多形態信息抽取技術、跨語言知識圖譜對齊技術和
    的頭像 發表于 12-16 17:04 ?344次閱讀
    傳音旗下人工智能項目榮獲2024年“上海產學研合作優秀項目獎”<b class='flag-5'>一</b>等獎

    FPGA基礎知識及設計和執行FPGA應用所需的工具

    本文將首先介紹FPGA的基礎知識,包括FPGA的工作原理以及為什么要使用FPGA等,然后討論設計和執行FPGA應用所需的工具。
    的頭像 發表于 11-11 11:29 ?1014次閱讀
    FPGA基礎<b class='flag-5'>知識</b>及設計和執行FPGA應用<b class='flag-5'>所需</b>的工具

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?657次閱讀

    行家放話!驍龍8至尊版是一條大冰龍:徹底穩了

    10月12日消息,iQOO產品經理戈藍V表示,高通驍龍8至尊版是一條大冰龍,很難想象,過去的好多重載游戲在我這臺手機上變成了中輕載,等通子發布會后再細聊。此前博主數碼閑聊站淺測了高通驍龍8至尊版量產
    的頭像 發表于 10-17 12:26 ?472次閱讀
    行家放話!驍龍8至尊版是<b class='flag-5'>一條</b>大冰龍:徹底穩了

    革新未來智能版圖,神州數碼榮登IDC生成式AI圖譜

    6月19日,國際權威市場研究機構IDC正式發布了《2024年第二季度生成式AI生態圖譜》,其中,神州數碼憑借在生成式AI領域的領先布局,以其深度整合算力、模型、知識與應用的核心能力,成功占據生態
    的頭像 發表于 07-29 15:20 ?419次閱讀
    革新未來智能版圖,神州數碼榮登IDC生成式AI<b class='flag-5'>圖譜</b>

    OPA855輸入是正弦波,為什么輸出是一條直流線呢?

    IG1是幅值為1nA,頻率為100HZ的交流電。為什么VOUT波形沒有放大50K呢,反而是一條直流線,在2.23V附近震蕩
    發表于 07-26 06:06

    三星電子將收購英國知識圖譜技術初創企業

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創企業Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要
    的頭像 發表于 07-18 14:46 ?547次閱讀

    遲滯比較器的輸出為一條直線的原因

    ,如果遲滯比較器的輸出為一條直線,這可能是由于多種原因造成的。 遲滯比較器的工作原理 在討論遲滯比較器輸出為一條直線的原因之前,我們首先需要了解其工作原理。遲滯比較器通常由個運算放大
    的頭像 發表于 07-11 09:36 ?971次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發表于 07-10 11:39 ?1113次閱讀

    如何給CyBootProgrammer.Img這個固件添加一條控制led狀態的指令?

    我想對CyBootProgrammer.Img這個固件添加一條控制led狀態的指令,我是小白,我想知道怎么寫配置能控制引腳的高低電平
    發表于 05-27 08:28

    名單公布!【書籍評測活動NO.33】做了50年軟件開發,總結出60經驗教訓,一條都太扎心!

    一條經驗教訓都會簡要闡述個核心觀點,然后就該觀點對團隊可采取的措施進行討論和建議。 當你讀完章時,你都有可能發現其與你息息相關。
    發表于 05-17 14:36

    STM8L執行一條語句大概需要幾個時鐘周期?

    STM8L執行一條語句大概需要幾個時鐘周期
    發表于 05-06 06:16

    stm32f103r8t6外部8M晶振,倍頻72M,執行一條指令需要多少時間?

    stm32f103r8t6,外部8M晶振,倍頻72M. 執行一條指令需要多少時間?? int main(void) { 初始化程序。。。。 初始化程序。。。。 while(1) { GPIOA->ODR^=GPIO_Pin_6; } } 用示波器測量時300ns
    發表于 04-22 07:16

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣化、有趣、邏輯和致的信息,減少了LLM中出現幻覺的可能性。
    的頭像 發表于 02-22 14:13 ?1239次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大模型驅動的RAG系統(下)

    UCB_SWAP配置信息共16,寫入一條有效配置后,上一條需寫1使配置無效是為什么?

    影響正確讀取配置信息。 UCB擦寫次數有限制,不能無限擦除,需要寫滿16配置信息后再擦,上一條配置不設置無效也可以連續寫16次,之后進行擦除。 而且不寫1當前配置無效時,還可以取到上一條
    發表于 01-24 08:31
    主站蜘蛛池模板: 四虎永久地址4hu紧急入口| 有一婷婷色| аⅴ资源中文在线天堂| 免费看一级片| 操国产美女| 国产h在线观看| 午夜欧美在线| 99国内视频| 五月婷婷激情视频| 色人阁综合| 免费色视频网站| 久久久精品免费视频| 国产一区二区三区不卡观| 国产激情视频一区二区三区| 成 人 免费 网站| 天天看天天做| 国产成人综合自拍| 91视频三级| www.爽| 校园激情综合网| 日本国产在线| 国产特黄1级毛片| 午夜免费福利在线| 国产激情久久久久影院小草| 48pao强力打造免费基地| 狠狠色噜噜狠狠狠狠97| 特级一级黄色片| 噜啪啪| 亚洲视频黄| 国产看午夜精品理论片| 一区二区三区在线免费| 国产区一区二区三区| bt天堂资源种子在线| 成人免费看黄页网址大全| 香蕉视频在线观看国产| 国产在线观看福利| 一区二区三区在线观看视频| 亚洲经典乱码在线播| 免费h视频| 午夜久久网| 欧美性猛交xxxx|