量子計算與機器學習的融合已經成為一個蓬勃發展的研究領域,它能否達到人們對其的期望呢?《量子》雜志發表了一篇文章詳細介紹了量子計算機的發展狀況及其在機器學習中的運用。
上世紀90年代初,威奇托州立大學的物理學教授伊麗莎白·貝爾曼(Elizabeth Behrman)開始致力于將量子物理與人工智能(特別是當時備受爭議的神經網絡技術)結合起來的時候,大多數人都認為她是在將水和油混合在一起?!拔一撕瞄L時間才將論文發表出來,”她回憶說?!吧窠浘W絡期刊會問,‘量子力學是什么?’物理期刊會問,‘神經網絡是什么?’”
今天,兩者的結合似乎是世界上最自然的事情。神經網絡和其他機器學習系統已經成為21世紀最具顛覆性的技術。它們不僅在大多數人類都不擅長的任務中打敗我們,比如下棋和數據挖掘,而且還在我們的大腦的工作上超越了我們,例如識別人臉,翻譯語言等。這些系統因為巨大的計算能力而成為現實,因此,科技公司不可避免地會去尋找那些不僅規模更大的計算機,而且還會致力于開發出一種全新的機器。
經過幾十年的研究,量子計算機已經有了足夠的計算能力,超越了地球上所有的計算機。它們的殺手級應用通常被認為是處理大量數據,這是現代加密技術的關鍵。不過,這至少還有10年的時間。但即使是今天最基本的量子處理器,也與機器學習的需求驚人地匹配。它們在一個步驟中處理大量數據,挑選出傳統的計算機所忽略的微妙模式,而且不會因不完整或不確定的數據而宕機?!傲孔佑嬎愕膬仍诮y計特性和機器學習之間存在著一種自然的結合,”加州伯克利的量子計算機公司 Rigetti Computing 的物理學家約翰內斯·奧特巴赫(Johannes Otterbach )說。
如果說有什么不同的話,那就是鐘擺已經擺到了另一個極端。谷歌、微軟、IBM和其他科技巨頭都在向量子機器學習投入大量資金,多倫多大學的創業孵化器也致力于此?!皺C器學習”正在成為一個時髦詞匯,”莫斯科斯科爾科沃(Skolkovo)科技研究所的量子物理學家雅各布·比昂特(Jacob Biamonte)說。“當你把它和量子結合在一起的時候,它就變成了一個超級時髦詞匯?!?br />
然而,其中的“量子”這個詞,并不是我們所想的那樣。盡管你可能認為量子機器學習系統應該是強大的,但它卻受到某種閉鎖綜合征的影響。它在量子態上運行,而不是在人類可讀的數據上,在兩者之間的轉換中,其明顯的優勢也被抵消了。它就像iPhone X一樣,盡管它的規格令人印象深刻,如果你用的手機運營商網絡非常差的話,它會和你的舊手機一樣慢。對于一些特殊的情況,物理學家可以克服這個“輸入-輸出”的瓶頸,但是這種情況能否出現在實際的機器學習任務中仍然是未知的?!拔覀冞€沒有明確的答案,”德克薩斯大學奧斯汀分校的計算機科學家斯科特 · 阿隆森(Scott Aaronson)說,“人們常常對這些算法是否能夠提高計算速度表現得非常漫不經心?!?br />
量子神經元
無論是傳統的神經網絡,還是量子神經網絡,其主要工作都是識別模式。受到人類大腦的啟發,神經網絡由基本的計算單元(即“神經元”)構成。每一個都可以像一個開關裝置一樣簡單。一個神經元監控其他多個神經元的輸出,就像進行投票一樣,如果有足夠多的神經元處于激活狀態,神經網絡就會啟動。通常,神經元是按層排列的。初始層接受輸入(如圖像像素),中間層創建各種輸入(表示結構,如邊和幾何形狀),最后一層生成輸出(圖像內容的高級描述)。
至關重要的是,線路不是預先固定的,而是在不斷試錯的過程中進行的。這個網絡可能會被輸入標有"小貓"或"小狗"的圖像,對于每張圖像,神經網絡會分配一個標簽,檢查它是否匹配正確,如果不正確,就調整神經元連接。起初,它的猜測是隨機的,但隨后會變得更好;在大約1萬個例子之后,它的準確性就大大提高了。一個嚴肅的神經網絡可以有十億個相互連接,所有這些都需要調整。
在傳統的計算機上,所有這些相互連接都用一個極大的數字矩陣來表示,而運行網絡則意味著要做矩陣代數。按照慣例,這些矩陣操作被外包給一個專門的芯片,比如一個GPU。但是沒有什么比量子計算機做得更好的了。“在量子計算機上,對大矩陣和大向量的處理速度要快得多,能夠出現指數級增長,”麻省理工學院的物理學家、量子計算的先驅塞思·勞埃德(Seth Lloyd)說。
對于這項任務,量子計算機能夠利用量子系統的指數特性。量子系統的大量信息存儲容量不在于它的單個數據單位——量子位(qubit)——經典計算機bit的量子對應物——而在于這些量子位的集體特性。兩個量子位有四個關節狀態:開/開、關/關、開/關、關/開。每一個都有一定的權重,或者“幅值”,可以代表一個神經元。如果你添加第三個量子位,你可以表示八個神經元,第四個的話,神經元能有16個。機器的容量呈指數增長。實際上,神經元被涂抹在整個系統上。當你在一個四個量子位的狀態下行動時, 你一下子就處理了16個數字, 而一臺傳統的計算機則必須一個接一個地檢查這些數字。
勞埃德估計,60個量子位足以編碼相當于人類一年所產生的數據量,而300個量子位可以攜帶可觀測宇宙的經典信息內容。(目前最大的量子計算機由IBM、英特爾和谷歌制造,擁有50個量子位元。)這是假設每個幅值只是一個單一的bit位。事實上,幅值是連續的(實際上是一個復數),而且,為獲得可信的試驗精度,可以儲存15 bit的信息,阿隆森說。
但是量子計算機的存儲信息的能力并不能使它運行得更快。如何才能使用這些量子位才是關鍵。2008年,麻省理工學院的物理學家阿拉姆·哈羅(Aram Harrow)和以色列巴伊蘭大學的計算機科學家阿維納坦·哈西丁(Avinatan Hassidim),展示了如何進行逆矩陣運算的關鍵代數運算。他們將其分解成一系列邏輯運算,可以在量子計算機上執行。他們的算法適用于各種機器學習技術。而且它不需要像大部分算法那樣需要大量的算法步驟。計算機可以在“噪音”出現之前完成分類任務——這是當今技術的最大限制因素——有可能使計算發生混亂。“在擁有完全通用的容錯量子計算機之前,你可能擁有量子優勢,”IBM公司Thomas j.Watson研究中心的克里斯坦·泰姆(Kristan Temme)說。
讓機器本身來解決問題
不過,到目前為止,基于量子矩陣代數的機器學習只在只有四個量子位的機器上得到了證明。量子計算機迄今為止的大部分實驗成功都采用了不同的方法,量子系統不僅模擬了網絡,它本身就是網絡。每一個量子位代表一個神經元。盡管缺乏指數運算的能力,像這樣的設備可以利用量子物理的其他特性。
最大的這類設備,有大約2,000個量子位,是由D-Wave Systems制造的量子處理器,位于不列顛哥倫比亞省的溫哥華附近。和大多數人觀念中的計算機不同,它不是從一些輸入數據開始,執行一系列操作并顯示輸出,而是通過找到內部一致性來工作。它的每一個量子位都是一個超導電環,它充當一個微小的電磁體,向上、向下、向上或向下,這是一個疊加態。量子位通過允許它們發生磁性相互作用而“連接”在一起。
D-Wave系統的處理器被用于機器學習應用
要運行這個系統,首先要施加一個水平磁場,這個磁場將量子位初始化為上下相等的疊加態——相當于一塊空白的狀態。有幾種方法可以輸入數據。在某些情況下,您將一層量子位固定到所需的輸入值;更常見的情況是,您將輸入合并到交互的強度中。然后讓量子位相互作用。有些量子位尋求朝著相同的方向, 有些在相反的方向, 在水平場的影響下, 它們會翻轉到它們選擇的方向。這樣做,它們可能會觸發其他量子位翻轉。最初,這種情況經常發生,因為很多都是不合理的。但隨著時間的推移,它們會穩定下來,你可以關閉水平磁場來鎖定它們。在這一點上,量子位處于上下的模式中,以確保輸出跟隨著輸入。
量子位的最終排列是什么很不明顯,這就是問題的關鍵所在。這個系統,僅僅是通過自然地去做一些事情,就解決了普通計算機可能會遇到的問題?!拔覀儾恍枰粋€算法,”東京理工大學的物理學家Hidetoshi Nishimori解釋說,他發明了D-Wave機器的操作原理?!斑@與傳統的編程完全不同。自然解決了這個問題?!?br />
量子位移是由量子穿隧效應驅動的,這是量子系統必須尋找最優配置的自然趨勢,而不是滿足于次優結果。你可以建立一個傳統的網絡,在類似的原理上工作,使用隨機的抖動而不是隧道來讓bit翻轉,在某些情況下,它實際上會更好。 但有趣的是, 對于機器學習中出現的各種問題, 量子網絡似乎能夠更快達到最佳狀態。
D-Wave機器也有它的批評者。它非?!班须s”,而且在它目前的版本中,只能執行有限的操作。然而,機器學習算法的本質是可以容忍“噪音”的。它們之所以有用,正是因為它們能讓人理解混亂的現實,在干擾性背景中從區分小貓和小狗。 "眾所周知, 神經網絡對噪音有很強的魯棒性,"貝爾曼說。
2009年,由谷歌的計算機科學家特穆特·奈文(Hartmut Neven)領導的一個團隊,共同創立了谷歌眼鏡項目, 隨后開始進行量子信息處理, 展示了早期 D-Wave 機器如何能夠完成一項令人尊敬的機器學習任務。他們把它作為一個單層的神經網絡,把圖像分成兩類:“汽車”或“非汽車”,在一個2萬個街道場景的數據庫里。這臺機器只有52個可以工作的量子位,太少了, 根本無法拍攝完整的圖像。 (請記住: D-Wave 機器的類型與最先進的50量位系統在2018年上線時截然不同。)因此,奈文的團隊將這臺機器與一臺傳統計算機相結合,分析了這些圖像的各種統計量,并計算出這些量對汽車的存在有多敏感——通常不是很精確,但至少比拋硬幣要好。這些量的一些組合可以一起可靠地識別出一輛汽車, 但不清楚是哪一種——這是神經網絡的任務。
團隊為每個量分配了一個量子位。如果這個量固定值為1的話,那么它標記相應的數量是有用的;0意味著不用麻煩了。量子位的磁性相互作用對問題的需求進行編碼,例如只包括最具辨識力的量,以便使最終的選擇盡可能的簡單。結果是能夠發現一輛汽車。
去年,由加州理工學院粒子物理學家瑪麗亞·斯皮羅普魯(Maria Spiropulu)和南加州大學物理學家丹尼爾·利達(Daniel Lidar)帶領的一個小組將該算法應用到一個實際的物理問題上:將質子對撞歸類為“希格斯玻色子”或“非希格斯玻色子”。他們利用基本粒子理論來預測哪些光子特性可能會泄露出希格斯粒子的短暫存在,比如超過某個閾值的動量。他們考慮了8種這樣的屬性和28種組合,總共36個候選信號,并讓位于南加州大學的晚期模型D-Wave找到了最佳選擇。它確定了16個變量是有用的,3個是絕對最好的。量子計算機需要比標準程序更少的數據來進行準確的識別。“如果訓練集很小,那么量子方法確實比高能量物理社區使用的傳統方法提供了一個精確的優勢,”利達說。
-
機器學習
+關注
關注
66文章
8438瀏覽量
132901 -
量子計算機
+關注
關注
4文章
532瀏覽量
25513
發布評論請先 登錄
相關推薦
評論