在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

空間簡史-人類認識空間的旅程與其對強化學習的啟示

mK5P_AItists ? 來源:lp ? 2019-04-05 17:38 ? 次閱讀

摘要:本文是對okeefe 1978(柵格細胞發現者, 2014諾貝爾獎得主)的論文 cognitive map 的總結和延申。

一 空間的先驗與后驗之爭

對于我們在其中生存和繁衍的空間, 是如何在我們的心理世界表達的, 這是一個爭論了幾百年, 也依然沒有完全清楚的問題。 如果你不去仔細思考, 你可能覺得這是一個很簡單的問題。 而一旦較真, 你就會發現幾乎所有的哲學家, 物理學家, 心理學家所糾結過的那些問題。

首先, 什么是空間? 最早探討它的是物理學, 從亞里士多德到牛頓。 牛頓的物理學在絕對空間基礎上存在,所謂絕對空間, 可以簡化為一個歐式直角坐標系, 世間的所有有行實體都可以在這個坐標系里尋找到一個坐標。有了空間和時間, 我們就可以相當準確的描述和預測發生在時空里的運動,并且進行大距離的遷徙(比如大航海)。 想象一下沒有地圖和坐標, 哥倫布即使偶然到達美洲也不可能回去了。

在古代, 星空是人類航海重要的坐標, 我們通過判斷星辰間的指向, 知道茫茫大海自己的去向, “陪你一起看看星星” 絕非為了浪漫, 而是關乎生存。

雖然物理學家從不懷疑真實空間的存在, 然而有一個問題確沒法解決。 我們的感知是含糊的,柔軟的,既缺乏像尺規一樣的絕對空間度量, 也沒有絕對的方向度量。 我們對距離的描述經常是或近或遠這樣的模糊語言,也不擅長想象一個超大空間的地圖(受到訓練之前)。 那么, 那個物理學家關心的剛性的歐式度量的空間是從哪里來的呢? 我們為什么能夠產生這樣的概念? 是什么使我們能夠產生這樣的概念?

換句話說, 空間如果存在, 它到底在哪里? 它是怎么在我們腦海里形成的? 它是通過某種先天的“結構” 得來 , 還是通過感知基礎, 在后天的學習和思考基礎上形成的?

應該說對這些問題的回答絕非容易, 我們一開始解決這些問題的方法是哲學, 而后面才從生物學的認知基礎上討論。

最早對這個問題進行闡述的人包括貝克萊和康德, 它們分別代表了兩種截然不同的觀點。貝克萊和我們熟悉的休謨和洛克一樣是英國經驗主義哲學的代表人物, 強調一切認知的基礎, 無非是大量經驗的總結, 它否定物理上的絕對空間,認為這是人的認知造成的一種幻覺。首先在空間認知的事情上,他認為存在等同于被感知, 而所謂的空間, 無非是我們被感知到的大量的觸覺,視覺, 和肌肉運動之間的某種關聯。 因而絕對空間這個東西, 根本就是子虛烏有。 大家想下大衛休謨的那句話:只要閉上眼睛就沒有懸崖, 就會理解他的觀點的深刻含義。 感知所構成的大量經驗集合是第一性的, 絕對的物理空間是第二性的, 是一種方便性的考量。

具有經驗主義傳統的英國, 出產了貝克萊和休謨這樣的哲學家。

這樣的對空間的認知, 與牛頓的物理學存在本質的沖突, 而另一個派別, 是結合了理性主義和經驗主義的康德提出的理論, 他認為絕對空間存在,而它依賴的恰不是外部的物理世界, 而是人類先天的認知基礎,一種與這種絕對空間相對應的腦組織,它是我們認知外部世界的基石。

康德的時空觀是起純粹理性批判的基礎??档碌挠^點既不同于貝克萊也不同于牛頓。 首先他認同絕對歐式空間的存在, 其次他認為這個空間不存在于物理世界恰恰在我們的心理, 第三這個先驗的結構是我們其它感知的基礎。我們的對物體的感知, 都要放到這個空間結構里得到認識。應該說這里的第一性和第二性的順序與經驗主義恰好相反。 康德的理念里, 沒有了時空這樣的先驗, 經驗毫無意義(聯想以下當下 數據-經驗 驅動的AI所遇到的缺乏邏輯推理能力的瓶頸, 我們無疑在某種程度回歸康德的問題)。

康德認為經驗的認知需要在先驗存在的時間和空間之上, 這也是康德思想體系的基礎之一。

在康德之后, 這兩個派別分別發展出Empiricist(經驗主義), 和Natist (先天認知)兩個基礎流派,經驗主義者強調所有有關絕對空間的認知都是后天學習得到的大量感知之間的聯系。 而先天主義者則認為需要有一個先驗而非習得的空間結構,這個結構是后來學習的基礎。

在后面的整個世紀里,兩邊各站著一批各自的哲學家,分別尋找證據闡述各自的理由。 一個比較標示性的任務是20世紀初的龐家萊。 這個時期的物理學發生了天翻地覆的變換。 愛因斯坦的相對時空開始取代牛頓的絕對時空。 而黎曼幾何的出現代表我們之前深信不疑的歐式空間無非是受到了我們經驗的局限。黎曼幾何成為廣義相對論的基礎。

而從電動力學和量子力學衍生的場論更是刷新了人們的三觀 。龐家萊在這個基礎回到了貝克萊的經驗主義,就沒有特別奇怪。龐家萊首先認為空間無非是無數經驗的集合, 這些經驗主要是由人在移動時候視覺的變換構成的。 我們對不同物體的距離的感知, 也無非是讓一個虛擬的自己經歷一個從A物體到B物體的過程而認識到的。大量 經驗上學到的位移與視野變換的對應關系可以用平移算子和群表示。

而這樣的群最大的特質是存在一個逆運算可以讓當下的狀態和先前的狀態完全一致(聯想一下時間就沒有這樣的對稱性, 不存在一個時間平移逆運算讓你回到時間的原點)。 位置的概念隱含在這種平移算子的對稱性里 。龐家萊的理論不難找到同時代的相對論和場論的影子, 而他的思想標志了經驗主義的新高度。我們在不停的變化的經驗積累中得到了變化中的不變性(數學規則), 而這些數學規則就是空間的本質。

黎曼幾何, 打破了歐式直角坐標系,同樣的也是對于日常經驗的一個突破。 因為我們常見直線, 不說明它是真實的。事實上愛因斯坦的廣義相對論指出光線被引力彎曲沿曲線傳播。 黎曼幾何成為廣義相對論的數學基礎。

注: 愛因斯坦的狹義相對論的建立過程體現了對牛頓絕對時空的突破。事實上正是愛因斯坦看到了牛頓的絕對時空是受到了我們經驗的局限才能夠打破它。

狹義相對論認為,我們的絕對時間的觀點, 正是受制于我們自身的經驗,因為我們從來不以接近光速運行。 而得到真實的物理規律, 事實上需要突破這種經驗。 狹義相對論以光速(電磁學規律)為絕對不變, 而放棄時間的絕對流逝, 當物體的運動速度變換,其時鐘也相對靜止坐標系進行調整。

而繼續把場論的思維進行深化的,是Kohler等人提出的Gestalt(格式塔)理論。 Gestalt理論比龐家萊進一步的指向了空間感知的神經基礎, 他把大量神經元的同時放電看做是一種場的形成, 不同的神經元組(網絡)代表不同的場, 兩種最基本的和空間導航有關的場一種叫做 地理場(geography field), 一種叫做 行為場(behavior field)。

地理場主要用來表征外部的物理世界-空間關系, 而行為場用于賦予各種外部刺激(感知)以意義,估值,和反射行為(這就是強化學習理論的預演,行為場可以看做強化學習的值函數),這兩個場互相配合產生空間有關的概念和行為。 從外部的刺激通過神經組織合成出各種合適的“場”來表征外部特征的思想已經像極了今天的深度學習, 不難看出我們今天的科技和前人的思想的聯系。

在此基礎上, 1936年Lewin提出了空間拓撲結構和所謂行為場的關系, 使得Gestalt的理論變得更為堅實, 之前的行為場的一個問題是不知道它如何組織和形成, 而Lewin則提出了它的基礎是各種各樣的和行為有關的空間拓撲結構, 比如邊界,連接, 等等。 也就是說你先建立一個空間的拓撲場, 后面可以就容易建立一個行為場。

二 來自動物行為的證據

好了,再fancy的問題 ,最終還要回到空間認知的本質是個生物問題 ,它需要特定的生物載體 。 那么研究動物對空間的認知就是一個幾乎不可避開的問題。 動物是不會說話的,本質上了解動物的空間認知必須要從行為入手,與空間有關的行為就是導航。 像鳥類,小鼠, 蝙蝠都具有極為發達的空間導航能力(甚至比人還厲害),那么它們是怎么在復雜的空間里穿行,或者經過幾千公里回到自己的家的呢? 從觀察這些行為入手, 我們也可以得到空間認知的本質。 我們說, 如果一個概念對行為和動物的生存并無意義 ,那也就是失去了任何行為的基礎。

經典的小鼠走迷宮任務。

關于小鼠的導航問題的實驗的問題,我們看到小鼠很容易在非常復雜的迷宮里找到食物,關于這個現象基本的假設解釋, 一種是小鼠沒有空間的概念,但是它可以記住一系列的動作 。這就好比一個很長的條件反射,比如左左右右左左右。 這就好比在現實生活中, 當你完成一個動作系列到達了星巴克, 你再執行另一個動作序列到達肯德基。

而另一個假設是小鼠有關于空間的概念 ,根據在大腦里生成的地圖來決定每個時候的走向找到目標。 所謂地圖,是指你和周圍的物體(地標)以及周圍的物體(地標)之間相對位置的幾何。 在一個地圖上, 所有的地標都獲得了一個絕對的坐標, 即使你沒有去過那個地方, 這個坐標依然告訴你它在什么位置。

為了研究相應的問題,我們可以把真實的空間去掉, 讓小鼠在一個“時間迷宮”里(這個任務里缺乏固定的空間結構),單純記住“左左右右左左右” 這樣的動作序列來解決這個問題。 事實上小鼠這個時候已經很難完成這個任務。 這一系列的實驗結果支持地圖學說, 導致Tolman在1948年提出了Cognitive map的概念。 那就是 空間 或者 地圖的概念在小鼠的大腦里是存在的, 成為其導航學習的基礎。

對于同樣的實驗現象, Hull為代表的人提出了一套截然不同的解釋,可以看作剛剛說的動作序列的高級版本,解決剛剛的矛盾 。 那就是看似復雜的空間導航,無非是一個多級的,組合式的條件反射。這就和我們日常大多數習慣的獲得沒有區別。 只是,在空間導航的學習里, 你學到的不是一個從起點到終點的方法, 而是一個系列的能夠從起點到終點的動作系列(對應同一效果的不同的軌跡),這樣也就不會受困于某個特定的行為序列。這個理論與龐家萊的群論的含義是一致的。 也就是我們學到的不是一個軌跡, 而是一個行為的集合, 具有同樣的最終效果(一個群), 這其實說的就是當今機器學習的泛化能力。

多級條件反射和認知地圖均能夠解釋現象, 但是背后的眼里卻非常不同, 這也成為后面一系列的工作的起點。多級條件反射, 與心理學的一個重要的流派-行為主義流派不謀而合。它的主要代表人斯金納用非常復雜的條件反射來解釋語言和思考在內的所有認知現象(把語言符號也看作一種刺激),因此在那個年代也很占優勢。

斯金納箱, 操作性條件反射的實驗裝置。 小鼠做出正確的動作后可以得到食物。 操作性條件反射在斯金納的時代被認為是智能的基礎。 也是強化學習理論的基礎。通過多級條件反射, 小鼠不僅可以把當下的刺激和獎勵聯系起來, 還可以把之前的行為和刺激和當下的刺激聯系起來

注: 稍微用心的研究者不難發現組合條件反射與深度強化學習的關系 ,我們一次又一次回歸前人思想的軌跡。

而認知地圖的支持者后來者居上, 一個重要的根據在動物導航行為的研究。 研究者發現在諸如鳥類這樣的動物里 ,當你把鳥從一個地方移動到它所從未見過的地方, 它依然有能力找到到回家的路。 按照多級條件反射的說法, 鳥需要根據自己熟悉的地標, 記住一系列動作, 或者一個方向, 然后才能達到目的地。 而如果一個地方是完全陌生的, 那么鳥根本不可能能夠根據習得的一套方案回巢(事實上這個邏輯并不嚴密)。

鳥類天然擅長長途遷徙

另一個重要的支持在于尋找捷徑, 比如你回家的路上發現平時需要繞過的公園多了一條小路 你可能沒有走過, 但是你依然可能會直接穿越回去到家。 尋找捷徑的能力類似于強化學習里的有模型學習, 你需要建立一個最小的世界模型, 才能知道當下某個從沒有見過的地標和你熟悉的地標(家)之間的聯系。認知地圖的支持者認為這個模型正是由認知地圖提供的。

這些都成為認知地圖作為一個先驗結構早已存在于腦海中的實驗支持, 不僅如此, 這個地圖需要的樣子是一個絕對的歐幾里得坐標系,而不是你根據自己的位置為中心,設立的一張相對你而言周圍物體分布的地圖。 正是因為有這樣一個絕對的歐式坐標系,你才知道周圍物體相對周圍物體, 門子相對窗子, 馬路相對公園的位置, 你才能根據你的空間想象做出決策 ,不是走A路而是走B路,即使你從來沒有見過A路,或者到了一個完全陌生的城市。

如何構建這樣一個地圖? 你的大腦里的某個部位需要能夠精確的進行路徑積分, 并把每個看到的地標放置到這個精確積分的大腦平面圖里。如果整個周圍環境是固定的, 一旦出現一個新的物體, 你就很快可以想象出它和之前所有出現過的物體的相對位置, 在這個世界里, 每個物體的表示都是一個位置向量。 如果你想做一個能夠行走的機器人, 不難想象也會構建一個類似的概念。這樣的觀點構成認知地圖的基礎, 我們通過大腦里的一個先驗的絕對空間的概念載體, 而使得復雜的空間計劃和導航學習成為可能。

三 Place Cell 和 Grid Cell的發現

這樣的想法非常合理, 唯一的問題是我們的大腦里真有這樣的結構嗎? 這個觀點在一組大名鼎鼎的細胞, grid cell和place cell之后可謂是登峰造極, 成為了科學的主流。 而它的發現者O'Keefe 和 Moser也獲得了2014年的諾貝爾獎。

這組細胞, 仿佛就是cognitive map的生物載體。所謂place cell的含義非常簡單, 就是當你不停的經過某個同樣的地點,同一個細胞會放電。 而所謂Grid cell, 其特征是其感受野對空間進行周期性的放電,它可以把一個二維平面表現成一個密集堆積的六邊形結構, 不同的grid-cell具有不同的空間周期。 認知地圖的支持者認為,這個Grid cell正是那個先驗的大腦里的歐式坐標系的載體。如果你對空間里的一個狄拉克函數(一個空間質點的表示)做傅里葉變換你會得到一系列不同周期頻率的波函數, 反過來, 這群函數或許可以作為一組表達不同物體位置的基函數。 而Grid cell如果是對應了這群函數, 那么它將可以非常靈活的表達生物體在一個絕對坐標系里的位置,即使生物體運動到了一個完全陌生的環境。

不僅在小鼠, 蝙蝠的大腦里也存在Grid Cell, 與三維空間相對應, 參見 Grid cells without theta oscillations in the entorhinal cortex of bats Nature

在Grid cell和Place cell發現之后,認知地圖的理論奠定了統治地位,空間學習需要一個先驗的神經空間坐標系成為了共識。

人工智能時代的續篇

在人工智能時代,我們越來越發現這些早期認知科學爭論過的核心主題, 事實上對發展從狹義到通用的人工智能都非常重要。你要先理解智能,才能做出人工智能, 否則做出的東西只有“人工”沒有“智能” 。

在DeepMind去年發表的一篇和空間導航有關的論文里, 它們也確實把這種和空間有關的結構- Grid Cell 引入到了它們的網絡架構里,而非常有趣的是, 如同當年的認知科學家所闡述的, 這個空間坐標結構的引入, 使得導航出現了類似于直接利用捷徑這樣的行為。

而與空間結構的先驗學派不同的是,DeepMind的這個Grid Cell 結構, 事實上是從利用監督學習進行引導的。 DeepMind 讓人工“小鼠” 在方格空間里亂跑并預測其位置,在這個過程里, 如果適當的引入dropout這樣的條件,它們表明就可以出現類似于Grid的細胞結構。 而這個結構正是剛剛說的尋找捷徑行為的基礎。論證的方法也和生物實驗相同, 就是去掉這些細胞觀測, 尋找捷徑的行為消失了。

Vector-based navigation using grid-like representations in artificial agents Nature

這篇文章在專業圈子引起了很多批判,很多學者不認可這樣形成的Grid Cell就是生物學的Grid Cell。另外一種可能是Grid Cell只是許多對空間探索有利的結構的一種,而這種結構恰恰是無論是自然訓練還是人工訓練都非常容易找到的一種, 可能對應某個自然界的最小作用原理(事實上六邊形是周期性的布滿一個二維空間的最經濟方法)。因此DeepMind的這個作品也就沒有那么神奇了。

在思考這個問題的時候, 我個人依然覺得到龐加萊等人的經驗主義思想具有極高的借鑒價值。 雖然用認知地圖方便好用, 但是它是否是最基本的東西? 我們大腦里的那個空間概念最根本的東西究竟是什么? 或許背后更本質的東西依然是幾條抽象的數學規則,而我們大腦的神奇在于利用這個規則得到地圖這類方便的概念。Deepmind按照人們已經預期設定的理論找到了同樣的結果, 雖然促進了AI的進步, 但是對于我們理解這個問題卻是有限的。

五 關于空間任務之外的啟示

不管認知地圖是否最終成立,生物學的研究,還是人工智能的研究,都在指向的一個共同點,就是我們學習需要預先存在的特定“結構”,而不是簡單的多級條件反射可以得到, 雖然在深度強化學習時代,多級條件反射給我們展示的可能性比我們想的多很多。 而AI的研究在告訴我們, 這樣的先驗結構, 是可以通過大量的預訓練得到的。

如何預訓練, 怎么設計預訓練流程, 可能是未來的一個極為重要的方向。Karl Friston所說的預測誤差最小,最新的大量關于好奇心的研究,甚至最近的語言模型Bert,可能都在提示我們怎樣設計這樣的流程。 同時,這樣的研究或許也在啟發我們如何更好的設計嬰兒的早期教育 ,使得后期的學習效果更好。

對于空間的思考本身, 對于非空間的很多任務也極有啟發。 比如我們常說的語言。 我們知道,語言代表了我們使用和控制符號的能力, 而“符號” 和空間“位置”的關系是什么? 是否存在一種隱喻, 正是由于我們發展出了對抽象的“空間” 和 “位置”的認知能力, 才引領我們走向了更廣義的形成和使用“符號”的能力? 在一個抽象的“符號” 地圖里, 運動不再是歐式空間里從一點到另一點的軌跡, 而可能是一種邏輯思維的流動? 這些都將是未來人工智能極為需要回答的問題。

Organizing Conceptual Knowledge in Humans with a Grid-like Code Science 一個驚人的實驗, 在人類進行對不同形狀的關聯(把一種形狀的鳥對應到另一個形狀上)的時候, 類似的Grid的神經表示出現

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4332

    瀏覽量

    62666
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11262

原文標題:空間簡史-人類認識空間的旅程與其對強化學習的啟示

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1467次閱讀
    什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
    發表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發表于 06-29 18:36 ?2.8w次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習中的監督
    發表于 05-30 06:53 ?1419次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能體通過與環境互動,來學習采取何種動作能使其在給定環境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學習
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    谷歌推出新的基于Tensorflow的強化學習框架,稱為Dopamine

    強化學習(RL)研究在過去幾年取得了許多重大進展。強化學習的進步使得 AI 智能體能夠在一些游戲上超過人類,值得關注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 Alph
    的頭像 發表于 08-31 09:20 ?3700次閱讀

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    DeepMind發布強化學習庫RLax

    RLax(發音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
    的頭像 發表于 12-10 18:43 ?742次閱讀

    模型化深度強化學習應用研究綜述

    深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互,并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型
    發表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊力控制策略的學習優化?;谏疃?b class='flag-5'>強化學習的壓邊力優化算法,利用深度神經網絡處理巨大的狀態空間,避免了系統動力學的擬合,并且使用一種新的網絡結構來構建策略網絡,將壓邊力策略劃分為全局與局部兩部分,提高了壓邊
    發表于 05-27 10:32 ?0次下載

    徹底改變算法交易:強化學習的力量

    強化學習(RL)是人工智能的一個子領域,專注于決策過程。與其他形式的機器學習相比,強化學習模型通過與環境交互并以獎勵或懲罰的形式接收反饋來學習
    發表于 06-09 09:23 ?535次閱讀

    模擬矩陣在深度強化學習智能控制系統中的應用

    訊維模擬矩陣在深度強化學習智能控制系統中的應用主要是通過構建一個包含多種環境信息和動作空間的模擬矩陣,來模擬和預測深度強化學習智能控制系統在不同環境下的表現和效果,從而優化控制策略和提高系統的性能
    的頭像 發表于 09-04 14:26 ?571次閱讀
    模擬矩陣在深度<b class='flag-5'>強化學習</b>智能控制系統中的應用

    什么是強化學習

    強化學習是機器學習的方式之一,它與監督學習、無監督學習并列,是三種機器學習訓練方法之一。 在圍棋上擊敗世界第一李世石的 AlphaGo、在《
    的頭像 發表于 10-30 11:36 ?4105次閱讀
    什么是<b class='flag-5'>強化學習</b>

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?305次閱讀
    主站蜘蛛池模板: www.久久在线| 免看乌克兰a一级| 精品国产一二三区| 国产精欧美一区二区三区| 色婷婷在线观看视频| 天天干夜夜曰| 国产色av| 免费人成网555www| 色婷亚洲| 欧美在线一级视频| 四虎亚洲精品| a男人的天堂久久a毛片| 91大神在线观看精品一区| 久久综合操| 天天看天天爽| 美女被草视频在线观看| 操美女的视频网站| 中文字幕一二三四区| 欧美人与性另类| 久草男人天堂| 欧美啊片| 免费观看一级特黄欧美大片| 亚洲第一视频在线| 成年毛片| 国产欧美高清| 毛片大全免费| 欧美日韩精品一区二区另类| 色多多www网站| 色婷婷综合网| 美女网站色在线观看| 成人观看网站a| 99成人国产精品视频| www.av123| 夜夜操国产| 我爱操| 五月天婷婷在线免费观看| 看屁屁www视频免费观看| 中文字幕一区二区三区在线播放| 免费我看视频在线观看| 欧美zo| 永久免费品色堂|