在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

10個機器學習中常用的距離度量方法

穎脈Imgtec ? 2022-11-03 10:35 ? 次閱讀

作者:Jonte Dancker

來源:DeepHub IMBA


距離度量是有監督和無監督學習算法的基礎,包括k近鄰、支持向量機和k均值聚類等。

距離度量的選擇影響我們的機器學習結果,因此考慮哪種度量最適合這個問題是很重要的。因此,我們在決定使用哪種測量方法時應該謹慎。但在做出決定之前,我們需要了解距離測量是如何工作的,以及我們可以從哪些測量中進行選擇。

本文將簡要介紹常用的距離度量方法、它們的工作原理、如何用Python計算它們以及何時使用它們。這樣可以加深知識和理解,提高機器學習算法和結果。fdf794a0-5937-11ed-b116-dac502259ad0.png在更深入地研究不同的距離測量之前,我們先要有一個關于它們如何工作以及如何選擇合適的測量的大致概念。距離度量用于計算給定問題空間中兩個對象之間的差異,即數據集中的特征。然后可以使用該距離來確定特征之間的相似性, 距離越小特征越相似。

對于距離的度量,我們可以在幾何距離測量和統計距離測量之間進行選擇,應該選擇哪種距離度量取決于數據的類型。特征可能有不同的數據類型(例如,真實值、布爾值、分類值),數據可能是多維的或由地理空間數據組成。


幾何距離測量1、歐氏距離 Euclidean distance歐氏距離度量兩個實值向量之間的最短距離。由于其直觀,使用簡單和對許多用例有良好結果,所以它是最常用的距離度量和許多應用程序的默認距離度量。fe14fd38-5937-11ed-b116-dac502259ad0.png歐氏距離也可稱為l2范數,其計算方法為:fe38b61a-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.euclidean(vector_1, vector_2)歐氏距離有兩個主要缺點。首先,距離測量不適用于比2D或3D空間更高維度的數據。第二,如果我們不將特征規范化和/或標準化,距離可能會因為單位的不同而傾斜。2、曼哈頓距離 Manhattan distance曼哈頓距離也被稱為出租車或城市街區距離,因為兩個實值向量之間的距離是根據一個人只能以直角移動計算的。這種距離度量通常用于離散和二元屬性,這樣可以獲得真實的路徑。fe497ab8-5937-11ed-b116-dac502259ad0.png曼哈頓距離以l1范數為基礎,計算公式為:fe5b34a6-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.cityblock(vector_1, vector_2)曼哈頓的距離有兩個主要的缺點。它不如高維空間中的歐氏距離直觀,它也沒有顯示可能的最短路徑。雖然這可能沒有問題,但我們應該意識到這并不是最短的距離。3、切比雪夫距離 Chebyshev distance切比雪夫距離也稱為棋盤距離,因為它是兩個實值向量之間任意維度上的最大距離。它通常用于倉庫物流中,其中最長的路徑決定了從一個點到另一個點所需的時間。fe65d6d6-5937-11ed-b116-dac502259ad0.png切比雪夫距離由l -無窮范數計算:fe75cc3a-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.chebyshev(vector_1, vector_2)

切比雪夫距離只有非常特定的用例,因此很少使用。

4、閔可夫斯基距離 Minkowski distance閔可夫斯基距離是上述距離度量的廣義形式。它可以用于相同的用例,同時提供高靈活性。我們可以選擇 p 值來找到最合適的距離度量。fe7ee90a-5937-11ed-b116-dac502259ad0.png閔可夫斯基距離的計算方法為:fe9bec6c-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.minkowski(vector_1, vector_2, p)

由于閔可夫斯基距離表示不同的距離度量,它就有與它們相同的主要缺點,例如在高維空間的問題和對特征單位的依賴。此外,p值的靈活性也可能是一個缺點,因為它可能降低計算效率,因為找到正確的p值需要進行多次計算。

5、余弦相似度和距離 Cosine similarity余弦相似度是方向的度量,他的大小由兩個向量之間的余弦決定,并且忽略了向量的大小。余弦相似度通常用于與數據大小無關緊要的高維,例如,推薦系統或文本分析。feac9fd0-5937-11ed-b116-dac502259ad0.png余弦相似度可以介于-1(相反方向)和1(相同方向)之間,計算方法為:febb1ccc-5937-11ed-b116-dac502259ad0.png余弦相似度常用于范圍在0到1之間的正空間中。余弦距離就是用1減去余弦相似度,位于0(相似值)和1(不同值)之間。Python代碼如下from scipy.spatial import distance distance.cosine(vector_1, vector_2)

余弦距離的主要缺點是它不考慮大小而只考慮向量的方向。因此,沒有充分考慮到值的差異。

6、半正矢距離 Haversine distance半正矢距離測量的是球面上兩點之間的最短距離。因此常用于導航,其中經度和緯度和曲率對計算都有影響。fecaeb8e-5937-11ed-b116-dac502259ad0.png半正矢距離的公式如下:fee112c4-5937-11ed-b116-dac502259ad0.png其中r為球面半徑,φ和λ為經度和緯度。Python代碼如下from sklearn.metrics.pairwise import haversine_distances haversine_distances([vector_1, vector_2])

半正矢距離的主要缺點是假設是一個球體,而這種情況很少出現。

7、漢明距離漢明距離衡量兩個二進制向量或字符串之間的差異。feec7542-5937-11ed-b116-dac502259ad0.png對向量按元素進行比較,并對差異的數量進行平均。如果兩個向量相同,得到的距離是0之間,如果兩個向量完全不同,得到的距離是1。Python代碼如下from scipy.spatial import distance distance.hamming(vector_1, vector_2)

漢明距離有兩個主要缺點。距離測量只能比較相同長度的向量,它不能給出差異的大小。所以當差異的大小很重要時,不建議使用漢明距離。


統計距離測量統計距離測量可用于假設檢驗、擬合優度檢驗、分類任務或異常值檢測8、杰卡德指數和距離 Jaccard IndexJaccard指數用于確定兩個樣本集之間的相似性。它反映了與整個數據集相比存在多少一對一匹配。Jaccard指數通常用于二進制數據比如圖像識別的深度學習模型的預測與標記數據進行比較,或者根據單詞的重疊來比較文檔中的文本模式。fefb9f2c-5937-11ed-b116-dac502259ad0.pngJaccard距離的計算方法為:ff13c034-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.jaccard(vector_1, vector_2)

Jaccard指數和距離的主要缺點是,它受到數據規模的強烈影響,即每個項目的權重與數據集的規模成反比。

9、Sorensen-Dice指數S?rensen-Dice指數類似于Jaccard指數,它可以衡量的是樣本集的相似性和多樣性。該指數更直觀,因為它計算重疊的百分比。S?rensen-Dice索引常用于圖像分割和文本相似度分析。ff201f5a-5937-11ed-b116-dac502259ad0.png計算公式如下:ff31b65c-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.dice(vector_1, vector_2)

它的主要缺點也是受數據集大小的影響很大。

10、動態時間規整 Dynamic Time Warping動態時間規整是測量兩個不同長度時間序列之間距離的一種重要方法。可以用于所有時間序列數據的用例,如語音識別或異常檢測。ff444e70-5937-11ed-b116-dac502259ad0.png為什么我們需要一個為時間序列進行距離測量的度量呢?如果時間序列長度不同或失真,則上述面說到的其他距離測量無法確定良好的相似性。比如歐幾里得距離計算每個時間步長的兩個時間序列之間的距離。但是如果兩個時間序列的形狀相同但在時間上發生了偏移,那么盡管時間序列非常相似,但歐幾里得距離會表現出很大的差異。動態時間規整通過使用多對一或一對多映射來最小化兩個時間序列之間的總距離來避免這個問題。當搜索最佳對齊時,這會產生更直觀的相似性度量。通過動態規劃找到一條彎曲的路徑最小化距離,該路徑必須滿足以下條件:邊界條件:彎曲路徑在兩個時間序列的起始點和結束點開始和結束單調性條件:保持點的時間順序,避免時間倒流連續條件:路徑轉換限制在相鄰的時間點上,避免時間跳躍整經窗口條件(可選):允許的點落入給定寬度的整經窗口坡度條件(可選):限制彎曲路徑坡度,避免極端運動我們可以使用 Python 中的 fastdtw 包:from scipy.spatial.distance import euclidean from fastdtw import fastdtw ?distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

動態時間規整的一個主要缺點是與其他距離測量方法相比,它的計算工作量相對較高。


總結在這篇文章中,簡要介紹了十種常用的距離測量方法。本文中已經展示了它們是如何工作的,如何在Python中實現它們,以及經常使用它們解決什么問題。如果你認為我錯過了一個重要的距離測量,請留言告訴我。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132832
收藏 人收藏

    評論

    相關推薦

    傳統機器學習方法和應用指導

    用于開發生物學數據的機器學習方法。盡管深度學習(一般指神經網絡算法)是一強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度學習相比
    的頭像 發表于 12-30 09:16 ?293次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>和應用指導

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發表于 11-16 01:07 ?460次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>能解決哪些問題?

    華為設備中常用的RIP命令及其應用

    RIP(Routing Information Protocol,路由信息協議)是一種應用廣泛的距離矢量路由協議,尤其適用于中小型網絡。本文將詳細介紹在華為設備中常用的RIP命令及其應用,以幫助網絡管理員和工程師更好地理解和配置RIP協議。
    的頭像 發表于 08-12 18:10 ?837次閱讀

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與聚類”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩或多個時間序列在形狀和模式上的相似程度;聚類算法,如K-Means、D
    發表于 08-07 23:03

    機器學習中的數據分割方法

    機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分割的方法
    的頭像 發表于 07-10 16:10 ?2013次閱讀

    深度學習中的時間序列分類方法

    的發展,基于深度學習的TSC方法逐漸展現出其強大的自動特征提取和分類能力。本文將從多個角度對深度學習在時間序列分類中的應用進行綜述,探討常用的深度
    的頭像 發表于 07-09 15:54 ?1067次閱讀

    機器人視覺技術中常見的圖像分割方法

    機器人視覺技術中的圖像分割方法是一廣泛且深入的研究領域。圖像分割是將圖像劃分為多個區域或對象的過程,這些區域或對象具有某種共同的特征,如顏色、紋理、形狀等。在機器人視覺中,圖像分割對
    的頭像 發表于 07-09 09:31 ?799次閱讀

    機器視覺中常用的光源類型及優點?

    中常用的光源類型及其優點。 一、LED光源 優點 (1)高亮度:LED光源具有高亮度,能夠提供足夠的光線,使圖像更加清晰。 (2)低能耗:LED光源的能耗較低,能夠降低整個系統的運行成本。 (3)長壽命:LED光源的使用壽命較長,一
    的頭像 發表于 07-04 10:28 ?669次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?1461次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    應用,將理論基礎與實踐案例相結合,作者憑借扎實的數學功底及其在企業界的豐富實踐經驗,將機器學習與時間序列分析巧妙融合在書中。 全書書共分為8章,系統介紹時間序列的基礎知識、常用預測方法
    發表于 06-25 15:00

    smt貼片加工常用的檢測修理方法有哪些

    一站式PCBA智造廠家今天為大家講講SMT貼片加工常見問題有哪些?SMT貼片加工常用的檢測修理方法。隨著電子產品的不斷發展,SMT貼片加工成為電子制造業中常見且關鍵的工藝。然而,貼片加工過程中可能會
    的頭像 發表于 06-13 09:32 ?611次閱讀

    深度學習度量學習融合的綜述

    如今,機器學習的應用廣泛,包括人臉識別、醫療診斷等,為復雜問題和大量數據提供解決方案。機器學習算法能基于數據產生成功的分類模型,但每個數據都有其問題,需定義區別特征進行正確分類。
    發表于 04-24 09:49 ?459次閱讀
    深度<b class='flag-5'>學習</b>與<b class='flag-5'>度量</b><b class='flag-5'>學習</b>融合的綜述

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化,需要搜索超參數的最佳配置以實現最
    的頭像 發表于 03-23 08:26 ?651次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧

    工業鏡頭中常見的參數之工作距離、物距、法蘭距及鏡頭接口

    工業鏡頭中常用的一些關于距離的參數,別再傻傻分不清了。工作距離(WD)是指鏡頭最下端機械面到物體的距離。物像距離(O/I)指物平面到相機芯片
    的頭像 發表于 03-11 15:29 ?5730次閱讀
    工業鏡頭<b class='flag-5'>中常</b>見的參數之工作<b class='flag-5'>距離</b>、物距、法蘭距及鏡頭接口

    gis中常用的空間分析方法

    將詳細介紹GIS中常用的空間分析方法,包括空間插值、緩沖區分析、空間統計、領域分析、網絡分析和多標準決策等。 一、空間插值 空間插值是一種將有限數量的點數據轉換為連續表面的方法。常見的空間插值
    的頭像 發表于 02-25 13:44 ?5899次閱讀
    主站蜘蛛池模板: 日本卡一卡2卡3卡4精品卡无人区| 国产一级做a爱免费视频| 男女激情做爰叫床声视频偷拍| 久久久伊香蕉网站| 香蕉蕉亚亚洲aav综合| 丁香激情五月| 狼色网| 精品福利| 在线看免费视频| www四虎影院| 欧美日韩无| 她也啪97在线视频| 一级特黄aaa大片29| 91大神精品在线观看| 亚洲一区二区三区精品视频| 深夜网站在线| 爱爱视频天天干| 中文字幕视频二区| 成人三级网址| 中文字幕有码视频| 狠狠色狠狠干| 黄网站免费视频| 亚州 色 图 综合| 青草91| 国产精品va在线观看不| 久久艹免费视频| 巨乳色在线观看| 美女一级a毛片免费观看| 让她爽的喷水叫爽乱| 色综合久久久高清综合久久久| 日本免费高清| 女人被狂躁视频免费网站| 青草青青视频| 国产乱码免费卡1卡二卡3卡四 | 免费国产不卡午夜福在线观看 | 午夜免费在线观看| 天天干天天碰| 日韩一级片免费| 国内啪啪| 性色网址| 国产一级特黄高清在线大片|