PyTorch教程21.1之推薦系統概述

2512973 2023-06-05 | pdf | 0.17 MB | 次下載 | 免費

資料介紹

在過去的十年中，互聯網已經發展成為一個提供大規模在線服務的平臺，它深刻地改變了我們交流、閱讀新聞、購買產品和觀看電影的方式。與此同時，前所未有的物品數量（我們使用術語物品指電影、新聞、書籍和產品。）在線提供需要一個可以幫助我們發現我們喜歡的項目的系統。因此，推薦系統是強大的信息過濾工具，可以促進個性化服務并為個人用戶提供量身定制的體驗。簡而言之，推薦系統在利用大量可用數據做出可管理的選擇方面發揮著關鍵作用。如今，推薦系統是亞馬遜、Netflix 和 YouTube 等許多在線服務提供商的核心。回憶一下圖1.3.3中亞馬遜推薦的深度學習書籍的例子 . 使用推薦系統的好處有兩方面：一方面，它可以大大減少用戶尋找物品的努力，緩解信息過載的問題。另一方面，它可以為在線服務提供商增加商業價值，是重要的收入來源。本章將介紹推薦系統領域深度學習的基本概念、經典模型和最新進展，以及實現示例。

https://file.elecfans.com/web2/M00/A9/CF/poYBAGR9PiSAODKiAAIuzfL-igI025.svg

圖 21.1.1推薦過程示意圖

21.1.1. 協同過濾

我們從推薦系統中的重要概念——協同過濾 (CF) 開始旅程，它最初是由 Tapestry 系統創造的( Goldberg et al. , 1992 )，指的是“人們相互協作以幫助彼此執行過濾過程處理發布到新聞組的大量電子郵件和消息”。這個詞已經豐富了更多的意義。從廣義上講，它是使用涉及多個用戶、代理和數據源之間協作的技術來過濾信息或模式的過程。CF自問世以來有多種形式和眾多的CF方法被提出。

總體而言，CF 技術可分為：基于內存的 CF、基于模型的 CF 及其混合體（Su 和 Khoshgoftaar，2009 年）。代表性的基于內存的 CF 技術是基于最近鄰的 CF，例如基于用戶的 CF 和基于項目的 CF （Sarwar等人，2001 年）. 矩陣分解等潛在因子模型是基于模型的 CF 的示例。Memory-based CF 在處理稀疏和大規模數據方面存在局限性，因為它基于共同項目計算相似度值。基于模型的方法因其更好的處理稀疏性和可擴展性的能力而變得越來越流行。許多基于模型的 CF 方法可以使用神經網絡進行擴展，從而通過深度學習中的計算加速產生更靈活和可擴展的模型（Zhang等人，2019 年）. 一般來說，CF 只使用用戶-項目交互數據來進行預測和推薦。除了 CF 之外，基于內容和基于上下文的推薦系統在合并項目/用戶的內容描述和上下文信號（例如時間戳和位置）時也很有用。顯然，當有不同的輸入數據可用時，我們可能需要調整模型類型/結構。

21.1.2。顯式反饋和隱式反饋

為了了解用戶的偏好，系統應收集他們的反饋。反饋可以是顯式的也可以是隱式的（Hu et al. , 2008）。例如， IMDb收集電影的星級評分，范圍從 1 星到 10 星。YouTube 為用戶提供了豎起大拇指和不豎起大拇指的按鈕來顯示他們的偏好。顯然，收集明確的反饋需要用戶主動表明他們的興趣。盡管如此，明確的反饋并不總是很容易獲得，因為許多用戶可能不愿意對產品進行評級。相對而言，隱式反饋通常很容易獲得，因為它主要關注對用戶點擊等隱式行為進行建模。因此，許多推薦系統都以隱式反饋為中心，隱式反饋通過觀察用戶行為間接反映用戶的意見。隱式反饋的形式多種多樣，包括購買歷史、瀏覽歷史、手表甚至鼠標移動。例如，購買了同一作者的多本書的用戶可能會喜歡該作者。請注意，隱式反饋本質上是嘈雜的。我們只能猜測他們的喜好和真實動機。用戶看過電影并不一定表示對該電影有正面看法。

21.1.3。推薦任務

在過去的幾十年里，已經研究了許多推薦任務。從應用領域來看，有電影推薦、新聞推薦、興趣點推薦 ( Ye et al. , 2011 )等。也可以根據反饋和輸入數據的類型來區分任務，例如，評級預測任務旨在預測顯式評級。頂部-n推薦（項目排名）根據隱式反饋為每個用戶個人對所有項目進行排名。如果還包括時間戳信息，我們可以構建序列感知推薦（Quadrana等人，2018 年）。另一個流行的任務稱為點擊率預測，它也基于隱式反饋，但可以利用各種分類特征。為新用戶推薦和向現有用戶推薦新物品被稱為冷啟動推薦（Schein et al. , 2002）。