在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

讓AI和網絡機器人進行網頁抓取、收集數據等工作,有用嗎?

如意 ? 來源:讀芯術微信公眾號 ? 作者:讀芯術微信公眾號 ? 2020-10-23 16:13 ? 次閱讀

“互聯網上有很多數據”,這么說太保守了。事實上,2020年,“數字宇宙”預計將擁有40萬億字節或40澤字節(zettabytes)的信息,一個澤字節擁有的數據足以填滿大約五分之一曼哈頓大小的數據中心

可供分析的信息如此之多,將收集數據的任務留給AI就顯得合情合理了。網絡機器人能以令人難以置信的速度抓取網頁,提取所需的相關信息。不過,盡管許多數據科學家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網絡人工智能日益普及,網絡機器人還是逐漸被污名化了。

對人工智能的大部分負面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時候也要提防著AI。此外,某些web用戶以不道德的方式使用網絡機器人,導致即便是專業、誠心使用數據的人也備受打擊。

對于許多專業人士來說,網頁抓取仍然是必不可少的工具。那么,對于與網絡機器人的污名,我們能做些什么呢?

首先,網頁抓取是什么

你可以簡單地把網頁抓取行為理解為數據提取。盡管數據科學家和其他專業人士使用抓取來分析非常復雜的數字信息棧,但從網站復制粘貼文本的行為本身就可以被認作一種簡單的抓取形式。

然而,就算可以在網站上盡情訪問,由于可用信息太多,可能也要花費非常長的時間從來源處收集數據。大多數情況下,網頁抓取都是留給人工智能來完成的,人工智能會將檢索到的數據進行透徹分析以達到各種目的。雖然這對網絡爬蟲來說極為便利,但網站所有者和旁觀者都非常擔心人工智能在網絡上的“濫用”

使用網絡機器人進行網頁抓取會更好嗎

有這么多的信息要分析,求助于人工智能來收集數據理所當然。實際上,谷歌本身就是為感興趣的各方提供網頁抓取工具最可信的來源之一。例如,你可以使用其數據集搜索引擎快速訪問認為可以免費使用的數據,甚至能定制搜索,以了解這些信息是否可用于商業用途。完成這些任務只需要幾秒鐘。

如果沒有谷歌AI如此高效檢查每個網站的相關數據,恐怕無法實現這樣的速度。這是一個利用人工智能以純道德的方式為研究或商業收集有用信息的完美例子,其速度之快也證明了“網絡機器人”如何讓執行網頁抓取任務變得如此容易。

人工智能流量變得如此普遍,如今已經占到互聯網流量的一半以上。即便如此,我們還是容易忽視其造成的影響。

有人認為,人工智能在互聯網流量中占主導地位令人擔憂。讓這一問題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。

使用網絡機器人來處理大量數據是合理的步驟。除了人工智能,在網頁數據抓取時考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進行網絡抓取有很多優點,匿名性正是其中之一。比方說,如果你想對一個競爭品牌進行調研,并利用這些信息來確定改善自己公司發展的最佳方案,你可能不想讓別人知道自己訪問了他們的網站。在這種情況下,使用代理既能訪問、檢查數據,又不會泄露身份,兩全其美。

做進一步探討之前,先來快速回顧一下代理服務器:

代理服務器的設計目的是充當用戶和web服務器之間的中間人。

功能多樣:個人和公司都能使用代理服務器來滿足特定需求。

代理的一個常見用途與網頁抓取有關:使用代理服務器可以繞過網站管理員設置的限制,從而大量收集數據。

那么問題來了,為什么要設置限制呢?這些數據不是可以在網上免費獲得嗎?對人類用戶來說,是的。這里有一個典型的例子。價格聚合商的整個商業模式是建立在準確信息之上的,它為“我在哪里能買到價格最低的X產品?”這個問題提供確切答案。

盡管這對客戶來說是一個省錢的好機會,但供應商對其他公司窺探他們的數據并不太感興趣,原因是聚合器的網絡爬蟲軟件(通常稱為“網絡機器人”或“網頁蜘蛛”)給網站帶來了額外的負載。因此,如果網站管理員懷疑給定的網絡活動不是由真正的用戶進行的,就會限制用戶訪問網站。

代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會顯示你是來自X國的真正用戶,你可自定義來自哪個國家。對住宅代理的需求很簡單:(可疑的)網絡機器人活動通常來自某些國家,所以即使是來自這些國家的真正用戶也經常遇到地域限制。

此外,當你試圖從數據源收集數據、卻因各種原因無法訪問時,使用代理尤其有用。在網絡抓取時有很多使用代理的方法,但為了在數字社區中建立信任,我們建議你堅持使用那些可以建立品牌信任和權威的方法。

利用人類可見性和可信賴的品牌來對抗人工智能的污名

目前,人工智能發展速度確實超過了上網人數增長速度。不過,互聯網在未來幾年將會如何發展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉,也不能斷定它代表著一種固有的消極趨勢。

要想扭轉網絡上有關人工智能流量的負面言論,最佳辦法就是讓互聯網上的人工智能使用恢復人性化。還需注意,要以建立信任的方式使用人工智能,無需考慮太多。

堅持使用由高認知度、可信賴的品牌提供的可信賴的產品和服務。

堅持合乎道德的網頁抓取操作。不要濫用信任,忽略網站上robots.txt文件,或在短時間內大量使用機器人程序。

以專業、負責的方式使用數據。核實你是否擁有將抓取獲得的數據用于預期目的的權限。

多多普及人工智能。多去和其他人說說如何以及為什么使用網絡抓取,讓人們對網絡抓取有更深的認識。人們對使用人工智能獲取、研究大量數據的好處了解得越多,對網頁抓取和網絡機器人持負面看法的可能性就越小。

通過純粹的人工操作來手動訪問網站數據或許讓人很放心,但由于信息太多,這幾乎不可能。可用的數據量幾乎無窮無盡,使用人工智能是我們瀏覽網站和盡可能高效分析數據的最佳手段。不過,它或許還需要再加點兒“人情味”。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28512

    瀏覽量

    207500
  • AI
    AI
    +關注

    關注

    87

    文章

    31133

    瀏覽量

    269456
  • 網頁抓取
    +關注

    關注

    0

    文章

    3

    瀏覽量

    1922
收藏 人收藏

    評論

    相關推薦

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人的基礎模塊

    ,一次生成深度信息。 自主機器人定位任務的本質是對機器人自身狀態的估計問題,包括位置,朝向,速度問題。 路徑規劃旨在找到從起點到目標區域的路徑,確保路徑的可行性和最優性。路徑規劃方法包括變分方法,圖搜
    發表于 01-04 19:22

    《具身智能機器人系統》第10-13章閱讀心得之具身智能機器人計算挑戰

    取特征點,涉及大量像素級比較運算;優化機器人位姿,需要迭代求解大規模矩陣方程。書中提出了模塊化的硬件加速方案,闡述了如何以因子圖為通用模版,以求解非線性優化問題為橋梁,面向多種機器人應用進行加速。 第11
    發表于 01-04 01:15

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    需要專業程序員進行繁瑣的編程工作,這種方式不僅效率低下,還限制了機器人的應用場景。例如,在我們大學工程實訓課程中使用的數控機床,需要人為設定起點、終點、移動方向和移動距離參數,自動化
    發表于 12-29 23:04

    巡檢機器人AI智慧算法有哪些?

    要把機器人比做人類,那么AI智慧算法就好比是它的感官和聰慧的大腦。通過捕捉每一個細微的變化、迅速對收集到的信息進行分析處理,做出正確的判斷和決策。就像一個經驗豐富的專業人員,有條不紊地
    的頭像 發表于 12-29 10:51 ?112次閱讀

    【「具身智能機器人系統」閱讀體驗】1.全書概覽與第一章學習

    ,特別是在模型訓練的時候,高質量、大規模且多樣化的模型才能夠訓練出來一個好的網絡。針對具身智能機器人也是如此,如自主導航機器人需要大量地環境數據
    發表于 12-27 14:50

    【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

    的第二個挑戰是 “數據孤島”。獲取如此全面的數據充滿了挑戰,包括高成本、耗時要求和潛在的安全風險。大多數 EAI 機器人組織僅限于在特定的受控環境中收集數據。實體之間缺乏
    發表于 12-24 00:33

    《具身智能機器人系統》第1-6章閱讀心得之具身智能機器人系統背景知識與基礎模塊

    需要在實時性、精度和可靠性維度上進行優化。我認為這種系統化的工程思維對構建復雜人工智能系統很有啟發。作為一名數據挖掘工作者,這本書我看到
    發表于 12-19 22:26

    ROS機器人開發更便捷,基于RK3568J+Debian系統發布!

    安全可靠。“實時性”、“安全性”是如今工業自動化行業的普遍追求,特別是對于AGV開發,若AGV機器人的主控制器、雷達、攝像頭、GPS部件的控制、通信的實時性與安全性得不到保障,導致的后果將是核心數據泄露
    發表于 07-09 11:38

    Al大模型機器人

    理解能力強大: AI大模型機器人可以理解和生成自然語言,能夠進行復雜的對話和語言任務。它們能夠識別語言中的語義、語境和情感,并據此作出適當的回應。廣泛的知識儲備: 這些模型基于大規模的數據
    發表于 07-05 08:52

    碼垛機器人的組成和工作原理

    幾個部分組成: ?1、機身:碼垛機器人的機身通常由機械臂、底座、控制系統部件組成,用于支撐和移動物品。 ?2、抓取機構:碼垛機器人抓取
    的頭像 發表于 07-04 15:58 ?469次閱讀

    工業機器人數據采集遠程監控平臺是什么

    工業機器人數據采集遠程監控平臺是一種軟件系統,旨在遠程監控和管理工業機器人的運行狀態和生產數據。該平臺通過網絡連接到工業機器人,實時
    的頭像 發表于 06-20 16:05 ?458次閱讀

    工業機器人數據采集平臺是什么

    以實現以下功能: 1. 數據收集:通過傳感器、控制器或其他設備從機器人及其周邊設備收集數據。 2. 數據處理:對
    的頭像 發表于 06-17 10:03 ?402次閱讀

    使用NVIDIA Isaac Manipulator生成抓取姿勢和機器人運動

    NVIDIA 宣布與 Intrinsic.ai 就工業機器人任務的基礎技能模型學習展開合作。
    的頭像 發表于 05-17 10:33 ?1344次閱讀
    使用NVIDIA Isaac Manipulator生成<b class='flag-5'>抓取</b>姿勢和<b class='flag-5'>機器人</b>運動

    NVIDIA Isaac機器人平臺升級,加速AI機器人技術革新

    NVIDIA Isaac機器人平臺近期實現重大升級,通過引入最新的生成式AI技術和先進的仿真技術,顯著加速了AI機器人技術的發展步伐。該平臺正不斷擴展其基礎模型、
    的頭像 發表于 03-27 10:36 ?705次閱讀

    BCP為什么只有在收集數據后才存儲數據

    有很多不便之處,因為可以存儲在 BCP 中的收集數據的數量限制為 10,000。 為什么只有在收集數據后才存儲數據
    發表于 01-22 07:06
    主站蜘蛛池模板: 奇米影视亚洲春色77777| 亚洲啪啪| 色咯咯| 亚洲精品在线免费观看视频| 亚洲第一成人影院| 色婷婷一区| 免费高清在线爱做视频| 成人福利在线视频| 波多野吉衣一区二区三区在线观看| 大乳妇女bd视频在线观看| 俺来也久久| 天天干天天碰| 国产精品久久国产三级国不卡顿| 欧美污网站| 久久久精品免费国产四虎| 欧美视频免费一区二区三区| 亚洲一区二区在线免费观看| 毛片基地在线| 天堂网2021天堂手机版丶| 欧美午夜色大片在线观看免费| 一级特黄aa大片一又好看| 色综合天天综合网国产国产人| 亚洲第一色视频| 日韩电影中文字幕| 国产三级在线播放| 午夜视频免费| 521色香蕉网在线观看免费| 欧美经典三级春潮烂漫海棠红| 免费视频在线播放| 午夜神马嘿嘿| 国产综合免费视频| 国产伦精品一区二区三区女| tube69日本| 一区二区中文字幕| 日本一区免费在线观看| 日本最猛黑人xxxx猛交| 操xxx| 激情亚洲婷婷| 欧美色图 亚洲| 在线天堂中文在线网| 国产精品美女一级在线观看|