Photon是一個由s0md3v開源的情報搜集爬蟲,其主要功能有:
1.爬取鏈接(內鏈、外鏈)。
2.爬取帶參數的鏈接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密鑰(在前端代碼中不小心被釋放出來的)。
5.js文件和Endpoint(spring中比較重要的監視器)
6.匹配自定義正則表達式的字符串。
7.子域名和DNS相關數據。
你可以用它來干很多事,比如爬圖片、找漏洞、找子域名、爬數據等等。而且提取出來的數據格式非常整潔:
不僅如此,它甚至支持json格式 ,僅需要在輸入命令的時候加上json參數:
python photon.py -u "http://example.com" --export=json
為什么能用來做情報搜集呢?耐心往后看哦。
1.下載安裝
你可以上photon的github下載完整項目:
https://github.com/s0md3v/Photon
或者關注下方Python實用寶典公眾號在后臺回復photon獲得國內網盤下載地址。下載后解壓到你想要使用的地方。如果你還沒有安裝Python,建議閱讀這篇文章:超詳細Python安裝指南,進行Python的安裝。
安裝完Python后,打開CMD(windows)/Terminal(macOS),下面簡稱為終端,進入你剛解壓的文件夾,然后輸入以下命令安裝Photon的依賴:
pip install -r requirements.txt
如圖所示:
2.簡單使用
注意,使用的時候要在Photon文件夾下。比如我們隨便提取一個網站的URL試一下,在終端輸入以下命令:
python photon.py -u https://bk.tencent.com/
結果如下:
它會在當前目錄下產生一個你測試的域名的文件夾,比如在我這里是 bk.tencent.com:
嘻嘻,讓我們看看里面有什么東西,有沒有程序員留下的小彩蛋,打開external.txt,這是該網站的外鏈的存放位置。可以看到,這里不僅僅是只有網站頁面,連CDN文件地址都會放在這里,所以external可能是個藏寶庫哦。
還能一下找出該網站上鏈接的全部開源項目:
3.擴展
這個項目的價值,不僅在于能夠快速拉取你想要得到的數據,還在于能夠構建一個牛逼轟轟的 情報系統 (如果你技術夠強的話)。因為它是能不斷延伸下去的,比如從外鏈出發,你能找到很多和這個網站相關的訊息:
相比于搜索引擎搜索的結果,實際上這些信息更符合情報的要求。因為存在禁止搜索引擎爬取的 robot.txt, 所以 不是網站的所有信息都能在搜索引擎搜索得到 ,而通過這個Photon,你可以順藤摸瓜找到那些隱藏在互聯網世界的它們。
試想一下,如果你搜集了很多這樣的網站...然后用正則表達式搭建一個屬于你自己的搜索引擎,這樣的感覺是不是很棒?
-
參數
+關注
關注
11文章
1834瀏覽量
32213 -
開源
+關注
關注
3文章
3348瀏覽量
42496 -
漏洞
+關注
關注
0文章
204瀏覽量
15373 -
爬蟲
+關注
關注
0文章
82瀏覽量
6878 -
photon
+關注
關注
0文章
32瀏覽量
3684
發布評論請先 登錄
相關推薦
項目管理部經理/項目管理課課長/項目管理師-上海
Python爬蟲與Web開發庫盤點
物聯網網關系統設計是怎么樣的?
Python 一個超快的公共情報搜集爬蟲——Photon
基于SVM的主體爬蟲采集方法
![基于SVM的主體<b class='flag-5'>爬蟲</b>采集方法](https://file.elecfans.com/web2/M00/49/52/poYBAGKhwKCAHmJIAAAY6Qreq6Y539.jpg)
物聯網給人們帶來什么變化?
物聯網的應用在中國將聚焦五大領域
爬蟲是如何實現數據的獲取爬蟲程序如何實現
![<b class='flag-5'>爬蟲</b>是如何實現數據的獲取<b class='flag-5'>爬蟲</b>程序如何實現](https://file.elecfans.com/web1/M00/80/DE/o4YBAFwsduKALCMKAABxff8ZDdQ438.png)
評論