本軟件工作原理是從一個初始網址中,查找外部網站,比如初始頁面中有30個外部網站,那就繼續爬取這30個外本網站,
可以正常訪問的就收錄進數據庫,并且在這30個網站中再次查找外部網站如果每個站有30個外部網站,那就是30*30=900個
然后再訪問這900個網站剔除無法訪問的,找到正常訪問的剔除重復加入數據庫,然后再查找他們頁面中的外部網站,如需往復
形成裂變式蜘蛛網!
當然這里邊需要處理很多事情,比如爬行記錄的去重、多線程之間的干擾、等等問題
歷時一個月終于開發調試出搶答穩定的2.0版本。更好的利用了現代多核CPU的性能
歷史版本性能:
第一版跑出10分鐘1W+的網址數,已經非常強悍了
2.5版10分鐘跑出2.8萬個,注意這都是去重復后的網址哦,而且都是頂級域名
3.0版10分鐘采集13萬+個網站
3.2版 采集21萬用時9分鐘
每一次升級都是質的飛越,購買過的朋友快來下載最新版吧!
二級域名不算我們不采集沒有用
具體的性能看你自己的電腦配置了,各位可以根據自己電腦配置適當調整線程數
這個5年前就買的最低配的貨,也該淘汰了工欲善其事必先利其器 這個道理是對的
3.6版本界面:
3.4版本界面:
下面放上3.2版的界面給大家預覽
隨便輸入一個你想要的關鍵詞就可以開始采集了
這一版基本是最終形態, 估計不會有什么大的變動, 大家可以關注一下更新日志,如果有改動會在下方日志里列出!
具體的軟件使用操作,大家可以看一下演示視頻!
建議不要過于追求太大的線程數量,這個要根據你的網絡帶寬來調整,線程數過大同時訪問的站也就越多,那就可能其中有部分網站打不開,因為你的寬帶不夠了
2023-05-16 更新版本: 3.7
2020-04-09 更新版本: 3.6 立即下載
2020-03-17 更新版本: 3.5 立即下載
2020-02-27 更新版本: 3.4 立即下載
2020-02-24 更新版本: 3.3 立即下載
2020-02-13 更新版本: 3.2 立即下載
2020-01-13 更新版本: 3.1 立即下載
2019-12-08 更新版本: 3.0 立即下載
2019-09-30 更新版本: 2.5 立即下載
2019-08-16 更新版本: 2.0 立即下載
2019-08-2 更新版本: 1.0
冀ICP備14002589號-3 Copyright ?2019JJdede.comAll Rights Reserved.
平臺客服 979702097 10:00 - 18:00