如何用.net制作一個(gè)簡(jiǎn)易爬蟲(chóng)抓取華為應(yīng)用市場(chǎng)數(shù)據(jù)

來(lái)源:簡(jiǎn)書(shū)
作者:許澤宇
時(shí)間:2020-08-28
3155
我們一步一步的來(lái)看,如何抓取華為應(yīng)用市場(chǎng)的APK信息。

公司最近要做一款手機(jī),手機(jī)需要制作一個(gè)應(yīng)用市場(chǎng)。那么問(wèn)題來(lái)了,自己制作應(yīng)用市場(chǎng),數(shù)據(jù)從哪來(lái)呢?作為一個(gè)創(chuàng)業(yè)型公司。搜集數(shù)據(jù)變成為了難題。

于是突然想到能不能通過(guò)程序去抓取別人應(yīng)用市場(chǎng)的數(shù)據(jù)……

那么我們一步一步的來(lái)看,如何抓取華為應(yīng)用市場(chǎng)的APK信息。

首先打開(kāi)華為官網(wǎng)

ia_1700000002.png

看到如下頁(yè)面。然后我們?cè)诠雀铻g覽器中按F12查看一下下載是否是明文鏈接

ia_1700000003.png

隨便選擇一個(gè),右鍵查看下載的屬性。

ia_1700000004.png

在這里我們可以看見(jiàn)a標(biāo)簽的onclick是一個(gè)js方法zhytools.downloadApp();

方法體大致有幾個(gè)參數(shù),可能分別是文件ID(唯一碼)、文件名稱、文件所屬類別(華為自己的分類如:上升最快、首頁(yè)等等)、這個(gè)數(shù)量也可能是某個(gè)id、文件類別(文件所屬的應(yīng)用分類)、文件下載路徑、文件版本、最后個(gè)好像默認(rèn)都是1。

好了我們看到一個(gè)下載方法有這么多參數(shù)。

然后我們可以打開(kāi)其中的下載地址看看。

ia_1700000005.png

其中下載地址是這一段。在瀏覽器直接輸入這個(gè)地址

ia_1700000006.png

則彈出了APK下載信息。好了。那么我們只要存儲(chǔ)對(duì)于的地址。放入我們的應(yīng)用市場(chǎng)接口之中。那么我們的應(yīng)用市場(chǎng)的數(shù)據(jù)將可以來(lái)源與華為應(yīng)用市場(chǎng)了。

好了我們開(kāi)始實(shí)戰(zhàn)!

首先用vs創(chuàng)建一個(gè)windows應(yīng)用程序。

ia_1700000007.png

輸入程序名字Crawler

點(diǎn)擊確定

ia_1700000008.png

首先給form的size改成1280*768(看著舒服點(diǎn))

ia_1700000009.png

然后我們分別拖一個(gè)textbox1作為網(wǎng)址輸入地址。

一個(gè)webbrowser用來(lái)獲取網(wǎng)頁(yè)信息

一個(gè)按鈕用來(lái)綁定webbrowser

一個(gè)textbox2的多行文本框來(lái)顯示抓取信息。

(這里先簡(jiǎn)單展示。可做優(yōu)化存入數(shù)據(jù)庫(kù))

然后我們雙擊button1

ia_1700000010.png

綁定webbrowser1的url地址

和頁(yè)面加載完成事件。

ia_1700000011.png

然后我們?cè)陧?yè)面加載事件里讀取webbrowser的html內(nèi)容這里我們簡(jiǎn)單用正則去匹配

zhytools.downloadApp(.+);來(lái)讀取參數(shù)內(nèi)容

我們運(yùn)行一下程序看看

ia_1700000012.png

程序運(yùn)行后我們?cè)趗rl地址輸入華為的應(yīng)用市場(chǎng)頁(yè)面地址https://app.hicloud.com/

然后點(diǎn)擊確定按鈕

ia_1700000013.png

可以看到我們抓取了很多鏈接。我們可以將這些連接的參數(shù)分割存入我們的數(shù)據(jù)庫(kù)使用。

當(dāng)然這里只是抓取了首頁(yè)的一部分連接。然后我們點(diǎn)擊游戲排行的更多

ia_1700000014.png

可以看到跳轉(zhuǎn)到新頁(yè)面我們又抓取了很多鏈接。

在點(diǎn)擊一下精品推薦試試

ia_1700000015.png

ia_1700000016.png

可以看到我們抓了很多當(dāng)前頁(yè)面的下載鏈接。

一個(gè)簡(jiǎn)易爬蟲(chóng)基本形成。如果想要下載更多的資源。我們可以寫(xiě)算法去自動(dòng)針對(duì)頁(yè)面跳轉(zhuǎn)。爬更多的頁(yè)面。這樣即可存入更多的應(yīng)用下載路徑啦。

原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于簡(jiǎn)書(shū),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家