采集電商平臺中的店鋪、產(chǎn)品屬性,銷量及評價信息,可用于復(fù)制爆款、潛在市場挖掘及輿情分析。
1、目標(biāo)網(wǎng)站:天貓商品信息,網(wǎng)址:https://www.tmall.com
①在天貓首頁輸入關(guān)鍵詞進(jìn)行檢索,對檢索結(jié)果中的店鋪實施采集;
②對店鋪信息以及店鋪內(nèi)相應(yīng)產(chǎn)品的信息實施采集。
①價格、銷量等屬性有時是在js文件中動態(tài)加載的,在網(wǎng)頁源代碼中沒有相應(yīng)的描述,因此通過源代碼解析無法完成采集;
②頻繁訪問頁面有時會封IP,影響采集實施。
使用火車瀏覽器的xpath采集,可以直接點擊提取頁面上的價格、銷量等;可以使用火車瀏覽器代理設(shè)置功能,設(shè)置代理IP模擬代理IP。
三、應(yīng)用成果
可采集商品名稱,所屬店鋪,評價信息,價格等公開信息。