豐色 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
家人們,要爬蟲(chóng)——現(xiàn)在用一個(gè)電子表格就行了。
一行代碼也別寫(xiě),第三方軟件也甭安。
只需在表格里點(diǎn)幾下就ok。
不信,你瞧:
就這么兩下,網(wǎng)頁(yè)上的商品信息都有了。
網(wǎng)友看完都驚呆了,碼個(gè)不停。
一看到這是來(lái)自谷歌的產(chǎn)品(Google Sheet,谷歌的“Excel”),大家就立馬cue起了微軟,問(wèn)它慌不慌。
還有人稱(chēng)這是在“跨界打擊”它。 (手動(dòng)狗頭)
△ 掃盲:“巨硬”就是微軟,網(wǎng)友給的調(diào)侃
好不熱鬧。
來(lái)看具體怎么實(shí)現(xiàn)。
詳細(xì)步驟
以爬亞馬遜某個(gè)手機(jī)產(chǎn)品的商品頁(yè)為例。
我們先打開(kāi)谷歌Sheet(網(wǎng)友版即可),新建一個(gè)文檔。
然后copy一下要爬的網(wǎng)址,粘進(jìn)去。
剩下的都在Sheet里完成。
我們先列一下要爬的元素,這里依次為:
商品圖片-識(shí)別碼(asin,亞馬遜給每個(gè)商品生成的唯一標(biāo)識(shí))-商品名-價(jià)格-評(píng)分-圖片網(wǎng)址。
然后就可以正式開(kāi)始爬了。
要訣就是一個(gè)叫做ImportFromWeb的函數(shù)。
它也是個(gè)插件,沒(méi)有的需要先安裝一下(安裝地址放文末了),然后通過(guò)Google Sheet程序的“擴(kuò)展程序”菜單導(dǎo)入就行。
我們只需把ImportFromWeb函數(shù)放進(jìn)asin那一列,然后第一個(gè)參數(shù)選中剛剛粘過(guò)來(lái)的網(wǎng)址,第二個(gè)參數(shù)把要爬的元素單元格拖一遍(除了“圖片”)。
稍等個(gè)1~2s,價(jià)格、商品名等信息就都出來(lái)了!
還差圖片。
簡(jiǎn)單~基操~
用IMAGE函數(shù)把G3格子里得到的圖片網(wǎng)址值給過(guò)去就行。
至此,第一個(gè)商品頁(yè)里的東西就爬到了。
唯一麻煩的是,如果還需要爬更多商品的信息,需要把商品網(wǎng)址挨個(gè)粘一遍。
然后就沒(méi)啥了,除了給單元格地址的行標(biāo)列標(biāo)加一下絕對(duì)引用符“$”。
這里可以不學(xué)視頻,直接一個(gè)f4就行。
拖一下,全部搞定!
怎么樣?是不是非常方便。
看完整個(gè)操作,你也發(fā)現(xiàn)了,其實(shí)就是谷歌寫(xiě)了個(gè)腳本給咱封裝好了直接用。
而據(jù)官方介紹,這個(gè)ImportFromWeb功能還能自動(dòng)更新爬取到的信息。
而且只要是用JS寫(xiě)的網(wǎng)站都可以爬(基本等于絕大數(shù)網(wǎng)站了),每個(gè)函數(shù)還可支持50個(gè)url,以及數(shù)千個(gè)數(shù)據(jù)點(diǎn)。
快點(diǎn)碼起來(lái)吧~
參考鏈接:
[1]https://weibo.com/1402400261/M9ZY84thO?filter=hot&root_comment_id=0&type=comment
[2]https://www.getapp.sg/software/2060417/importfromweb
[3]https://workspace.google.com/marketplace/app/importfromweb_web_scraping_in_google_she/278587576794(安裝ImportFromWeb)
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)