看到的结果如下
这个是网页源码淘宝自定义内容区代码,我要介绍的方法,就是通过网页请求,获取这里的源码,然后再对源码进行解析。
观察源码这个步骤很重要,在这里会决定数据要怎么拿。
比如要取出标题
标题是在 title= 后面的一串字符,又以 > 符号结束。把这两个看成是分隔符的话,那么标题就藏在两个分隔符的中间。
那么,思路上,只要知道这两个分割符的位置,那么,就可以取出标题了。
下面,让我们开始实践
首先,我们准备好工具,在excel的文件--选项--自定义功能区--主选项卡,把开发工具打钩。
然后进入vba编程环境
插入模块
可以在这些模块里面写程式,下图我一口气插入了4个模块,我在其中一个模块上面写入代码即可。
然后写入代码(这里是截图,在文章最后,会附上文本版的代码)
大家注意到,在第四行,有个很长很长的一串
URL = ";commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=1.6659421.754896237.1&initiative_id=tbindexz_20140301"
大家只要把这个链接替换掉就可以了。这个链接,是搜索后的结果页。在淘宝敲入关键词,然后选择好属性或者排序方式后,把网址贴过来,然后运行这段代码就可以了。下图是运行按键的位置
运行后得到的结果
这段代码的解释,我都注释在代码里头了。其实可以把这个过程写成更加智能。网址的q=后面的T%D0%F4是T恤的uncode码,其实只要写多一个转码程序,可以直接在excel的工作表或者窗体里面输入关键词进行搜索。
另外,利用参数sort来指定排名类型,如
sort=default是综合排名
sort=renqi-desc是人气排名
sort=sale-desc是销量排名
s=40是页码,公式是40*(页码-1),非常明显,s=40就是第2页
直接利用代码组合网址,如%D0%F4&sort=renqi-desc&s=40(复制粘贴到淘宝看看结果)
这是T恤下的人气排名第二页的搜索结果
再做个查询按键,就变成软件了。
如果用时间来控制,可以让程序每隔几分钟或者几小时运行一次,达到自动爬抓数据的目的。
这部分我就不详说了,感兴趣的自己研究。
=================================================
实例二:用API拿数据的方法
首
来源【企业推广】自媒体,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!