因为QA模块信息太重要,所以写个QA自动爬取程序,在浏览器中爬取竞品QA。
部分数据效果图如下。
图片来源:乃超老师
本文分4个部分:
1. QA的作用
2. 使用步骤
3. 触类旁通思路
4. 工具代码
一、QA的作用
1. 从竞品中找到买家关注的点,进行产品优化及问题规避
2. 弱客服情况下,尽可能从QA层面解答买家疑问,提高转化率
二、使用步骤
1. 谷歌浏览器中安装web scraper插件
2. 导入文章末尾代码
3. 设置需爬取的链接
https://www.amazon.com/ask/questions/asin/爱森跨境/[1-n]?sort=SUBMIT_DATE
* 将‘爱森跨境’换成想爬的ASIN
* 将‘[1-n]’中的n换成想爬取的页数
4. 点击爬取按钮、下载表格
图片来源:乃超老师
三、触类旁通思路
爬取思路很简单,针对QA模块,当然能收集到的数据有很多,可以按思路自定义自己的爬取规则
1. 分析网页结构,打开QA模块主页
https://www.amazon.com/ask/questions/asin/B08D6CLGLH/1?sort=SUBMIT_DATE
图片来源:亚马逊平台截图
根据网页分析,得出三点结论:
* 链接拼凑结果为 公共部分+ASIN+页序号+排序方式
* 排序方式有两种 Most Helpful first 和 Newest first。对应字段值为SUBMIT_DATE、HELPFUL
* 遇到多条回答的问题,无法展开,只能跳到问答详情页
因此,根据流程,要爬取一个问题的所有回答,则必须抓取详情页数据。问答详情页分析如下:
图片来源:亚马逊平台截图
由图可知,一个问答对应一个问答ID,问答详情页面也是由该ID拼接而成。所以只需打开不同问题拿到对应问题下的所有回答就好。