当前位置:首页 >> 计算机硬件及网络 >>

淘宝卖家信息采集器教程


八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集器教程
本文介绍使用八爪鱼采集器去采集淘宝卖家信息的方法 。首先会为大家讲解,

我们拿到一个数据采集需求时,如何去分析需求;怎样设计采集流程;最后制作 并调试采集规则。希望大家可以建立一套通用采集逻辑,明白基本的操作思路。

操作思路:

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

采集网站:
https://shopsearch.taobao.com/search?app=shopsearch&q=江小白 &isb=0&shop_type=&ratesum=

本文以“江小白”为关键词先在淘宝网进行店铺搜索,然后店铺类型选择“淘宝 店”。最后以此时的网址为采集网址,放入八爪鱼中进行任务制作并采集数据。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

大家在采集其他店铺时, 可以更换搜索关键词,然后将生成的网址复制黏贴到八 爪鱼中进行使用。 采集内容:店铺名称,店铺 ID,店铺类型,宝贝数,商品销量,店铺省份,店 铺城市,店铺旺旺号。

使用功能点:
??数据格式化 ??添加特殊字段 ??XPath ??滚动页面 ??Ajax 超时

步骤 1:创建淘宝卖家信息采集任务
1)进入主界面,选择“自定义采集”

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 1

2)将要采集的网址 URL 复制粘贴到网站输入框中,点击“保存网址”

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 2

步骤 2:创建翻页循环
1)打开网页之后,找到页面最下方的“下一页”创建翻页循环,如下图

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 3

点击下一页,在操作提示中选择循环点击下一页,以此生成循环翻页。注意:有 时点击下一页并不会出现循环点击下一页,但若此时出现循环点击单个链接,则 可以选则循环点击单个链接(或元素),其功能和循环点击下一页相同。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 4

步骤 3:创建循环列表
1)将鼠标移动到页面上方(蓝色表示点击后会选中的元素),选择页面某一行 数据(包含的字段进可能全),如图蓝色部分,然后点击

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com



淘宝卖家信息采集步骤 5

2)点击后继续选择下一行同类型的数据,如图:

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 6

再次点击,操作提示中出现已选中 XX 个元素,以下是列表。此时点击采集以下元素。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 7

3)至此循环列表创建完毕。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 8

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

步骤 4:提取数据设置
1)自动生成的数据字段会将匹配到的文本和链接都抓取上,其中不需要的字段 可点击选中后删除。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 9

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

注:若太多字段是自己不需要的,可点中某一个字段后,同时按住键盘上的 Ctrl 和 A,即可选中全部字段,然后点击下方的“删除数据字段”。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 10

删除字段后再一个个选择自己需要的字段。 如图, 选中后点击, 然后需求选择 “ 采集该链接的文本”或“采集该链接地址”还是“采集该元素的文本”。此时一 般不要点击 “选中全部”,点“选中全部”后会再生成一个循环提取数据。之 前步骤 3 中的操作已建立好了循环列表。故不需要再次建立。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 11

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

2)删除不需要字段(或点击采集所需字段)后,对现有字段进行重命名。

淘宝卖家信息采集步骤 12

3)命名后检查字段发现部分字段缺失。如“城市”“店铺 ID”“店铺类型”。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 13

4)对于“城市”,检查页面发现在第三行数据中有相应信息。则先在循环列 表的循环项中选中第三项(蓝色表示已选中),然后再点击提取数据。

淘宝卖家信息采集步骤 14

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 15

1)选中第三项进行提取时发现其省份和城市在一起,无法单独提取。如需分成 两个字段,则需要进行数据格式,通过正则表达来实现。

2)选中字段后点击下方的自定义数据字段。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 16

3)数据格式化操作参照请参考下方动图。如需完整的格式教程请参考: http://www.bazhuayu.com/tutorialdetail-1/gshsj_7.html

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 17

4)对于“店铺 ID”,先弄清楚“店铺 ID”是个什么类型的数据,然后页面上 未展现,则看看网页源码里是否有这个数据。百度后可知“店铺 ID”是 shop

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

后接一串数字的数据,如“shop123123123”。查看源码,发现可以找到该信 息。 5)准备工具:火狐浏览器(54 版或之前版本),安装 firebug 和 firepath 插 件。其他工具能查看源码斌顺利写 XPath 也可以。 A. 在浏览器中打开网页,然后找到对应的数据区域 B. 逐个检查该区域源码,找到符合要求是数据。

淘宝卖家信息采集步骤 18

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

C. 根据目标数据——点评 ID,所在位置写出其 XPath 路径。此处的 XPath 路 径为: //li/a[@trace="shop"]

淘宝卖家信息采集步骤 19

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

9)点击网页图片选择抓取图片地址(选择其他的也可以,重点是生成一个数据 字段并含有相对 XPath)。

淘宝卖家信息采集步骤 20

10)选择自定义字段,对该字段进行 XPath 和提取方式的修改。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 21

A.修改 XPath,选择“自定义元素定位方式”,然后将相对 XPath 替换为之前 在浏览器中写好的 XPath——//li/a[@trace="shop"]

淘宝卖家信息采集步骤 22

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 23

淘宝卖家信息采集步骤 24

B:修改该字段的抓取方式,选择“自定义抓取方式”

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 25

此处选择“抓取超链接(A 标签的 href)”,因为该店铺 ID 在其 href 属性下。如果我们 需要的数据在其他属性中,也可以通过上方的“抓取元素的指定属性值”来获取。要是均不 能获取到,则选择抓取网页源码。选择完毕后点击下方“确定”进行保存。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 26

12)对数据进行格式化处理

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 27

A.选择“正则表达式匹配”

淘宝卖家信息采集步骤 28

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

B. 再选择使用正则工具

淘宝卖家信息采集步骤 29

C. 以“shop”为开始并包含“shop”,以“.”为结束标志。生成正则表达式 后即可进行应用,然后点确定保存。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 30

13)对于“店铺类型”,网页和源码中无此字段。我们可以设置固定值来增加 该字段。选择“添加特殊字段”→“添加固定字段”→输入值“白酒” →“确 定”保存。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 31

14)调整字段顺序后点击“开始采集”进行本地采集测试。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 32

步骤 5:采集与调试
1)选择“启动本地采集”

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 33

2)仔细观察本地采集时的运行情况。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 34

发现: 1. 采集量过少,出现漏数据。第一页明明有 20 条数据,实际只采集到 6 条。 原因:网页是滚动下拉加载数据,页面加载到下方才会展现相应的数据。 解决方法:在“打开网页”和“点击翻页”的高级选项中设置“滚动页面”,次 数,间隔,方式应根据网站的实际加载情况来设置。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 35

2. 采集出现大量重复数据, 仔细观察采集情况发现其一直在一二页来回采,手 动执行流程也发现第二次点击翻页后,页面跳回了第一页。 原因:循环翻页的 XPath 不对 解决方法: 修改翻页循环的 XPath, 以求在每一页 (除最后一页) 均内定位到 “下 一页”,在分析网页源码后写出正确的 XPath 为: //li/a[@trace="srp_bottom_pagedown"]将此 XPath 替换循环原有 XPath。 此类问题可在教程中心搜索“一二页重复”一获得更详细的教程。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 36

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 37

3. 采集速度过慢,页面在翻页后要等待较长时间(超过两分钟)才会执行下一 步操作。 原因: 网页打开慢, 八爪鱼未能检测到页面加载完全的从而接收不到执行下一步 的信号,故会按一个默认时间(两分钟)进行等待。 解决方案:对“点击翻页”设置 ajax 超时,使八爪鱼提前获得信号,强制进行 下一步操作,从而提高采集速度。Ajax 超时时间请根据所需数据加载完的时长 来设置。本例设置如下:

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 38

3) 问题解决,流程调试完成后再次启动本地采集。

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 39

4)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”, 将采集好的数据导出, 这里我们选择 excel 作为导出为格式,此时淘宝卖家信息 就顺利导出来,数据导出后如下图:

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

淘宝卖家信息采集步骤 40

至此,整个采集完成!

授人以鱼不如授人以渔 ----作者按

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

本文来自于:http://www.bazhuayu.com/tutorialdetail-1/tbmjinfocj.html

相关采集教程: 淘宝网宝贝采集器: http://www.bazhuayu.com/tutorialdetail-1/cjtbsp-7.html 淘宝评价采集教程: http://www.bazhuayu.com/tutorialdetail-1/tbgoodspl.html 淘宝聚划算商品采集: http://www.bazhuayu.com/tutorialdetail-1/tbjhsspcj.html 淘宝买家秀图片采集: http://www.bazhuayu.com/tutorialdetail-1/tbmjxpic.html 大众点评商家数据采集: http://www.bazhuayu.com/tutorialdetail-1/dzdp2_7.html 美团商家数据采集: http://www.bazhuayu.com/tutorialdetail-1/mtsj_7.html

八爪鱼·云采集网络爬虫软件 www.bazhuayu.com

八爪鱼——90 万用户选择的网页数据采集器。 1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化 流程,点击鼠标完成操作,2 分钟即可快速入门。 2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布 流、Ajax 脚本异步加载数据的网页,均可经过简单设置进行采集。 3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大 云采集集群 24*7 不间断运行,不用担心 IP 被封,网络中断。 4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的 基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户 的需要。


赞助商链接
相关文章:
淘宝卖家采集软件有什么用
淘宝卖家采集软件有什么用_计算机软件及应用_IT/计算机_专业资料。本文介绍淘宝...以下为两个使用八爪鱼采集淘宝的实战教程, 供大家参考: 淘宝商品信息采集:http:...
美团商家数据采集器以及采集方法
美团商家数据采集器以及采集方法_计算机软件及应用_IT/计算机_专业资料。美团商家...? Ajax 滚动加载设置 分页列表内容提取 相关采集教程: 淘宝评论采集 天猫店铺...
京东商品信息采集方法以及详细教程
分页列表内容提取 相关采集教程: 天猫店铺采集 天猫商品信息采集 京东商品信息采集...鱼采集器中打开,红色方框中的图书数据是这次 演示采集的信息 京东商品信息采集...
淘宝卖家使用菜鸟电子面单图文教程
菜鸟电 子面单已经越来越开放给普罗大众卖家使用, 今天我们来介绍一下如何借助第三方软件 (快 淘宝卖家使用菜鸟电子面单图文教程电子面单已成为快递单未来主流趋势,...
淘宝标题采集详细教程
详细步骤 11) 相关采集教程: 淘宝评论采集 天猫店铺采集 天猫商品信息采集 八爪鱼·云采集服务平台 www.bazhuayu.com 八爪鱼——70 万用户选择的网页数据采集器。...
利用淘宝商品搜索页对淘宝商品信息进行采集_图文
urce=suggest 相关采集教程:淘宝评论采集 天猫店铺采集 1688 热门商品采集 使用...采集器中打开,红色方框中的商品 url 是这次演示采集的信息 淘 宝商品信息采集...
淘宝商品抓取方法以及详细步骤_图文
淘宝商品抓取步骤 14 八爪鱼·云采集服务平台 www.bazhuayu.com 相关采集教程:...美团商家信息采集 1688 热门商品采集 八爪鱼——70 万用户选择的网页数据采集器...
Amazon数据采集教程,以采集列表页信息举例
教程步骤 9 相关采集教程: 淘宝评论采集 天猫商品信息采集 京东商品信息采集 八爪鱼·云采集服务平台 www.bazhuayu.com 八爪鱼——70 万用户选择的网页数据采集器...
淘宝产品上货详细步骤教程 淘宝助理
淘宝产品上货详细步骤教程 淘宝助理_专业资料。利用淘宝...这个步骤是同步店铺里面的所有设置(分类、邮费 更新...很快) 页面区域: 【基本信息】就是这两片区域我们...
店铺淘宝客采集软件那么多,哪款采集软件比较简单易学
店铺淘宝采集软件那么多,哪款采集软件比较简单易学_互联网_IT/计算机_专业资料。店铺淘宝采集软件那么多,哪款软件比较简单易学? “淘宝客”,这三个字眼早在 ...
更多相关标签: