汽车之家口碑爬虫

1.需求分析

因项目需求,要爬取汽车之家的口碑数据进行下一步分析。

但是普通的爬虫软件(如八爪鱼、火车头、神箭手)无法爬取评论(该公司采取了反爬虫措施)。

经分析,发现该公司的的反爬虫措施主要是用前端js去替换显示的字体,为一些标签。并且封住鼠标右键导致不好观察源代码。

本文以解决各个问题为顺序。

爬取汽车之家实战

1. 任务简介 及 爬虫架构极

前面学习了,爬虫的基本架构。现在要动手实践了,因为师兄说“学一门语言就必须上手去练习!”。

爬取哪个网站呢?正好,最近需要汽车之家上面的数据, 我就爬这个。本文代码全部共享于GitHub上,地址爬取汽车之家实战:github

目标:爬取100种汽车的名字,以及网友对它的评分。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×