汽车之家口碑爬虫

1.需求分析

因项目需求,要爬取汽车之家的口碑数据进行下一步分析。

但是普通的爬虫软件(如八爪鱼、火车头、神箭手)无法爬取评论(该公司采取了反爬虫措施)。

经分析,发现该公司的的反爬虫措施主要是用前端js去替换显示的字体,为一些标签。并且封住鼠标右键导致不好观察源代码。

本文以解决各个问题为顺序。

AttributeError:FeedExporter object has no attribute slot

使用scrapy时候你报错:

AttributeError: ‘FeedExporter’ object has no attribute ‘slot’

因为当前需要写入的文件被占用,写不进去!

解决方法,关闭打开的 csv文件

实战天猫数据爬取

主要用到的知识点

  1. 实用技巧1—多级页面的抓取-callback函数
  2. 实用技巧2—图片的抓取-
  3. 抓取过程中的常见问题—cookie的处理,cookie模拟登录
  4. 分页

scrapy的内置服务介绍

1 logging日志服务

logging的等级:

  1. logging.CRITICAL - for critical errors (highest severity)
  2. logging.ERROR - for regular errors
  3. logging.WARNING - for warning messages
  4. logging.INFO - for informational messages
  5. logging.DEBUG - for debugging messages (lowest severity)

    基本使用方法

三种基本使用方法:

pycharm下打开执行并调试scrapy爬虫程序

  1. 首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1

scrapy的重要对象request和response

scrapy的重要对象

web服务器收到客户端的HTTP请求,会针对每一次请求分别创建一个用于代表请求的request对象和代表响应的response对象。

  1. 要得到客户机提交过来的数据,只需要找request对象就行了。

  2. 要向客户机输出数据,只需要找response对象就行了。

爬取汽车之家实战

1. 任务简介 及 爬虫架构极

前面学习了,爬虫的基本架构。现在要动手实践了,因为师兄说“学一门语言就必须上手去练习!”。

爬取哪个网站呢?正好,最近需要汽车之家上面的数据, 我就爬这个。本文代码全部共享于GitHub上,地址爬取汽车之家实战:github

目标:爬取100种汽车的名字,以及网友对它的评分。

python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。

主要目录:

  1. 爬虫基础
    • 1.1 爬虫课程介绍
    • 1.2 爬虫简介
    • 1.3 爬虫架构
    • 1.4 URL管理模块
    • 1.5 网页下载器:urllib2
    • 1.6 网页解析器:正则或BeautifulSoup
    • 1.7 爬取实践
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×