使用分布式爬虫爬取二手车出售网站
2020-5-12 18:40 更新
项目描述:爬取人人车, 瓜子二手车等专业性二手车出售网站, 获取各大品牌二手车的基本信息并对这些原 始数据进行清洗以及汇总, 将处理后的数据持久化, 为数据分析部门提供数据支持 项目职责: 1. 根据公司的业务需求, 分析爬取数据的需求 2. 搭建分布式爬虫系统, 实施定期爬取 技术要点: 1. 分析人人车, 瓜子二手车等专业二手车售卖网站的产品页面, 采取相关的爬取策略 2. 使用 Scrapy 框架, 搭建工程化的爬虫项目, 并使用 scrapy-redis 进行分布式的爬取,使用多个 爬虫同时进行爬取, 加快爬取效率 3. 使用 Xpath, re 对数据进行匹配, 保存需要的提取的数据 4. 使用 selenium 模拟真实浏览器,对验证码进行处理, 搭建 IP 代理池处理网站的反爬 5. 将爬取的数据写入 MySQL 数据库中 6. 定期对网站进行爬取, 并对爬虫进行更新维护