课程简介: 这是一门培养专业爬虫工程师的课程。本课程以大数据业务需求为导向,旨在掌握分布式爬虫的原理、理解互联网技术和各类数据分析挖掘的应用技巧。 面向人群: 1、想要成为爬虫工程师、数据工程师的学习者 2、爬虫系统项目经理、技术经理和架构师 3、希望搭建聚合类、数据挖掘类、图片视频库等网站的爱好者、从业者 4、网络爬虫爱好者 学习收益: 1、掌握分布式爬虫的实现原理以及常用的使用场景,例如内容聚合、过程跟踪、比价、数据挖掘等 2、了解如Google、百度、今日头条等互联网公司的产品技术和解决方案 课时01:第一讲_第一个爬虫 课时02:第二讲_多线程、多进程的爬虫 课时03:第三讲_分布式数据库 Mongo HBase 及 Redis 的使用 课时04:第四讲_爬虫任务调度、分布式爬虫 课时05:第五讲_PageRank、动态重排技术 课时06:第六讲_更有效率的爬取:利用网站的分布式部署及应对反爬 课时07:第七讲(正课)_表单登录、动态页面抓取 课时08:第八讲Scrapy 课时09:第九讲Scrapy进阶 课时10:第十讲_网页排重 课时11:第十一讲_验证码与排重 课时12:第十二讲_正文提取 课时13:第十三讲_文本分类 课时14:第十四讲_搜索引擎原理及应用 |
欢迎光临 IT视频教程资源网 (https://zhilexue.tech/) | Powered by Discuz! X3.2 |