1. 以爬取豆瓣图书为线,先后学习使用请求库/scrapy库等爬虫相关知识。 请求库是以urlib 3为基础的,但请求库更简易使用,在充分理解http协议的基础上,再学会使用BS 2./xpath等HTML文档解析方法就可以做一个简易的爬虫了。 Scrrapy相对于请求来说更强大。刮掉是个框架,具体包含引擎/下载机/蜘蛛/调度程序/管道等组件,这套框架很齐全,按照文档,做一个更高级的爬虫来说不难,想要更多客制化,那就需要深入研究。 2.Pandas最开始自己看文档总是想全面掌握,但过一段发现总是记着后面的忘了前面的,但听老师讲了他的学习方法,要先设定一个任务,在逐步达成这个任务的过程中去学习需要设计的知识,这样可以达到更好的效果,这让我受益匪浅。我课下自己用做了一个统计个人加班时数计算的小工具,完整的做下来既能掌握了知识点,又提高了生产率。
请求库是以urlib 3为基础的,但请求库更简易使用,在充分理解http协议的基础上,再学会使用BS
2./xpath等HTML文档解析方法就可以做一个简易的爬虫了。
Scrrapy相对于请求来说更强大。刮掉是个框架,具体包含引擎/下载机/蜘蛛/调度程序/管道等组件,这套框架很齐全,按照文档,做一个更高级的爬虫来说不难,想要更多客制化,那就需要深入研究。
2.Pandas最开始自己看文档总是想全面掌握,但过一段发现总是记着后面的忘了前面的,但听老师讲了他的学习方法,要先设定一个任务,在逐步达成这个任务的过程中去学习需要设计的知识,这样可以达到更好的效果,这让我受益匪浅。我课下自己用做了一个统计个人加班时数计算的小工具,完整的做下来既能掌握了知识点,又提高了生产率。