小白如何最快学会写简单Python爬虫

2019-03-15 08:13:59 织梦安装使用
  • 文章介绍
JTzz 陶晨毅


事情起因是这样的,有一个之前没接触过任何编程相关知识的朋友询问我会不会写爬虫,该怎么学。我的确会写爬虫啦,但是只会写最简单的不能应对复杂反爬技术的爬虫(教程看了一半没看完的那种人就是我了)。


但是,我觉得他问对人了。我这个人比较笨,记性也差得很,学东西很慢,但是总结能力和语言表达能力还行。因此学什么都要总结一番学习路径,自认为最擅长的事情就是“教零基础的人用一两天时间达到我折腾了几个月达到的能力水平”。


(当然,主要原因是我笨,我学新东西实在是各种折腾)


诶,我觉得可以把标题改成:小白如何最快变成小菜鸟(像我这样)。啊,扯远了。总之,我花了半小时左右的时间帮他找了一些资料,规划了一下学习路径。然后想想看不如再花一个小时整理一下发出来,也算欢迎指正了。


首先先上结论,再细说我的理由。




主线内容:

第一步:安装Anaconda

对应教程:初学 Python 者自学 Anaconda 的正确姿势是什么? - 猴子的回答 - 知乎

https://www.zhihu.com/question/58033789/answer/254673663


第二步:Python编程入门
对应视频课:中国大学MOOC-零基础学Python语言CAP

https://www.icourse163.org/course/0908BIT001CAP-1002058035


第三步:Python爬虫入门
对应视频课:中国大学MOOC-Python网络爬虫与信息提取

https://www.icourse163.org/course/0809BIT021A-1001870001


补充学习资料:

1. 刘江的博客及教程-Python教程

http://www.liujiangblog.com/course/python/1

2. 廖雪峰的官方网站-Python教程

https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

3. RUNOOB.COM-Python 3教程

http://www.runoob.com/python3/python3-tutorial.html
4. W3school-网页相关基础知识

http://www.w3school.com.cn/




Q & A


1. 为什么选择视频课为主线而不是博客教程?


首先,要说明两点。


一是,我自己一般而言不喜欢视频课而偏好博客教程。因为一般来说博客教程的大结构比较清晰,可以跳章节读,而且可以控制学习进度,随时返回查阅,效率很高。


二是,好的视频课依然可以拥有以上效率高的优点,同时具有直观性强等一般博客教程没有的优点,非常适合新手。反过来,好的博客教程也可以做到“图文详解”,同样新手友好。


所以,推荐课程主要理由是课程的质量和对学习者的适宜程度。并没有过多纠结是视频课还是博客教程。


2. 为什么安排主线和学习补充资料?


接问题1接着说,就课程质量来看,这两个视频课都是中国大学MOOC出品,有视频课,有作业,有小测,有大作业,有样例代码,有课程讨论区,配套相当完善。而且所有内容都是手把手教学,非常友好。


对学习者适宜程度来看,博客教程往往面向的是“想要成为程序员”的入门学习者,所以一开始的基础章节会把语法扣得比较细,某些概念也会讲解的比较专业。比如说什么装饰器、迭代器、生成器,某些数据类型的详细用法,变量对象地址内存等概念。


但是一般想要学点编程作为兴趣和工具的人,可能先理解最最常用的几个数据类型,了解最最常用的几个方法,对概念有个直观感受就好。用到了,再去查资料看一下更多用法和更专业的概念,所以我把博客教程放在了学习资料补充中。


如果嫌视频课不够,我觉得相较廖雪峰的教程,可能刘江的教程更适合入门一点,所以放在最前面。RUNOOB.COM内容比较全,可以作为知识点查询用。


另外,W3school可以用来补充一些网络相关的知识。刘江的Django教程也很推荐(这个超纲了,和爬虫无关)。


3. 为什么选择这个视频课作为Python入门?


问题2中说:“一般想要学点编程作为兴趣和工具的人,可能先理解最最常用的几个数据类型,了解最最常用的几个方法,对概念有个直观感受就好。”


所以原因是:这门课内容少,但是非常够用


4. 为什么安装Anaconda,Anaconda是什么?


维基百科:Anaconda 是一种Python语言的免费增值开源发行版,用于进行大规模数据处理、预测分析,和科学计算,致力于简化包的管理和部署。Anaconda使用软件包管理系统Conda进行包管理。(看不懂没关系)


JTzz:Anaconda是一个集合了Python解释器、IDE(集成开发环境)、环境管理工具、包管理工具等各种你用的到的用不到的Python套餐。下载一个Anaconda,管够!(看不懂也没关系)


名词解释:

  • Python解释器:能把代码翻译成计算机执行指令的一个Python“核心部件”。

  • IDE:一个代码输入界面,能高亮代码,还能提示语法错误。界面上还有些按钮,可以命令Python解释器开始翻译输入的代码。

  • 包:其他程序员写完的Python程序,下载后可以直接调用已经被实现的功能。

  • 环境:某个Python程序运行有关的所有东西,比如翻译这个程序用的Python解释器、调用的包、计算机里设置的一些路径参数等等。


由于Python解释器有很多版本,包也有很多版本。所以可以想象组合起来就异常混乱,不同版本之间可能无法兼容。而不同的程序需要的包(调用的功能)可能是不一样的。


很容易想到,最直接的解决办法是,每类所需环境相似的程序单独一个环境,环境之间相互独立。Anaconda里的conda工具就是用来管理不同的环境和包的。


总之Anaconda是非常棒的一个工具集合。虽然对于初学者来说很多工具用不上,但是因为下载它就够了,很方便,所以推荐。


    发送中

    上一篇:dedecms织梦图集详细页调用标签..

    下一篇: 用100行Python爬虫代码抓取公开的..

    相关文档推荐

    精品模板推荐

    专业的织梦模板定制下载站,在线购买后即可下载!

    商业源码

    跟版网模板,累计帮助5000+客户企业成功建站,为草根创业提供助力!

    立刻开启你的建站之旅
    
    QQ在线客服

    服务热线

    织梦建站咨询