封面图片:《Python程序设计实验指导书》,董付国编著,清华大学出版社
=================
第一步:确定要爬取的目标页面,以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例,使用浏览器打开,如下:
第二步:分析网页源代码,得到要下载的文件链接地址,如图:
第三步:编写代码,尝试直接获取文件地址并下载,出错,因为该网站有反爬设置,如图:
第四步:参考文中的描述,修改代码,模拟浏览器,如图:
运行代码下载到的文件:
打开下载后的文件,内容如下,这说明网站有防盗链功能:
第五步:继续修改代码,假装是使用浏览器从页面正常下载,完整代码如下: