相关文章
Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子
2024-11-03 02:45

根据学习的爬虫视频实战项目,进行的扩展实战

Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子

原实战实现功能:爬取主页电影排行榜片源信息及下载种子

扩展实现功能:破解反爬策略,根据搜索关键字,获取查找出来的片源信息列表以及下载种子

首先获取搜索的请求链接,查看请求参数

多进行几次请求,发现除了参数,其他的参数每次都是固定的,可知即为我们输入的搜索关键字转码而来,这里使用的是编码的方式

搜索请求返回一个数据,我们采用来进行数据提取,获取以及

点击进入详情页,发现详情页的页面地址就等于:

我们再对每个片源的详情页进行访问,用BeautifulSoup提取出对应的下载种子即可

如果直接用库直接对网页进行请求,每次返回都是

这是因为网站有做反爬,具体的解决方法可以参考破解反爬虫策略 /_guard/auto.js(一) 原理

requests 是一个非常流行且强大的 Python 库,用于发送 HTTP 请求。

请求里面的关键参数主要是headers中的user-agent和cookies中的

当请求返回为时,响应数据中会返回一个的cookie,通过对的加密处理,会返回一个的cookie,带着它再一次进行请求,响应数据中就会返回啦

拿到就可以正常进行网络请求啦,所以主要难点就是对中加密方法的处理

主要是对auto.js文件进行反混淆处理,提取出生成的关键代码,具体操作参考破解反爬虫策略 /_guard/auto.js(一) 原理,反混淆处理后的关键代码如下:

拥有一个获取的方法,剩下就是按照上面获取逻辑来处理cookie啦

ExecJS 是一个 Python 库,它允许你直接在 Python 中执行 Javascript 代码

对于查询的关键字,请求前需要对内容进行转码处理,具体如下:

urllib.parse 是 Python 标准库中的一个模块,专门用于处理 URL 的解析、合成、编码和解码操作。

通过和对页面数据进行分析,获取、、

BeautifulSoup 是一个用于解析 HTML 和 XML 文件的 Python 库,通常用于网页抓取(Web Scraping)
re 是 Python 的正则表达式模块,用于在字符串中执行模式匹配操作。

函数处理了页面查询数据,获取了对应的详情页的路径,通过函数获取详情页的数据,得到每个片源的种子数据

获取了数据,当然要进行保存操作啦,这里用文件对爬取的数据进行保存

csv 是 Python 标准库中的一个模块,用于处理 CSV(逗号分隔值)文件。它提供了方便的工具来读取和写入 CSV 格式的数据,非常适合处理结构化数据。

启动程序,爬虫顺利运行,下面是运行效果:

爬取数据也顺利保存进本地csv文件

    以上就是本篇文章【Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子】的全部内容了,欢迎阅览 ! 文章地址:http://fswenzheng.xhstdz.com/news/243.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://fswenzheng.xhstdz.com/mobile/ , 查看更多   
最新文章
燕窝都什么价位的好一点,哪些性价比高及推荐价格区间?
燕窝自古以来便被誉为滋补圣品其丰富的营养价值与滋养功效,使得它成为了许多人追求健康的首选。面对市场上琳琅满目的燕窝产品消
深入比较Z-Blog与Typecho:哪款博客系统更适合你?
三、功能比较Z-Blog提供了丰富的功能,包括SEO优化、主题和插件支持等,用户可以根据需求进行个性化设置。其较强的插件库支持使
【优化求解】遗传算法求解岛屿物资补给优化问题【含Matlab源码 172期】
🚅座右铭:行百里者,半于九十。 🏆代码获取方式: CSDN Matlab武动乾坤—代码获取方式 更多Ma
竞争优势利器:利用推广排名优化碾压同行,脱颖而出
在竞争激烈的市场环境中,企业想要脱颖而出,获得竞争优势,至关重要。推广排名优化正是数字化时代下帮助企业实现这一目标的重要
药师解药 | 妊娠期胰岛素过敏怎么办,教你几招来应对!
据相关研究统计,胰岛素和胰岛素类似物在治疗中出现过敏反应的概率为0.1%到7.1%不等,注射部位反应发生率约为1.4%。胰岛素过敏原
圣邦微最新动态与技术发展,深度解析与SEO优化文章,圣邦微最新动态与技术发展深度解析及SEO优化攻略
本文关注圣邦微的最新动态与技术发展,提供深度解析并针对SEO优化。文章将详细介绍圣邦微的最新技术进展、产品更新以及市场策略
成品网站1.1.719:如何高效搭建企业与个人网站,提升用户体验与功能性能
成品网站1.1.719是一个针对网站开发和建站需求的产品版本,它为企业和个人用户提供了一个简单易用的解决方案,帮助他们快速搭建
文心一言APP无法连接网络
文心一言APP无法连接网络许多用户反映,他们所喜爱的文心一言APP无法连接网络。这款APP以其精选的古代文言文名句和现代文学名篇
谷歌收录秘籍:揭秘提交入口网址
谷歌收录提交入口:专业指南与重要性解析在当今数字化时代,互联网已成为信息传播与商业活动的重要平台对于网站运营者而言,确保
浅探webpack优化
由于前端的快速发展,相关工具的发展速度也是相当迅猛,各大框架例如vue,react都有自己优秀的脚手架工具来帮助我们