推广 热搜： 行业设备金系统参数经纪杯教师机械中国

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

日期：2024-11-01 作者：caijiyuan xhstdz 评论：0 移动：http://fswenzheng.xhstdz.com/mobile/news/32.html

核心提示：今日头条我们以搜索’妹子’为例那么我们在右上角的搜索框搜索妹子 , 出来了一系列文章那么我们在右上角

今日头条

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

我们以搜索’妹子’为例

那么我们在右上角的搜索框搜索妹子 , 出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章

检查网页的源代码 , 发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架

于是猜测这是用于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看

果不其然 , 就在这里 , 现在我们就是构造这些 J S 加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求

打开这个数据包的 h e a d e r s 部分查看打开这个数据包的headers部分查看打开这个数据包的headers部分查看

显然其中的 o f f s e t 是决定翻页的 , 每加 20 翻一页显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页

t i m e s t a m p 是什么呢 ? timestamp是什么呢?timestamp是什么呢?

这个可以直接用 t i m e . t i m e ( ) 取得 , 具体看代码中这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中

接下来就是请求 , 转化为字典 , 取出需要的内容接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容

#-*-codeing = utf-8 -*-

#@Time : 2020/6/28 13:17

#@Author : issue小菜鸡

#@File : 今日头条爬取.py

#@Software: PyCharm

import time

import json

import requests

from urllib.parse import urlencode

def get_data(search_name,page):

data = { #构造请求的data

'aid':'24',

'app_name':'web_search',

'offset':page,

'format':'json',

'keyword':search_name,

'autoload':'true',

'count':'20',

'en_qc':'1',

'cur_tab': '1',

'from': 'search_tab',

'pd':'synthesis',

'timestamp': int(time.time()),

'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'

url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)

header={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',

'x-requested-with':'XMLHttpRequest'

res = requests.get(url=url,headers=header)

return res

def find_content(search_name,page):

dic = get_data(search_name,page).json() #转化为json字典

data = dic['data']

if data is not None: #不为空才开始

for item in data:

if 'title' in item: #标题

print(item['title'])

else:

print('没有找到啊啊啊啊啊')

if 'article_url' in item: #文章url

print(item['article_url'])

page = 0

for i in range(0,9):

find_content('妹子',page)

本文地址：http://fswenzheng.xhstdz.com/news/32.html 物流园资讯网 http://fswenzheng.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新文章

点击排行

• 亚马逊运营必备实用工具	• 如何打造一个高效的营销型企业网站,营销型企业
• 佛山专业SEO优化助力企业电商营销新飞跃	• ks秒单关注（快速秒单关注，提升用户转化率）
• 密码技术应用员理论知识题及答案.docVIP	• 外链自动增加：全面解析和战略规划198
• OpenAI 与马斯克“恩怨”再升级！公开历史邮件	• AI智能写作助手：一站式文案创作与优化解决方案
• 07 高性能系统架构设计	• Meta发布AR眼镜Orion，初代不卖普通用户，成本1