通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

网络编程 2025/12/14 佚名

3 2 1

在学习python的时候，一定会遇到网站内容是通过 ajax动态请求、异步刷新生成的json数据的情况，并且通过python使用之前爬取静态网页内容的方式是不可以实现的，所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据。

至于读取静态网页内容的方式，有兴趣的可以查看本文内容。

这里我们以爬取淘宝评论为例子讲解一下如何去做到的。

这里主要分为了四步：

一获取淘宝评论时，ajax请求链接（url）

二获取该ajax请求返回的json数据

三使用python解析json数据

四保存解析的结果

步骤一：

获取淘宝评论时，ajax请求链接（url）这里我使用的是Chrome浏览器来完成的。打开淘宝链接，在搜索框中搜索一个商品，比如“鞋子”，这里我们选择第一项商品。

然后跳转到了一个新的网页中。在这里由于我们需要爬取用户的评论，所以我们点击累计评价。

然后我们就可以看到用户对该商品的评价了，这时我们在网页中右击选择审查元素（或者直接使用F12打开）并且选中Network选项，如图所示：

我们在用户评论中，翻到底部点击下一页或者第二页，我们在Network中看到动态添加了几项，我们选择开头为list_detail_rate.htm"text-align: center">

然后点击该选项，我们可以在右边选项框中看到有关该链接的信息，我们要复制Request URL中的链接内容。

我们在浏览器的地址栏中输入刚才我们获得url链接，打开后我们会发现页面返回的是我们所需要的数据，不过显得很乱，因为这是json数据。

二获取该ajax请求返回的json数据

下一步，我们就要获取url中的json数据了。我所使用的python编辑器是pycharm，下面看一下python代码：

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
url='https://rate.tmall.com/list_detail_rate.htm"color: #0000ff">三 使用python解析json数据


# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import json
import re
url='https://rate.tmall.com/list_detail_rate.htm"gbk")
count=len(con['rateDetail']['rateList'])
for i in xrange(count):
  print con['rateDetail']['rateList'][i]['appendComment']['content']


  
解析：
这里需要导入所要的包，re为正则表达式需要的包，解析json数据需要import json
cont=requests.get(url).content #获取网页中json数据
rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') #正则表达式去除cont数据中多余的部分，是数据成为真正的json格式的数据{“a”:”b”,”c”:”d”}
con=json.loads(content,”gbk”) 使用json的loads函数 将content内容转化为json库函数可以处理的数据格式，”gbk”为数据的编码方式，由于win系统默认为gbk
count=len(con[‘rateDetail'][‘rateList']) #获取用户评论的个数（这里只是当前页的）
for i in xrange(count):
print con[‘rateDetail'][‘rateList'][i][‘appendComment']
#循环遍历用户的评论 并输出（也可以根据需求保存数据，可以查看第四部分）
这里的难点是在杂乱的json数据中查找用户评论的路径
四 保存解析的结果
这里用户可以将用户的评论信息保存到本地，如保存为csv格式。
以上就是本文的全部所述，希望大家喜欢。

python抓取ajax数据,python抓取淘宝,python_ajax爬虫

标签：

python抓取ajax数据,python抓取淘宝,python_ajax爬虫

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

桃源资源网 Design By www.nqtax.com

评论“通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)”

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

暂无“通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)”评论...

www.nqtax.com 桃源资源网

19,905影音资源

44,626技术资源

1,817软件资源

378,645站长资源

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

python抓取ajax数据,python抓取淘宝,python_ajax爬虫

切记ajax中要带上AntiForgeryToken防止CSRF攻击

使用Jquery+Ajax+Json如何实现分页显示附JAVA+JQuery实现异步分页

评论“通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

友情链接