本站源码全部测试通过,配有前台及后台演示图,绿色安全,希望能对大家有所帮助!
  • 收藏本站
  • 网站地图
  • 发布源码
  • 首 页
  • VPS/云主机
  • 交流论坛
  • Python爬虫之抖音视频批量提取术
    时间:2019-02-18 07:45:28来源:模板之家 作者:转载大师 下载:1907 次
    张小鸡 Python爱好者社区

    作者:  张小鸡  Python爱好者社区专栏作者

    知乎ID:https://www.zhihu.com/people/mr.ji

    个人公众号:鸡仔说 

    假期正好有空闲时间,终于可以整理自己的笔记啦。整理到抖音视频的时候,就好麻烦,每次都要先把视频导出到本地,再给微信的文件管理助手,再下载传到印象笔记,一来二去浪费不少时间,想想这事不正好适合爬虫去干吗?于是就有了以下这篇内容

    工具环境

    • 语言:Python3.6

    • 编辑器:Pycharm

    • 数据库:MongoDB

    • 工具:Charles

    前言:

    在使用Charles,你需要做一些基础的配置,将你的手机的网络代理到本地电脑,以便做进一步的抓包分析,以下两篇文章可能对你有所帮助

    Charles 从入门到精通

    https://www.jianshu.com/p/a3f005628d07

    移动应用抓包调试利器Charles

    https://www.jianshu.com/p/68684780c1b0

    爬取思路

    爬取站点:https://www.douyin.com/

    这里的爬取思路非常简单,以至于我会觉得这篇文章会有些空洞。当你抓包正确配置好环境后,打开抖音软件,做一些简单的操作,Charles就会给你返回如下的数据,这些数据其实就是服务端给你返回的数据,里面包含所有我们需要的信息。比如我们今天要下载的自己点击过的,喜欢的视频链接等

    你操作软件时,看一下Charles中每条数据的变化情况,你会发现,你个人主页下面的链跟videos、feed和likes和这三条数据有关,每一次你做相应的操作,下面就会多出一些请求链接

    charles中的请求截取结果

    抖音中的我的功能页

    那我们别的先不管,看下每个请求中的数据,有没有我们想要的数据,随便看一下某个链接中的返回数据

    可以看到这里有play_addr,再一看链接中有video字样,基本八九不离十了。因为我已经验证过了,这里的信息就是如我们猜测的那样,包含视频的全部信息

    那我们其实就需要模拟这里的请求链接即可,先看下请求中都包含哪些必要的信息,你多看几个就发现,真正变化的就几个固定的参数,其中红线以上的部分都是和设备相关的信息和app信息,真正核心加密的参数就只有,mas,as和ts。这里我先自己网上找了下有没有相关的轮子可用,索性狗屎运比较好,正好找到了,地址在这:https://github.com/AppSign/douyin

    套用即可,而且这位大佬的所有破解,都是和字节跳动有关的,我有点觉得这个就是官方让员工自己放出来的。按尼胃,我们拿到了加密的参数的实现之后,后面就太简单了

    看上面那位大佬的代码提取视频那里,跟视频相关的关键参数就是这个aweme_id,我们拿到它之后,后面直接构造提取原视频的请求即可

    那么废话不说,上码走起

    show me the code

    核心请求:

    def grab_favorite(self, user_id, max_cursor=0):    favorite_params = self.FAVORITE_PARAMS    favorite_params[user_id] = user_id    favorite_params[max_cursor] = max_cursor    query_params = {favorite_params, self.common_params}    sign = getSign(self.gettoken(), query_params)    params = {query_params, sign}    resp = requests.get(self.FAVORITE_URL,                        params=params,                        verify=False,                        headers=self.HEADERS)    favorite_info = resp.json()    hasmore = favorite_info.get(hasmore)    max_cursor = favorite_info.get(max_cursor)    video_infos = favorite_info.get(aweme_list)    for per_video in video_infos:        author_nickname = per_video[author].get("nickname")        author_uid = per_video[author].get(uid)        video_desc = per_video.get(desc)        download_item = {            "author_nickname": author_nickname,            "video_desc": video_desc,            "author_uid": author_uid,        }        awemeid = per_video.get("awemeid")        self.download_favorite_video(awemeid, download_item)        time.sleep(5)    return hasmore, max_cursor

    这里我们将设备参数,app信息,用户一起用作查询参数,再与获得的token一起,发送给getSign函数,构造加密数据,最后把这些数据组合成的字典放在一起,请求我们的喜欢的链接(https://aweme.snssdk.com/aweme/v1/aweme/favorite/)即可拿到对应的response数据。大家可能会发现,我这里漏掉了一个max_cursor参数,这是因为,第一次发送请求时,这里的参数是0,之后我们请求了数据后,如果返回的has_more是1,就代表有数据,那么下一次我们请求的时候,就需要带上上一次的max_cursor。就可以理解为我们刷数据,往下翻页吧

    所以这也就是为什么我在这个地方做了返回,就是为了方便上一层调用,看下这里如果有数据的话,我们就继续翻页下载

    翻页:

       def grab_favorite_main(self, user_id):        count = 1        self.logger.info("当前正在爬取第

    转载请注明来源: Python爬虫之抖音视频批量提取术
    本文永久链接地址:bencandy.php?fid=32&id=5455
    本文标签:

    版权声明:
    —— 本文内容由互联网用户自发贡献, 本站不拥有所有权, 不承担相关法律责任, 如果发现本站有涉嫌抄袭的内容, 欢迎发送邮件至 :
    —— 1034252225@qq.com 举报, 并提供相关证据, 一经查实, 本站将立刻删除涉嫌侵权内容。