久久鬼色综合88久久,99热这里只有精品免费播放,伊人久久大香线蕉综合影视

千鋒扣丁學(xué)堂Python爬蟲之爬取知乎圖片代碼實現(xiàn)解析

2019-09-17 14:14:01 5283瀏覽

今天千鋒扣丁學(xué)堂Python培訓(xùn)老師給大家分享一篇關(guān)于爬取知乎圖片代碼實現(xiàn)解析的詳細介紹，首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關(guān)的頁面信息，比如最重要的合計有多少人回答問題。

問題ID為如下標紅數(shù)字

編寫代碼，下面的代碼用來檢測用戶輸入的是否是正確的ID，并且通過拼接URL去獲取該問題下面合計有多少答案。

import requests
import re
import pymongo
import time
DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.zhihuone # 準備插入數(shù)據(jù)
BASE_URL = "https://www.zhihu.com/question/{}"
def get_totle_answers(article_id):
  headers = {
    "user-agent": "需要自己補全 Mozilla/5.0 (Windows NT 10.0; WOW64)"
  }
  with requests.Session() as s:
    with s.get(BASE_URL.format(article_id),headers=headers,timeout=3) as rep:
      html = rep.text
      pattern =re.compile( '<meta itemProp="answerCount" content="(\d*?)"/>')
      s = pattern.search(html)
      print("查找到{}條數(shù)據(jù)".format(s.groups()[0]))
      return s.groups()[0]
if __name__ == '__main__':
  # 用死循環(huán)判斷用戶輸入的是否是數(shù)字
  article_id = ""
  while not article_id.isdigit():
    article_id = input("請輸入文章ID：")
  totle = get_totle_answers(article_id)
  if int(totle)>0:
    zhi = ZhihuOne(article_id,totle)
    zhi.run()
  else:
    print("沒有任何數(shù)據(jù)！")

完善圖片下載部分，圖片下載地址在查閱過程中發(fā)現(xiàn)，存在json字段的content中，我們采用簡單的正則表達式將他匹配出來。細節(jié)如下圖展示：

編寫代碼吧，下面的代碼注釋請仔細閱讀，中間有一個小BUG，需要手動把pic3修改為pic2這個地方目前原因不明確，可能是我本地網(wǎng)絡(luò)的原因，還有請在項目根目錄先創(chuàng)建一個imgs的文件夾，用來存儲圖片

def download_img(self,data):
  ## 下載圖片
  for item in data["data"]:
    content = item["content"]
    pattern = re.compile('<noscript>(.*?)</noscript>')
    imgs = pattern.findall(content)
    if len(imgs) > 0:
      for img in imgs:
        match = re.search('<img src="(.*?)"', img)
        download = match.groups()[0]
        download = download.replace("pic3", "pic2") # 小BUG,pic3的下載不到
        print("正在下載{}".format(download), end="")
        try:
          with requests.Session() as s:
            with s.get(download) as img_down:
              # 獲取文件名稱
              file = download[download.rindex("/") + 1:]
              content = img_down.content
              with open("imgs/{}".format(file), "wb+") as f: # 這個地方進行了硬編碼
                f.write(content)
 
              print("圖片下載完成", end="\n")
        except Exception as e:
          print(e.args)
    else:
      pass

運行結(jié)果為：

以上就是關(guān)于千鋒扣丁學(xué)堂Python爬蟲之爬取知乎圖片代碼實現(xiàn)解析的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，最后想要了解更多關(guān)于Python和人工智能方面內(nèi)容的小伙伴，請關(guān)注扣丁學(xué)堂Python培訓(xùn)官網(wǎng)、微信等平臺，扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺為您提供權(quán)威的Python開發(fā)環(huán)境搭建視頻，Python培訓(xùn)后的前景無限，行業(yè)薪資和未來的發(fā)展會越來越好的，扣丁學(xué)堂老師精心推出的Python視頻教程定能讓你快速掌握Python從入門到精通開發(fā)實戰(zhàn)技能。扣丁學(xué)堂Python技術(shù)交流群：279521237。

扣丁學(xué)堂微信公眾號 Python全棧開發(fā)爬蟲人工智能機器學(xué)習(xí)數(shù)據(jù)分析免費公開課直播間

【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】【掃碼進入Python全棧開發(fā)免費公開課】

標簽: Python培訓(xùn) Python視頻教程 Python在線視頻 Python學(xué)習(xí)視頻 Python培訓(xùn)班

上一篇扣丁學(xué)堂Python培訓(xùn)分享Python腳本獲取ES存儲容量的實例下一篇扣丁學(xué)堂Python培訓(xùn)簡述Python與服務(wù)器的共享文件夾交互方法

欧美成人午夜免费全部完,亚洲午夜福利精品久久,а√最新版在线天堂,另类亚洲综合区图片小说区,亚洲欧美日韩精品色xxx

千鋒扣丁學(xué)堂Python爬蟲之爬取知乎圖片代碼實現(xiàn)解析

熱門專區(qū)

課程推薦