只需几行代码搞定海量美图收集

wander lv.2

发布时间：2023-01-13 05:19:57 279

相关标签： # html# python# 爬虫# 技术# 信息

互联网公开的信息很多，比如精美图片这类，如果单靠人工收集显然不现实，会懂技术的都会通过爬虫程序实现采集美图。单线程相对来说显得太过缓慢，多线程并发同时获取才是真效率。下面几行代码值得大家看看我是如何采集精美图片的。

# coding=utf-8

import os.path
from time import sleep

import requests
import re


dirname = 'photo/'
if not os.path.exists(dirname):
    os.mkdir(dirname)

url = 'https://www.vmgirls.com/17081.html'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'
}
res = requests.get(url, headers=headers)
# print(res.text)
print(res.status_code)

# 
# 只匹配括号内的内容
url_list = re.findall('', res.text)
print(url_list)

for urls in url_list:
    name = urls.split('/')[-1]
    new_url = 'https:' + urls
    # print(new_url)
    res_content = requests.get(url=new_url, headers=headers).content
    sleep(2)
    # 保存文件
    with open('photo/' + name + '.jpeg', mode='wb') as f:
        f.write(res_content)

上面就是有关于美图爬取的一些经验，需要的小伙伴拿走不谢。

文章来源： https://blog.51cto.com/u_13488918/5999055

特别声明：以上内容（图片及文字）均为互联网收集或者用户上传发布，本站仅提供信息存储服务！如有侵权或有涉及法律问题请联系我们。