返回

只需几行代码搞定海量美图收集

发布时间:2023-01-13 05:19:57 279
# html# python# 爬虫# 技术# 信息

互联网公开的信息很多,比如精美图片这类,如果单靠人工收集显然不现实,会懂技术的都会通过爬虫程序实现采集美图。单线程相对来说显得太过缓慢,多线程并发同时获取才是真效率。下面几行代码值得大家看看我是如何采集精美图片的。

# coding=utf-8

import os.path
from time import sleep

import requests
import re


dirname = 'photo/'
if not os.path.exists(dirname):
os.mkdir(dirname)

url = 'https://www.vmgirls.com/17081.html'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'
}
res = requests.get(url, headers=headers)
# print(res.text)
print(res.status_code)

#
# 只匹配括号内的内容
url_list = re.findall('', res.text)
print(url_list)

for urls in url_list:
name = urls.split('/')[-1]
new_url = 'https:' + urls
# print(new_url)
res_content = requests.get(url=new_url, headers=headers).content
sleep(2)
# 保存文件
with open('photo/' + name + '.jpeg', mode='wb') as f:
f.write(res_content)

 

上面就是有关于美图爬取的一些经验,需要的小伙伴拿走不谢。

特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(0)
按点赞数排序
用户头像
精选文章
thumb 中国研究员首次曝光美国国安局顶级后门—“方程式组织”
thumb 俄乌线上战争,网络攻击弥漫着数字硝烟
thumb 从网络安全角度了解俄罗斯入侵乌克兰的相关事件时间线