爬虫下载图片打不开是什么原因，最新简易爬虫教程

雷电将军 • 2022年8月22日下午9:44 • 专栏 • 阅读 68

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：GitPython PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 1.获取图片的url链接首先，打开百度…

序言

文中的句子及图片来源于网络,仅作学习培训、沟通交流应用,不具备一切商业行为,版权归创作者全部,如有问题请尽快在线留言以作解决。

创作者： GitPython

PS：如果有需要Python学习材料的小伙伴可以加点击进入连接自主获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

1.获取图片的url连接

最先，打开百度图片主页，注意下图url中的cndex

然后，把页面切换成传统式换页版（flip），由于这样有助于大家抓取图片！

对比了好多个url发觉，pn主要参数是要求到的总数。根据改动pn主要参数，观查返回的数据信息，发觉每一页不得超过是60个图片。

注：gsm主要参数是pn参数16进制表述，除掉可以

随后，鼠标右键查验网页源码，立即（ctrl F）检索 objURL

那样，大家看到了必须图片的url了。

2.把图片连接储存到当地

如今，我们要做的就是把这些信息内容抓取出去。

注：网页页面中有objURL，hoverURL…但我们用的都是objURL，由于这是原照

那样，怎样获取objURL？用正则表达式！

那我们该如何用正则表达式完成呢？实际上只需一行代码…

results = re.findall(\'\"objURL\":\"(.*?)\",\', html)

关键编码：

1.获取图片url编码：

# 获取图片url联接def get_parse_page(pn,name):  for i in range(int(pn)):    # 1.获取网页页面    print(\'已经获取第{}页\'.format(i 1))    # 百度搜索图片主页的url    # name是你需要检索核心关键词    # pn是你要下载的页码    url = \'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%s&pn=%d\' %(name,i*20)    headers = {      \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4843.400 QQBrowser/9.7.13021.400\'}    # 发送请求，获取相对应    response = requests.get(url, headers=headers)    html = response.content.decode()    # print(html)    # 2.正则表达式分析网页页面    # \"objURL\":\"http://n.sinaimg.cn/sports/transform/20170406/dHEk-fycxmks5842687.jpg\"    results = re.findall(\'\"objURL\":\"(.*?)\",\', html) # 回到一个目录    # 依据获取过的图片连接，把图片储存到当地    save_to_txt(results, name, i)

2.储存图片到本地代码：

# 储存图片到当地def save_to_txt(results, name, i):  j = 0  # 在当目录下创建文件夹  if not os.path.exists(\'./\'   name):    os.makedirs(\'./\'   name)  # 免费下载图片  for result in results:    print(\'已经储存第{}个\'.format(j))    try:      pic = requests.get(result, timeout=10)      time.sleep(1)    except:      print(\'现阶段图片无法下载\')      j  = 1      continue    # 可忽视，这一段编码有bug    # file_name = result.split(\'/\')    # file_name = file_name[len(file_name) - 1]    # print(file_name)    #    # end = re.search(\'(.png|.jpg|.jpeg|.gif)$\', file_name)    # if end == None:    #   file_name = file_name   \'.jpg\'    # 把图片储存到文件夹    file_full_name = \'./\'   name   \'/\'   str(i)   \'-\'   str(j)   \'.jpg\'    with open(file_full_name, \'wb\') as f：      f.write(pic.content)    j  = 1

3.主函数代码：

# 主函数if __name__ == \'__main__\':  name = input(\'输入您你要下载核心关键词：\')  pn = input(\'你要免费下载前两页（1页有60张）:\')  get_parse_page(pn, name)

使用说明书：

# 配备下列控制模块import requests import reimport osimport time# 1.运作 py源代码# 2.键入你要检索核心关键词，例如“柯基”、“小泰迪”等# 3.键入你要下载的页码，例如5，那便是免费下载 5 x 60=300 张图片

个人收藏检举

雷电将军

五险一金公司交多少钱，2020最新费率要知道

上一篇 2022年8月22日下午9:42

合作推广方案怎么写，分享9个推广渠道

下一篇 2022年8月22日下午9:46

专栏

营销软件怎么代理，软件的市场需求如何

转自老Vee微信公众号2019年1月14日文伴随一场大雪掠境过后带来的持续阴霾，从昨天开始终于看到了久违的阳光。下周的天气预报，晴好为主。照惯例，这个时候管理软件厂商陆续进入“总结规划+年会表彰”季。各业务线条对照2018年的成绩单论功行赏，分支机构与总部对新的一年具体业务指标讨价还价。代理商们则早与厂商确定了2019年的销售计划和结算政策。所有的总结都是按部就班，所有的规划都是轻车熟路。…

2022年5月18日
0600
专栏

自媒体红利消退，未来该如何增加收益

现在越来越多人觉得自媒体已经饱和了，的确，现在连隔壁老王家的那个旺财随便叫几秒钟，然后发上平台后都能获得收益，如此低门槛，让自媒体的红利在不知不觉中慢慢消退，未来作者该如何在哪方面增加收益呢？追风今天来谈谈自己的看法吧！第一：平台补贴不停，作者更新就别停。其实现在有某些网络大V，跟他的粉丝说平台以后会停止补贴，建议他的粉丝尽早脱坑。追风认为，这是不负责任的。平台从来都没有通过任何官方形式和渠道发…

2022年8月11日
0690
专栏

大学生创业贷款在哪申请，贷款要求与贷款利率说明

近日，有不少网友咨询大学生创业贷款如何申请的相关问题。今日，给大家答疑解惑。申请大学生创业贷款条件创业扶持毕业五年内(含应届)的大中专毕业生均可申请创业担保贷款，毕业两年内的大学生只需提供有可行性的创业计划书，洛阳市创业贷款担保中心根据前期资料的审查情况，可先为其发放创业启动资金5万元，其余款项在建立经营实体后会根据实际经营状况后续发放。其中普通高校、大学生村官、和留学归国人员可申请中央财政…

2022年6月22日
0600
专栏

萤石云视频手机版安装教程，教你怎么使用和操作

随着萤石产品类目的逐渐丰富，AI能力的扩展以及生态合作伙伴的逐渐加入，萤石云视频APP迎来了全新的5.0版本。萤石云视频APP5.0作为萤石智能家居生态的体验入口，连接萤石智能终端产品，并基于这些产品打造符合个人生活习惯的生活场景，给用户提供人性化的使用体验，以及便捷的配套服务。具体表现如何，就让我们接下来一起看看吧！外观升级，简洁清爽在升级到5.0版本后，你可以明显看到首页中，界面的整体…

2022年7月8日
02120
专栏

东莞一日游景点推荐，分享一个省时又省钱的攻略

东莞是一个神秘的地方，因为你的对它的印象还停留在四年前，但身为一座文化古城，号称世界工厂、全国文明城市、全国篮球城市、广东四小虎等等。究竟这里有什么吸引的地方？为什么会有这么多优秀称号？跟我一起把东莞反转，打破沙盘探到底！首先，po上东莞的大局这期与接下几期我们先把东莞市区给反了。东莞市区主要由四个部分组成：莞城、南城、东城和万江。毫无疑问，他们可以作为东莞市的老市区，一直以来是东莞市的政治、…

2022年10月12日
0470
专栏

通讯录怎么恢复，联系人数据恢复技巧

手机通讯录如何恢复？手机通讯录删除恢复教程：有人会“不经意的”删除自己手机中通讯录或是通话记录。如果没有备份手机联系人，想要打电话给许久未见的朋友、前段时间需要沟通的客户等，没有了通讯录似乎什么也做不了；如果你前一天和异性工作伙伴通了很久的电话，急于拿出一些“证据”证明自己的“清白”，那么通话记录就很重要啦。那么手机通讯录如何恢复？手机通话记录删除了怎么恢复？本篇为大家提供了手机通讯录及手机通话…

2022年6月26日
0500
专栏

联想手机中国（联想手机中国品牌负责人介绍）

联想创始人是柳传志，但严格说来联想属于中科院计算所创办，任何人都不能叫创始人，第一人的联想董事长是计算所所长曾茂朝，但把联想发扬光大的是柳传志。柳传志1944年4月出生于江苏，1955至1961年，在北京市第二十五中学（原育英学校）学习。17岁柳传志高中毕业，去应征飞行员，由于舅舅有“政治问题”没有入选。 1961至1966年，柳传志在中国人民解放军军事电信工程学院（现西安电子科技大学）学习，在…

2022年5月2日
01150
专栏

seo关键词快速排名前三位是哪个，关键词排名快速提升技巧

SEO优化网站关键词排名快速提升的要点和方法有哪些 1、当网站还没有建立索引的时候，需要蜘蛛程序(搜索引擎爬虫)来爬取网站，可以通过提交链接、发布外部链接吸引蜘蛛抓取网页。 2、搜索引擎识别网页很关键，他识别的情况很重要，只有搜索引擎才准确的知道，普通站长只能通过对算法规则的理解，网页要采用搜素引擎能识别的html代码制作，对搜索引擎的特别标题进行优化，如：title、description、ke…

2022年6月12日
0710
专栏

ig夺冠是什么比赛，ig夺冠对中国的意义

【总决赛FNCvsIG第一局】 FNC是一套需要打出中野优势的中期发力阵容，而IG是一套稳定发育的中后期打团阵容，比赛开始双方打野常规开局。比赛的前期，双方本是线上平稳的发育，IG在很好的规避掉FNC中野强势期后，通过多次的野辅游走中路接连斩杀FNC中单刀妹，将FNC的发力点打哑火，随后IG在15分钟中路抱团连推FNC两座防御塔，建立起前期优势。比赛的中期，FNC明显有些着急，在落后的情况下接连与…

2022年7月3日
01040
专栏

台式机刻录光驱哪个牌子好（推荐一款质量最好的刻录光驱）

说起光驱，很多人都觉得应该是上一代的产品，现在的电脑不需要。其实并非如此，毕竟很多人家里还有一些珍藏的光盘，另外还有些老的电脑也会用到光盘来安装系统，我们可以把光驱从机箱中去掉，但最好还是有一个外置的刻录光驱，以备不时之需。最近我看到ORICO推出了一款全新的光驱产品，它最大的特点就是多接口设计，除了传统的USB之外，还配备了时下流行的TYPE-C，所以不管是新旧电脑，它都能通吃。从包装盒上可以…

2022年10月23日
01490