爬虫

3分钟Python爬取9000张表情包图片

2023-03-122019-09-27 4 Comments by crazyant

先看下我的爬取成果：

本视频的演示步骤：

使用requests爬取200个网页
使用BeautifulSoup实现图片的标题和地址解析
将图片下载到本地目录

这2个库的详细用法，请看我的其他视频课程

import requests
from bs4 import BeautifulSoup
import re

1、下载共200个页面的HTML

def download_all_htmls():
    """
    下载所有列表页面的HTML，用于后续的分析
    """
    htmls = []
    for idx in range(200):
        url = f"https://fabiaoqing.com/biaoqing/lists/page/{idx+1}.html"
        print("craw html:", url)
        r = requests.get(url)
        if r.status_code != 200:
            raise Exception("error")
        htmls.append(r.text)
    print("success")
    return htmls

# 执行爬取
htmls = download_all_htmls()

craw html: https://fabiaoqing.com/biaoqing/lists/page/1.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/2.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/3.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/4.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/188.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/189.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/190.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/191.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/192.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/193.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/194.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/195.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/196.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/197.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/198.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/199.html
craw html: https://fabiaoqing.com/biaoqing/lists/page/200.html
success

htmls[0][:1000]

'\n\n\n    \n    \n    \n    \n    热门表情_发表情，表情包大全fabiaoqing.com\n    \n    \n    \n    \n    \n    \n



					
				Tags Tags: python, 爬虫 4 Comments 		
			Post navigation

			Pandas系列 – 怎样新增数据列？
Pandas的SettingWithCopyWarning报警怎么回事？




					
						

			
			4 thoughts on “3分钟Python爬取9000张表情包图片”		

		
		
			
		
			
				
										
						
							潇寒						


						
							
								
									2019-11-25 at 下午 5:51								
							
													

					


									


				
					为什么显示找不到文件或路径呢
回复				

			

			


		
			
				
										
						
							匿名						


						
							
								
									2020-02-16 at 上午 11:37								
							
													

					


									


				
					用了您的代码，文件会被下载到哪，我咋找不着emmmm初学者
回复				

			

			

		
			
				
										
						
							crazyant						


						
							
								
									2020-02-17 at 上午 6:39								
							
													

					


									


				
					就是在代码的当前目录
回复				

			

			

		
			
				
										
						
							小杨						


						
							
								
									2020-02-19 at 上午 7:31								
							
													

					


									


				
					找不到，能具体点吗/还有图片所在文件夹名字是什么。非常谢谢
回复				

			

			





		


			
		Leave a Comment 取消回复
Comment
Name
Email
Website
 

Δ



	
	
		
	
		Search for:
		
	
	

文章分类
	C++ (8)

	chatgpt (3)

	django (16)

	docker (4)

	fastapi (3)

	flask (11)

	hadoop (5)

	hive (14)

	java (20)

	javascript (1)

	kafka (1)

	linux (18)

	mac (4)

	mysql (26)

	numpy (2)

	paddlepaddle (1)

	pandas (42)

	php (39)

	pyecharts (1)

	pyqt (6)

	python (34)

	python环境 (30)

	python趣味小程序 (3)

	redis (4)

	sklearn (1)

	spark (6)

	tensorflow (3)

	zookeeper (1)

	产品想法 (1)

	办公自动化 (10)

	大数据 (1)

	大模型 (3)

	推荐系统 (7)

	数据科学 (1)

	数据结构与算法 (1)

	机器学习 (4)

	爬虫 (24)

	电商 (2)

	程序人生 (26)

	程序员自媒体 (12)

	腾讯课堂 (1)

	自动化测试 (1)

	读书心得 (8)

	软件工具 (9)

	量化投资 (6)






			
			
								
					© 2024 蚂蚁学Python • Theme Xena