背景:
自己有一个文件列表放在百度网盘,想要提取这个文件列表贴到word文档里。
方法:
直接打开对应页面,右键保存成Html网页
然后用beautifulsoup解析即可
步骤:
1、打开百度网盘的某一页
2、右键保存成文件
3、用beautifulsoup解析
4、解析,并输出文件列表
所有代码
from bs4 import BeautifulSoup
with open("百度网盘-全部文件-tensorflow.html",
"r", encoding='utf8') as fin:
html_doc = fin.read()
soup = BeautifulSoup(html_doc, 'html.parser')
soup.title
titles = []
for node in soup.find_all("div", class_="file-name"):
link = node.find("a")
if link and link.text and link.text.endswith(".mp4"):
titles.append(link.text)
print("\n".join(
[x.replace(".mp4", "").replace(" ", "")
for x in sorted(titles)])
)