甲骨文爬虫(利用python爬取甲骨文图片及其对应的汉字含义,共1062个甲骨文,百度云下载[亲测有效])

发布时间:2025-12-10 19:48:17 浏览次数:4

利用python爬取甲骨文图片及其对应的汉字含义,共1062个甲骨文,百度云下载[亲测有效]-甲骨文爬虫爱好者

利用python爬取甲骨文图片及其对应的汉字含义,共1062个甲骨文,百度云下载[亲测有效]由于对古典文化较感兴趣,因此爬取甲骨文图片,及其对应的中文含义,因为网页是分目录的,因此分目录爬取。数据来源网址:http://www.9610.com/jiagu/bian/index.htm,爬取所用代码:importurllib.requestimportreimportosimporturllibdefget_html(url):page=urllib.request.urlopen(url)html_a=page.read()

由于对古典文化较感兴趣,因此爬取甲骨文图片,及其对应的中文含义,因为网页是分目录的,因此分目录爬取。

数据来源网址:
http://www.9610.com/jiagu/bian/index.htm,

爬取所用代码:

import urllib.requestimport reimport osimport urllibdef get_html(url):    page = urllib.request.urlopen(url)    html_a = page.read()    print(html_a.decode('gbk'))    return html_a.decode('gbk')def get_img(html):    reg = r'\b\d+\b.jpg'    reg1=r'<IMG[^>]*>(.*)</TD>'    imgre = re.compile(reg)  # 转换成一个正则对象    imglist = imgre.findall(html)  # 表示在整个网页过滤出所有图片的地址,放在imgList中    imgre1 = re.compile(reg1)  # 转换成一个正则对象    imglist1 = imgre1.findall(html)  # 表示在整个网页过滤出所有图片的地址,放在imgList中    print(imglist)    print(imglist1)    x = 0        # 声明一个变量赋值    path = 'E:\\lianxi\\mypic\\y_z'  # 设置图片的保存地址    if not os.path.isdir(path):        os.makedirs(path)  # 判断没有此路径则创建    paths = path + '\\'  # 保存在test路径下    for imgurl in imglist:        urllib.request.urlretrieve("http://www.9610.com/jiagu/bian/"+imgurl, '{0}{1}.jpg'.format(paths, str(x)+imglist1[x]))  # 打开imgList,下载图片到本地        x = x + 1        print('图片开始下载,注意查看文件夹')    return imglisthtml_b = get_html("http://www.9610.com/jiagu/bian/yz.htm#y")  # 获取该网页的详细信息print(get_img(html_b))  # 从网页源代码中分析下载保存图片

是否还在为Ide开发工具频繁失效而烦恼,来吧关注以下公众号获取最新激活方式。亲测可用!

为防止网络爬虫,请关注公众号回复”口令”

激活idea 激活CLion DataGrip DataSpell dotCover dotMemory dotTrace GoLand PhpStorm PyCharm ReSharper ReShaC++ Rider RubyMine WebStorm 全家桶 刷新

【正版授权,激活自己账号】:Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】:官方授权 正版激活 自己使用,支持Jetbrains家族下所有IDE…

爬取结果如下:

所有结果打包下载地址:
链接:https://pan.baidu.com/s/1IZR9tKkESY6vNbEzrbHRRQ
提取码:1tj9

欢迎下载使用,可在自建网站中作为素材使用…

需要做网站?需要网络推广?欢迎咨询客户经理 13272073477