python如何示例爬虫代码

发布时间:2025-06-20 点击:9
python爬虫代码示例的方法:首先获取浏览器信息,并使用urlencode生成post数据;然后安装pymysql,并存储数据到mysql即可。
python爬虫代码示例的方法:
1、urllib和beautifusoup
获取浏览器信息
from urllib import requestreq = request.urlopen("http://www.baidu.com")print(req.read().decode("utf-8"))模拟真实浏览器:携带user-agent头
(目的是不让服务器认为是爬虫,若不带此浏览器信息,则可能会报错)
req = request.request(url) #此处url为某个网址req.add_header(key,value) #key即user-agent,value即浏览器的版本信息resp = request.urlopen(req)print(resp.read().decode("utf-8"))相关学习推荐:python视频教程
使用post
导入urllib库下面的parse
from urllib import parse使用urlencode生成post数据
postdata = parse.urlencode([ (key1,val1), (key2,val2), (keyn,valn)])使用post
request.urlopen(req,data=postdata.encode("utf-8")) #使用postdata发送post请求resp.status #得到请求状态resp.reason #得到服务器的类型完整代码示例(以爬取维基百科首页链接为例)
#-*- coding:utf-8 -*-from bs4 import beautifulsoup as bsfrom urllib.request import urlopen import reimport ssl#获取维基百科词条信息ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证#请求url,并把结果用utf-8编码req = urlopen("https://en.wikipedia.org/wiki/main page").read().decode("utf-8")#使用beautifulsoup去解析soup = bs(req,"html.parser")# print(soup)#获取所有href属性以“/wiki/special”开头的a标签urllist = soup.findall("a",href=re.compile("^/wiki/special"))for url in urllist:#去除以.jpg或.jpg结尾的链接if not re.search("\\\\.(jpg|jpg)$",url["href"]):#get_test()输出标签下的所有内容,包括子标签的内容;#string只输出一个内容,若该标签有子标签则输出“noneprint(url.get_text() "----->" url["href"])# print(url)2、存储数据到mysql
安装pymysql
通过pip安装:
$ pip install pymysql或者通过安装文件:
$ python setup.py install使用
#引入开发包import pymysql.cursors#获取数据库链接connection = pymysql.connect(host="localhost",user = 'root',password = '123456',db ='wikiurl',charset = 'utf8mb4')try:#获取会话指针with connection.cursor() as cursor#创建sql语句sql = "insert into `tablename`(`urlname`,`urlhref`) values(%s,%s)"#执行sql语句cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org" url["href"]))#提交connection.commit()finally:#关闭connection.close()3、爬虫注意事项
robots协议(机器人协议,也称爬虫协议)全称是“网络爬虫排除协议”,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。一般在主页面下,如https://en.wikipedia.org/robots.txt
disallow:不允许访问allow:允许访问相关推荐:编程视频课程

请求恢复主机-虚拟主机/数据库问题
网站建设之自助建站系统的选择?
云服务器怎么挂本地硬盘
【黄山seo】关于网站内页权重高于首页权重的详细说明与解
Tomcat环境变量如何配置
2020年gpu云服务器套餐
之前还是正常的你们主机升级了什么吗
5G、卫星互联网、区块链……北京发布"新基建"方案