Crawler爬虫基础知识

news/发布时间2024/9/20 8:11:14

本来其实不知道爬虫的意义的,但是发现爬虫在信息收集的那一方面好像挺重要!!

   那么就来浅学一下吧!!!     

1.基本的储备

对于爬虫,我们一般都是用的python去编写脚本 ,其中还要导入对应的一些库

pip install lxml 
pip install bs4
pip install requests

这些库都要在后面所用到

2.Requests

话不多说,我们直接上代码,再上代码之前,我们先拿RCE的页面来举例子!!!

对,没错,我们就是要去爬取这个页面

from requests import *my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)response.encoding="utf-8"  ##设置响应内容的编码方式text=response.textprint(text)
except Exception as e:print("发生错误:", e)

来解释一下这些代码

  1. 先从requests模块导入了所有东西
  2. try except这种错误捕获模块就不说了
  3. 然后就是先定义了一个目标网站的url !! 并且用response来接受请求结果
  4.   response.encoding="utf-8" 是用来设置返回结果的编码方式为 utf-8
  5. 然后用text来接受response返回会的text内容,并且输出

最后的得到的结果如下!!

有咩有别的偷懒一点的写法呢?? 那也肯定还是有的!!!

from requests import *my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()print(text)except Exception as e:print("发生错误:", e)

还是来解释一下对应的代码,一样的我就不讲了,来讲一下这一行!!!

text=response.content.decode()

没错,它就是首先获取了response的content的内容然后用默认是utf-8解码的decode函数去解码

3.BeautifulSoup

所以为什么这个模块要叫这个名字呢,哈哈哈我也不知道,可能它的汤比较好喝吧!!!

1.对象创建

对于BeautifulSoup的对象创建,第一部分就是文档内容,第二部分是lxml解释器!!

soup = BeautifulSoup("文档内容",'lxml')

2.搜索方法

对于创建出来的对象,我们有三种搜索方法!!!

1.根据标签的名字查找

find("标签的名字")  ---> 返回第一个标签和其对应的内容!!

假设我想要寻找我的网页的script标签,那么就要这么写

from requests import *
from bs4 import BeautifulSoup
my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()soup =BeautifulSoup(text,'lxml')search = soup.find("script")print(search)except Exception as e:print("发生错误:", e)
2.根据属性的名称查找

像在日常的生活中,一些标签有对应的一些属性

那么我们就可以这样查找 

  1. soup.find(属性名="对应属性值")   不适用于属性名字含有 -符号的情况!!!
  2.  soup.find(attrs{"属性名":"属性值"})

而且你的标签还要包含全,如果你只包含多个属性中的一个,那么是不会有返回值的!!!

from requests import *
from bs4 import BeautifulSoup
my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()soup =BeautifulSoup(text,'lxml')search = soup.find(type="text/javascript")print(search)
except Exception as e:print("发生错误:", e)

这个代码就能找到第一个标签属包含 type='text/javascript' 的标签,并返回内容

提示一下,如果想要返回全部的结果,那么你只需要用find_all()这个函数就行

只需要略微修改上面的代码

search = soup.find_all(type="text/javascript")for sample in search:print(sample)

就能得到全部的结果(美观版!!!)

3.根据内容进行查找(???)

这个虽然我不知道有什么用,但是还是讲讲!   用法

soup.find(string="你要查找的内容") 但是建议这个不存在嵌套,否则情况不一样

 search = soup.find(string='Get the pikachu')

4.Tag对象

书接上回,当我们用find之后,返回的变量其实就是一个Tag对象

对于Tag对象,我们可以进行以下操作(假设这个对象是以属性查询后返回) 就是这样 

1.name

这个功能用来获取标签名,直接上代码

 search = soup.find(type="text/javascript")Tag=search.nameprint(Tag)

   成功返回标签名

2.attrs

应该就是attribution的缩写  我们也是直接上代码

search = soup.find(type="text/javascript")Tag=search.attrsprint(Tag)

 也是成功返回属性内容

3.text

字面理解就是直接获取标签所对应的文本  也是上代码

search = soup.find(type="text/javascript")Tag=search.textprint(Tag)

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/RdJQ/9775.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

阿里云启动实例进入了急救模式解决办法

相关文档 问题描述 通过远程连接软件无法登录Linux实例,通过使用管理终端连接Linux实例远程连接时,发现系统进入到急救模式(emergency mode),且出现报错。 CentOS实例报如下错误。 systemctl default to try again…

模拟算法题练习(一)

模拟算法介绍: 模拟算法通过模拟实际情况来解决问题,一般容易理解但是实现起来比较复杂,有很多需要注意的细节,或者是一些所谓很“麻模“的东西。 模拟题一般不涉及太难的算法,一般就是由较多的简单但是不好处理的部…

Java——建造者模式(Builder)

建造者模式(Builder) 1、建造者模式的定义 将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。 Builder模式是一步一步创建一个复杂对象的创建型模式,它允许使用者在不知道内部建造细节的情况下&…

Java版企业电子招标采购系统源码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis

项目说明 随着公司的快速发展,企业人员和经营规模不断壮大,公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境,最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范,以及审…

【计算机】本科考研还是就业?

其实现在很多计算机专业的学生考研,也是无奈的选择 技术发展日新月异,而在本科阶段,大家学着落后的技术,出来找工作自然会碰壁。而且现在用人单位的门槛越来越高,学历默认研究生起步,面试一般都是三轮起步…

Linux 下安装Jupyter

pip3 install jupyter pip3 install ipython -------------------------------------------- pip3 install jupyterlab jupyter lab pip3 list | grep jupyterlab 启动: python3 -m jupyter lab 2.安装朱皮特 pip3 install -i https://pypi.douban.com/simpl…

安卓开发1- android stdio环境搭建

安卓开发1-android stdio环境搭建 Jdk环境搭建 1. 准备Jdk,这边已经准备好了jdk1.8.0,该文件直接使用即可 2. 系统变量添加 %JAVA_HOME%\bin JAVA_HOME 3. 系统变量,Path路径添加 4. 添加完成后,输入命令javac / java -version,验证环…

初学者如何使用QT新建一个包含UI界面的C++项目

文章目录 一、下载并安装QT51、下载安装包2、注册/登录账号3、安装qt6 二、新建QT Widget项目1、新建项目并且运行2、易错点:可能运行成功得到UI界面但是会报错(原因是使用了中文路径) 一、下载并安装QT5 1、下载安装包 进入下载网址 Windo…

DOM 创建节点、添加节点和删除节点

创建元素节点 document.createElement(‘标签名’) 创建文本节点document.createTextNode ( 内容 ) 根据传入的标签名创建出一个空的元素对象创建出来的默认不显示,要成为别人的子元素才能显示,所以要结合appendChild使用 添加节点(后面&am…

使用sunshine和moonlight实现远程游戏串流

过年回家想要打游戏,但是苦于家里没有电脑,又没办法把电脑搬回去,于是想到了使用串流的方式。 实现串流的软件有多种: moonlight。因为仅实现了 NVIDIA 的游戏串流协议,所以只支持 N 卡。Steam Link。支持 steam 的游…

Flutter Text 下划线

IntrinsicWidth(child: Column(mainAxisAlignment:MainAxisAlignment.center,children: [Text("工单名称",style: TextStyle(overflow: TextOverflow.fade,color: AppColors.baseColor,fontSize: 15.sp,// decorationStyle: TextDecorationStyle.dashed),),Container…

Win11系统安装安卓子系统教程

随着Win11系统的不断普及,以及硬件设备的更新换代,我相信很多同学都已经更新并使用到了最新的Win11系统。那么,Win11系统最受期待的功能“Windows Subsystem for Android”(简称WSA),即《安卓子系统》。他可…

【MATLAB】MVMD_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 MVMD_MFE_SVM_LSTM神经网络时序预测算法结合了多变量多尺度分解(MVMD)、多尺度特征提取(MFE)、支持向量机(SVM)和长…

(vue)复合型输入框el-input输入数字类型,e,+,-等特殊符号可以输入

(vue)复合型输入框el-input输入数字类型&#xff0c;e&#xff0c;&#xff0c;-等特殊符号可以输入 效果 代码 <el-form-item label"分数区间"><el-inputplaceholder"请输入内容"v-model.number"formInline.scoreIntervalValue"clas…

DolphinScheduler——奇富科技的调度实践

目录 一、技术架构 二、业务挑战 2.1 调度任务量大 2.2 运维复杂 2.3 SLA要求高 三、调度优化实践 3.1 重复调度 3.2 漏调度 3.3 Worker服务卡死 3.4 任务重复运行 四、服务监控 4.1 方法耗时监控 4.2 任务调度链路监控 五、用户收益 原文大佬的这篇调度系统案例…

excel 实现分组排序功能

我们经常会遇到按照分组进行排序&#xff0c;在excel如何实现呢&#xff1f; 如下列的数据&#xff0c;需要按照分组&#xff0c;将得分从高到底排名 我们可以使用如下的公式操作即可实现 SUMPRODUCT((A$2:A$15A2)*(C$2:C$15>C2))1

解读人工智能的理论基石

1956年的一个夏天&#xff0c;在达特茅斯学院的一个小会议室里&#xff0c;一群充满好奇和野心的年轻科学家聚集在一起&#xff0c;他们有一个共同的梦想&#xff1a;创造能够模仿人类智能的机器。这不仅仅是科幻小说的情节&#xff0c;更是人工智能历史上一个真实的起点。从那…

2023 re:Invent 用 Amazon Q 打造你的知识库

前言 随着 ChatGPT 的问世&#xff0c;我们迎来了许多创新和变革的机会。一年一度的亚马逊云科技大会 re:Invent 也带来了许多前言的技术&#xff0c;其中 Amazon CEO Adam Selipsky 在 2023 re:Invent 大会中介绍 Amazon Q 让我印象深刻&#xff0c;这预示着生成式 AI 的又一…

ABAP 发送带EXCEL邮件

前言 没啥特殊需求&#xff0c;就是有个库龄报表用户想整邮件发送 实现 用的最简单的XLS文件作为excel附件发送出去 观察XLS文件的纯文本格式&#xff0c;每列之间用TAB制表符分隔&#xff0c;每行之间用回车符分隔 思路也比较明确&#xff0c;在SAP中实现这种格式&#xf…

React之组件定义和事件处理

一、组件的分类 在react中&#xff0c;组件分为函数组件和class组件&#xff0c;也就是无状态组件和有状态组件。 * 更过时候我们应该区别使用无状态组件&#xff0c;因为如果有状态组件会触发生命周期所对应的一些函数 * 一旦触发他生命周期的函数&#xff0c;它就会影响当前项…
推荐文章