对于爬虫的学习

news/发布时间2024/9/20 6:01:40

本地爬取

package MyApi.a08regexdemo;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class RegexDemo03 {public static void main(String[] args) {//要求:找出里面所有javaxxString str="Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +"相信在不久的未来Java17也会逐渐登上历史舞台";//   method1(str);//1.获取正则表达式的对象Pattern pattern = Pattern.compile("Java\\d{0,2}");//2.获取文本匹配器的对象Matcher m  = pattern.matcher(str);//3.利用循环获取while(m.find()){String s=m.group();System.out.println(s);}}private static void method1(String str) {//获取正则表达式的对象Pattern pattern = Pattern.compile("Java\\d{0,2}");//获取文本匹配器的对象Matcher m  = pattern.matcher(str);//拿着文本匹配器从头开始读取,寻找是否有满足规则的字串//如果没有,方法返回false//如果有,返回true,在底层记录字串的起始索引和结束索引+1boolean b = m.find();//方法底层会根据find方法记录的索引进行字符串的截取//subString(起始索引,结束索引):包头不包尾//会把截取的小串进行返回String s1=    m.group();System.out.println(s1);//第二次调用find的时候,会继续读取后面的内容//读取到第二个满足要求的字串,方法会继续返回true//并把第二个字串的起始索引和结束索引+1,进行记录boolean b1 = m.find();String s2=m.group();System.out.println(s2);}
}

网络爬取

package MyApi.a08regexdemo;import javax.print.DocFlavor;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class RegexDemo04 {public static void main(String[] args) {/*需求:把连接:http://m.sengzan.com/jiaoyu/29104.html?ivk_sa=105883i中的所有身份证号码都爬取出来* *///创建一个url对象URL url=new URL("http://m.sengzan.com/jiaoyu/29104.html?ivk_sa=105883i");//连接上这个网址URLConnection conn=url.openConnection();//创建一个对象去读取网络中的数据BufferedReader br=new BufferedReader(new InputStreamReader(conn.getInputStream())) ;String line;//获取正则表达式对象String regex="[1-9]\\d{17}";Pattern pattern=Pattern.compile(regex);while((line=br.readLine())!=null){Matcher matcher=pattern.matcher(line);while(matcher.find()){System.out.println(matcher.group());}}br.close();}
}
package MyApi.a08regexdemo;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Regexdemoo5 {public static void main(String[] args) {/** 需求:把下面的文本中的座机号码,邮箱,手机号,热线都爬取出来* 来黑马程序员学习Java* 手机号: 18512516758,18512508907* 或者联系邮箱:boniu@itcast.cn,* 座机电话:01036517895,010-9895256* 邮箱:boniu@itcast.cn,* 热线电话:400-618-9090,400-618-4000,4006184000,4006189090 */String s="来黑马程序员学习Java" +"手机号: 18512516758,18512508907" +"或者联系邮箱:boniu@itcast.cn," +"座机电话:01036517895,010-9895256" +"邮箱:boniu@itcast.cn," +"热线电话:400-618-9090,400-618-4000,4006184000,4006189090";String regex1="1[3-9]\\d{9}|(\\w+@[\\w&&[^_]]{2,6}(\\.[a-zA-Z]{2,3}){1,2})"+"|(0\\d{2,3-?[1-9]\\d{4,9})|" +"(400-?[1-9]\\d{2}-?[1-9]\\d{3})";Pattern pattern=Pattern.compile("regex1");Matcher m = pattern.matcher(s);while(m.find()){String str=    m.group();System.out.println(str);}}
}

package MyApi.a08regexdemo;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Regexdemo06 {public static void main(String[] args) {String str="java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +"相信在不久的未来Java17也会逐渐登上历史舞台";//需求1String regex1="((?i)Java)(?=8|11|17)";
//需求2String regex2="((?i)Java)(8|11|17)";String regex3="((?i)Java)(?:8|11|17)";//需求3String regex4="((?i)Java)(?!8|11|17)";Pattern pattern=Pattern.compile(regex4);Matcher matcher = pattern.matcher(str);while(matcher.find()){String s=matcher.group();System.out.println(s);}}
}

贪婪爬取和非贪婪爬取

package MyApi.a08regexdemo;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Regexdemo07 {public static void main(String[] args) {String str="Java自从95年问世以来abbbbbbbbbbbbaaaaaaaaaaaaaaaaaa,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +"相信在不久的未来Java17也会逐渐登上历史舞台";/** 贪婪爬取:在爬取数据的时候尽可能的多获取数据* 非贪婪爬取:在爬取数据的时候尽可能的少获取数据* java当中默认是贪婪爬取* 如果我们在数量词+ * 的后面加上问号,那么此时就是非贪婪爬取*///需求1String regex="ab+";//需求2String regex1="ab+?";Pattern pattern=Pattern.compile(regex);Matcher matcher = pattern.matcher(str);while(matcher.find()){System.out.println(matcher.group());}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/gVvL/10377.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

UE4c++ 材质功能大全(想起来就补充一个)

前言:才想起写一个这个文档,前期内容较少,其他内容,我也只会想起来加一加! 材质功能大全 竖直百分比进度HSV To RGBRGB转灰度值AlphaComosote(Premultiplied Alpha)预乘 转 Translucent (sRGB与…

网络协议栈和os的关系(网络协议栈和计算机体系结构图相结合),用户如何从网络获取数据+本质,简述网络通信的本质

目录 网络协议栈和os的关系 思考联系 实际 用户从网络获取数据的过程 本质 如何获取 -- 系统调用 图示 不同的os 网络通信的本质 两台主机通信流程 网络协议栈和os的关系 思考联系 网络协议栈涵盖了硬件和软件,而os正是管理软硬件资源的中枢 os是计算机体系结构的一…

sqlserver保存微信Emoji表情

首先将数据库字段,设置类型为 nvarchar(200)一个emoji表情,占4字节就可以了,web前端展示不用改任何东西,直接提交数据保存;回显也会没有问题,C#代码不用做任何处理; 不哭不闹要睡觉&#x1f31…

AWS 认证报名考试流程

AWS认证的考试包括,可以申请线上或者线下考试。 考试类型 线上: 优点:方便快捷无需通勤,随时约随时考,基本上每天都可以 缺点:对环境要求较高,屋子里只能有自己,而且不能有其他声音…

WordPress分类目录ID怎么看?如何查找WordPress标签ID?

在WordPress网站中,我们需要判断某篇文章是否属于某个分类目录,或者是否拥有某个标签,那么就需要用到分类目录ID和标签ID,那么WordPress分类目录ID怎么看?如何查找WordPress标签ID?下面boke112百科就跟大家…

Java基于springboot的厨艺交流平台的设计与实现代码

摘 要 使用旧方法对厨艺交流信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在厨艺交流信息的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。 这次开发的厨艺交流平台功…

Office/WPS 好用的PPT插件-智能选择布局

软件介绍 PPT大珩助手是一款全新设计的Office PPT插件,它是一款功能强大且实用的PPT辅助工具,能够轻松帮助您修改、优化和管理幻灯片。凭借丰富的功能和用户友好的界面,PPT大珩助手能够助力您打造出精美而专业的演示文稿。我们致力于为用户提…

如何利用Flutter来写后端 服务端应用

前言 Flutter是谷歌推出的一款跨平台开发框架,现在属于此领域star最多的框架,其被广泛应用于构建前台界面,但或许很少人知道,他也可以写后端应用。 本文主角 flutter非常著名的getx库推出的get server jonataslaw/get_server:…

idea使用maven创建springboot项目

按照图片中的流程来,就可以创建springboot项目,我这个主要是想做一个JavaWeb项目 有用的话,点个小赞赞再走呀~

【STM32】江科大STM32学习笔记汇总(50)

00. 目录 文章目录 00. 目录01. STM32学习笔记汇总02. 相关资料下载03. 附录 01. STM32学习笔记汇总 【STM32】STM32学习笔记-课程简介(01) 【STM32】STM32学习笔记-STM32简介(02) 【STM32】STM32学习笔记-软件安装(03) 【STM32】STM32学习笔记-新建工程(04) 【STM32】STM…

day08_分类品牌管理商品规格管理商品管理

文章目录 1 分类品牌管理1.1 菜单添加1.2 表结构介绍1.3 页面制作1.4 品牌列表加载1.4.1 后端接口BrandControllerBrandServiceBrandMapperBrandMapper.xml 1.4.2 前端对接brand.jscategoryBrand.vue 1.5 分类数据加载1.6 列表查询1.6.1 需求说明1.6.2 后端接口需求分析Categor…

亿道信息轻工业三防EM-T195,零售、制造、仓储一网打尽

厚度仅10.5mm,重量仅0.65千克的EM-T195,其紧凑而纤薄的设计为以往加固型平板带来了全新的轻薄概念。尽管设计时尚、轻薄,但经过军用认证的强固性仍然能够承受所有具有挑战性的环境条件。随身携带无负担的轻便性加上抗震功能使其成为餐厅、酒店…

人脸识别技术应用哪些地方?

人脸识别技术,作为现代科技的一大突破,已经在众多领域找到了应用之地。从公共安全到商业营销,从医疗健康到教育娱乐,人脸识别技术以其独特的优势,正在逐渐改变我们的生活方式。 在公共安全领域,人脸识别技术…

鸿蒙 渲染控制

前提:基于官网3.1/4.0文档。参考官网文档 基于Android开发体系来进行比较和思考。(或有偏颇,自行斟酌) 1.概念 ArkUI通过自定义组件的build()函数和builder装饰器中的声明式UI描述语句构建相应的UI。在声明式描述语句中开发者除了…

npm与包

包 包的概念 Node.js中的第三方模块又叫做包。包的来源 由第三方个人或团队开发出来的,免费提供给所有人使用。为什么需要包 由于Node.js内置模块仅提供了一些底层的API,导致在基于内置模块进行项目开发时,效率很低。包是基于内置模块封装出…

Vue.js的双向绑定原理

Vue的双向绑定 vue双向绑定是其最重要的核心亮点,其原理也很简单,这里做个简单总结 vue2的双向绑定是利用的Object.definePropertyvue3的双向绑定是利用的 ES6Porxy中的defineProperty(target, propKey, propDesc 其作用类似于Object.defineProperty …

【脑切片图像分割】MATLAB 图像处理 源码

1. 简单图像处理 加载图像 Brain.jpg,使用直方图和颜色分割成区域这些区域有不同的颜色。 这是一个更高级的问题,有多个解决它的方法。 例如,您可以计算具有特定数字的图像的直方图(例如 16 - 32),找到直方…

在 Rust 中实现 TCP : 1. 联通内核与用户空间的桥梁

内核-用户空间鸿沟 构建自己的 TCP栈是一项极具挑战的任务。通常,当用户空间应用程序需要互联网连接时,它们会调用操作系统内核提供的高级 API。这些 API 帮助应用程序 连接网络创建、发送和接收数据,从而消除了直接处理原始数据包的复杂性。…

SpringBoot底层原理

SpringBoot底层原理 一 配置优先级 1.配置方式 Springboot中支持三种配置方式,分别为: application.propertiesapplication.ymlapplication.yaml 2.配置优先级 当存在多份配置文件时,配置文件会按照它们的优先级生效。 优先级从高到底…

uniapp 编译微信小程序的离谱报错

上图: 如图所示:在同一个元素上同时出现了 wx:if 和 wx:else 就很离谱
推荐文章