当前位置：主页 > 查看内容

使用正则表达式实现网页爬虫的思路详解

发布时间：2021-04-16 00:00| 有位朋友查看

简介：网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。思路： 1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。（部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：……

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。

思路：

1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。（部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：

在这里插入图片描述）

2.使用URL与网页建立联系
3.获取输入流，用于读取网页中的内容
4.建立正则规则，因为这里我们是爬去网页中的邮箱信息，所以建立匹配邮箱的正则表达式：String regex="\w+@\w+(\.\w+)+";
5.将提取到的数据放到集合中。

代码：

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/*
 * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据
 * 
 * 
 */
public class RegexDemo {
 public static void main(String[] args) throws Exception {
 
 List<String> list=getMailByWeb();
 for(String str:list){
 System.out.println(str);
 }
 
 }
 private static List<String> getMailByWeb() throws Exception {
 
 //1.与网页建立联系。使用URL
 String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义
 URL url=new URL(path);
 //2.获取输入流
 InputStream is=url.openStream();
 //加缓冲
 BufferedReader br=new BufferedReader(new InputStreamReader(is));
 //3.提取符合邮箱的数据
 String regex="\\w+@\\w+(\\.\\w+)+";
 //进行匹配
 //将正则规则封装成对象
 Pattern p=Pattern.compile(regex);
 //将提取到的数据放到一个集合中
 List<String> list=new ArrayList<String>();
 
 String line=null;
 while((line=br.readLine())!=null){
 //匹配器
 Matcher m=p.matcher(line);
 while(m.find()){
 //3.将符合规则的数据存储到集合中
 list.add(m.group());
 }
 }
 
 return list;
 }
}

注意:在执行前需要先开启tomcat服务器

运行结果：

在这里插入图片描述

总结

以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对站长技术网站的支持！

原文链接：https://m.jb51.net/article/152179.htm
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：浅谈正则速记法的技巧 下一篇：正则表达式实现手机号中间4位数隐藏或者只显示末尾四位数

推荐图文



产品经理面试——简历填写

网络编程

基于uni-app编写的登录模板，request请求封装，全局

网络编程

XML和JSP的联手

网络编程

详解ASP.NET Core3.0 配置的Options模式

网络编程

QQ经典说说大全：爱笑的男生不会差，逗你笑的男生更

网络编程

table中cesllspacing与cellpadding的区别详解

网络编程

周排行

月排行

总排行

1 使用时间序列数据库的案例

2 SpringCloud Alibaba实战之SpringCloud G

3 PHP isset empty函数相关面试题及解析

4 【JAVA程序设计】从HelloWorld开始

5 如何用SQL只统计工作日的数据？

6 Ajax原理与应用案例快速入门教程

7 php swoft框架实例用法

8 如何获知并显示文件的大小？

9 浅析mmdetection在windows10系统环境中搭

10 把数据转换成XML格式的好处

1 21 岁理工男开源的这个编辑器火遍全球附

2 Linux查看硬件信息超强命令sar，以及可视

3 Servlet实现文件上传的三种方法总结

4 git克隆远程仓库的指定分支方法(附常用gi

5 因存在诸多BUG 微软暂停Edge浏览器“启动

6 聊聊数据源集市建设的初步思路和规划

7 win10安装Anaconda+tensorflow2.0-CPU+Py

8 即刻报名 | Flutter Engage China 线上见

9 asp控制xml数据库的经典代码

10 js 执行上下文和作用域的相关总结

1 CKEditor/FCKEditor 使用FCKeditor 2.6.5

2 ASP.NET Core对Controller进行单元测试的

3 Linux 或将移除传统的 IDE 驱动支持

4 MySQL 8.0.23中复制架构从节点自动故障转

5 页面嵌入Windows Media Player播放器代码

6 从0到1部署一套TiDB本地集群

7 PHP连接MySQL数据库三种实现方法

8 JavaScript实现点击出现子菜单效果

9 经典语句心情：成长中，痛并快乐的日子叫

10 Windows 10 Version 1909五月停止支持微

随机推荐

AJAX+Servlet实现的数据处理显示功能示例

本文实例讲述了AJAX+Servlet实现的数据处理显示功能。分享给大家供大家参考，具...

关于CKeditor的非主流个性应用的设置

CKeditor，以前叫FCKeditor，已经使用过好多年了，功能自然没的说。最近升级到3....

OBLOG4.0 OBLOG4.5漏洞利用分析

来源：DeepenStudy 漏洞文件：js.asp % Dimoblog setoblog=newclass_sys oblog.a...

巧用Spt_Values解决SQL中的连续日期问题

本文转载自微信公众号「SQL数据库」，作者丶平凡世界。转载本文请联系开发公众...

.NET Core 处理 WebAPI JSON 返回烦人的n

前言项目开发中不管是前台还是后台都会遇到烦人的null，数据库表中字段允许空值...

深入了解MySQL主从复制的原理

本文转载自微信公众号「SH的全栈笔记」，作者SH。转载本文请联系SH的全栈笔记公...

面试官：能说一说MySQL缓存池吗？

大家好，我是狂聊君。今天来聊一聊 Mysql 缓存池原理。提纲附上，话不多说，直...

flex项目中server的名称修改方法探讨

问题：我们在做flex的开发中，如果用到别人搭建好的框架，而别人的server名称往...

flash 报错捕获(Catch All Exception in

在Flash Player 10.1及以上版本中，adobe新增了全局错误处理程序UncaughtErrorEv...

最新IntelliJ IDEA 2020.2永久激活码(亲

idea官方推送了2020.2.4版本的更新，那么大家最关心的问题来了，之前激活idea202...

使用正则表达式实现网页爬虫的思路详解

推荐图文

随机推荐

关于我们