当前位置：主页 > 查看内容

Java用正则表达式如何读取网页内容

发布时间：2021-05-12 00:00| 有位朋友查看

简介：学习java的正则表达式，抓取网页并解析HTML部分内容 package com.xiaofeng.picup;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.uti……

学习java的正则表达式，抓取网页并解析HTML部分内容

package com.xiaofeng.picup;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/** *//**
*
* @抓取页面文章标题及内容（测试） 手动输入网址抓取，可进一步自动抓取整个页面的全部内容
*
*/
public class WebContent ...{
  /** *//**
   * 读取一个网页全部内容
   */
  public String getOneHtml(String htmlurl) throws IOException...{
    URL url;
    String temp;
    StringBuffer sb = new StringBuffer();
    try ...{
      url = new URL(htmlurl);
      BufferedReader in = new BufferedReader(new InputStreamReader(url
          .openStream(), "utf-8"));// 读取网页全部内容
      while ((temp = in.readLine()) != null) ...{
        sb.append(temp);
      }
      in.close();
    }catch(MalformedURLException me)...{
      System.out.println("你输入的URL格式有问题！请仔细输入");
      me.getMessage();
      throw me;
    }catch (IOException e) ...{
      e.printStackTrace();
      throw e;
    }
    return sb.toString();
  }
  /** *//**
   *
   * @param s
   * @return 获得网页标题
   */
  public String getTitle(String s) ...{
    String regex;
    String title = "";
    List<String> list = new ArrayList<String>();
    regex = "<title>.*?</title>";
    Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    for (int i = 0; i < list.size(); i++) ...{
      title = title + list.get(i);
    }
    return outTag(title);
  }
  /** *//**
   *
   * @param s
   * @return 获得链接
   */
  public List<String> getLink(String s) ...{
    String regex;
    List<String> list = new ArrayList<String>();
    regex = "<a[^>]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)</a>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 获得脚本代码
   */
  public List<String> getScript(String s) ...{
    String regex;
    List<String> list = new ArrayList<String>();
    regex = "<script.*?</script>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 获得CSS
   */
  public List<String> getCSS(String s) ...{
    String regex;
    List<String> list = new ArrayList<String>();
    regex = "<style.*?</style>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 去掉标记
   */
  public String outTag(String s) ...{
    return s.replaceAll("<.*?>", "");
  }

原文链接：https://m.jb51.net/article/73977.htm
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：日常收集整理php正则表达式(超常用) 下一篇：没有了

推荐图文



今天遇到了很奇葩的li a的点击问题自己解决的

网络编程

第二章初识C语言常量

网络编程

如何在 Vue 表单中处理图片

网络编程

Spring5-idea版学习

网络编程

kubernetes、docker原理分析

网络编程

JSP中使用JDBC连接MySQL数据库的详细步骤

网络编程

周排行

月排行

总排行

1 糟了，生产环境MySQL主从数据库不一致怎

2 ASP.NET Core中实现全局异常拦截的完整步

3 Quoted-printable 编码介绍、Quoted-prin

4 微软发布 Windows 10 预览补丁：修复可损

5 深入解析HTML的table表格标签与相关的换

6 如何重写Laravel异常处理类详解

7 JavaScript常用的几种字符串方法

8 asp中实现清除html的函数

9 vue使用vue-quill-editor富文本编辑器且

10 jsp登陆校验演示 servlet、login、succes

1 代码块高亮可复制显示js插件highlight.js

2 .net core高吞吐远程方法如何调用组件XRP

3 ASP上传漏洞之利用CHR(0)绕过扩展名检测

4 20个MySQL高性能架构设计原则（收藏版）

5 HTML中head头结构

6 基于腾讯轻量服务器安装Aria2+AriaNg+Ngi

7 得到XML文档大小的方法

8 用这八个命令，可修复Windows 10上的几乎

9 Ajax 框架之SSM整合框架实现ajax校验

10 半小时精通正则表达式-精华版

1 Vue 3 不再支持 IE11

2 JSP实用教程之简易文件上传组件的实现方

3 PHP替换Word中变量并导出PDF图片的实现方

4 如何实现全文检索？

5 jsp实现仿QQ空间新建多个相册名称并向相

6 深入浅解正则表达式在Java中的使用

7 跟你聊聊MySQL安全的那些事

8 浅析git 删除某次指定的提交问题

9 Asp Conn.execute的参数与返回值总结

10 Ajax post请求跳转页面

随机推荐

Spring Quartz2 动态任务的实例详解

Spring Quartz2 动态任务的实例详解此处使用的是Quartz中SimpleScheduleBuilder...

进来抄作业：一次完美的分库分表实践！

图片来自 Pexels 当时用的 MySQL 数据库。根据监控，我们的每秒最高订单量已经达...

详解HTML/XHTML中img图像标签的基本用法

图像标签用于在网页里显示一副图像。 HTML/XHTML 图像 img / 标签在 XHTML 中，...

9 个 Node.js 开发人员喜欢的开源工具

在众多可用于简化 Node.js 开发的工具中，以下 9 种是最佳选择。我最近在 Stack...

JavaScript实现手风琴效果

本文实例为大家分享了JavaScript实现手风琴效果的具体代码，供大家参考，具体内...

渗透基础-支持NTLM Over HTTP协议的Websh

0x00 前言在某些环境下，访问Web服务器的资源需要通过NTLM Over HTTP协议进行NT...

asp操作access提示无法从指定的数据表中

数据库访问权限问题右击数据库文件-属性-安全-添加-高级-立即查找-IUSR_XXXX IW...

Linux网络分析必备技能：tcpdump实战详解

今天要分享的是 tcpdump，它是 Linux 系统中特别有用的网络工具，通常用于故障诊...

推荐7款好用的终端工具

1、Cmder 下载地址： https://cmder.net/ Cmder是一个代替cmd的终端工具。只能操...

嵌入式数据库Sqlite3【进阶篇】-子句和函

在《嵌入式数据库sqlite3命令操作基础篇-增删改查，小白一文入门》一文中讲解...

Java用正则表达式如何读取网页内容

推荐图文

随机推荐

关于我们