学习java的正则表达式,抓取网页并解析HTML部分内容
package com.xiaofeng.picup; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /** *//** * * @抓取页面文章标题及内容(测试) 手动输入网址抓取,可进一步自动抓取整个页面的全部内容 * */ public class WebContent ...{ /** *//** * 读取一个网页全部内容 */ public String getOneHtml(String htmlurl) throws IOException...{ URL url; String temp; StringBuffer sb = new StringBuffer(); try ...{ url = new URL(htmlurl); BufferedReader in = new BufferedReader(new InputStreamReader(url .openStream(), "utf-8"));// 读取网页全部内容 while ((temp = in.readLine()) != null) ...{ sb.append(temp); } in.close(); }catch(MalformedURLException me)...{ System.out.println("你输入的URL格式有问题!请仔细输入"); me.getMessage(); throw me; }catch (IOException e) ...{ e.printStackTrace(); throw e; } return sb.toString(); } /** *//** * * @param s * @return 获得网页标题 */ public String getTitle(String s) ...{ String regex; String title = ""; List<String> list = new ArrayList<String>(); regex = "<title>.*?</title>"; Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } for (int i = 0; i < list.size(); i++) ...{ title = title + list.get(i); } return outTag(title); } /** *//** * * @param s * @return 获得链接 */ public List<String> getLink(String s) ...{ String regex; List<String> list = new ArrayList<String>(); regex = "<a[^>]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)</a>"; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得脚本代码 */ public List<String> getScript(String s) ...{ String regex; List<String> list = new ArrayList<String>(); regex = "<script.*?</script>"; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得CSS */ public List<String> getCSS(String s) ...{ String regex; List<String> list = new ArrayList<String>(); regex = "<style.*?</style>"; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 去掉标记 */ public String outTag(String s) ...{ return s.replaceAll("<.*?>", ""); }
Spring Quartz2 动态任务的实例详解 此处使用的是Quartz中SimpleScheduleBuilder...
图片来自 Pexels 当时用的 MySQL 数据库。根据监控,我们的每秒最高订单量已经达...
图像标签用于在网页里显示一副图像。 HTML/XHTML 图像 img / 标签 在 XHTML 中,...
在众多可用于简化 Node.js 开发的工具中,以下 9 种是最佳选择。 我最近在 Stack...
本文实例为大家分享了JavaScript实现手风琴效果的具体代码,供大家参考,具体内...
0x00 前言 在某些环境下,访问Web服务器的资源需要通过NTLM Over HTTP协议进行NT...
数据库访问权限问题 右击数据库文件-属性-安全-添加-高级-立即查找-IUSR_XXXX IW...
今天要分享的是 tcpdump,它是 Linux 系统中特别有用的网络工具,通常用于故障诊...
1、Cmder 下载地址: https://cmder.net/ Cmder是一个代替cmd的终端工具。只能操...
在《 嵌入式数据库sqlite3命令操作基础篇-增删改查,小白一文入门 》一文中讲解...