Java如何使用httpRequest+Jsoup爬取红蓝球号码

发布时间：2021-07-02 09:38:21 阅读：167 作者：小新栏目：开发技术

小编给大家分享一下Java如何使用httpRequest+Jsoup爬取红蓝球号码，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

1、Jsoup介绍

1.1、简介

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

1.2、Jsoup的主要功能

1、从一个URL，文件或字符串中解析HTML
2、使用DOM或CSS选择器来查找、取出数据
3、可操作HTML元素、属性、文本
注意：jsoup是基于MIT协议发布的，可放心使用于商业项目。

2、源网站及页面元素分析

2.1、号码源

首先，这里我选择近年来比较稳定的数据源地址【某网站】截图如下

Java如何使用httpRequest+Jsoup爬取红蓝球号码

2.2、dom元素分析

2.2.1、开奖号码主体分析

先打开开发者工具，找到每条开奖号码对应的dom元素

可以看到每一期号码信息主体在一个<tr>标签中，其中第一个<td>是开奖日期，第二个<td>是开奖期号，第三个<td>是开奖号码，每个奖号是单独的标签,红球的class=rr，篮球没有设置样式

<tr>
          <td align="center">2021-06-13</td>
          <td align="center">2021065</td>
          <td align="center" >          
          <em class="rr">01</em>          
          <em class="rr">04</em>          
          <em class="rr">08</em>          
          <em class="rr">19</em>          
          <em class="rr">29</em>          
          <em class="rr">33</em>                    
          <em>16</em></td>
          <td><strong>362,527,724</strong></td>
          <td align="left" ><strong>3</strong></td>
          <td align="center"><strong class="rc">82</strong></td>
          <td align="center">
              <a href="http://www.zhcw.com/ssq/kjgg/" rel="external nofollow"  target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg" width="16" height="16" align="absmiddle" title="详细信息"></a>
              <a href="http://www.zhcw.com/video/kaijiangshipin/" rel="external nofollow"  target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg" width="16" height="16" align="absmiddle" title="开奖视频"></a>
          </td>
        </tr>

2.2.2、页码区域分析

由于我们爬取数据的时候，需要进行翻页操作，所以这里还需要分析翻页部分的内容，继续在开发者工具中，定位页码区域

Java如何使用httpRequest+Jsoup爬取红蓝球号码

可以看到页码部分是<tbody>中的最后一个<tr>中，翻页操作的内容再class=pg的 <p> 标签中
可以拆分为多个<storage>标签数组,可以分析得出翻页链接的规律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=页码
或
/zhcw/html/ssq/list_页码.html

元素	含义
0	总页数
1	总记录数
2	第一页的连接
3	上一页的链接
4	下一页的链接
5	最后一页的连接
6	当前页数

<tr>
    <td colspan="7" align="center" >
        <p class="zhu"></p>
        <p class="pg">
            共<strong>136</strong> 页 /<strong>2709 </strong>条记录 
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末页</a></strong>
            当前第<strong> 1 </strong>页</p>
     </td>
 </tr>

3、代码实现

maven引用，这里使用的是Jsoup1.13.1版本

  <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.13.1</version>
  </dependency>

这使用的是基于jeecg开发的Job，搭建过程不赘述了，直接看主体代码。

 public void execute(JobExecutionContext arg0) throws JobExecutionException {
  Integer maxPage=getMaxPage();//获取总页数
  for(int pageNo=0;pageNo<maxPage;pageNo++){//循环处理每一页的数据
   String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼访问地址
      String strDateFormat = "yyyy-MM-dd";
         SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
   String html = JwtHttpUtil.httpRequest(url, "GET",null);//访问对应的页面
   Document doc =  Jsoup.parse(html);//用Jsoup解析页面内容并且解析为Document
   Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table标签的class，这里获取到开奖号码的table的内容并且解析为Document
   Elements trs= doc1.getElementsByTag("tr");//根据tag获取到所有的tr标签，这里获取到的是一个Element数组
   logger.info("当前页码---"+(pageNo+1)+"----"+trs.size());
   for(int i=2;i<trs.size()-1;i++){//这里是根据页面内容确定开奖内容是从第三个tr开始到倒数第二个tr结束，最后一个tr是翻页按钮
    try {
     Elements tds=trs.get(i).getElementsByTag("td");
     String kjrq=tds.get(0).text();
     String kjqh=tds.get(1).text();
     //这里是为了防止重复拉取，所以做了判断，如果已存在当前期的奖号，就直接跳过
     Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
     //下面的内容很容易理解，就是可以对照页面分析部分内容看，就不赘述了
     if(count>0)break;
     LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
        Elements kjhm=tds.get(2).getElementsByTag("em");
     kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
     kjhmEntiry.setSsqKjqh(kjqh);
        kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
        kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
        kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
        kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
        kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
        kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
        kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
        lotterySsqKjjlService.save(kjhmEntiry);
    } catch (ParseException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    } catch (Exception e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    }
   }
  }
  
 }
 
 private Integer getMaxPage(){
  String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
  String html = JwtHttpUtil.httpRequest(url, "GET",null);
  Document doc =  Jsoup.parse(html);
  Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
  Elements elePageBar = docPageBar.getElementsByTag("strong");
  Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
  return maxPageNo;
 }

以下是执行完成的部分数据截图

Java如何使用httpRequest+Jsoup爬取红蓝球号码

拉取到基础数据后，我们可以再写一个job，去计算出每期开奖号码的指标，可以进行奖号分析，预测等。
这里简单实现了部分分析指标的计算，以下是主体代码。

 public void run(){
  List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
  for(int i=0;i<list.size();i++){
   LotterySsqKjjlEntity kjjg=list.get(i);
   logger.info("正在处理:"+kjjg.getSsqKjqh());
   kjjg.setSsqMin(kjjg.getSsqR1());//最小号
   kjjg.setSsqMax(kjjg.getSsqR6());//最大号
   kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//号码跨度
   kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇数个数
   kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶数个数
   kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//号码和
   lotterySsqKjjlService.updateEntitie(kjjg);
   
  }
  logger.info("结果数据条数"+list.size());
 }
 /**
  * 
  * @param kjjg
  * @param opType jsgs=奇数个数
  * @return
  */
 private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
  List<Integer> t =new ArrayList<Integer>();
  t.add(kjjg.getSsqR1());
  t.add(kjjg.getSsqR2());
  t.add(kjjg.getSsqR3());
  t.add(kjjg.getSsqR4());
  t.add(kjjg.getSsqR5());
  t.add(kjjg.getSsqR6());
  Integer result=0;
  switch (opType) {
  case "jsCnt":
  case "osCnt":
   int jsgs=0;
   int osgs=0;
   for(int i=0;i<t.size();i++){
    if(t.get(i)%2==0){
     osgs++;
    }else{
     jsgs++;
    }
   }
   if("jsCnt".equals(opType)){
    result=jsgs;
   }else{
    result=osgs;
   }
   break;
  case "sum":
   int sum=0;
   for(int i=0;i<t.size();i++){
    sum+=t.get(i);
   }
   result=sum;
   break;
  default:
   break;
  }
  return result;
 }

至此，这个简单的爬虫就写完了，可以利用爬过来的这些基础数据，进行一些数据分析，预测。

看完了这篇文章，相信你对“Java如何使用httpRequest+Jsoup爬取红蓝球号码”有了一定的了解，如果想了解更多相关知识，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

向AI问一下细节

Java如何使用httpRequest+Jsoup爬取红蓝球号码

1、Jsoup介绍

1.1、简介

1.2、Jsoup的主要功能

2、源网站及页面元素分析

2.1、号码源

2.2、dom元素分析

3、代码实现

猜你喜欢

最新资讯

相关推荐

相关标签