温馨提示×

php htmlparser怎样提取内容

PHP
小樊
82
2024-10-17 03:08:33
栏目: 编程语言

在PHP中,可以使用HTML解析器库,如simplehtmldomphpQuery,来提取HTML文档中的内容。这里以simplehtmldom为例,说明如何提取内容:

  1. 首先,通过Composer安装simplehtmldom库:
composer require "simplehtmldom/simple-html-dom"
  1. 创建一个PHP文件,如extract_content.php,并引入Composer库:
require_once 'vendor/autoload.php';
  1. 使用simplehtmldom解析HTML文档并提取内容:
<?php
// 引入Composer库
require_once 'vendor/autoload.php';

// 引入simplehtmldom命名空间
use simplehtmldom\HtmlWeb;
use simplehtmldom\HtmlNode;

// 创建一个HtmlWeb对象
$web = new HtmlWeb();

// 获取HTML文档
$html = $web->load('https://example.com'); // 将example.com替换为要提取内容的网站URL

// 获取第一个body标签
$body = $html->find('body', 0);

// 提取所有段落标签(p)的内容
$paragraphs = $body->find('p');

// 遍历所有段落并输出内容
foreach ($paragraphs as $p) {
    echo $p->innertext . PHP_EOL;
}

运行extract_content.php文件,将提取指定网页上的所有段落(p)标签的内容并输出。根据需要,可以修改代码以提取其他标签或属性。更多关于simplehtmldom库的信息和用法,请参阅官方文档:https://simplehtmldom.sourceforge.io/manual.htm

0