如何使用python爬取当当网所有Python书籍

发布时间：2022-01-13 15:11:24 阅读：203 作者：小新栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

小编给大家分享一下如何使用python爬取当当网所有Python书籍，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

1 确定爬取目标

任何网站皆可爬取，就看你要不要爬取而已。本次选取的爬取目标是当当网，爬取内容是以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示：

如何使用python爬取当当网所有Python书籍

本次爬取结果有三项：

图书的封面图片
图书的书名
图书的链接页面
最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知，每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析，再确定自己要获取的内容，再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址，为 urllib 发起请求提供入口地址。接下来，我们就一步步来确定请求地址。
搜索结果页面为 1 时，URL 地址如下：

如何使用python爬取当当网所有Python书籍

搜索结果页面为 3 时，URL 地址如下：

如何使用python爬取当当网所有Python书籍

搜索结果页面为 21 时，即最后一页，URL 地址如下：

如何使用python爬取当当网所有Python书籍

从上面的图片中，我们发现 URL 地址的差异就在于 page_index 的值，所以 URL 地址最终为 http://search.dangdang.com/?key=python&act=input&show=big&page_index=。而 page_index 的值，我们可以通过循环依次在地址后面添加。因此， urllib 请求代码可以这样写：

如何使用python爬取当当网所有Python书籍

2.2 确定爬取节点

有了 URL 地址，就能使用 urllib 获取到页面的 html 内容。到了这步，我们就需要找到爬取的节点的规则，以便于 BeautifulSoup 地解析。为了搞定这个问题，就要祭出大招 —— Chrome 浏览器的开发者功能（按下 F12 键就能启动）。我们按下 F12 键盘，依次对每本书进行元素检查（在页面使用鼠标右键，点击“检查”即可），具体结果如下：

如何使用python爬取当当网所有Python书籍

从上图可以得知解析规则：每本书的节点是一个 a 标签，a 标签具有 title，href，子标签 img 的 src 三个属性，这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动，感叹这不就是我们要感兴趣的内容吗？得到解析规则，编写BeautifulSoup 解析代码就有了思路，具体代码如下：

如何使用python爬取当当网所有Python书籍运行结果如下：

如何使用python爬取当当网所有Python书籍这证明刚才制定规则是正确爬取我们所需的内容。

2.3 保存爬取信息

我写爬虫程序有个习惯，就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大，我们可以用其做数据分析。我这里为了方便，就将数据保存到 csv 文件中。用 Python 将数据写到文件中，我们经常中文乱码问题所烦恼。如果单纯使用 csv 库，可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候，我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

如何使用python爬取当当网所有Python书籍

看到这里，你可能会问为什么不把编码指定为 gb2312 呢，这样用 ecxel 打开就不会乱码了？原因是当书名全部为英文单词时，使用 gb2312 编码，writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步：

1) 打开 Excel
2) 执行“数据”->“自文本”
3) 选择 CSV 文件，出现文本导入向导
4) 选择“分隔符号”，下一步
5) 勾选“逗号”，去掉“ Tab 键”，下一步，完成
6）在“导入数据”对话框里，直接点确定

3 爬取结果

最后，我们将上面代码整合起来即可。这里就不把代码贴出来了，具体阅读原文即可查看源代码。我就把爬取结果截下图：

以上是“如何使用python爬取当当网所有Python书籍”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

如何使用python爬取当当网所有Python书籍

1 确定爬取目标

2 爬取过程

2.1 确定 URL 地址

2.2 确定爬取节点

2.3 保存爬取信息

3 爬取结果

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签