这篇文章主要介绍“python如何爬取豆瓣各分类书单”,在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python如何爬取豆瓣各分类书单”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
代码展示:
pachon2.5.py # -- coding: utf-8 --import urllibimport urllib2import reimport sysreload(sys)sys.setdefaultencoding('utf-8')class book: #豆瓣书籍的类 def init(self, types, page): self.baseUrl = 'http://www.douban.com/tag/' self.types = types self.filename = 'doubanbook.txt' self.page = page
def getContents(self): #爬取源代码 try: #if self.page == 0: url = self.baseUrl + self.types + '/book' #else: # url = self.baseUrl + self.types + '/book?start=' + str(self.page) user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36' headers = { 'User-Agent' : user_agent} request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read() #.decode('utf-8') pattern = re.compile('<a href=.*?class="title".*?target="_blank">(.*?)</a>.*?>(.*?)</div>',re.S) items = re.findall(pattern,content) return items except urllib2.URLError, e: if hasattr(e, "reason"): print u"豆瓣链接错误,错误原因", e.reason return Nonedef writetext(self, items): #写入txt for item in items: print item[0],item[1] files = open(self.filename,'a') files.write(item[0]) files.write(item[1]) files.write('\n') files.close()def strat(self): #启动函数 self.writetext(self.getContents()) print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个, doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,文件便会出现在桌面""" print u"结束输入 'O' , 联系作者输入 'A'" end = raw_input('>') if end == 'A': print u"QQ邮箱:1021644861@qq.com" raw_input('>') else: print "over"
到此,关于“python如何爬取豆瓣各分类书单”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4581260/blog/4574757