小编给大家分享一下python爬虫采集知乎后怎么输出内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
数据包括回答的问题标题,回答的url,回答的内容文本,获赞数,发布时间及数据采集时间。
爬虫的功能分为以下4个部分:
采用 selenium 启动无头浏览器
爬取用户回答列表页的标题与url
爬取每个回答的内容、发布时间与获赞数
把爬取到的数据用表格文件保存
代码如下:
"""采用 python selenium 无头浏览器,爬取单个用户的所有回答数据并保存为表格文件。""" from time import sleep from datetime import datetime from selenium import webdriver from selenium.webdriver.chrome.options import Options import pandas as pd def start_driver(): chrome_options = Options() chrome_options.add_argument("--headless") chrome_options.add_argument("--disable-gpu") driver = webdriver.Chrome(options=chrome_options) return driver def get_answers_url(driver,url): driver.get(url) sleep(2) rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h3/div/a') answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts] return answers def get_answers_text(driver,url): driver.get(url) sleep(2) rlt = driver.find_element_by_class_name('RichContent-inner') content = rlt.text rlt = driver.find_element_by_class_name("ContentItem-time") date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip") rlt = driver.find_element_by_class_name("ContentItem-actions") upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label") return [content,date,upvote] driver = start_driver() url = "https://www.zhihu.com/people/haili-9-70/answers" answers = get_answers_url(driver,url) answers_dict = {} for i in range(len(answers)): answers_dict[i] = {} answers_dict[i]["title"] = answers[i][0] answers_dict[i]["url"] = answers[i][1] answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0] answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1] answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2] answers_dict[i]["timestamp"] = str(datetime.now())[:-7] df = pd.DataFrame(answers_dict).T file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv" df.to_csv(file)
这个脚本适合备份自己的回答数据。
效果展示:
以上是python爬虫采集知乎后怎么输出内容的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。