怎么使用python提取chrome浏览器的历史记录及收藏夹

发布时间：2022-02-09 16:42:39 阅读：417 作者：iii 栏目：开发技术

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

# 怎么使用Python提取Chrome浏览器的历史记录及收藏夹

## 引言

在日常使用浏览器时，我们会积累大量的历史记录和收藏夹数据。这些数据不仅反映了我们的浏览习惯，还可能包含重要的工作或学习资料。本文将详细介绍如何使用Python提取Chrome浏览器的历史记录和收藏夹数据，并对其进行处理和分析。

## 准备工作

### 1. 安装必要的Python库

我们需要安装以下几个Python库：

```bash
pip install sqlite3
pip install pandas
pip install pywin32  # Windows系统需要
pip install pyobjc  # macOS系统需要

2. 定位Chrome数据文件位置

Chrome浏览器的历史记录和收藏夹数据存储在SQLite数据库中，不同操作系统的存储位置如下：

Windows:

C:\Users\<用户名>\AppData\Local\Google\Chrome\User Data\Default

macOS:

/Users/<用户名>/Library/Application Support/Google/Chrome/Default

Linux:

/home/<用户名>/.config/google-chrome/Default

主要关注以下两个文件： - History：包含浏览历史记录 - Bookmarks：收藏夹数据（JSON格式）

提取Chrome历史记录

1. 连接SQLite数据库

Chrome的历史记录存储在SQLite数据库中，我们可以使用Python的sqlite3模块来访问：

import sqlite3
import pandas as pd

# Chrome历史记录文件路径
history_path = "C:\\Users\\<用户名>\\AppData\\Local\\Google\\Chrome\\User Data\\Default\\History"

# 复制文件以避免锁定问题
import shutil
import os

temp_path = "temp_history"
shutil.copy2(history_path, temp_path)

# 连接数据库
conn = sqlite3.connect(temp_path)
cursor = conn.cursor()

2. 查询浏览历史

历史记录主要存储在urls表中：

# 执行查询
cursor.execute("SELECT title, url, last_visit_time FROM urls ORDER BY last_visit_time DESC")

# 获取结果
history = cursor.fetchall()

# 转换为DataFrame
history_df = pd.DataFrame(history, columns=["标题", "URL", "最后访问时间"])

# 关闭连接
conn.close()
os.remove(temp_path)  # 删除临时文件

3. 处理时间戳

Chrome使用特殊的时间格式（1601年1月1日以来的微秒数），需要转换：

def chrome_time_to_datetime(chrometime):
    return pd.to_datetime(chrometime/1e6 - 11644473600, unit='s')

history_df["访问时间"] = history_df["最后访问时间"].apply(chrome_time_to_datetime)
history_df.drop("最后访问时间", axis=1, inplace=True)

4. 保存历史记录

history_df.to_csv("chrome_history.csv", index=False, encoding='utf-8-sig')

提取Chrome收藏夹

1. 解析收藏夹文件

Chrome的收藏夹存储为JSON格式：

import json

bookmarks_path = "C:\\Users\\<用户名>\\AppData\\Local\\Google\\Chrome\\User Data\\Default\\Bookmarks"

with open(bookmarks_path, "r", encoding="utf-8") as f:
    bookmarks_data = json.load(f)

2. 递归提取收藏夹数据

收藏夹采用树形结构存储，我们需要递归遍历：

def extract_bookmarks(bookmark_item, folder_path=""):
    bookmarks = []
    
    if "children" in bookmark_item:
        # 这是一个文件夹
        new_folder = f"{folder_path}/{bookmark_item['name']}"
        for child in bookmark_item["children"]:
            bookmarks.extend(extract_bookmarks(child, new_folder))
    elif "url" in bookmark_item:
        # 这是一个书签
        bookmarks.append({
            "标题": bookmark_item["name"],
            "URL": bookmark_item["url"],
            "文件夹路径": folder_path,
            "添加日期": pd.to_datetime(bookmark_item.get("date_added", 0)/1e6 - 11644473600, 
            unit='s') if "date_added" in bookmark_item else None
        })
    
    return bookmarks

# 提取所有书签
all_bookmarks = []
for root in ["bookmark_bar", "other", "synced"]:
    if root in bookmarks_data["roots"]:
        all_bookmarks.extend(extract_bookmarks(bookmarks_data["roots"][root]))

3. 保存收藏夹数据

bookmarks_df = pd.DataFrame(all_bookmarks)
bookmarks_df.to_csv("chrome_bookmarks.csv", index=False, encoding='utf-8-sig')

高级应用

1. 分析浏览习惯

# 按小时分析浏览习惯
history_df["小时"] = history_df["访问时间"].dt.hour
hourly_activity = history_df["小时"].value_counts().sort_index()

# 绘制图表
import matplotlib.pyplot as plt

hourly_activity.plot(kind="bar")
plt.title("按小时分布的浏览活动")
plt.xlabel("小时")
plt.ylabel("访问次数")
plt.savefig("hourly_activity.png")

2. 网站访问频率统计

# 提取域名
import urllib.parse

def extract_domain(url):
    try:
        return urllib.parse.urlparse(url).netloc
    except:
        return None

history_df["域名"] = history_df["URL"].apply(extract_domain)
top_domains = history_df["域名"].value_counts().head(20)

top_domains.plot(kind="barh")
plt.title("访问最频繁的网站")
plt.savefig("top_domains.png")

3. 收藏夹整理建议

# 找出重复收藏的URL
duplicate_urls = bookmarks_df[bookmarks_df.duplicated("URL", keep=False)]
duplicate_urls.to_csv("duplicate_bookmarks.csv", index=False)

跨平台兼容性处理

1. 自动检测操作系统

import platform

def get_chrome_data_path():
    system = platform.system()
    username = os.getlogin()
    
    if system == "Windows":
        return f"C:\\Users\\{username}\\AppData\\Local\\Google\\Chrome\\User Data\\Default"
    elif system == "Darwin":  # macOS
        return f"/Users/{username}/Library/Application Support/Google/Chrome/Default"
    elif system == "Linux":
        return f"/home/{username}/.config/google-chrome/Default"
    else:
        raise Exception("Unsupported operating system")

2. 处理Chrome进程锁定问题

def get_chrome_history():
    data_path = get_chrome_data_path()
    history_path = os.path.join(data_path, "History")
    
    try:
        # 直接尝试连接
        return sqlite3.connect(history_path)
    except sqlite3.OperationalError:
        # 如果失败，尝试复制文件
        temp_path = "temp_history"
        shutil.copy2(history_path, temp_path)
        return sqlite3.connect(temp_path)

安全与隐私考虑

数据加密：Chrome可能对某些敏感数据进行加密，需要额外处理
用户权限：确保有权限访问相关文件
数据使用：提取的数据应妥善保管，避免隐私泄露

完整代码示例

# chrome_data_extractor.py

import sqlite3
import pandas as pd
import json
import os
import shutil
import urllib.parse
import platform
from datetime import datetime

class ChromeDataExtractor:
    def __init__(self):
        self.data_path = self._get_chrome_data_path()
    
    def _get_chrome_data_path(self):
        system = platform.system()
        username = os.getlogin()
        
        if system == "Windows":
            return f"C:\\Users\\{username}\\AppData\\Local\\Google\\Chrome\\User Data\\Default"
        elif system == "Darwin":  # macOS
            return f"/Users/{username}/Library/Application Support/Google/Chrome/Default"
        elif system == "Linux":
            return f"/home/{username}/.config/google-chrome/Default"
        else:
            raise Exception("Unsupported operating system")
    
    def _chrome_time_to_datetime(self, chrometime):
        if pd.isna(chrometime) or chrometime == 0:
            return None
        return datetime(1601, 1, 1) + pd.Timedelta(microseconds=chrometime)
    
    def get_history(self, save_to_csv=True):
        history_path = os.path.join(self.data_path, "History")
        temp_path = "temp_history"
        
        try:
            shutil.copy2(history_path, temp_path)
            conn = sqlite3.connect(temp_path)
            cursor = conn.cursor()
            
            cursor.execute("""
                SELECT urls.title, urls.url, urls.visit_count, 
                       urls.last_visit_time, visits.visit_time, visits.from_visit
                FROM urls
                LEFT JOIN visits ON urls.id = visits.url
                ORDER BY visits.visit_time DESC
            """)
            
            history = cursor.fetchall()
            history_df = pd.DataFrame(history, columns=[
                "标题", "URL", "访问次数", "最后访问时间", "访问时间", "来源访问"
            ])
            
            # 转换时间格式
            history_df["访问时间"] = history_df["访问时间"].apply(self._chrome_time_to_datetime)
            history_df["最后访问时间"] = history_df["最后访问时间"].apply(self._chrome_time_to_datetime)
            
            # 提取域名
            history_df["域名"] = history_df["URL"].apply(
                lambda x: urllib.parse.urlparse(x).netloc if pd.notna(x) else None
            )
            
            if save_to_csv:
                history_df.to_csv("chrome_history.csv", index=False, encoding='utf-8-sig')
            
            return history_df
        
        finally:
            conn.close()
            if os.path.exists(temp_path):
                os.remove(temp_path)
    
    def get_bookmarks(self, save_to_csv=True):
        bookmarks_path = os.path.join(self.data_path, "Bookmarks")
        
        with open(bookmarks_path, "r", encoding="utf-8") as f:
            bookmarks_data = json.load(f)
        
        def extract_bookmarks(bookmark_item, folder_path=""):
            bookmarks = []
            
            if "children" in bookmark_item:
                new_folder = f"{folder_path}/{bookmark_item['name']}" if folder_path else bookmark_item['name']
                for child in bookmark_item["children"]:
                    bookmarks.extend(extract_bookmarks(child, new_folder))
            elif "url" in bookmark_item:
                bookmarks.append({
                    "标题": bookmark_item["name"],
                    "URL": bookmark_item["url"],
                    "文件夹路径": folder_path,
                    "添加日期": self._chrome_time_to_datetime(bookmark_item.get("date_added"))
                })
            
            return bookmarks
        
        all_bookmarks = []
        for root in ["bookmark_bar", "other", "synced"]:
            if root in bookmarks_data["roots"]:
                all_bookmarks.extend(extract_bookmarks(bookmarks_data["roots"][root]))
        
        bookmarks_df = pd.DataFrame(all_bookmarks)
        
        if save_to_csv:
            bookmarks_df.to_csv("chrome_bookmarks.csv", index=False, encoding='utf-8-sig')
        
        return bookmarks_df

if __name__ == "__main__":
    extractor = ChromeDataExtractor()
    
    print("正在提取Chrome历史记录...")
    history_df = extractor.get_history()
    print(f"提取到 {len(history_df)} 条历史记录")
    
    print("\n正在提取Chrome收藏夹...")
    bookmarks_df = extractor.get_bookmarks()
    print(f"提取到 {len(bookmarks_df)} 个收藏项")
    
    print("\n操作完成！")

结语

通过本文介绍的方法，你可以轻松地使用Python提取和分析Chrome浏览器的历史记录和收藏夹数据。这些技术可以应用于个人数据分析、工作自动化等多个场景。记得在使用这些数据时要尊重隐私，合理合法地使用这些信息。

扩展阅读

”`

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

怎么使用python提取chrome浏览器的历史记录及收藏夹

2. 定位Chrome数据文件位置

提取Chrome历史记录

1. 连接SQLite数据库

2. 查询浏览历史

3. 处理时间戳

4. 保存历史记录

提取Chrome收藏夹

1. 解析收藏夹文件

2. 递归提取收藏夹数据

3. 保存收藏夹数据

高级应用

1. 分析浏览习惯

2. 网站访问频率统计

3. 收藏夹整理建议

跨平台兼容性处理

1. 自动检测操作系统

2. 处理Chrome进程锁定问题

安全与隐私考虑

完整代码示例

结语

扩展阅读

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签