温馨提示×

GCN数据集Cora、Citeseer、Pubmed文件分析

小亿
350
2023-12-19 04:53:55
栏目: 编程语言

Cora、Citeseer和Pubmed是三个常用的图分类数据集,用于研究和评估图分类算法。

  1. Cora数据集:

    • 由Cornell大学研究人员创建。
    • 包含文献数据库中的2708篇科研论文,分为7个领域。
    • 每篇论文由一个128维度的词袋模型表示。
    • 论文之间的边表示引用关系。
  2. Citeseer数据集:

    • 由Cornell大学研究人员创建。
    • 包含3327篇科研论文,分为6个领域。
    • 每篇论文由一个3703维度的词袋模型表示。
    • 论文之间的边表示引用关系。
  3. Pubmed数据集:

    • 由美国国立卫生研究院创建。
    • 包含19717篇生物医学论文,分为3个领域。
    • 每篇论文由一个500维度的词袋模型表示。
    • 论文之间的边表示共同作者关系。

这些数据集常用于图分类任务,其中图分类是指根据节点的属性和连接方式,将图中的节点划分到不同的类别中。这些数据集对于研究者来说是非常有用的,因为它们提供了现实世界中各种领域的真实数据,可以用来评估和比较不同的图分类算法的性能。

0