开云(中国)Kaiyun·官方网站 登录入口

开yun体育网它不仅计议节点的聚会数-开云(中国)Kaiyun·官方网站 登录入口

发布日期:2026-01-04 18:20    点击次数:126

开yun体育网它不仅计议节点的聚会数-开云(中国)Kaiyun·官方网站 登录入口

大说话模子径直雄厚复杂图结构的新步骤来了:

将图(Graph)调度为得当 Transformer 架构的线性 token 序列。

belike:

这种最新图线性化步骤,响应了当然说话中局部依赖性和全局对王人道两个关节属性,即:

不仅需要保留基于前文高下文意想下一个 token 的智商(局部依赖性),何况不同图的 token 序列应该从具有一样特征的 token 运转或斥逐(全局对王人道),就像当然说话文本经常以特定词语伊始或斥逐。

如斯一来,在海量文本数据上检修的 LLM 也能更好地雄厚图结构中的关系和属性,如节点计数、最大度数策动和图式样式分类等图推理任务都能完成。

具体如何已毕?

机器学习工程师 Rohan Paul 发帖推选论文并作念了个回归。

用多种本事开拓了图线性化步骤:图中心地(PageRank 和度)、图退化(k-core 明白)、节点重标识有研究

基于节点蹙迫性创建了边排序战略

应用节点重标识以保捏全局对王人

作家使用 GraphWave 合成数据集进行评估,遗弃标明他们冷酷的线性化步骤比拟基线步骤获取了更好的性能,特出是基于度中心地和 PageRank 的步骤在多个任务中推崇凸起。

有网友照旧迫不足待集成到 RAG 中了:

我一直在寻找这方面的论文。

多种基于图论的线性化步骤

在具体步骤上,图线性化触及将图的节点和边调度为线性 token 序列。

商议团队冷酷了几种基于图论的图线性化步骤。

一种是凭据图中心地(Graph centrality)对节点进行排序。

这里的中心地不错是节点的度(Degree centrality),即与节点径直连结的边的数目;也不错是更为复杂的 PageRank 值,它不仅计议节点的聚会数,还计议聚会到它的节点的蹙迫性。

商议东谈主员凭据排序遗弃选拔与蹙迫性最高的节点连结的边,并就地成列这些边,然后对下一个蹙迫性节点相通此经由。要是多个节点具有沟通的中心地值,则就地选拔它们的章程。

另一种是基于图退化性(Graph degeneracy)的步骤,即通过图的核编号(Core Number)来排序节点。

把握 k-core 明白 , 将图明白为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种面容,粗略捕捉到图中最中枢的部分,并将这些信息线性化。

除了基于节点属性的排序,作家们还计议了径直对边进行排序的步骤。

他们将每个图调度为其对应的线图(Linegraph),将原图的每条边调度为线图中的节点,要是原图中两条边相邻,则在线图中对应节点连结。然后,应用与核编号沟通的经由来对 Linegraph 中的节点进行排序。

为了已毕全局对王人道,作家还冷酷了节点重定名战略。

在这个战略中,不同图中具有最高核编号的节点被从头标识为索引 0,依此类推。这么作念的标的是让 LLM 粗略将节点索引与其蹙迫性属性之间建设一致的联系。

中心地步骤总体优于退化性步骤

为了测试上述步骤的灵验性,作家使用 GraphWave 生成器构建了合成数据集。

当先构造基础图(轮回或链式结构),然后附加预界说样式的图案(motifs)。

商议东谈主员选拔了五种基本样式(团、星形、扇形、菱形和树),并包含了这些样式的组合,悉数生成了 3000 个图,平均每个图包含 32.33 个节点和 43.72 条边。

推行中假想了三个评估任务:

节点计数:条款模子从边列表推断节点数目

最大度策动:笃定图中最大节点度数

图案样式分类:给定详备的图案界说,识别图中存在的图案

推行接受了 Llama 3 Instruct 8B 模子,使用 4bit 量化版块。为确保输出的笃定性和一致性,temperature 参数设为 1e-3,sampling 参数设为 1e-1。

包括 zero-shot 和 one-shot 两种设立,并与两个基线步骤比较:MotifAware 基线,保捏图生成经由中的默许边序;Random 基线,齐全就地的边列表排序和节点标签。

遗弃显现了以下几个蹙迫发现。

当先,在节点计数任务中,统统步骤都显现较低的平均舛讹,但准确率推崇相反。基于度中心地和 PageRank 的步骤推崇最好,跨越了基线步骤。

在最大度策动任务中,由于需要更复杂的策动经由,全体性能低于节点计数任务。使用默许节点标签时,度中心地和 PageRank 步骤在 one-shot 设立下获取最好遵循。

节点重标识战略的遵循因任务而异,在节点计数中,除了 zero-shot 的度中心地步骤外,大多导致准确率着落,但在平均舛讹上平常有改善。

one-shot 设立的性能多量低于 zero-shot,这标昭示例可能并不老是有助于培育性能。

基于中心地的步骤(度中心地和 PageRank)总体上优于基于退化性的步骤。

参考聚会:https://x.com/rohanpaul_ai/status/1863014451827655118

论文聚会:https://arxiv.org/pdf/2410.19494开yun体育网