巨乳 av女優
你的位置:r级书屋长篇小说 > 巨乳 av女優 > 姐妹花 porn 图结构转文本序列,大模子径直读懂!图推感性能大涨
姐妹花 porn 图结构转文本序列,大模子径直读懂!图推感性能大涨
2024-12-04 11:49    点击次数:179

姐妹花 porn 图结构转文本序列,大模子径直读懂!图推感性能大涨

谎言语模子径直领会复杂图结构的新递次来了:姐妹花 porn

将图(Graph)治疗为安妥 Transformer 架构的线性 token 序列。

belike:

这种最新图线性化递次,反应了当然话语中局部依赖性和全局对皆性两个要道属性,即:

不仅需要保留基于前文坎坷文展望下一个 token 的才气(局部依赖性),而况不同图的 token 序列应该从具有雷同特征的 token 启动或终结(全局对皆性),就像当然话语文本频频以特定词语开头或结果。

如斯一来,在海量文本数据上教练的 LLM 也能更好地领会图结构中的关系和属性,如节点计数、最大度数蓄意和图式情势分类等图推理任务都能完成。

具体若何完了?

机器学习工程师 Rohan Paul 发帖保举论文并作念了个回想。

用多种时间设备了图线性化递次:图中心地(PageRank 和度)、图退化(k-core 明白)、节点重符号决策

基于节点蹙迫性创建了边排序计谋

应用节点重符号以保捏全局对皆

作家使用 GraphWave 合成数据集进行评估,限制标明他们淡薄的线性化递次比较基线递次获取了更好的性能,特别是基于度中心地和 PageRank 的递次在多个任务中阐明杰出。

有网友依然迫不足待集成到 RAG 中了:

我一直在寻找这方面的论文。

多种基于图论的线性化递次

在具体递次上,图线性化触及将图的节点和边治疗为线性 token 序列。

商讨团队淡薄了几种基于图论的图线性化递次。

一种是字据图中心地(Graph centrality)对节点进行排序。

这里的中心地不错是节点的度(Degree centrality),即与节点径直陆续的边的数目;也不错是更为复杂的 PageRank 值,它不仅研究节点的逢迎数,还研究逢迎到它的节点的蹙迫性。

商讨东说念主员字据排序限制遴荐与蹙迫性最高的节点陆续的边,并随即陈列这些边,然后对下一个蹙迫性节点类似此进程。若是多个节点具有相通的中心地值,则随即遴荐它们的规定。

另一种是基于图退化性(Graph degeneracy)的递次,即通过图的核编号(Core Number)来排序节点。

欺诈 k-core 明白 , 将图明白为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种相貌,省略捕捉到图中最中枢的部分,并将这些信息线性化。

除了基于节点属性的排序,作家们还研究了径直对边进行排序的递次。

他们将每个图治疗为其对应的线图(Linegraph),将原图的每条边治疗为线图中的节点,若是原图中两条边相邻,则在线图中对应节点陆续。然后,应用与核编号相通的进程来对 Linegraph 中的节点进行排序。

为了完了全局对皆性,作家还淡薄了节点重定名计谋。

在这个计谋中,不同图中具有最高核编号的节点被从头符号为索引 0,依此类推。这么作念的目的是让 LLM 省略将节点索引与其蹙迫性属性之间建筑一致的联系。

中心地递次总体优于退化性递次

为了测试上述递次的灵验性,作家使用 GraphWave 生成器构建了合成数据集。

最初构造基础图(轮回或链式结构),然后附加预界说情势的图案(motifs)。

商讨东说念主员遴荐了五种基本情势(团、星形、扇形、菱形和树),并包含了这些情势的组合,悉数生成了 3000 个图,平均每个图包含 32.33 个节点和 43.72 条边。

试验中联想了三个评估任务:

节点计数:条件模子从边列表预想节点数目

最大度蓄意:细目图中最大节点度数

黄色小电影

图案情势分类:给定扎眼的图案界说,识别图中存在的图案

试验选用了 Llama 3 Instruct 8B 模子,使用 4bit 量化版块。为确保输出的细目性和一致性,temperature 参数设为 1e-3,sampling 参数设为 1e-1。

包括 zero-shot 和 one-shot 两种建立,并与两个基线递次比较:MotifAware 基线,保捏图生成进程中的默许边序;Random 基线,全都随即的边列表排序和节点标签。

限制披露了以下几个蹙迫发现。

最初,在节点计数任务中,通盘递次都披露较低的平均时弊,但准确率阐明相反。基于度中心地和 PageRank 的递次阐明最好,卓绝了基线递次。

在最大度蓄意任务中,由于需要更复杂的蓄意进程,举座性能低于节点计数任务。使用默许节点标签时,度中心地和 PageRank 递次在 one-shot 建立下获取最好后果。

节点重符号计谋的后果因任务而异,在节点计数中,除了 zero-shot 的度中心地递次外,大多导致准确率下落,但在平均时弊上平时有改善。

one-shot 建立的性能巨额低于 zero-shot,这标昭示例可能并不老是有助于提升性能。

基于中心地的递次(度中心地和 PageRank)总体上优于基于退化性的递次。

参考鸠合:https://x.com/rohanpaul_ai/status/1863014451827655118

论文鸠合:https://arxiv.org/pdf/2410.19494姐妹花 porn