网易首页 > 网易号 > 正文 申请入驻

小红书怎么用大模型?顶会作者在线等你来聊

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

大模型正引领新一轮的研究热潮,业界和学术界都涌现出了众多的创新成果。

小红书技术团队也在这一浪潮中不断探索,多篇论文研究成果在ICLR、ACL、CVPR、AAAI、SIGIR、WWW等国际顶会上频频亮相。

在大模型与自然语言处理的交汇处,小红书发现了哪些新机遇和挑战?

对于大模型,有哪些有效的评测方法?它又如何更好地融入到应用场景中的呢?

6月27日19:00-21:30,【REDtech来了】第十一期《小红书2024大模型前沿论文分享》线上开播!

REDtech特别邀请了小红书社区搜索团队来到直播间,他们将分享6篇小红书在2024年发表的大模型研究论文。

小红书精排LTR负责人冯少雄,携手多位顶会论文作者李易为、王星霖、袁沛文、张超等人,共同探讨最新的大模型解码与蒸馏技术、大模型评测方法,以及大模型在小红书平台上的实际应用。

预约直播,多篇论文一作作者在线与你交流!你将获得关于大模型技术的最新见解,探讨未来的发展趋势,并交流如何利用这些前沿技术提升用户体验,推动平台智能化发展。

活动议程



01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入选 ICLR 2024

针对大模型多步推理中高成本问题的早停自洽性方法 | 讲者:李易为

自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略,通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。但它是一种高成本的方法,需要进行预设大小的多次采样。

在ICLR 2024上,小红书提出一种简单且可扩展的采样过程——早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低SC的成本。在此基础上,团队进一步推导出一种ESC控制方案,以动态选择不同任务和模型的性能-成本平衡。三种主流推理任务(数学,常识和符号推理)的实验结果显示,ESC在六个基准测试中显著降低了平均采样次数,同时几乎保持原有性能。

论文地址:https://arxiv.org/abs/2401.10480

02 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation / 入选 ACL 2024

去粗取精:面向自由格式生成任务的细粒度自洽性方法 | 讲者:王星霖

小红书在ACL 2024中提出了Fine-Grained Self-Consistency (FSC) 方法,能够显著提升自洽性方法在自由格式生成任务上的表现。

团队首先通过实验分析了现有面向自由格式生成任务的自洽性方法的不足来自于粗粒度的共性样本选择,其无法有效利用不同样本细粒度片段之间的共性知识。

在此基础上团队提出了基于大模型自融合的FSC方法,实验证实其在代码生成、摘要生成以及数学推理任务上都取得了显著更优的表现,同时保持了相当的消耗。

论文地址:https://github.com/WangXinglin/FSC

03 BatchEval: Towards Human-like Text Evaluation / 入选 ACL 2024,领域主席给出满分评分,并推荐最佳论文

迈向人类水平的文本评测 | 讲者:袁沛文

小红书在ACL 2024中提出了BatchEval方法,能够以更低的开销达到类人水平的文本评测效果。

团队首先从理论层面分析了现有文本评测方法在评测鲁棒性方面的不足来自于评测打分分布不均匀、在得分集成方面的次优表现源自于评测视角多样性的缺失。

在此基础上,受人类评测过程中通过样本间比较来建立更加立体全面、视角多样的评测基准启发,类比提出了BatchEval。与当前最先进的若干方法相比,BatchEval在评测开销与评测效果两方面都取得了显著更优的表现。

论文地址:https://arxiv.org/abs/2401.00437

04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入选 ACL 2024

通过互一致性实现准确监督信号匮乏下的超人水平大语言模型评测 | 讲者:袁沛文

小红书在ACL 2024中提出了PEEM方法,其能够通过模型间的互一致性实现对于超越人类水平的大语言模型的准确评测。

团队首先分析了当前大语言模型迅猛发展的趋势会加速其在多个方面逐渐达到甚至超越人类水平,在此情况下,人类将难以再提供准确的评测信号。

为实现该场景下的能力评测,团队提出了以模型间的互一致性为评测信号的设想,并推导出了在评测样本无穷时,如果存在参考模型与待评测模型间预测分布独立,则与该参考模型间的一致性可以作为模型能力的准确度量。

在此基础上,团队提出了基于EM算法的PEEM方法,实验证实其能够有效缓解现实中上述条件的不充足,从而实现对超越人类水平的大语言模型的准确评测。

论文地址:https://github.com/ypw0102/PEEM

05 Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / 入选 AAAI 2024 Oral

利用负样本促进大模型推理能力的蒸馏 | 讲者:李易为

大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs有时会产生错误的推理链。

传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。在AAAI 2024上,小红书搜索算法团队提出了一个创新框架,首次提出并验证了负样本在模型蒸馏过程中的价值,构建一个模型专业化框架,除了使用正样本外,还充分利用负样本来提炼LLM的知识。

该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。一系列广泛的实验,展示了负向数据在LLM知识蒸馏中的关键作用。

论文地址:https://arxiv.org/abs/2312.12832

06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入选 WWW 2024

基于大语言模型的笔记内容表征推荐系统 | 讲者:张超

小红书APP每天都有大量新笔记产生,如何有效地将这些新内容推荐给感兴趣的用户呢?基于笔记内容的推荐表征是缓解笔记冷启动问题的一种方法,也是众多下游应用的基础。

近年来,大语言模型因其强大的泛化性和文本理解能力而备受关注。因此,小红书希望利用大语言模型构建笔记内容表征推荐系统,以增强笔记内容的理解。技术团队将从生成增强表征以及多模态内容表征两个角度介绍近期的工作。

目前该系统已应用于小红书多个业务场景并取得显著收益。

论文地址:https://arxiv.org/abs/2403.01744



直播观看方式

直播时间:2024年6月27日19:00-21:30

直播平台:微信视频号【小红书技术REDtech】,B站、抖音、小红书同名账号实时直播。



欢迎填写问卷,反馈关于大模型你关心的问题,在直播期间与嘉宾深入互动。

扫描下方二维码进入直播交流群,将第一时间获取直播链接及开播提醒;可一键打包获取精心整理的【论文PDF合集】,还有机会与论文作者直接交流!

邀请好友预约直播好礼

招聘

小红书社区搜索团队多岗位热招中,团队负责小红书搜索效果的优化和前沿技术的探索,致力于打造中国最大的生活搜索引擎。期待你的加入!(戳“阅读原文”了解更多招聘岗位)

*本文系量子位获授权刊载,观点仅为作者所有。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太不舍!明天正式告别:陪伴上海人27年的商场谢幕,很多人冒雨赶来...这里将有大变化→

太不舍!明天正式告别:陪伴上海人27年的商场谢幕,很多人冒雨赶来...这里将有大变化→

上观新闻
2024-06-29 14:23:07
俄罗斯文坛爆出了一个巨大的笑话!

俄罗斯文坛爆出了一个巨大的笑话!

麦杰逊
2024-06-29 15:54:46
浙大毕业典礼上杨谨闻称“去祖国最需要的地方”,被爆已申请留美

浙大毕业典礼上杨谨闻称“去祖国最需要的地方”,被爆已申请留美

妍妍教育日记
2024-06-28 20:45:34
森林北街头被偶遇,真人颜值让人惊叹,汪峰疑在秦皇岛和前妻见面

森林北街头被偶遇,真人颜值让人惊叹,汪峰疑在秦皇岛和前妻见面

古希腊掌管月桂的神
2024-06-29 21:33:33
拜登特朗普辩论之后,美国《纽约时报》刊发社评:“拜登应该退选”

拜登特朗普辩论之后,美国《纽约时报》刊发社评:“拜登应该退选”

环球网资讯
2024-06-29 17:44:07
90%网友同情支持“内蒙灭门惨案”嫌犯霍文常,背后真相曝光!

90%网友同情支持“内蒙灭门惨案”嫌犯霍文常,背后真相曝光!

兵叔评说
2024-06-29 17:19:06
落马官员自述:爱吃大排档,就成为被“苍蝇”盯上的“缝隙”

落马官员自述:爱吃大排档,就成为被“苍蝇”盯上的“缝隙”

环球网资讯
2024-06-29 18:19:06
央企铁饭碗没了

央企铁饭碗没了

经济观察报
2024-06-29 09:02:09
高考622分女孩查成绩当天遇车祸昏迷至今,家属:将先为她填报志愿,盼奇迹发生

高考622分女孩查成绩当天遇车祸昏迷至今,家属:将先为她填报志愿,盼奇迹发生

极目新闻
2024-06-29 22:04:29
被美国法案制裁,又被中国法律严惩的上将

被美国法案制裁,又被中国法律严惩的上将

战域笔墨
2024-06-29 18:06:03
美媒:美官员称因天气原因,美已拆除斥巨资修建的加沙临时码头,可能不会再重建

美媒:美官员称因天气原因,美已拆除斥巨资修建的加沙临时码头,可能不会再重建

环球网资讯
2024-06-29 12:47:27
黄一鸣公开晒出了和王思聪的聊天记录,内容可是让人大跌眼镜啊!

黄一鸣公开晒出了和王思聪的聊天记录,内容可是让人大跌眼镜啊!

一神娱乐
2024-06-28 10:02:49
一辆载有21人的大巴在马来西亚翻覆 当地警方:司机曾接27张罚单,包括无证驾驶

一辆载有21人的大巴在马来西亚翻覆 当地警方:司机曾接27张罚单,包括无证驾驶

红星新闻
2024-06-29 22:04:09
保安砍死2名业主后续:女业主先动手辱骂,一句话激怒他起了杀心

保安砍死2名业主后续:女业主先动手辱骂,一句话激怒他起了杀心

180°视角
2024-06-29 16:40:45
网传马未都这么难了?直接裁掉80多员工,也欠薪,居然打官司!

网传马未都这么难了?直接裁掉80多员工,也欠薪,居然打官司!

火山诗话
2024-06-29 10:27:20
阿汤哥的18岁女儿和男友公园中甜腻,难舍难分,今秋将去不同大学

阿汤哥的18岁女儿和男友公园中甜腻,难舍难分,今秋将去不同大学

译言
2024-06-29 17:13:18
发生什么了?特朗普宣布大获全胜,拜登承认失败,奥巴马重出江湖

发生什么了?特朗普宣布大获全胜,拜登承认失败,奥巴马重出江湖

兰妮搞笑分享
2024-06-29 18:56:02
不知道大家发现了没有?又复燃了。。。

不知道大家发现了没有?又复燃了。。。

悠闲葡萄
2024-06-29 10:08:42
岁月不饶人!88岁钟南山确认身患疾病!但他半年前已立雕像

岁月不饶人!88岁钟南山确认身患疾病!但他半年前已立雕像

文雅笔墨
2024-06-29 13:19:47
曝某地出现环卫工用抹布擦斑马线,有关部门的操作和回应,很可笑

曝某地出现环卫工用抹布擦斑马线,有关部门的操作和回应,很可笑

可达鸭面面观
2024-06-29 13:25:42
2024-06-29 23:10:44
量子位
量子位
追踪人工智能动态
9596文章数 175389关注度
往期回顾 全部

科技要闻

比亚迪引发了一场"战争"

头条要闻

《纽约时报》呼吁拜登"为国退选" 拜登团队回应

头条要闻

《纽约时报》呼吁拜登"为国退选" 拜登团队回应

体育要闻

老鹰“贱卖”穆雷,独行侠有意汤神

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

你没看错!广汽丰田今天秀了一把智电技术

态度原创

手机
游戏
艺术
公开课
军事航空

手机要闻

新款麒麟芯片出炉!详细规格与机型适配全揭秘,你会考虑吗?

三局两胜、极致禁选,谁能拿下梦幻西游首届超级联赛冠军?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

连中三元是哪三元?

军事要闻

日本计划与德国等国在俄边界附近军演 俄罗斯强烈抗议

无障碍浏览 进入关怀版