Hugging Face创始人x小红书技术副总裁对谈:开源、AI与技术人的成长

每日快讯
2025
10/31
23:13
分享
评论

刚刚过去的1024程序员节,小红书Red Academy和小红书科技发起了一场直播,在这场直播里,小红书技术副总裁凯奇、小红书语音模型技术负责人风龙,携手Hugging Face联合创始人Thomas Wolf,以最近流行的AMA(Ask Me Anything)形式,进行了一场关于技术、AI与未来的深度对谈。

这场对谈围绕三大核心观点展开:

AI Coding正成为基础能力;

开源是技术加速发展的核心引擎;

实现有“活人感”的AGI路径清晰但仍需攻克诸多难题。

从这三个观点出发,三位嘉宾关于以下几个话题进行了讨论和分享:

开源与闭源:三位嘉宾一致认为开源是推动技术前进的强大引擎。小红书正投身其中,从文本模型、多模态模型到FireRed系列语音模型,初衷是为让更多开发者和中小企业能共享技术红利。

AGI与未来:通用人工智能将会到来,但发展路径仍有挑战,例如在创造力、复杂环境感知和数据等方面仍有瓶颈。

如何让AI更有“人味”:凯奇分享了小红书引入“人文训练师”的实践,致力于让AI的交互更自然、更贴心,真正融入小红书这个充满“活人感”的社区。

AI时代的个人能力:技术人的核心竞争力正转向“定义问题”和“框架性解决”的能力;AI不仅是效率神器,也让非技术背景的人拥有了“指挥”计算机实现想法的能力。

以下是直播对话摘录:

Q: 怎么看大模型时代的开源和闭源?

Thomas Wolf:开源和闭源差距在缩小,中国在这方面比较领先。现在也发现,很多其他国家的人会开始从一个开源模型着手。开源能打造一个围绕模型的社群,让更多人使用,更高效地帮助他们。闭源就是需要更多的一些时间来去开发出一些好的模型。

风龙:整个的开源其实是推着技术往前走的,推着技术不断的往下发展。开源才是动用了大家的力量,众人众人拾柴火焰高。语音技术发展经历开源工具如HTK、Kaldi、Wenet、FireRed等,推动技术前进。闭源对商业公司无可厚非,但可能是暂时性选择。

凯奇:AI开源与代码开源还挺不同的,更关注模型权重和制作过程公开。开源降低社会运用AI成本,互帮互助,整体上降低了整个社会去运用AI的成本。

Q: 小红书做了哪些开源?为什么这么选择?

凯奇:今年6月小红书开源了文本模型1.0版本,是hi lab第一个MoE模型。8月开源多模态模型,性能对标Gemini和Seed。开源dots OCR模型,在hugging face热门榜排第4。

风龙:语音模型方面,我们开源了在50多个benchmark综合排名第一的大模型语音识别系统FirRedASR;开源了面向对话及长播客生成的大模型语音合成系统FireRedTTS业务,在播客生成开源领域达到了sota的效果;也首次开源了一套完整的可私有化部署的大模型人感语音交互系统。这些模型都受到了很多好评。我们想让中小型公司和独立开发者,也能享受这种玩大模型的乐趣,所以我们会做一些大模型,打破相对的技术垄断。我们从社区里面汲取了营养。我们也觉得需要把技术公开出来,一方面是听取社区给模型的反馈,来知道模型到底做得怎么样。

Q: 怎么看AGI的实现和想象,通往AGI上有哪些瓶颈?

Thomas Wolf:AGI不会立刻实现,会有多功能、全方位的提升。未来应用包括机器人、大语言模型、语音识别。AGI也能够创建一些我们之前没概念的东西,比如新游戏、新体验。同时能够打造全新的科学发展,发明新科学。

AGI的一个瓶颈是模型缺乏创造力。当你有一个问题时,它们非常擅长解决问题,但要求它们发明一个新问题时,例如想在科学上取得重大突破时,就需要找到正确的问题来提出,而LLM模型目前非常不擅长提出好问题的。

风龙:5-10年内可能看到曙光,但路上还有种种曲折,但如果要真的实现电影《Her》里面的人工智能想象,还需要解决非常多的问题 比如硬件、甚至一个简单的蓝牙数据传输稳定性都需要持续提升

凯奇:关键转折点是AI能否改进自己。如果可以做到,只要有算力,就可以不停的自我改进,智力增长会非常非常的快。障碍有context bottleneck和非智力因素瓶颈。

Q:你怎么看技术进展的速度?是在变慢吗?

Thomas Wolf:可能有一点。我想很多人对最近的模型有点失望。幸好有新一波的推理模型提供了新范式。但我们构建的AI仍然是非常听话的学生,它们按照我们的要求做,但对应该做什么几乎没有好想法,所以仍非常需要人类来指明方向。至少在当前,需要人来给出要解决的问题,我们需要给出前进方向,给出要做什么的创造性想法。所以我建议,要让知道自己该做什么的人使用这些模型,这样就能很好地理解它。

Q: 在技术产品中如何保持人情味?如何让AI保持人感?

凯奇:当前AI回答有时候会有点冷冰冰、缺乏同理心。小红书是大家称之为一个有“活人感”的社区,所以在小红书用AI的时候,我们也希望这个AI也是更有活人感的。会通过后训练和RL算法调整行为,用人文训练师教会AI更有人感回答。

Thomas Wolf:情感非常重要,需要更好数据来做情感输出,当前的瓶颈是数据量不够。可以做的是:看待AI答案要有批判性,同时也要评估AI的错误率。

风龙:语音模型中会加入情绪感知和环境音感知生成情感反馈语音。我们会分析目前这句话到底有没有表达出情绪,是开心的还是有一点悲伤的?还是说有一点愤怒?我们也有能主动感知对话中用户情绪的TTS,如果用户当下很难过,那AI回复的语音就会带有安慰的情感。

Q:对于个人或团队,推荐哪些AI小项目方向,如何构建壁垒?

凯奇:发挥专业领域知识,解决context bottleneck,挑选合适context喂给AI。怎么挑选哪些context扔给它,这个是很重要的。

Thomas Wolf:这是一个高度数据驱动的世界和领域。所以第一步始终应该是:尝试为我们想要衡量的东西建立一个良好的评估标准。有了标准然后才能看清你想朝哪个方向发展,进入哪个领域,甚至决定是否应该使用AI。

Q: 对于非技术同学,在AI浪潮下有什么建议?

风龙:AI降低实现产品门槛,非技术同学也可以一个人做产品。人人都真的可以一个人做产品。

凯奇:产品同学多了一个强大武器,需学习AI技术边界,了解prompt engineering、fine tune等手段。 

Q: 怎么使用AI coding提效,怎么看待AI coding的发展? 

风龙:在语音研究工作中需要大量测试网页。之前的网页都由语音研究员手写,有了AI coding工具后,这种写前端的工作完全可以用现成工具完成,大大节省时间。

凯奇:写demo程序时,用AI做refactor或熟悉API,可以直接扔文档让它写代码,非常提效。AI coding让非程序员也能操纵计算机达成目的。AI coding还处于早期阶段,现在还没那么好,但未来在程序架构迭代和运维方面会更强。

Q: AI浪潮下,技术人的变与不变?

风龙:技术人还要找到核心竞争力,AI coding只是工具箱中的一个工具。看到一个大的应用问题后,不变的是要想怎么去拆解,怎么用工具箱里面工具把它做好。

凯奇:未来世界上只有会用AI的人和不会用AI的人两种,技术同学在会用AI这块是很有优势的。技术人需提升通用问题解决能力和产品sense,发现和定义问题比具体怎么做更重要。

Q: 学习新技术有什么好的方法和建议?

风龙:很多时候我们觉得可能要自己ready了再去做一件事,但是往往我们其实就是learning by doing。跟踪最新论文、与同行交流、公司内部讨论。

凯奇:用AI陪看论文非常提效,能很快帮我推导公式和分析逻辑,就能很方便地理解公式。Notebook LM可以听论文写概要。

Q: 最近两个月,小红书里刮起了AMA风,有什么体验和有趣发现?

Thomas wolf:我是首次参加 AMA,很多人来问我应该学什么专业,应该从事什么样的工作,我觉得这个方式是非常好的一个方式,能让很多行业里非常优秀的人所聚集在一起,直接建立连接。

凯奇:在主页上刷到了很多AMA的笔记,过去小红书这个产品给大家的印象可能更多是偏生活向的,但这次AMA,在科技领域的兴趣圈层也是有很好的爆发。我的一些朋友告诉我,他们现在都是在小红书看论文,我觉得小红书作为生活兴趣社区,的确正在变得越来越广大。

风龙:我发了第一篇AMA笔记后,收到500多条评论问语音相关的问题,其中有人问我为什么社区里有这么多AMA帖子。我回答的是:因为优秀的人总会和优秀的人相遇。

*小红书科技薯在今年9月策划发起了AMA(Ask me anything)活动,这一玩法在小红书上快速发酵——许多知名AI产品创业者、大厂负责人、高校教授等科技大咖纷纷在小红书上发布“Ask me anything”的笔记,邀请用户向自己提问,并积极在评论区互动、对话。

Q:如果回到30岁,会给自己什么建议? 

Thomas Wolf:十年前,2015年那时我创办了Hugging Face。我认为那是个好主意。所以我会说,去做你打算做的事,探索你所热爱的。

风龙:如果回到30岁的时候,我会选择在博士毕业后直接加入小红书,享受挑战和攀登珠峰的经历。

凯奇:要搞AI。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3