返回

第267章 饥不择食的META

首页
关灯
护眼
字:
上一章 进书架 下一页 回目录
最新网址:wap.4xiaoshuo.org
    第267章 饥不择食的META (第1/3页)

    华国古代有句谚语,叫“山中方七日,世上几千年”,尼兰詹现在的感觉和这句谚语差不多。

    他简单洗漱一下就被带往了META在纽约的总部,扎克伯格用虔诚的表情看着他:“巴拉苏布拉马尼安教授,我知道你在人工智能领域有着超出寻常的造诣。”

    尼兰詹心想,自己这么难念的姓氏,扎克伯格能念得如此清晰,也真难为他了。

    紧接着,扎克伯格的话就开始出乎他意料了。

    我在人工智能领域有着超出寻常的造诣?尼兰詹在思考这句话,是不是又有什么坑,不过转念一想扎克伯格这样的大佬,世界顶级富豪,不至于要坑他啊。

    而且自己身为石溪分校人工智能领域的教授,说超出寻常的造诣,倒也不是不行。

    “我确实对人工智能颇有自己的一番见解。”尼兰詹微笑着说道,过去一年多被监狱折磨的日子终于过去,他要迎来新生,自信的笑容、从容的坐姿、睿智的大脑终于在他大脑内又占据了上风。

    扎克伯格听完后笑得更开心了,“不愧是伦道夫的教授,我就知道你肯定不一般!”

    扎克伯格把尼兰詹从监狱里捞出来,倒也没费多大功夫,毕竟他可是驴党长期铁杆合作伙伴,给驴党不知道捐了多少钱。

    尼兰詹又不是真的犯事了,联邦调查局调查来调查去也没找到尼兰詹和阿波罗登月的关系,没有找到有决定意义的证据。

    之前一直关着他,不过是因为把他当背锅的,一名没有任何背景的印度裔教授,来承担华国21世纪率先登月的黑锅,好像还挺合适。

    但当扎克伯格出手时,尼兰詹又变成了微不足道的小人物,他轻而易举就把对方给捞了出来。

    而且对方能被关一年多,说明应该确实有两把刷子。

    “巴拉苏布拉马尼安教授,你对大语言模型怎么看?”扎克伯格问道。

    尼兰詹大脑开始高速运转起来,毕竟这可是关乎到自己的安危啊!得表现出价值,他才能在外面一直被保释,甚至是无罪释放。

    他内心苦笑了一声:这叫什么事,自己明明就无罪,现在居然还要表现出价值才能无罪,这国怎?

    “我认为这是一个很有发展潜力的方向,我前几年在ACL会议上发表的论文《DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering》针对的就是Transformer-based QA模型的痛点-全层输入宽自注意力导致计算慢和内存高予以解决,我提出DeFormer,一个分解的Transformer变体。

    在较低层,DeFormer用问题宽和段落宽自注意力替换全自注意力,避免问题和段落序列的交叉计算。

    这允许独立处理输入文本,实现段落表示的预计算,从而大幅减少运行时计算。

    DeFormer结构与Transformer相似,可直接用预训练权重初始化,并在QA数据集上微调。

    我们的实验显示,DeFormer版本的BERT和XLNet在QA任务上加速4.3倍以上,仅通过简单蒸馏损失损失1%准确率。”

    尼兰詹说的是他2020年在ACL会议上发表的论文,是当时LLM优化领域的经典工作,当时LLM流行的模型叫BERT,这篇论文直接构建在预训练Transformer上,LLM的瓶颈,也就是计算成本,在下游任务中凸显,这篇则一定程度上提出了解决思路。

    “包括我在2020年的另外一篇工作,其实和LLM的核心,也就是多层注意力有着类似的核心逻辑”

    尼兰詹自然不是水货,他在人工智能领域确实浸淫多年,有不错的成果,手上有好几篇顶会文章,都和LLM有关。

    那还是2020年,当时大模型还名不见经传呢,在人工智能领域属于边缘化的方向。

    扎克伯格是花了很多冤枉钱,把脸书改名META错误估计了元宇宙的到来时间,但不代表他没脑子,单纯因为尼兰詹是林燃的教授,就找他来。

    尼兰詹自己真有几把刷子,也是很重要的原因。

    大模型里的关键工作,包括自注意力机制、多头注意力、位置编码这些,尼兰詹都有深入的研究,毕竟他研究的重要方向之一就是NLP。

    扎克伯格欣喜过望,觉得自己找对人了。

    “巴拉苏布拉马尼安教授,在训练LLM中,你是如何处理过拟合或者欠拟合问题呢?”

    “大规模训练,预训练涉及在海量无标签数据上学习通用表示,我们可以通过掩码语言建模或下一句预测;另外微调在特定任务数据集上调整权重,实现迁移学习。

    针对过拟合,我认为使用正则化和dropout,比如说在BERT变体中dropout率0.1,并应用早停机制;欠拟合时,增加模型深度或数据增强。

    在之前的项目中,我通过梯度裁剪处理训练不稳定,在GLUE基准上将过拟合率从15%降至5%,这能帮助大模型训练在多任务适应中更高效。”尼兰詹成竹在胸。

    问这个,对我而言不是小意思?

    扎克伯格后续又问了一些关于参数高效微调、多模态模型主要挑战、幻觉成因及缓解策略等问题,尼兰詹对答如流。

    扎克伯格听完之后,确定自己找对人了。

    对方被关在监狱一年多时间,出来还能侃侃而谈,追上最新进度,一眼就是大模型领域的先驱人才。

    再者,对方还教出了伦道夫·林这样的顶级天才,对方能搞深红,我们META在巴拉苏布拉马尼安教授的带领下,搞个深蓝出来不过分吧?

    扎克伯格本来就保持笑容的脸庞笑得更开心了:“巴拉苏布拉马尼安教授,欢迎你加入META,未来将由你担任META的首席科学家,带领我们一路前行。”

    他按了下桌上的按钮,META的工作人员走了进来,拿来了一份合同,扎克伯格递到尼兰詹面前:“巴拉苏布拉马尼安教授,恭喜你,你将成为亿万富翁。”

    尼

    (本章未完,请点击下一页继续阅读)
最新网址:wap.4xiaoshuo.org

上一章 回目录 下一页