雨宙的个人博客

Megatron-LM论文阅读

发表于 2023-07-31 分类于大模型本文字数： 1.8k 阅读时长 ≈ 3 分钟

最近对于大模型的研究越来越多，笔者也对一些大模型的技术报告进行阅读，但是感觉对于大模型的认识仍然不够清晰，究其原因是没有自己亲手走一下训练大模型的流程，所以想要先对训练大模型的框架进行学习，然后等到有机会之后（有显卡）再上手训练一个大模型。经过调研之后，笔者打算首先从Megatron-LM框架开始学习，于是选择了这篇Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism论文进行阅读。

阅读全文 »

CHRF评估指标

发表于 2022-12-30 更新于 2023-07-31 分类于机器翻译本文字数： 5.7k 阅读时长 ≈ 9 分钟

不同于BLEU评估指标，CHRF评估指标可以衡量字符级的准确度和流畅度，改进后的CHRF评估指标（CHRF++）将字符级和单词级融合在一起，更全面的评估文本的生成质量，本文主要对CHRF和CHRF++评估指标的手动计算过程和使用nltk和sacrebleu工具的计算原理作出总结和说明。

阅读全文 »

BLEU评估指标

发表于 2022-12-28 更新于 2023-07-31 分类于机器翻译本文字数： 13k 阅读时长 ≈ 22 分钟

BLEU评估指标在机器翻译任务中经常使用，本文主要对BLEU评估指标的计算过程以及计算工具的使用进行总结。

阅读全文 »

BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES论文阅读

发表于 2022-10-17 更新于 2023-07-31 分类于深度学习论文阅读本文字数： 4.6k 阅读时长 ≈ 8 分钟

终于保研结束啦！！928之后先划水了一周，然后老师就布置任务了，于是就对这一篇免训练的神经符号框架论文进行阅读，论文的一个背景是越来越多的端到端的模型在QA以及其他自然语言处理领域的任务上取得了良好的效果，但是它们具有缺乏可解释性的缺点，本文将符号方法绑定到语言模型中，增强了模型的可解释性，另外现有的一些模型在特定领域需要进行模型微调，本文提出的框架具有免训练的特点，只需要一些精心挑选的prompt和API调用就可以达到SOTA效果。

阅读全文 »

LibRec学习笔记（二）：SVD++算法

发表于 2022-04-04 分类于推荐系统本文字数： 14k 阅读时长 ≈ 23 分钟

上一篇我们具体介绍了BiasedMF算法在LibRec库中的实现，实际上是为了本篇介绍SVD++算法实现做铺垫，在代码中我们也可以看到，SVDPlusPlusRecommender类继承了BiasedMFRecommender类，本篇主要也是从三个方面展开，分别是预测公式、损失函数公式和更新公式。

阅读全文 »

LibRec学习笔记（一）：BiasedMF算法

发表于 2022-04-04 更新于 2023-07-31 分类于推荐系统本文字数： 7.4k 阅读时长 ≈ 12 分钟

最近推荐系统导论课程需要使用LibRec库实现一些推荐算法，其实LibRec库已经封装了很多算法，并不需要再去实现，只需要调用命令行修改配置就可以运行，但为了更好地理解算法，我阅读了LibRec库的一些算法的源码，以下是BiaseMF算法在LibRec库中的实现，本文主要从三部分展开讲解，分别是预测公式、损失函数公式和更新公式。

阅读全文 »

SOHO论文阅读

发表于 2022-03-09 更新于 2023-07-31 分类于深度学习论文阅读本文字数： 5.4k 阅读时长 ≈ 9 分钟

上一篇ViLBERT模型提出了使用two-stream的结构来分别处理图片和文本信息，然后再进行融合，在“vision-and-language”任务上还有其他模型使用了这种双流结构，因为其架构比单流结构更为复杂，所以架构的种类更加丰富，为了更深入地了解这种处理不同层次信息（图片和文本）的架构方式，我阅读了Seeing Out of tHe bOx:End-to-End Pre-training for Vision-Language Representation Learning这篇论文。特别地，这篇论文提出的视觉特征的提取方法也有其独到之处，能够不受目标特征局限性的影响。

阅读全文 »

ViLBERT论文阅读

发表于 2022-03-08 更新于 2023-07-31 分类于深度学习论文阅读本文字数： 3.6k 阅读时长 ≈ 6 分钟

BERT模型的提出使得大规模的预训练成为可能，与BERT模型仅仅处理文本模态不同，ViLBERT模型结合了图片和文本信息的特征，使用two-stream结构，基于大型的图像标题数据库训练与下游任务无关的通用模型，基于该模型通过少量调整即可实现通过标题检索图片、视觉问答等具体任务，最近在学习多模态特征有效的融合和对齐方法，于是对这篇文章进行了研读。

阅读全文 »

Transformer综述论文阅读

发表于 2022-02-26 更新于 2023-07-31 分类于深度学习论文阅读本文字数： 9.7k 阅读时长 ≈ 16 分钟

最近想要研读一下关于transformer变体结构在多模态特征融合时的操作的论文，首先需要广泛地了解一下transformer结构及其变体，于是阅读了复旦大学邱锡鹏教授组里的transformer综述论文，本篇博客详细记录了综述论文中的重点以及本文作者对于这篇论文的理解。

阅读全文 »

多模态情感分析综述

发表于 2022-02-11 更新于 2023-07-31 分类于深度学习论文阅读本文字数： 6.9k 阅读时长 ≈ 11 分钟

多模态情感分析是一个越来越受欢迎的研究领域，它将传统的基于文本的情感分析任务扩展到多模态的情景下，多模态包括文本、视频和语音模态，以往的情感分析任务通常聚焦于单个模态，但在某些情况下，仅仅通过文本模态来分析说话人的情感是不够的，如以下语句

阅读全文 »