祝贺小爸爸荣获Best Paper 祝贺小爸爸荣获Best Paper悲喜千般语仓皇,不枉日日苦奔忙。 字字看来皆辛苦,三年磨砺不寻常。 嚼得菜根终成事,覆雪梅花分外香。 今朝痛饮庆功酒,更立壮志来日长。 2021-11-14 油先生选集 诗 秋思(其二) 秋思(其二)秋风吹老梧桐树,彩笔新题相思句。 情深若问深几许,秋风秋月深秋雨。 2021-11-06 油先生选集 诗 transformers BERT预训练模型度量文本相似性 transformers BERT预训练模型度量文本相似性经过与专业人士交流,了解到目前业内常用的度量文本相似性的做法有两种,效果差不多: 把文本A和文本B拼接起来,进行二分类任务,分类标签为相似或不相似。这种做法需要微调BERT模型,和 2021-11-04 学习 学NLP 微调transformers进行BERT垃圾邮件分类 微调transformers进行BERT垃圾邮件分类现在我们使用Hugging Face的transformers包提供的预训练模型,在我们之前做的垃圾邮件分类任务上做一个微调,为将来我们的具体任务做准备。 本文主要参考这篇英文博客,并结合 2021-11-03 学习 学NLP 微调transformers BERT文本分类预训练模型 微调transformers BERT文本分类预训练模型本节我们为Hugging Face的transformers包中提供的文本分类预训练模型做一个Fine-tune,即微调,令其更适应于我们使用的数据集,并做一个分类任务。 主要参考了t 2021-11-01 学习 学NLP Hugging Face与NLP预训练模型 Hugging Face与NLP预训练模型这一节我们来学习基于Hugging Face的NLP预训练模型的使用方式,包括Bert。 先来了解一些背景知识。 背景深度学习我们前面用的BOW,贝叶斯,SVM,LR,XGBoost都是传统机器学习 2021-11-01 学习 学NLP 秋思(其一) 秋思(其一)云边鸿雁送秋风,欲寄相思意万重。 为谁倾倒为谁狂,忽如梦醒已三生。 2021-10-28 油先生选集 诗 基于BOW实现垃圾邮件分类 基于BOW实现垃圾邮件分类上一节我们基于朴素贝叶斯的词频统计,做了垃圾邮件分类,这一节我们采用BOW模型,在相同数据集上使用BOW模型再次进行分类任务,并且使用各种经典的机器学习模型。 jieba加入自定义词典首先我们来做一个自定义分词功能 2021-10-21 学习 学NLP 九叶重楼 相思怎解 九叶重楼 相思怎解 我问大夫,什么药可以医相思之苦。 大夫说:“九叶重楼二两,冬至蝉蛹一钱,煎入隔年雪, 可医世人相思疾苦。“ 可重楼七叶一枝花,冬至何来蝉蛹,雪又怎能隔年,终是相思无解。 大夫说,殊不知夏枯即为九重楼,掘地三尺寒蝉现,除夕 2021-10-20 悦读 美文 All This I Did Without You (Gerald Durrell) All This I Did Without You这是Gerald Durrell 1978年写给未婚妻Lee McGeorge的情书。Gerald Durrell是一位英国动物学家、主持人和作家,泽西动物园的创办人,与Lee在1977年 2021-10-20 悦读 美文 朴素贝叶斯分类器实现垃圾邮件分类 朴素贝叶斯分类器实现垃圾邮件分类本文主要参考这个github项目来实现。 代码运行使用git clone下载项目,然后将数据集 解压到仓库路径下即可 运行:python new.py 实验结果我在本地运行得到的结果为 Building pr 2021-10-19 学习 学NLP 2021年下半年目标 2021年下半年目标新学期新打算,小仙女和油油要制定好目标,一起努力呀: 小仙女的目标: NBY论文投出去(不晚于11月底) 产生2~3个新的idea 一个NLP 一个survey 一个case 推进其中一到两个idea,年底做好数据处 2021-10-12 学习 目标与计划