我们的小天地
11
26
处理PDF doc docx截取文本得到excel 处理PDF doc docx截取文本得到excel
处理PDF doc docx截取文本得到excel根据上一节爬取的深市企业调研公告结果,本节进行处理,要求把存在表格的文件进行截取,按照句号分别截取,然后得到excel。本节的工作主要在于要把doc文件转化为docx然后进行处理,而且要对不
2021-11-26
26
从巨潮资讯网爬取深市企业历年调研公告 从巨潮资讯网爬取深市企业历年调研公告
从巨潮资讯网爬取深市企业历年调研公告相比于之前从巨潮爬取上市企业的财报,本次爬取工作主要是爬取深市特有的“调研”报告。在基于这篇文章获取了上市公司基本信息表2021年上市公司基本信息表.xlsx之后,相比于这篇爬取财报,本文主要改动在于:
2021-11-26
17
17
CV基本研究方向简介 CV基本研究方向简介
CV基本研究方向简介CV全称Computer Vision,即计算机视觉,是人工智能里面很大、应用很广泛、工业化程度很高的一个研究领域,主要研究对象是图像和视频,本文我们简单介绍以下CV领域整体上的主要研究内容。 分类常见的包括图片分类和视
2021-11-17
16
Python3的PDF文件读取与处理 Python3的PDF文件读取与处理
Python3的PDF文件读取与处理由于财报和社会责任报告都是PDF格式的,所以为了与我们的BERT分类工作衔接起来,需要读取并且简单处理一下PDF文件,变成我们需要的字符串格式,并且从中提取我们需要的信息。 PDF文件读取首先我们把PDF
2021-11-16
14
祝贺小爸爸荣获Best Paper 祝贺小爸爸荣获Best Paper
祝贺小爸爸荣获Best Paper悲喜千般语仓皇,不枉日日苦奔忙。 字字看来皆辛苦,三年磨砺不寻常。 嚼得菜根终成事,覆雪梅花分外香。 今朝痛饮庆功酒,更立壮志来日长。
06
04
transformers BERT预训练模型度量文本相似性 transformers BERT预训练模型度量文本相似性
transformers BERT预训练模型度量文本相似性经过与专业人士交流,了解到目前业内常用的度量文本相似性的做法有两种,效果差不多: 把文本A和文本B拼接起来,进行二分类任务,分类标签为相似或不相似。这种做法需要微调BERT模型,和
2021-11-04
03
微调transformers进行BERT垃圾邮件分类 微调transformers进行BERT垃圾邮件分类
微调transformers进行BERT垃圾邮件分类现在我们使用Hugging Face的transformers包提供的预训练模型,在我们之前做的垃圾邮件分类任务上做一个微调,为将来我们的具体任务做准备。 本文主要参考这篇英文博客,并结合
2021-11-03
01
微调transformers BERT文本分类预训练模型 微调transformers BERT文本分类预训练模型
微调transformers BERT文本分类预训练模型本节我们为Hugging Face的transformers包中提供的文本分类预训练模型做一个Fine-tune,即微调,令其更适应于我们使用的数据集,并做一个分类任务。 主要参考了t
2021-11-01
1 / 2