做网站和做微信小程序,做网站填素材,淘宝里网站建设公司可以吗,学校网站 cms想将一份 pdf 论文中的所有参考文献都提取出来#xff0c;去掉不必要的换行#xff0c;放入一个 text 文件#xff0c;方便复制。其引用是 ieee 格式的#xff0c;形如#xff1a; 想要只在引用序号#xff08;如 [3]#xff09;前换行#xff0c;其它换行都去掉…想将一份 pdf 论文中的所有参考文献都提取出来去掉不必要的换行放入一个 text 文件方便复制。其引用是 ieee 格式的形如 想要只在引用序号如 [3]前换行其它换行都去掉即一行一条参考文献。
可用 pypdf[1]其主页有示例加上 re 去除非序号前的换行检测 [。
Code
from pypdf import PdfReader
import re# 检测非 [ 前的换行
pattern r\n(?!\[)reader PdfReader(paper.pdf)
n_pages len(reader.pages)
print(n_pages)with open(ref.txt, w, encodingutf-8) as f:for i in range(23, 29): # 自己确定 reference 页码范围page reader.pages[i]text page.extract_text()text re.sub(r-\n, , text) # hyphen 后换行连 hyphen 一齐删text re.sub(pattern, , text) # 多余换行换成空格f.write(text)# \n)References
py-pdf/pypdf