怎么做网站企业文化栏目,常州网站建设最易,wordpress手机登录插件,怎样做网站运营首语
最近接触到了一个关于云开发的IDE#xff0c;什么意思呢#xff1f;
就是我们通常开发不是在电脑上吗#xff0c;既要下载编译器#xff0c;还要下载合适的编辑器#xff0c;有的时候甚至还需要配置开发环境#xff0c;有些繁琐。而这个云开发的IDE就是只需要一台…首语
最近接触到了一个关于云开发的IDE什么意思呢
就是我们通常开发不是在电脑上吗既要下载编译器还要下载合适的编辑器有的时候甚至还需要配置开发环境有些繁琐。而这个云开发的IDE就是只需要一台能够上网的电脑就可以进行开发完全不需要配置环境下载编译器和编辑器。
Cloud Studio是什么
没错这就是那一款云开发IDE。可以在浏览器上进行代码的编写也可以将编写好的代码上传到你的Github或者Gitee。
Cloud Studio的优势
因为之前使用过JetBrains全家桶所以就简单说一下对比相较于传统的IDE来说Clould Studio不需要下载安装即可在网页上使用。
相对来说更为方便更为难得的是Clould Studio在更为方便快捷的前提上对比传统IDE的功能来讲也都是具备的。
1. 代码纠错等基础功能
我们都知道现在的IDE对于错误的代码不需要编译就可以标红提醒因此Clould Studio也具备这样的功能当然代码补全这个很实用的功能也是具备的对于我这种记忆力不好的人来说这个功能还是很重要的
2. 环境搭建
对于项目的环境搭建来说由于Clould Studio收集了众多项目模板因此对于需要的环境可以一键搭建主打的就是一个方便快捷
也并不需要你创办虚拟环境重新安装类库等直接创建开发空间就是一个独立的项目不需要担心不同项目之间突然冒出来一个问题。
也不需要为学校教了多门语言而苦恼多门语言的编译器安装与环境配置问题。
当时我学习java的时候确实为了环境配置而苦恼只能说相见恨晚呐
3. 链接云服务器
创建的项目运行后是在类似于云服务器上跑的web项目也可以通过外网访问工作空间内有分配的端口号和IP也是非常的方便。
Clould Studio是使用ssh的方式来远程连接到我们只需要在工作空间启动项目然后就会出现这个按钮 点击后就会出现ssh的链接使用对应的工具就可以远程链接了。 接下来我们就讲讲如何使用Clould Studio来制作我们的Scrapy Demo。
使用Clould Studio账号创建项目Demo
1. 注册创建Clould Studio账号
打开Clould Studio官方网站进行账号的注册登录Clould Studio官网
在官网中我们可以看到对于Clould Studio的简单介绍 而我们要使用的话就可以直接点击官网右上角的注册/登录按钮。
登录完成后回来到我们的工作空间有个人和团体的 2. 了解基本功能和内容
进入工作空间后我们可以在左边看到一些木块拢共分为三大类 开发空间——我们可以在开发空间看到我们创建的项目 空间模板——在空间模板里面有许多模板可以使用不关你是pythonjavaCvue语言都有模板可供使用 应用推荐——这里面是各位大佬制作好的项目如果对某个项目感兴趣想观摩源代码我们只需要点击之后点击Fork按钮就可以将大佬们的项目copy到我们自己的工作空间。
3. 创建Python模板
我们在空间模板中找到Python模板然后点击一下就可以快速创建了当然这需要一定的时间不过时间也不长 我们的工作空间窗户建好之后我们会发现自动运行了一个Demo
而在README文件中我们也可以看到关于这个Demo的相关介绍 当然我们不想运行的话也是可以直接删掉的。
4. 使用pip下载Scrapy库
虽然我使用pip list命令发现已经初始化了很多类库比如flaskpygame等比较常用的但是Scrapy是没有的同样的我也并没有发现Django库我们使用的话最好先查看一下有没有我们需要的类库。
先将我们不需要的文件删除掉然后打开终端 之后再使用我们的pip工具下载我们需要的类库pip install Scrapy
下载完成后以防万一我们再使用pip list命令检查一下是否安装成功 安装成功后我们就可以开始创建项目了
5. 创建Scrapy项目
创建Scrapy项目需要在终端输出命令创建可别下载完就把终端×了啊
Scrapy startproject 项目名
出现下图内容就是创建成果了同样的我们还可以直接观察我们工作空间的目录创建完成后会出现一个与项目名称同名的目录那就是创建成果了
6. 创建爬虫文件
还是我们的终端打开后切换到我们的项目目录下面开始创建爬虫文件
cd 项目名称 // 切换到项目根目录
scrapy genspider qidian_spider www.xxx.com // 创建名字为qidian_spider域名为www.xxx.com的爬虫文件显示这样就是我们的爬虫创建成果啦当然爬虫开始工作还需要我们编写代码现在还需要编写代码
先打开看看怎么个事 import scrapy # 使用的类库class QidianSpiderSpider(scrapy.Spider):name qidian_spider # 爬虫名allowed_domains [www.xxx.com] # 通域名start_urls [https://www.xxx.com] #具体爬取的urldef parse(self, response):#爬虫代码编写在这里pass
7. 确认爬取目标
爬取起点中文网月票榜上小说获取小说名作者名连载状态小说简介
我们要爬取某个网站首先一点就是先获取到网站的URL所以网站的URL就是https://www.qidian.com/rank/yuepiao/
所以我们的代码中就可以修改url了
将start_urls [https://www.xxx.com]
修改为start_urls [https://www.qidian.com/rank/yuepiao/]
8. 修改项目配置
在没学Scrapy之前我们都需要在确认网站url后填写headers头部信息比如user_agent和cookies那么在Scrapy中我们也需要填写这种头部信息
找到项目内的setting.py文件打开
.
将里面的内容修改加添加一些
将20行的ROBOTSTXT_OBEY True改为ROBOTSTXT_OBEY False
这个的意思是是否遵循机器人协议默认是true需要改为false
不然我们的爬虫有很多都无法爬取
添加代码USER_AGENT你自己浏览器的请求头
9. 编写爬取代码
import scrapyclass MonthlytickrtSpider(scrapy.Spider):name qidian_spiderallowed_domains [www.qidian.com]start_urls [https://www.qidian.com/rank/yuepiao/]def parse(self, response):print(项目开始运行) yuepiao_list response.xpath(//div[classbook-mid-info]) # 月票榜小说数据列表data_list [] # 创建空列表容纳每一本小说的数据data_dic {也可以创建一个字典来存储} for i in yuepiao_list:book_name i.xpath(h2/a/text()).extract()[0] # 小说名book_author i.xpath(p[1]/a[1]/text()).extract()[0] # 作者名book_intro i.xpath(p[classintro]/text()).extract()[0] # 小说简介book_type i.xpath(p[1]/a[2]/text()).extract()[0] # 小说更新状态book_src i.xpath(h2/a/href).extract()[0] # 小说链接book_data {小说名: book_name,作者: book_author,简介: book_intro,更新状态: book_type,链接: book_src,# 将取到每个小说的数据存入字典中}data_list.append(book_data) # 将字典存入列表# data_list[name] book_data 将字典存入字典以小说名为键print(data_list) # 终端查看小说数据return data_list好好好代码已经写完了那么我们来看看运行效果吧 可以看到我们的爬虫也是成功的爬取到了我们想要的数据那么我们的数据如何保存下来呢
有两种办法一种是使用我们在Python基础学过的os模块一种是Scrapy自带的数据保存方法
10. 数据保存
1. 使用Scrapy的方法保存
Scrapy给我们了四种保存数据的方式分别是json, json line, xml, csv
不需要编写代码只需要在运行项目的时候添加命令参数即可
scrapy crawl 项目名称 -o 文件名称.你想要的格式比如我们现在使用json的格式储存我们只需要
scrapy crawl qidian_spider -o data.json这样我们就可以看到在根目录生成了一个json格式的data文件我们点进去看看 好了这就成功了
2. 使用os模块保存数据
我们可以使用python自带的os模块来对文件进行操作
在爬虫里面添加的代码如下
with open(data.txt,w) as f:f.write(str(data_list))注意添加到函数下面return上面
效果如图 使用Git管理代码
1. 填写好项目的README文件
## 欢迎来到 Cloud Studio ##这是布小禅使用Clould Studio尝试编写的一个小小的爬虫Python项目。## 项目介绍爬取起点小说网月票榜榜单内小说书荒的书虫有福音了哈使用Scrapy爬虫框架当然也仅仅只是用了一点属于是使用大炮打蚊子了## 运行项目常见的Scrapy运行使用命令srapy crawl 项目内模块名。需要注意的是你需要在运行项目之前切换到项目内而不是Clould Studio的默认目录那样你会运行失败的2. 使用git将代码上传到Gitee
我们先打开终端输入git init初始化代码仓库
然后
git add .
git commit -m 爬取起点月票榜数据
git clone git remote add origin # 仓库链接
git push -u origin master # 上传gitee3. 项目完成销毁工作空间
先将工作空间关闭 退出之后回到工作空间可以点击三个点删除 结语
相较于传统的IDE来说Clould Studio更为的快捷和方便不需要复杂的环境配置不需要下载任何东西只需要有一台能够连接互联网的电脑就可以进行开发工作了。
更为难能可贵的是Clould Studio不仅仅没有因为快捷方便而舍弃了一部分功能还在拥有大多数IDE功能的前提下增加了很多功能。比如新增的AI代码助手模板一键搭建等都是很方便的。
以往除了vscode之外我们想要一个全能的编辑器是很难而Clould Studio就可以全能什么语言它都兼容而且写多个语言也不需要下载多个语言的编译器就可以直接上手为新手开发者和学生提供了很大的便利。
目前还没看到有缺点是一款很优秀的软件很适合入手。