做网站映射tcp,自己怎么做游戏软件,php 网站源代码,室内装饰公司网站模板文章目录 1. 524MB中文维基百科语料#xff08;需要下载的数据集#xff09;2. 下载 hugging face 网站上的数据集3. 读取 .arrow 文件报错代码4. 纠正后代码 1. 524MB中文维基百科语料#xff08;需要下载的数据集#xff09; 2. 下载 hugging face 网站上的数据集
要将H… 文章目录 1. 524MB中文维基百科语料需要下载的数据集2. 下载 hugging face 网站上的数据集3. 读取 .arrow 文件报错代码4. 纠正后代码 1. 524MB中文维基百科语料需要下载的数据集 2. 下载 hugging face 网站上的数据集
要将Hugging Face网站上的数据集下载到本地可以使用Hugging Face提供的Python库 datasets。以下是下载数据集的基本步骤
确保你已经安装了 datasets 库。你可以使用以下命令安装它
pip install datasets导入 datasets 库
from datasets import load_dataset使用 load_dataset 函数加载你感兴趣的数据集。例如如果你想下载上面网页的数据集你可以这样做
dataset load_dataset(pleisto/wikipedia-cn-20230720-filtered)下载完成后你可以指定一个本地目录来保存数据集文件。可以使用以下代码来指定保存路径
dataset.save_to_disk(rE:\DL\CSDN-blog\pyqt5_ui)请将 括号中的字符串替换为你想要保存数据集文件的实际目录。这样你就可以将Hugging Face网站上的数据集下载到本地指定的目录中了。
请注意某些数据集可能需要进行身份验证或同意使用条款才能下载。确保你遵守数据集提供者的规定和许可要求。
下载后的结果 3. 读取 .arrow 文件报错代码
import pyarrow as pa# 读取.arrow文件
table pa.ipc.open_file(rE:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow).read_pandas()
print(打印数据\n, table)报错输出 C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
Traceback (most recent call last):File E:/DL/CSDN-blog/pyqt5_ui/gen_data.py, line 8, in moduletable pa.ipc.open_file(rE:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow).read_pandas()File C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py, line 236, in open_fileoptionsoptions, memory_poolmemory_pool)File C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py, line 111, in __init__optionsoptions, memory_poolmemory_pool)File pyarrow\ipc.pxi, line 942, in pyarrow.lib._RecordBatchFileReader._openFile pyarrow\error.pxi, line 144, in pyarrow.lib.pyarrow_internal_check_statusFile pyarrow\error.pxi, line 100, in pyarrow.lib.check_status
pyarrow.lib.ArrowInvalid: Not an Arrow file4. 纠正后代码
参考链接 Python : Arrow、Pyarrow库、以及与Julia互读
import pyarrow as pa
import json
# from datasets import load_dataset
# dataset load_dataset(pleisto/wikipedia-cn-20230720-filtered)
# dataset.save_to_disk(rE:\DL\CSDN-blog\pyqt5_ui)# 读取.arrow文件
# table pa.ipc.open_file(rE:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow).read_pandas()
# 可以读出julia对应的test.arrow文件
def read_arrow_to_df_julia_ok(path):with open(path,rb) as f:r pa.ipc.RecordBatchStreamReader(f)df r.read_pandas()return df
table read_arrow_to_df_julia_ok(rE:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow)
# 打印数据
print(打印数据\n, table)正确结果输出 C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
打印数据source completion
0 wikipedia.zh2307 昭通机场ZPZT是位于中国云南昭通的民用机场始建于1935年1960年3月开通往返航...
1 wikipedia.zh2307 我的英雄学院英雄新世纪\n《我的英雄学院剧场版英雄新世纪》仆のヒーローアカデミア TH...
2 wikipedia.zh2307 黄大仙文化公园Wong Tai Sin Culture Park是香港一个公园位于九龙...
3 wikipedia.zh2307 佐洛奇夫Zolochiv或按俄语译为佐洛乔夫Золочев是乌克兰西部利沃夫州佐...
4 wikipedia.zh2307 陈准字道基颍川郡许昌今河南许昌人。西晋官员。官至太尉。出身颍川陈氏青州刺史陈佐之子...
... ... ...
127269 wikipedia.zh2307 五个为什么英文5 Whys又称为“五个为何”、“五问”或“五问法”是一种提出问题的...
127270 wikipedia.zh2307 热凝胶多糖又名可得然胶、卡德兰胶是一种β-1,3-葡聚糖是由葡萄糖组合而成的高分子聚合...
127271 wikipedia.zh2307 尤宁县 (阿肯色州)\n尤宁县Union County是美国阿肯色州南部的一个县南邻路...
127272 wikipedia.zh2307 超粒方本名邱奕淳台湾百万订阅YouTuber国立交通大学今国立阳明交通大学外文系肄...
127273 wikipedia.zh2307 《切尔诺贝利·禁区》是由“SineLab Production”第1季和RatPack ...[127274 rows x 2 columns]Process finished with exit code 0