- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第一章
文件读写与操作
《数据采集与处理:基于Python》
2024-5-11
1
2024-5-11
2
教学目标
本章学习目标
1.了解文件的基本概念、分类、常见文件格式和基本特点,理解不同类型文件的功能和适用范围;
2.掌握Python基本的文件操作,了解对象序列化和反序列化操作及作用;
3.掌握常见结构化数据文件(如CSV、JSON、Excel和XML)的Python基本读写操作方法,理解文件的内容结构和编码格式;
4.了解常见非结构化数据文件(如Word、PDF、图像等)的内容组织格式和读写方法,理解用于科学数据存储的HDF文件的格式、结构特点及读写方法。
本章提纲
1、文件读写基本操作
2、CSV文件读写
3、JSON文件读写
4、XML文件读写
5、HDF文件读写
6、PDF文件读写
7、图像文件读写
文件读写基本操作
2024-5-11
3
文件的概念及分类
4
为了长期保存数据以便重复使用、修改和共享,必须将数据以文件的形式存储到外部存储介质(如磁盘、U盘、光盘或云盘、网盘、快盘等)中。
文件操作在各类应用软件的开发中均占有重要的地位:
管理信息系统是使用数据库来存储数据的,而数据库最终还是要以文件的形式存储到硬盘或其他存储介质上。
应用程序的配置信息往往也是使用文件来存储的,图形、图像、音频、视频、可执行文件等等也都是以文件的形式存储在磁盘上的。
文件的概念及分类
5
按文件中数据的组织形式把文件分为文本文件和二进制文件两类。
文本文件:文本文件存储的是常规字符串,由若干文本行组成,通常每行以换行符\n结尾。常规字符串是指记事本或其他文本编辑器能正常显示、编辑并且人类能够直接阅读和理解的字符串,如英文字母、汉字、数字字符串。文本文件可以使用字处理软件如gedit、记事本进行编辑。
二进制文件:二进制文件把对象内容以字节串(bytes)进行存储,无法用记事本或其他普通字处理软件直接进行编辑,通常也无法被人类直接阅读和理解,需要使用专门的软件进行解码后读取、显示、修改或执行。常见的如图形图像文件、音视频文件、可执行文件、资源文件、各种数据库文件、各类office文档等都属于二进制文件。
文件基本操作
无论是文本文件还是二进制文件,其操作流程基本都是一致的,首先打开文件并创建文件对象,然后通过该文件对象对文件内容进行读取、写入、删除、修改等操作,最后关闭并保存文件内容。
6
内置函数open()
7
open(file,mode=r,buffering=-1,encoding=None,errors=None,
newline=None,closefd=True,opener=None)
file参数指定了被打开的文件名称。
mode参数指定了打开文件后的处理方式。
buffering参数指定了读写文件的缓存模式。0表示不缓存,1表示缓存,如大于1则表示缓冲区的大小。默认值是缓存模式。
encoding参数指定对文本进行编码和解码的方式,只适用于文本模式,可以使用Python支持的任何格式,如GBK、gb18030、gb2312、utf8、CP936等等。注意:对于中文内容的文件,打开读取内容如果是乱码,可尝试设置encoding为对应中文编码格式
内置函数open()
文件打开模式
8
模式
说明
r
读模式(默认模式,可省略),如果文件不存在则抛出异常
w
写模式,如果文件已存在,先清空原有内容
x
写模式,创建新文件,如果文件已存在则抛出异常
a
追加模式,不覆盖文件中原有内容
b
二进制模式(可与其他模式组合使用)
t
文本模式(默认模式,可省略)
+
读、写模式(可与其他模式组合使用)
图示
图示
内置函数open()
11
如果执行正常,open()函数返回1个文件对象,通过该文件对象可以对文件进行读写操作。如果指定文件不存在、访问权限不够、磁盘空间不足或其他原因导致创建文件对象失败则抛出异常。
f1=open(file1.txt,r)#以读模式打开文件
f2=open(file2.txt,w)#以写模式打开文件
当对文件内容操作完以后,一定要关闭文件对象,这样才能保证所做的任何修改都确实被保存到文件中。
f1.close()
文件对象属性与常用方法
12
方法
功能说明
close()
把缓冲区的内容写入文件,同时关闭文件,并释放文件对象
flush()
把缓冲区的内容写入文件,但不关闭文件
read([size])
从文本文件中读取size个字符(Python3.x)的内容作为结果返回,或从二进制文件中读取指定数量的字节并返回,如果省略size则表示读取所有内容
readline()
从文本文件中读取一行内容作为结果返回
您可能关注的文档
- 《数据采集与处理:基于python》 课件 第1章-概述.pptx
- 《数据采集与处理:基于python》 课件 第3章-Numpy与Pandas基础.pptx
- 《数据采集与处理:基于python》 课件 第4章-数据可视化.pptx
- 《数据采集与处理:基于python》 课件 第6章-统计与概率基础.pptx
- 《数据采集与处理:基于python》 课件 第7章-数据清洗与预处理.pptx
- 《数据采集与处理:基于python》 课件 第8章-网络数据采集.pptx
- 《数据采集与处理:基于python》 课件 第9章-关系数据库连接与访问.ppt
- 《数据采集与处理:基于python》 课件 第10章-大数据存储与访问技术.pptx
- 《数据采集与处理:基于python》 课件 第11章-数据集成与ETL技术.ppt
- 数据采集与处理-教案设计-第1章-概述.docx
- 第12章 证明(教师版).docx
- Unit 6 When was it invented?-【同步写作课】2023-2024学年九年级全册英语单元写作深度指导(人教版)(解析版).docx
- 期末测试卷02(解析版).docx
- 7.1探索直线平行的条件(讲+练)(解析版).docx
- 课件:什锦拼盘制作.pptx
- 课件-网络营销概念 3 (1).ppt
- 专题06 压强计算(压强与浮力结合题)-上海市2024年中考复习资料汇编(培优专用)【原卷版】.docx
- 第十章 水中的生物(B卷•考点梳理练)(解析版)-【单元测试】2022-2023学年七年级生物分层训练AB卷(苏科版七下).docx
- 课件 项目四 社会生活旅游资源审美 (1).pptx
- 情境二 任务5 散客结账离店服务1.pptx
文档评论(0)