Pandas图鉴(三):DataFrames

发布于 2024-10-16
730

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

摘要

Pandas介绍:Pandas是Python分析数据的核心工具,它基于NumPy库,提供了便捷的数据加载、过滤、重组与可视化功能。Pandas的主要优势在于支持异质类型和提供高效的索引功能,这使得Pandas能与Excel和数据库竞争。

Polars简介:Polars是Pandas的一个新版本,使用Rust语言编写,提供了更快的速度,尽管没有使用NumPy引擎,但保持了类似的语法,便于Pandas用户迁移。

Pandas 图鉴系列

该系列包含四个部分,分别介绍Pandas与Numpy的比较、Series和Index、DataFrames和MultiIndex。文章建议订阅@数据STUDIO公众号获取更多内容。

DataFrames概述

Pandas的DataFrame是其主要数据结构,类似二维数组,并为行列提供了标签。DataFrame的创建可以通过读取CSV文件,其中pd.read_csv()函数功能强大,能自动检测列名、数据类型等信息。DataFrame还支持将列设置为索引,优化查询速度和内存使用,但语法可能更复杂。

创建DataFrame

可以直接从内存中的数据构建DataFrame,无论是通过列表、字典还是NumPy数组。提供的数据可以自动转换为合适的格式,但从二维NumPy数组创建时,默认为视图,意味着原始数据的改变会影响DataFrame。还可以从字典列表或Series字典创建DataFrame,这在添加流数据时特别有用。

基本操作

DataFrame允许轻松访问列,并对这些列执行操作。例如,可以创建新列或对不同DataFrame的列进行计算。索引DataFrame时,使用lociloc进行标签或位置索引,但要留意赋值操作可能只影响副本而非原始DataFrame。

索引DataFrames

标准的方括号索引有限,Pandas提供lociloc进行高级索引。当需要改变原始DataFrame时,应使用正确的语法来避免只修改副本。Pandas也支持NumPy风格的布尔索引,对单个值的操作需要注意可能返回的是Series而不是标量。

查询

字符串基于的查询是另一种索引方式,可以简化复杂条件的查询。

数据STUDIO

点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

149 篇文章
浏览 163.1K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线