相关文章
五款必备高效Python数据分析库,你知道几个?
2024-11-10 17:07

       在大数据时代,数据思维已开始深刻变革各行各业,从我们的电商消费信息、运动轨迹、社交数据、产品使用习惯,到企业的调研、设计、产品、运营、营销,再到交通、金融、生产制造、公共服务。而由于Python在数据获取、数据处理、数据分析、数据挖掘、数据可视化、机器学习、人工智能等方面有着非常多成熟的库以及活跃的社区,构成数据科学领域最为完整且完善的生态。

五款必备高效Python数据分析库,你知道几个?

       尤其是在NLP(自然语言处理)项目中,用Python来处理数据也就变得更加广泛了。下面将详细地介绍五款必备的高效Python数据分析库。这会对我们编写高级复杂的程序帮助很大。但不用担心,你不需要有任何技术基础就可上手这些库。

       Numerizer是一个将自然语言中文本数字快速转换为整数型(int)和浮点型(float)数字的Python模块或库。它是一个开源的GitHub项目(https://github.com/jaidevd/numerizer)。特别说明,为了方便演示该库的使用。这里推荐使用Anaconda,它是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,非常适合初学者。

打开Anaconda的终端,输入如下语句进行Numerizer库的安装。

pipinstall numerizer

安装完成后,我们可以运行Anaconda内置的spyder,并输入以下语句

fromnumerizer import numerize

numerize('fortytwo')

numerize('forty-two')

numerize('fourhundred and sixty two')

numerize('onefifty')

numerize('twelvehundred')

numerize('twentyone thousand four hundred and seventy three')

numerize('onemillion two hundred and fifty thousand and seven')

numerize('onebillion and one')

numerize('nineand three quarters')

numerize('platformnine and three quarters')

程序运行结果如下图所示,可以很清楚地发现,英文文字数字被准备转换成了相应的数字。

       在现实世界的数据集中发现丢失值是很普遍的。每次处理数据时,缺失值是必须要考虑的问题。但是手工查看每个变量的缺失值是非常麻烦的一件事情。数据分析之前首先要保证数据集的质量。Missingo就是一个可视化丢失值的库。它提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集,使您可以快速直观地总结数据集的完整性。(该库的GitHub地址:https://github.com/ResidentMario/missingno)

这里同样是使用Anaconda,打开Anaconda的终端后,输入如下语句进行Missingo库的安装

pipinstall missingno

下面的样例数据使用NYPD Motor VehicleCollisions Dataset 数据集.运行下面语句即可获得数据

pipinstall quilt

quiltinstall ResidentMario/missingno_data

之后,加载数据到内存,输入以下语句

fromquilt.data.ResidentMario import missingno_data

collisions= missingno_data.nyc_collision_factors()

collisions= collisions.replace("nan", np.nan)

在Missingo库中,有几个主要函数以不同方式的可视化展示数据集数据缺失情况。其中,Matrix是使用最多的函数,能快速直观地看到数据集的完整性情况。输入以下语句:

importmissingno as msno

%matplotlibinline

msno.matrix(collisions.sample(250))

程序运行后,矩阵显示的结果如下。图中右边显示的迷你图总结了数据集的总的完整性分布,并标出了完整性最大和最小的点。

特别说明,这里也可以通过figsize指定输出图像大小,例如下面语句:msno.matrix(collisions.sample(250),figsize=(12,5))

此外,msno.bar函数也是一个非常有用的函数,可以简单地展示无效数据的条形图。

msno.bar(collisions.sample(1000))

程序运行后,显示的数据条形图:

在软件需求、开发、测试过程中,我们可能会遇到需要生成一些测试数据或在分析中使用一些虚拟数据的情况。针对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据。但由于现在的业务系统数据多种多样,千变万化。在手动制造数据的过程中,可能需要花费大量精力和工作量,此项工作既繁复又容易出错,而且,部分数据的手造工作无法保障:比如UUID类数据、MD5、SHA加密类数据等。

Faker是一个Python库,开源的GITHUB项目(https://github.com/joke2k/faker),主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的快速生成。

pipinstall faker

输入下面语句,引用初始化

fromfaker import Faker

f=Faker(locale='zh_CN')

特别说明,关于初始化参数locale:为生成数据的文化选项,默认为英文(en_US)。如果要生成相对应的中文随机信息(比如:名字,地址,邮编,城市,省份等),需使用zh_CN值。

之后,输入下面语句,将随机生成假的中文名字和地址,非常简单易用。

fori in range(1,100):

  print(f.name()+" "+f.address())

运行结果如下:

在情感数据分析方面,收集和分析有关表情符号的数据可以提供非常有用的信息。而表情符号是一种小到可以插入到表达情感或想法的文本中的图像。它仅由使用键盘字符(如字母、数字和标点符号)组成。

Emot库也是一个开源Github项目(https://github.com/NeelShah18/emot),可以帮助我们把表情符号emojis和emoticons转换成单词。它有一个很全面的表情符号与相应单词映射的集合。

输入以下语句即可自动安装

pipinstall emot

输入下面语句

importemot

text= "I love python

    以上就是本篇文章【五款必备高效Python数据分析库,你知道几个?】的全部内容了,欢迎阅览 ! 文章地址:http://fswenzheng.xhstdz.com/news/1596.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://fswenzheng.xhstdz.com/mobile/ , 查看更多   
最新文章
适合中老年游戏活动的项目有哪些?
引言:为何中老年游戏活动尤为重要 随着社会的不断发展和生活水平的提升,中老年人的生活方式也随之改变。对于他们来说,健康和快乐成为了生活的重要组成部分。而游戏活动,不仅能够增加社交互动,还能锻炼身体与思维。因此,选择适合中老
上海旅游攻略:探访繁华之都的风情韵味
引言:开启上海的奇妙之旅 上海,这座迷人的城市,拥有着深厚的文化底蕴与现代化的繁华景象,无论是初次造访还是再次归来,都会让人惊叹于它独特的风情韵味。在这里,历史与现代交融,传统与创新并存,等待着你去探索这座繁华之都的每个角
高新企业网站优化方法大揭秘!
高新企业网站的重要性 随着互联网的快速发展,企业网站已经成为企业宣传、推广和营销的重要渠道。对于高新技术企业来说,网站更是展示企业形象、产品技术、行业影响力的窗口。因此,如何优化企业网站,提升网站的曝光率和用户体验成为了高
探索旅游景区的独特魅力:人文、自然与体验的完美结合”
引言:旅游景区的魅力所在 在如今快节奏的生活中,越来越多的人选择通过旅行来放松身心,寻找内心的宁静。在旅游的过程中,景区的选择则显得尤为重要。一个优质的旅游景区不仅仅是壮丽的自然风光,还有深厚的人文底蕴和丰富的体验活动。本
提升健康与活力:探索运动健身的多样化内容与方法
引言:健身的时代已来临 随着人们生活水平的提高,越来越多的人开始关注自身的健康与活力。运动健身不再是一种单一的方式,而是发展出了多样化的内容与方法。无论是为了减肥、塑形,还是增强体质,运动健身都成为了许多人的日常习惯和生活
80岁老人旅游规定的常见问题及注意事项解析
引言:老年人的旅游热潮 随着社会的发展和生活水平的提升,越来越多的老年人开始积极参与到旅游活动中。他们用实际行动证明,年龄并不是旅途的限制,反而是丰富人生经验的体现。虽然老年游客在旅途中享有更多的自由和乐趣,但在旅游规定及
AI写作论文是否会被检测?解密检测机制!
引言:AI写作的崛起 近年来,人工智能(AI)技术的发展迅猛,尤其是在写作领域。AI写作工具不仅能生成高质量的文章,还能满足不同用户的需求,成为内容创作的得力助手。然而,伴随着AI写作的普及,一个新的问题也逐渐显现出来:AI写作论文
几月份去兰州旅游最宜?
探索兰州的四季魅力 兰州,作为甘肃省的省会,坐落于黄河之畔,是一座历史悠久的城市,兼具独特的自然风貌与深厚的人文底蕴。每个季节,兰州展现出不同的面貌,吸引着四面八方的游客前来探索。那到底几月份去兰州旅游最为宜人呢?接下来,
探索中国旅游标志的原型与文化内涵的深度解读
探索中国旅游标志的原型与文化内涵 中国作为一个拥有悠久历史和丰富文化的国家,其旅游标志更是象征着一种独特的文化内涵。中国旅游标志的原型多取材于中国传统艺术元素,加之对中国文化的理解与诠释,形成了独具魅力的形象。 中国国徽与中
轻松搞定!服务器配置RAID:提高性能数据安全双保险!
轻松搞定!服务器配置RAID:提高性能数据安全双保险! 随着信息技术的不断发展,服务器在企业中扮演着至关重要的角色。为了提高性能和数据安全,服务器配置RAID已经成为了一种常见的选择。RAID(Redundant Array of Independent Disks)即
相关文章