yina完成DL102入学任务啦 #86

yiiina · 2017-10-05T17:11:52Z

借鉴早交作业同学的作业，总结各位的思路大概有3种：
①Python内置正则表达式模块re完成；
②中文文本处理包zhon.hanzi的符号处理puntuation,最后用Counter的most_common完成统计
③其他库，如nltk，operator

感觉Re强大但是复杂，驾驭比较困难；对我来说逻辑和使用比较清楚的是第二种,在此基础上，完成基础任务

yiiina · 2017-10-08T14:42:08Z

笔记：
使用的库：sympy
符号计算的pyton库，目标是成为全功能的计算机代数系统。

Symbol()在sympy中，所有的变量都要经过声明才能使用。

from sympy import Symbol
x = Symbol('x')

from sympy import *把sympy中所有的东西都加载进来

diff(func,var)计算微积分（differentiation）

笔记：
用到的库：numpy

核心：数组（arrays）
数组（array）和列表（list）

多维数组：ndarray
2个组成部分：①数据本身，②描述数据的元数据
数据处理过程中，原始数据不受影响，变化的是元数据
二维数组：[[]]一个列表的列表

numpy 库中「向量化」(vectorization)的概念

arrays可批量处理数据而不需要写任何for循环，这个叫做vectorization
python对向量操作支持不好，需要借助列表推导式或者函数式变成实现,numpy本身提供大量函数都有向量化的特点，并且可以把普通的Python函数向量化，使得python操作向量更方便

完成任务的思路：
生成正太分布数组
s=np.random.normal(mu,sigma,100) #均值，标准差，样本量
ndarray中的boolean array indexing用向量化的方法完成任务

iamzhuoxuan assigned yiiina Oct 6, 2017

ruibofeng added the achievement label Oct 9, 2017

Provide feedback