Data Weekly [第四期] #19
emptymalei
started this conversation in
Weekly
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Science/Math/Statistics
[@emptymalei 提供] [讨论此话题]
Kalman filter 是工程领域非常常用的一种方法,同时也可以被用在数据科学中。
举一个我们在高速路上开车的例子。关于这辆车的位置,我们有两个信息来源,一个是根据路标,我们可以猜测这辆车大概是在什么位置(这是我们的测量位置),另一个信息是根据我们出发地点和车速,我们可以预测我们的位置(这是我们的预测位置)。然而这两个信息都不是很准确,都有一定的发散。
那么如何把这两个信息结合起来呢?最简单的方法就是取平均。然而我们的测量位置显然是更加准确的,直接平均并不能体现这个优势。
Kalman filter 最简单的版本,就是一个带权重的平均:
W_1 * 测量位置 + W_2 * 预测位置。
这里我们要求 W_1 要大于 W_2. Kalman filter 的做法就是要求
W_1 / W_2 = 信息不确定程度_2 / 信息不确定程度_1。
这样我们的预测就可以有选择性地结合这两部分信息了。
在数据科学中,Kalman filter 常常用来做预测。例如我们要预测我们产品的近未来的使用情况。对于每天进来的新的信息,我们有两个处理方式,一个是使用所谓的 moving average(只使用最近几天的数据),另一个是我们使用 Kalman filter 来修正预测(可以当作是主观的信息修正)。
Technology
[@xiaohanyu 提供] [讨论此话题]
Redash 是一个开源的数据分析及可视化平台,和 Superset 类似,Redash 同样是基于 Python 实现的,并且有很多特性和 Superset 比较像,诸如:
与 Superset 不同,Redash 的技术架构选型更合理一些,Superset 底层 web 框架依赖于 Flask-AppBuilder,其实现及设计都相当差,并且其用户权限系统设计相当复杂,导致 Superset 本身的权限控制也相当繁冗复杂,扩展性极差。
Redash 的第三方扩展也相对更丰富一些,比如与 Slack 的集成。
最后,UI/UX 层面,Redash 做得也比 Superset 要好的多。不足之处在于数据可视化种类方面,Redash 比 Superset 还差一些。
如果当今选择基于 Python 的数据可视化及分析平台,Redash 是第一选择。
Communication/Visualization
[@emptymalei 提供] [讨论此话题]
Cleveland 和 McGill 在 Science 上发表了一篇文章,通过实验的方法对可视化的不同元素的有效性进行了分析和排名。
如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:[email protected]
来自 GetDataWeekly.com
Beta Was this translation helpful? Give feedback.
All reactions