return, risk


对概率论与数理统计的回顾

Econometrics and statistics

统计学对收集到的信息有理论上的评估,而计量经济学就是针对已有的经济数据,去应用这些统计学的规律定律

Endogenity

一个模型中的变元会相互影响,并不独立。我的意思是,一个变元的值由同一模型中的其他变元决定

这个所谓“内生性”很重要,一定要考虑 (想想也是,万事万物之间肯定都有联系),不考虑就会出现 bias,estimation 也会不准确

Machine Learning and Statistics

要说模型数据处理分析,其实机器学习跟统计学还蛮像的 (我靠,难道这就是为什么机器学习里有那么多有关概率的原因吗?)。因此两个学科有不少重叠

统计学是基于样本预测,而机器学习使用统计学的知识和算法来让计算机自动做预测。我的意思是,统计学是机器学习的基础

当然啦,机器学习也会走出统计学的方法,用一些特有的算法来构建,比如神经网络

我去太牛逼了,我想正是因为机器学习与统计学有这样的联系,所以我们机器学习老师才会说到我们可以去学一学 R 语言!

Frequentist and Bayesian Statistics

好了,这里有些超出我的知识范围了,以下仅仅是大概意思

okok,我想起来,之前看论文的时候又搜到过类似的说法,“频率学派”和“贝叶斯学派”

Frequentist Statistics 主要就是那些所谓当样本很大的时候,频率做概率,均值作期望,独立同分布正态分布的意思吧。但是它逻辑难自恰,新的数据来了难以运用

Bayesian Statistics 主要想说根据一些个公式,什么先验后验的,根据已有的样本,来对未来数据进行一个估计 (我想区别就在这里,前面频率学派是直接当作,而这里是对未来预估),当有新的数据来的时候,可以修正,可以自恰

Parametric and Nonparametric Statistical Modeling

Parametric Statistical Modeling 是认为数据有一些正态分布或者 t 分布之类的,参数是确认的。主要是数据真的很像,就来拟合了

非参数统计 则是当数据不是很契合 参数统计 的情况下,就要采用什么决策树啊之类的

参数统计一旦参数确认就独立了,无关数据;而非参数因为参数来自数据,所以不确定


Statistics

Definitions: Statistics is a way to get information from data.

Statistics is a tool for creating new understanding from a set of numbers.

应该是要记住的话:

  • Always look at the data:
  • All models are false:
  • Bias-variance(方差) tradeoff:
  • Uncertainty analysis:
  • Financial markets data are not normally distributed:
  • Variances are not constant:

Statistics in Computer Age

  • Computer-intensive statistics: the role of electronic computation is central to the application of statistics:
  • Monte carlo methods with big data
  • Bayesian statistics
  • Statistical computing with softwares (for example: R)
  • R itself is one of the key developments in computer-based statistical methodology.

Monte Carlo Method

Computational Thinking

计算思维开拓了一条新的路,有别于原来的 theory, experiment,而是 simulation 或者说 modeling

计算思维可以探寻到传统思维触碰不到的地方

局部加权回归散点平滑法 (locally weighted scatterplot smoothing)

第一个 R 程序

蒙特卡洛,随机数 in R

我觉得这里想说的就是如何用统计学中的定律,来模拟概率论中的“精确值”。所以看后面的代码实现,都是在用随机数生成

根据指定的分布,生成随机变量

dbinom(x, size, prob, log = F)
pbinom(q, size, prob, lower.tail = T, log.p = F)
qbinom(q, size, prob, lower.tail = T, log.p = F)
rbinom(n, size, prob)

d for density or pmf, p for cdf, q for quantile, or r for random generation from the distribution.

The Inverse Transform Method

Probability Integral Transformation

想说任何有分布函数的随机变量,讲分布函数再作用到该随机变量 (对当前随机变量变形) 的新随机变量服从 0-1 均匀分布

所以想要一个指定概率分布下的随机值,只需要在 0-1 之间产生随机数,再作用一边分布函数的反函数就可

Continuous Case

概率密度当然可以大于 1,仅仅只是全域积分为 0


Monte Carlo Integration

用频率求积分主要来源于, 是密度函数

就是很好很特殊的

不是 1 但凡是个常数,也可以 来任意

Monte Carlo Methods in numerical optimization (MLE)


Intro of R