return, risk

对概率论与数理统计的回顾

Econometrics and statistics

统计学对收集到的信息有理论上的评估，而计量经济学就是针对已有的经济数据，去应用这些统计学的规律定律

Endogenity

一个模型中的变元会相互影响，并不独立。我的意思是，一个变元的值由同一模型中的其他变元决定

这个所谓“内生性”很重要，一定要考虑 (想想也是，万事万物之间肯定都有联系)，不考虑就会出现 bias，estimation 也会不准确

Machine Learning and Statistics

要说模型、数据、处理分析，其实机器学习跟统计学还蛮像的 (我靠，难道这就是为什么机器学习里有那么多有关概率的原因吗？)。因此两个学科有不少重叠

统计学是基于样本预测，而机器学习使用统计学的知识和算法来让计算机自动做预测。我的意思是，统计学是机器学习的基础

当然啦，机器学习也会走出统计学的方法，用一些特有的算法来构建，比如神经网络

~~我去太牛逼了，我想正是因为机器学习与统计学有这样的联系，所以我们机器学习老师才会说到我们可以去学一学 R 语言！~~

Frequentist and Bayesian Statistics

~~好了，这里有些超出我的知识范围了，以下仅仅是大概意思~~

okok，我想起来，之前看论文的时候又搜到过类似的说法，“频率学派”和“贝叶斯学派”

Frequentist Statistics 主要就是那些所谓当样本很大的时候，频率做概率，均值作期望，独立同分布正态分布的意思吧。但是它逻辑难自恰，新的数据来了难以运用

Bayesian Statistics 主要想说根据一些个公式，什么先验后验的，根据已有的样本，来对未来数据进行一个估计 (我想区别就在这里，前面频率学派是直接当作，而这里是对未来预估)，当有新的数据来的时候，可以修正，可以自恰

Parametric and Nonparametric Statistical Modeling

Parametric Statistical Modeling 是认为数据有一些正态分布或者 t 分布之类的，参数是确认的。主要是数据真的很像，就来拟合了

非参数统计则是当数据不是很契合参数统计的情况下，就要采用什么决策树啊之类的

参数统计一旦参数确认就独立了，无关数据；而非参数因为参数来自数据，所以不确定

Statistics

Definitions: Statistics is a way to get information from data.

Statistics is a tool for creating new understanding from a set of numbers.

应该是要记住的话：

Always look at the data:
All models are false:
Bias-variance(方差) tradeoff:
Uncertainty analysis:
Financial markets data are not normally distributed:
Variances are not constant:

Statistics in Computer Age

Computer-intensive statistics: the role of electronic computation is central to the application of statistics:
Monte carlo methods with big data
Bayesian statistics
Statistical computing with softwares (for example: R)
R itself is one of the key developments in computer-based statistical methodology.

Monte Carlo Method

Computational Thinking

计算思维开拓了一条新的路，有别于原来的 theory, experiment，而是 simulation 或者说 modeling

计算思维可以探寻到传统思维触碰不到的地方

局部加权回归散点平滑法 (locally weighted scatterplot smoothing)

第一个 R 程序

蒙特卡洛，随机数 in R

~~我觉得这里想说的就是如何用统计学中的定律，来模拟概率论中的“精确值”。所以看后面的代码实现，都是在用随机数生成~~

根据指定的分布，生成随机变量

dbinom(x, size, prob, log = F)
pbinom(q, size, prob, lower.tail = T, log.p = F)
qbinom(q, size, prob, lower.tail = T, log.p = F)
rbinom(n, size, prob)

d for density or pmf, p for cdf, q for quantile, or r for random generation from the distribution.

The Inverse Transform Method

Probability Integral Transformation

想说任何有分布函数的随机变量，讲分布函数再作用到该随机变量 (对当前随机变量变形) 的新随机变量服从 0-1 均匀分布

所以想要一个指定概率分布下的随机值，只需要在 0-1 之间产生随机数，再作用一边分布函数的反函数就可

Continuous Case

概率密度当然可以大于 1，仅仅只是全域积分为 0

Monte Carlo Integration

用频率求积分主要来源于， $f (x)$ 是密度函数

E [g (X)] = \int_{- \infty}^{\infty} g (x) f (x) d x

令 $f (x) = 1$ 就是很好很特殊的 $\int_{0}^{1} g (x) d x$

不是 1 但凡是个常数，也可以 $(b - a) \int_{a}^{b} g (x) \frac{1}{b - a} d x$ 来任意

🪴 Quartz 4.0

Explorer

Introduction