return, risk
对概率论与数理统计的回顾
Econometrics and statistics
统计学对收集到的信息有理论上的评估,而计量经济学就是针对已有的经济数据,去应用这些统计学的规律定律
Endogenity
一个模型中的变元会相互影响,并不独立。我的意思是,一个变元的值由同一模型中的其他变元决定
这个所谓“内生性”很重要,一定要考虑 (想想也是,万事万物之间肯定都有联系),不考虑就会出现 bias,estimation 也会不准确
Machine Learning and Statistics
要说模型、数据、处理分析,其实机器学习跟统计学还蛮像的 (我靠,难道这就是为什么机器学习里有那么多有关概率的原因吗?)。因此两个学科有不少重叠
统计学是基于样本预测,而机器学习使用统计学的知识和算法来让计算机自动做预测。我的意思是,统计学是机器学习的基础
当然啦,机器学习也会走出统计学的方法,用一些特有的算法来构建,比如神经网络
我去太牛逼了,我想正是因为机器学习与统计学有这样的联系,所以我们机器学习老师才会说到我们可以去学一学 R 语言!
Frequentist and Bayesian Statistics
好了,这里有些超出我的知识范围了,以下仅仅是大概意思
okok,我想起来,之前看论文的时候又搜到过类似的说法,“频率学派”和“贝叶斯学派”
Frequentist Statistics 主要就是那些所谓当样本很大的时候,频率做概率,均值作期望,独立同分布正态分布的意思吧。但是它逻辑难自恰,新的数据来了难以运用
Bayesian Statistics 主要想说根据一些个公式,什么先验后验的,根据已有的样本,来对未来数据进行一个估计 (我想区别就在这里,前面频率学派是直接当作,而这里是对未来预估),当有新的数据来的时候,可以修正,可以自恰
Parametric and Nonparametric Statistical Modeling
Parametric Statistical Modeling 是认为数据有一些正态分布或者 t 分布之类的,参数是确认的。主要是数据真的很像,就来拟合了
非参数统计 则是当数据不是很契合 参数统计 的情况下,就要采用什么决策树啊之类的
参数统计一旦参数确认就独立了,无关数据;而非参数因为参数来自数据,所以不确定
Statistics
Definitions: Statistics is a way to get information from data.
Statistics is a tool for creating new understanding from a set of numbers.
应该是要记住的话:
- Always look at the data:
- All models are false:
- Bias-variance(方差) tradeoff:
- Uncertainty analysis:
- Financial markets data are not normally distributed:
- Variances are not constant:
Statistics in Computer Age
- Computer-intensive statistics: the role of electronic computation is central to the application of statistics:
- Monte carlo methods with big data
- Bayesian statistics
- Statistical computing with softwares (for example: R)
- R itself is one of the key developments in computer-based statistical methodology.
Monte Carlo Method
Computational Thinking
计算思维开拓了一条新的路,有别于原来的 theory, experiment,而是 simulation 或者说 modeling
计算思维可以探寻到传统思维触碰不到的地方
局部加权回归散点平滑法 (locally weighted scatterplot smoothing)
第一个 R 程序
蒙特卡洛,随机数 in R
我觉得这里想说的就是如何用统计学中的定律,来模拟概率论中的“精确值”。所以看后面的代码实现,都是在用随机数生成
根据指定的分布,生成随机变量
dbinom(x, size, prob, log = F)
pbinom(q, size, prob, lower.tail = T, log.p = F)
qbinom(q, size, prob, lower.tail = T, log.p = F)
rbinom(n, size, prob)
d
for density or pmf, p
for cdf, q
for quantile, or r
for random generation from the distribution.
The Inverse Transform Method
Probability Integral Transformation
想说任何有分布函数的随机变量,讲分布函数再作用到该随机变量 (对当前随机变量变形) 的新随机变量服从 0-1 均匀分布
所以想要一个指定概率分布下的随机值,只需要在 0-1 之间产生随机数,再作用一边分布函数的反函数就可
Continuous Case
概率密度当然可以大于 1,仅仅只是全域积分为 0
Monte Carlo Integration
用频率求积分主要来源于, 是密度函数
令 就是很好很特殊的
不是 1 但凡是个常数,也可以 来任意