曾国藩的治家思想
曾国藩治家的八本,八宝,三致祥,三不信,四字诀,这些是曾国藩治家的根本思想,值得我们学习。
八本:
传家八宝:书,蔬、鱼、猪、早、扫、考、宝。
三致祥即:孝致祥,勤致祥,恕致祥。
三不信:不信僧巫,不信地仙,不信医药。
四字诀:勤俭孝友(勤劳俭朴持家,孝敬父母长辈,友好兄弟姐妹,团结左右邻居)。
Popularity: 20%
Popularity: 20%
昨天晚上听了雪筠师姐的报告会,(报告会的通知见这里,志峰师兄写的雪筠师姐的访谈在这里)收获非常多,独乐乐不如与众乐乐,我把我的感想分享给大家。由于正赶上下班高峰,我迟到了十五分钟。到的时候雪筠师姐已经差不多讲完了。雪筠师姐的本次演讲的主要部分以提问为主,下面的内容也按照问题的一个方面一个方面的阐述,可能有些关联性不是那么强,大家见谅。
Click to continue reading “听吴雪筠师姐报告总结&感想”
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: 听吴雪筠师姐报告总结&感想
Popularity: 29%
最近看到一篇好的文章,感觉很不错,想与大家分享。(同时从这篇文章中也发现了做数据挖掘大有可为-_-)
4月10号techcrunch上有一篇文章“The New information Age”讲到了web3.0的特征和新信息时代的一些特点:真实的用户产生海量的数据。如何利用这些数据应该是下一次信息浪潮的热点。不仅仅这篇文章不错,下面的评论也很有意思,其中一个人说:
The Web has 3 fundamental components:
- Content/Data
- People and.
- Communications- the interaction between the first two components.
While Web 1.0 solved the Content/Data part and Web 2.0 brought People online, the 3rd critical part of the Web – Real-time Communications has not been solved.
我已经深切的感受到了现在的互联网的信息越来越真实,facebook的5亿用户大部分都提供真实的信息。国内的人人网,开心网上面的信息也越来越真实,sina微博的加V服务,很多不加v的用户也提供真实的信息和头像。互联网已经成为社会的一个延伸,很多人把互联网作为个人品牌传播的媒介,以前的那种在网上聊天不知道对方是人还是狗的时代已经一去不复返了。facebook在国外已经成为了一种身份认证服务,人们在网上行为也越来越规范,创造的信息也越来越有价值(真实身份下面大家都会维护自己在网上的声誉)。
目前互联网(或者说整个人类世界)的数据越来越多,多到一辈子只能利用其中百万分之一甚至更少的数据,如何找到有用的信息,如何更智能的利用更多的信息,都是迫切而现实的问题。目前利用这些海量信息的方式还非常原始,新的浪潮需要技术大的突破,在这个领域应该会产生很多伟大的公司。
国内有人翻译了新信息时代这篇文章,http://www.36kr.com/a-new-information-age/,翻译的质量还可以,但是评论的质量不如techcrunch上的用户。
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: web3.0和新信息时代
Popularity: 28%
linux 中查看 某个单进程程序运行所占内存所占的内存空间,设pid为进程id(ps aux| grep ‘processName’获得),查看/proc/pid/statm和/proc/pid/status即可
proc/[pid]/statm
Provides information about memory usage, measured in pages. The
columns are:
size total program size
(same as VmSize in /proc/[pid]/status)
resident resident set size
(same as VmRSS in /proc/[pid]/status)
share shared pages (from shared mappings)
text text (code)
lib library (unused in Linux 2.6)
data data + stack
dt dirty pages (unused in Linux 2.6)
/proc/[pid]/status
Provides much of the information in /proc/[pid]/stat and
/proc/[pid]/statm in a format that's easier for humans to parse.
Here's an example:
$ cat /proc/$$/status
Name: bash
State: S (sleeping)
Tgid: 3515
Pid: 3515
PPid: 3452
TracerPid: 0
Uid: 1000 1000 1000 1000
Gid: 100 100 100 100
FDSize: 256
Groups: 16 33 100
VmPeak: 9136 kB
VmSize: 7896 kB
VmLck: 0 kB
VmHWM: 7572 kB
VmRSS: 6316 kB
VmData: 5224 kB
VmStk: 88 kB
VmExe: 572 kB
VmLib: 1708 kB
VmPTE: 20 kB
Threads: 1
SigQ: 0/3067
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000010000
SigIgn: 0000000000384004
SigCgt: 000000004b813efb
CapInh: 0000000000000000
CapPrm: 0000000000000000
CapEff: 0000000000000000
CapBnd: ffffffffffffffff
Cpus_allowed: 00000001
Cpus_allowed_list: 0
Mems_allowed: 1
Mems_allowed_list: 0
voluntary_ctxt_switches: 150
nonvoluntary_ctxt_switches: 545
The fields are as follows:
* Name: Command run by this process.
* State: Current state of the process. One of "R (running)", "S
(sleeping)", "D (disk sleep)", "T (stopped)", "T (tracing stop)", "Z
(zombie)", or "X (dead)".
* Tgid: Thread group ID (i.e., Process ID).
* Pid: Thread ID (see gettid(2)).
* TracerPid: PID of process tracing this process (0 if not being
traced).
* Uid, Gid: Real, effective, saved set, and file system UIDs (GIDs).
* FDSize: Number of file descriptor slots currently allocated.
* Groups: Supplementary group list.
* VmPeak: Peak virtual memory size.
* VmSize: Virtual memory size.
* VmLck: Locked memory size (see mlock(3)).
* VmHWM: Peak resident set size ("high water mark").
* VmRSS: Resident set size.
* VmData, VmStk, VmExe: Size of data, stack, and text segments.
* VmLib: Shared library code size.
* VmPTE: Page table entries size (since Linux 2.6.10).
* Threads: Number of threads in process containing this thread.
* SigPnd, ShdPnd: Number of signals pending for thread and for process
as a whole (see pthreads(7) and signal(7)).
* SigBlk, SigIgn, SigCgt: Masks indicating signals being blocked,
ignored, and caught (see signal(7)).
* CapInh, CapPrm, CapEff: Masks of capabilities enabled in inheritable,
permitted, and effective sets (see capabilities(7)).
* CapBnd: Capability Bounding set (since kernel 2.6.26, see
capabilities(7)).
* Cpus_allowed: Mask of CPUs on which this process may run (since Linux
2.6.24, see cpuset(7)).
* Cpus_allowed_list: Same as previous, but in "list format" (since
Linux 2.6.26, see cpuset(7)).
* Mems_allowed: Mask of memory nodes allowed to this process (since
Linux 2.6.24, see cpuset(7)).
* Mems_allowed_list: Same as previous, but in "list format" (since
Linux 2.6.26, see cpuset(7)).
* voluntary_context_switches, nonvoluntary_context_switches: Number of
voluntary and involuntary context switches (since Linux 2.6.23).
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
Popularity: 57%
1、MAE
2、RMSE
3、Precision-Recall 曲线(TOP-K推荐常用)和AUC(area under curve)
4、NDCG(Normalized Discounted Cumulative Gain),一种评价top-k推荐的方法,来源于搜索引擎搜索结果的评价指标
5、可解释性(explanation),这个往往是模型本身的特点决定的
6、多样性(diversity),具体公式???
7、惊喜度(serendipity),具体公式??
8、置信系数(confidence),这个还没有弄明白,不过已经具体知道几篇论文介绍这个方面
1、离线测试
(1)把数据集分成训练集和测试集,在训练集上训练模型参数,在测试集上测试
(2)
2、在线测试
(1)A/B test
(2)
3、用户调研(user studies)
就是找一批测试用户,记录他们在特定情况下的反应,问他们的反馈,
参考文献:
1、Recommender System Handbook chapter 8
2. zheng H, Do clicks measure recommendation relevancy?: an empirical user study
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: 推荐系统评估指标和实验方法
Popularity: 47%
在实现koren论文的算法的时候我遇到了很多问题:
(1)针对大规模数据的时候(100M的打分数据),以前那种粗放型的使用cpu和内存的方法完全行不通,因为数据量大,算法和数据结构不考虑周到则时间和空间消耗都难以忍受。
(2)数据的初始化和参数的设置对结果有很大的影响,为了复现koren的结果,我第一个svd的程序大概花了2周时间才搞定,中间走了很多弯路,光调参数就花了4天。
(3)其他一些困难,此处省略1000字-_-……
为了减少推荐系统领域的朋友入门的难度,我将一些推荐算法的细节展现出来,通过代码的形式呈现给大家,给大家一个好的参照,使大家能尽快上手,减小入门的门槛,希望能为推荐系统领域的发展尽一些绵薄之力!希望有更多的人研究这个有趣且有用的领域!
代码说明:
(1)所有的代码都是用c++实现(c++效率高,对于像netflix dataset这么大规模的数据,脚本语言处理起来太慢)
(2)代码使用GPL V3协议发布,大家在使用的时候请保留版权信息。
(3)代码中肯定有很多不完善和错漏的地方,如果发现,请给我发邮件,也希望大家和我一起完善这个project。
一些有用的链接
(1) 新人第一步:快速使用本project的入门指南
(2) 获取本project中用到的netflix的测试集和训练集数据的方法:netflix数据预处理方法
(3) 在代码实现过程中遇到的问题
(4) knn算法执行的一些结果
(5) svd算法执行的一些结果
希望有更多的人加入这个project,将更多的算法代码贡献出来,比如目前尚缺RBM model,temporal model
想加入开发的或者交流的朋友可以从这里很方便的联系我:我的联系方式 或者直接给我发mail,honglianglv at gmai的邮箱
ps: 这也是我的第一个开源项目,用了这么多的开源软件,今天算是迈出了回馈开源界的第一步,以后如果有好的东西我也会分享给大家
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: 推荐系统算法实现的开源project发布(implementations of classic algorithms in recommender system)
Popularity: 76%
netflix已经不提供数据集下载了,但是很多做推荐系统的朋友还是想在netflix数据集上面做实验,验证一些想法或者是学习一些经典算法。现在提供下载,希望大家尽量采用单线程下载,总大小666M。
PS:一切版权归netflix所有,我这里只是给大家提供一些方便,这是一个原始的完整的数据包,包括了netflix的版权声明,如果有人认为提供下载不合适,侵犯了netflix的版权,可以随时给我发邮件,我去掉这个链接。
english version:
netflix does not provide dataset now, but there are also many friends who want the dataset to verify some new ideas or to learn some classic recommender system algorithms. Now I provide the dataset as follows:( hope you use single-thread to download, the total size of the dataset is 666M).
PS: All rights reserved by netflix. I only provide some convenience to the researcher of recommender system. The dataset is an original and complete one, including the netflix’s copyright notice.
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: netflix dataset 下载(download)
Popularity: 100%
版权声明:本文纯属原创,转载请注明出处!
去年11月份在我感觉最痛苦最无助的时候看到了曾国藩家书,从此开始了对曾国藩的了解,了解曾国藩对我走出困境,树立正确的价值观起到了非常积极的作用,独乐乐不如与众乐乐,我想把曾国藩推荐给大家。
曾国藩维基百科介绍:http://zh.wikipedia.org/zh-cn/%E6%9B%BE%E5%9B%BD%E8%97%A9
名人对曾国藩的评价:
·毛泽东: 愚于近人,独服曾文正!
毛泽东十六岁时在湘乡东山高小读书,并在这里通读了光绪年间出版的《曾文正公全集》。他读过的《曾文正公全集》,至今还保留在韶山毛泽东纪念馆。l917 年,毛泽东在通读《曾文正公全集》之后,对中国历史上的大人物进行了一番研究,得出了“愚于近人,独服曾文正”的结论。毛泽东在写给好友萧子升的信中曾提 到:尝诵程子之箴,阅曾公(即曾国藩)之书,上溯周公、孔子之训,若曰惟口兴戎,讷言敏行,载在方册,播之千祀。
· 蒋介石: 《曾文正公全集》,任何政治家必读!
蒋介石案头常年摆着一套《曾文正公全集》,时时翻阅,一生都在研究它。他准备了很多套《曾文正公全集》,经 常拿来作为奖赏送人。 蒋介石一生推崇、学习、效仿曾国藩,认为曾国藩的著作“是任何政治家所必读的”。
·梁启超: 吾谓《曾文正集》,不可不日三复也!
梁启超对曾国藩推崇备至:曾文正者,岂惟近代,盖有史以来不一二睹之大人也已;岂惟我国,抑全世界不一二睹 之大人也已。在《饮冰室文集•新民说》中,他如此评价《曾文正公全集》:吾党不欲澄清天下则已,苟有此志,则吾谓《曾文正集》,不可不日三复也。
我们已经知道学习曾国藩对我们很有好处,那么学习曾国藩最快捷的方式是什么呢?我认为学习知识就像炖肉,首先用大火炖,然后用小火焖,如此烹调,味道才能全部出来。读曾国藩也是这样,首先看传记了解其大概,然后看家书,日记,奏章,了解其细节。
(1) 百科全书:
维基百科:http://zh.wikipedia.org/zh-cn/%E6%9B%BE%E5%9B%BD%E8%97%A9
百度百科http://baike.baidu.com/view/5481.htm
(2) 年谱:http://www.gf08.com/zgf/zgfnp2.htm ,如果有条件看看年鉴更好,在《曾文正公全集》第一卷有。
(3) 清史稿曾国藩传:http://www.guoxue.com/shibu/24shi/qingshigao/qsgx_405.htm :
(4) 唐浩明的《曾国藩传》:(点击下载:唐浩明-曾国藩传)
110331重要更新: 感谢xm4s 推荐的萧一山的《曾国藩传》,这才是真正的好的曾国藩传记,比唐浩明的那本高几个档次,点击这里下载
(5) 张弘杰的《曾国藩的正面与侧面》,非常好的书,强烈推荐!!!!
网上可以看到一半的内容,可以先看后买。http://www.tianya.cn/publicforum/content/no05/1/181190.shtml ,购买可以去京东或者卓越
ps:大火炖的要诀在于快,快速浏览曾国藩的生平和概貌,对理解他的书信,日记,奏章,批牍都有好处
1、 曾国藩家书:先看精选,再看全集
精选:唐浩明的《唐浩明点评曾国藩家书》
全集:《曾国藩家书全集》,推荐岳麓书社版本,如果没有的话北京燕山出版社的也可以凑合。
2、 《曾文正公全集》传忠书局版,梁启超,毛泽东,蒋介石看的就是这个版本
3、 《曾国藩全集》岳麓书社版
PS:小火焖阶段要诀在慢,一天看家书不超过5篇,2篇为宜,细细体会,把学习曾国藩当成一辈子的事情,不在于看得多,而在于自己理解收获的多少,边看边思考,要真正的有收获。等看完家书全集,甚至选集。应该就会有自己的体会,剩下的怎么学习就看自己的个人兴趣了。
祝大家在学习曾国藩的过程中感受到自我升华的快感,哈哈哈!
点击下载:唐浩明-曾国藩传
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: 推荐学习曾国藩&学习曾国藩的方式
Popularity: 24%
最新评论