2011年2月27日星期日

周末

我一年到頭只穿一雙鞋,除了夏天會加另外的涼鞋。你說我還保持着學生時代的作風,該備幾雙,換着穿,鞋也不易壞,還不那麼臭。於是這個月的任務就是要新增一雙鞋。今天買了。不想多走路,就在附件的燕莎商場買的。先到二樓看到的皮鞋,被嚇到了,沒有3k以下的,對我來說太天價了。到四樓運動休閒那層,挑了雙便宜的,便結算走了,也花了我1.5k,不過感覺還不錯,雖然我一開始挑中的是雙女鞋。JEEP,一直以爲只是汽車,沒想到還有衣服和鞋子。

理髮的時候,遇到一個有趣的老師。先是討論不同地方的頭髮生長速度,當時心裏在想該建個模型來表示呢。然後講亞洲人和歐洲人的平均頭髮根數,最後聊到那個白發老人,維達沙宣。剛好之前看到過,也能聊上幾句。下次去,還找他。

在理髮店或者回來的路上,沒有聽到你的電話,未接。路過那個公交站臺,知道這裏會有車開往酒仙橋798,不久前乘坐過。站臺邊上,我聽見一個女生問男生,你愛我嗎,男生抱着問的人,說我抱着我愛的人,你說呢?我回頭看了一下他們,感覺很幸福的吧。下一次,如果你問我愛你嗎,我會說是的,我愛你。那個時候,在送你的書上,不敢寫這三個字,我想在接下來的日子裏,我會慢慢學習寫在生活中。

雪還沒有融化,天氣已經慢慢轉暖,我在期待一次旅行。和你一起。

2011年2月26日星期六

落雪

落雪,在北方城市应该算常见,不过今年比较少,这是第二场。
窗外

2011年2月22日星期二

本年度最二的一天

2月22日,农历正月二十,星期二。现在是北京时间22点22分(呵,这个时间是我调的)。我想在这个时间给你打电话,可惜人被卡在电梯中。不过呢,二,随时都可以,我一直没二够,然后就快三十岁了,却立不起来。

Ivy(音,伊va,或者AV)今天生日,祝生日快乐。她在SMN签名上说,最二的女人在最二的一天过生日。

记录下上周末的流水账吧。

周六开会,演示预演。

周日上午去大头家,送元宵给他们,吃完午饭不久就回公司。照例是牛牛,本来赢着四五十块,饭前最后一局,被丫开出五小,翻七倍。后来反倒输了一些。

回公司之后,带着笔记本去外面买电话号码,一个号码一个号码,用诡异的软件,算诡异的内容,最终终于挑了两个【吉】的号码。像算命先生那样,在营业厅中,这样挑号,还是需要勇气的吧。我不禁有些佩服自己。聊胜于无吧,在虚无、无所依托、看不清未来的时候,我们还是需要给自己一些理由的吧。比如因为我挑的一个号码,我可以告诉自己,我将“繁荣发达,大展鸿图,信用得固,万人仰望,无远弗界,可获成功 ”,如此这般这般,心里总会稍微安心一些。虽然都知道,前方路该怎样还是怎样。但是这样简单廉价的自我暗示,不也挺好的嘛。

刚才想写的好像不是这些,本来想说自己分不清梦和生活之类的,因为之前做的梦好像是生活的预演,然后周末盯着机器看log的时候,恍惚中看到一个人的号码。后来想想,这大概是个bug吧,程序中有,生活中也有。bug,像女人脸上的皱纹,终究无法避免,那就坦然接受吧。毕竟,还有一种工种叫QA,能fix的就要去fix。

早安,北京。

2011年2月21日星期一

告別

測試,使用新的域名。

Carry on till tomorrow, there's no reason to look back.

2011年2月17日星期四

十四夜,吃糟羹

在浙江东南沿海一带,元宵习俗与其他地区稍有不同。在老家三门,正月十四过元宵,八月十六过中秋。正月十四中午糊“麦焦”,夜里吃“糟羹”。一说是和元末农民起义领袖方国珍有关,一说和明朝戚继光有关。我已经好久没有在吃过糟羹了。

十四夜,吃糟羹...

昨晚我将所有房间的灯都打开,接财神。小时候,正月十四我也会跑到楼上把前后房间的灯都打开,好像是这样的。

2011年2月14日星期一

情人节快乐

两对恋人,书上的和屏幕里的
情人节,有情人没情人都要有活动。告诉下面的员工,早点回去吧,别加班了,该约会的约会,该狂欢的狂欢。

GK早早走了,告诉我说ZLP说了不用他送花,还是蛋糕吧,实在些。WN墨迹着没有走,说发完邮件再说,又说周末已经庆祝了,没想过安排今晚的。我说,女生很注意这些的,还是走吧。WX也走了,号称没有女朋友。Ivy去杜蕾斯举办的狂欢party了。

我,Icy,Sophie,还有一个编剧,凑了两男两女。吃肉,不喝酒;打牌,不算钱。就这么过了一个晚上。

情人节快乐。

2011年2月13日星期日

说吧,爱情

买一本杂志,走过一片雪地
一个人成熟与否和年龄无关,是不是会照顾别人,也和年龄无关。我大抵就是这样的人。有人说我孩子气,有人说我有恋母情结。有人告诉我,你应该找一个比你年纪大的人。

反复听着陈医生和王菲的《因为爱情》,想在明天去看一场电影。可是需要吗,“因为爱情 简单的生长 依然随时可以为你疯狂”。我从来都不是疯狂的人。

想起昨天做的测试,我是接近“谢耳朵”的怪人,我在生活中都迷信科学。所以这样的话,我更相信:爱情是人类最基本的寻求配对的冲动。这不是性冲动----性冲动让你寻找能够成为性伴侣的人。而爱情让你同时只对一个人产生配对的冲动,并将你的所有精力集中于他一人身上,世界因为他有了新的中心。

从一开始,我们就不是一个被创造出来享受快乐的物种,而是繁衍后代的物种。所以,两个人一旦进入长期的伴侣关系,维持大多数婚姻的因素不再是爱情,而是孩子、经济、寂寞、安全感、面子。


2011年2月12日星期六

死亡之旅

开始

中文分词入门之资源

作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。
  SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003 年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用的前提是非商业使用(non-commercial):
  The data and results for the 2nd International Chinese Word Segmentation Bakeoff are now available for non-commercial use.
  在Bakeoff 2005的主页上,我们可以找到如下一行:“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for research use”,在这一行下面提供了三个版本的icwb2-data。下载解压后,通过README就可以很清楚的了解到它包含哪些中文分词资源,特别需要说明的是这些中文分词语料库分别由台湾中央研究院(Academia Sinica)、香港城市大学(City University of Hong Kong)、北京大学(Peking University)及微软亚洲研究院(Microsoft Research)提供,其中前二者是繁体中文,后二者是简体中文,以下按照README简要介绍icwb2-data:
1) 介绍(Introduction):
  本目录包含了训练集、测试集及测试集的(黄金)标准切分,同时也包括了一个用于评分的脚本和一个可以作为基线测试的简单中文分词器。(This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.)
2) 文件列表(File List)
  在gold目录里包含了测试集标准切分及从训练集中抽取的词表(Contains the gold standard segmentation of the test data along with the training data word lists.)
  在scripts目录里包含了评分脚本和简单中文分词器(Contains the scoring script and simple segmenter.)
  在testing目录里包含了未切分的测试数据(Contains the unsegmented test data.)
  在training目录里包含了已经切分好的标准训练数据(Contains the segmented training data.)
  在doc目录里包括了bakeoff的一些指南(Contains the instructions used in the bakeoff.)
3) 编码(Encoding Issues)
  文件包括扩展名”.utf8”则其编码为UTF-8(Files with the extension “.utf8″ are encoded in UTF-8 Unicode.)
  文件包括扩展名”.txt”则其编码分别为(Files with the extension “.txt” are encoded as follows):
  前缀为as_,代表的是台湾中央研究院提供,编码为Big Five (CP950);
  前缀为hk_,代表的是香港城市大学提供,编码为Big Five/HKSCS;
  前缀为msr_,代表的是微软亚洲研究院提供,编码为 EUC-CN (CP936);
       前缀为pku_,代表的北京大学提供,编码为EUC-CN (CP936);
  EUC-CN即是GB2312(EUC-CN is often called “GB” or “GB2312″ encoding, though technically GB2312 is a character set, not a character encoding.)
4) 评分(Scoring)
  评分脚本“score”是用来比较两个分词文件的,需要三个参数(The script ’score’ is used to generate compare two segmentations. The script takes three arguments):
  1. 训练集词表(The training set word list)
  2. “黄金”标准分词文件(The gold standard segmentation)
  3. 测试集的切分文件(The segmented test file)     以下利用其自带的中文分词工具进行说明。在scripts目录里包含一个基于最大匹配法的中文分词器mwseg.pl,以北京大学提供的人民日报语料库为例,用法如下:
  ./mwseg.pl ../gold/pku_training_words.txt < ../testing/pku_test.txt > pku_test_seg.txt
  其中第一个参数需提供一个词表文件pku_training_word.txt,输入为pku_test.txt,输出为pku_test_seg.txt。
  利用score评分的命令如下:
  ./score ../gold/pku_training_words.txt ../gold/pku_test_gold.txt pku_test_seg.txt > score.txt
  其中前三个参数已介绍,而score.txt则包含了详细的评分结果,不仅有总的评分结果,还包括每一句的对比结果。这里只看最后的总评结果:
…
   = SUMMARY:
   === TOTAL INSERTIONS: 9274
   === TOTAL DELETIONS: 1365
   === TOTAL SUBSTITUTIONS: 8377
   === TOTAL NCHANGE: 19016
   === TOTAL TRUE WORD COUNT: 104372
   === TOTAL TEST WORD COUNT: 112281
   === TOTAL TRUE WORDS RECALL: 0.907
   === TOTAL TEST WORDS PRECISION: 0.843
   === F MEASURE: 0.874
   === OOV Rate: 0.058
   === OOV Recall Rate: 0.069
   === IV Recall Rate: 0.958
   ### pku_test_seg.txt 9274 1365 8377 19016 104372 112281 0.907 0.843 0.874 0.058 0.069 0.958
  说明这个中文分词器在北大提供的语料库上的测试结果是:召回率为90.7%,准确率为84.3%,F值为87.4%等。
  SIGHAN Bakeoff公开资源的一个重要意义在于这里提供了一个完全公平的平台,任何人都可以拿自己研究的中文分词工具进行测评,并且可以和其公布的比赛结果对比,是驴子是马也就一目了然了。
注:原创文章,转载请注明出处“我爱自然语言处理”:http://www.52nlp.cn

2011年2月10日星期四

落雪

昨天的天气预报说今天“可能”有雪。今天果然下雪了。北京雪来得很晚,天气预报总算狠准了一次。

2011年2月9日星期三

有时会突然忘了,我还在爱着你

因为爱情,不会轻易悲伤,所以一切都是幸福的摸样

因为爱情,怎么会有沧桑,所以我们还是年轻的摸样

因为爱情在那个地方,依然还有人在那里游荡,人来人往

2011.2.9

农历第一天上班就领红包啦,我想我应该开心。

杭州号码终于决定不再使用,也不再充值,停了吧。我不曾想过会接那样的电话。人就是这么奇怪的动物,不止一个人说我奇怪。丘丽叶也好,丘利安也好,都只是想象中的人物。可是为什么连我们自己也都是呢?

祝幸福,在新的一年里,在接下去的日子里。