Processing math: 100%

2013年10月10日 星期四

[R] OOP(1) class的寫法

OOP就是 object-oriented programming的縮寫

中文比較常見的翻譯是「物件導向」

我其實還蠻討厭把「物件導向」不斷掛在嘴上的人,因為我覺得這四個字非常難以顧名思義

尤有甚者,一大堆屬性啦、方法啦之類完全莫名其妙的名詞就是要嚇退那些剛剛接觸程式設計的人阿!

好啦曾經的我就是被嚇得很慘的人之一(愧)




言歸正傳,說到OOP,R裡語言中當然也是有class寫法的

R語言裡主要有兩種形態的class:S3和S4

S3 Class

在R中最原始的class就是S3 class

我們可以把任何東西指定一個S3 class,比如說一個list開始

假設我今天把a這個list指定給一個叫做BodyIndex的類別
> a<- list(name="John", weight=65, height=166)
> class(a)<- "BodyIndex"
> a
$name
[1] "John"

$weight
[1] 65

$height
[1] 166

attr(,"class")
[1] "BodyIndex"

我們現在就可以幫這個特定的class寫一個他的print
print.BodyIndex<- function(l){
    BMI<- l$weight/((l$height/100)^2)
    cat(l$name,"\n")    
    cat("BMI is ", BMI)
}

當我們再請系統把它print出來的時候
> a
John 
BMI is  23.58833

S3 class當然是可以繼承的
> b<- list(name="Tom", weight=75, height=172, sex="Male")
> class(b)<- c("profile","BodyIndex")
> b
Tom 
BMI is  25.35154

隨著需求,你可以改寫更多某個類別專屬的內建函數(generic function)

S4 Class

R語言裡也提供比較安全的S4類別,但是寫法就比較複雜了

首先要用setClass()定義class

然後用new()把特定的東西指向class
> setClass("BodyIndex",
+     representation(
+         name = "character",
+         weight = "numeric",
+         height = "numeric"
+     )
+ )
> a<- new("BodyIndex",name="John", weight=65, height=166)

在S4 class裡的member我們都叫做slot

我們可以用@把他們叫出來
> a@name
[1] "John"
> a@weight
[1] 65
> a@height
[1] 166

然後不同於S3 class,S4 class是用show()讓我們看到它裡面的slot
> show(a)
An object of class "BodyIndex"
Slot "name":
[1] "John"

Slot "weight":
[1] 65

Slot "height":
[1] 166

當然我們也可以修改它,只是要用setMethod()
> setMethod("show", "BodyIndex",
+     function(obj){
+         BMI<- obj@weight/((obj@height/100)^2)
+         cat(obj@name,"\n")    
+         cat("BMI is ", BMI)
+     }
+ )

> a
John 
BMI is  23.58833

S4 class的架構下可以用setGeneric()設定自己的generic function
> setGeneric("Warnning",
+     function(obj){
+         BMI<- obj@weight/((obj@height/100)^2)
+         if(BMI>35){
+             cat("You are over-weight")
+         }else{cat("You are normal")}
+     } 
+ )

> Warnning(a)
You are normal

當然也可以用setMethod()客制化

> setMethod("Warnning", "BodyIndex",
+     function(obj){
+         BMI<- obj@weight/((obj@height/100)^2)
+         if(BMI>35){
+             cat("You are over-weight")
+         }else{cat("Good for you~~")}
+     } 
+ )

> Warnning(a)
Good for you~~

2013年10月7日 星期一

[Mahout] Big Data(3) 天殺的馬浩如何跑kmeans??

最近在研究用Mahout跑Kmeans clustering

個人認為眉眉角角很多

網路上找得到的幾乎都是文檔分群的範例

讓在嘗試的時候非常吃力


請看步驟:




1. 轉檔(.csv => sequence file)

個人認為這裡很關鍵

mahout裡似乎是沒有可以直接用的commend line

必須要自己寫JAVA轉檔

這裡附上我的JAVA code

獻醜了

import java.io.*;
import java.util.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.SequenceFile.Writer;
import org.apache.hadoop.io.Text;
import org.apache.mahout.math.*;
 
 
public class Convert2Seq {
 
  public static void main(String args[]) throws Exception{
  
        //轉好的檔案命名為point-vector
        String output = "~/point-vector";
        FileSystem fs = null;
        SequenceFile.Writer writer;
        Configuration conf = new Configuration();
        fs = FileSystem.get(conf);
        Path path = new Path(output);
        writer = new SequenceFile.Writer(fs, conf, path, Text.class, VectorWritable.class);
        
        //所有的csv檔都在factory路徑底下
        File folder = new File("~/factory");
        File[] listOfFiles = folder.listFiles();
            
        //分批把factor路徑底下的csv轉成name-vector格式之後寫進point-vector裡面
        for (int i=0; i<listOfFiles.length; i++){
        
            String input = listOfFiles[i].toString();
        
            VectorWritable vec = new VectorWritable();
            try {
                FileReader fr = new FileReader(input);
                BufferedReader br = new BufferedReader(fr);
                String s = null;
                while((s=br.readLine())!=null){    
                    String spl[] = s.split(",");
                    String key = spl[0];
                    Integer val = 0;
                    double[] colvalues = new double[1000];
                    for(int k=1;k<spl.length;k++){
                                colvalues[val] = Double.parseDouble(spl[k]);
                                val++;
                    }
                    NamedVector nmv = new NamedVector(new DenseVector(colvalues),key);
                    vec.set(nmv);
                    writer.append(new Text(nmv.getName()), vec);
                }
            } catch (Exception e) {
                System.out.println("ERROR: "+e);}
       }writer.close();
    }    
}

接下來在compile的時候要記得指定classpath

javac -classpath/{hadoop_home}/hadoop-core-0.20.2-cdh3u1.jar
    :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5.jar
        :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5-job.jar
        :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5-sources.jar
        :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5.jar
        :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5-sources.jar
        :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5-tests.jar Convert2Seq.java
 
 
java -Djava.library.path=/{hadoop_home}/lib/native/Linux-amd64-64 
     -cp .:/usr/local/hadoop-0.20.2-cdh3u1/hadoop-core-0.20.2-cdh3u1.jar
     :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5.jar
     :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5-job.jar
     :/{mahout_home}/{mahout_version}/core/target/mahout-core-0.5-sources.jar
     :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5.jar
     :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5-sources.jar
     :/{mahout_home}/{mahout_version}/math/target/mahout-math-0.5-tests.jar Convert2Seq

基本上這樣就可以了

忍不住再怨一下,轉這個超煩!

2. Canopy clustering

在做kmeans的時候,mahout會要求要有initial cluster

mahout裡的canopy cluster就可以幫我們生出來


$mahout canopy 
-i point-vector 
-o center-vector #結果存在center-vector裡 
-dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure 
-t1 500 -t2 250 
-ow 
-cl

然後就可以用他的結果(就是center-vector啦!)做kmeans clustering了~

t1、t2參數的設定和相關原理請參考線上mahout文件


3. Kmeans clustering

input是轉好的point-vector data
center是canopy生出來的initial clusters
output就取一個自己喜歡的名字囉~

$mahout kmeans 
-i point-vector 
-c center-vector 
-o clusters 
-dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure 
-x 20 
-cl 
-k 15 
-ow


4. dumping clustering result

跑完之後

結果是存在~clusters/clusterPoints裡面

因為是sequence file格式,得動用到seqdumper把他轉成看得懂的格式

檔案通常不止一個,用for-loop打他們通通打回原形~~~

typeset -i i
let i=1
for file in `$hadoop fs -ls clusters/clusteredPoints | grep 'part' | awk '{print $8}'`
do
 
 $mahout seqdumper -s $file -o ~/$i.txt
 let i++
done

2013年10月2日 星期三

[無關程式] AIC和統計建模


這篇是我最近在讀這本書的一些些筆記,主題是AIC,除非你這個人夠無聊又極富耐性,不然請慎入(是說這個網誌除了我以外大概也沒有其他人會來吧吧吧吧)

沒耐性的就早早洗洗睡了吧

AIC就是Akaike Information Criterion的縮寫,在使用各種常見的統計方法進行建模時,常常都會用它來作為評估模型好壞的指標

顧名思義,這個指標是由一個叫做Akaike的人提出的,基本上不要試著用英文去唸這個字,因為他是日本人。這個人的名字應該要唸成『阿-咖-咿-擠』

噢扯遠了

言歸正傳,AIC基本上長這樣:

2log(L)+2p

其中log(L)就是的log-likelihood然後p是參數的數目


先來看看看最大概似估計(maximum likelihood estimator)吧:

假設我們現在有一筆資料xn,我們假設有一個模型f(x|θ)是這筆資料最好的描述,我們必須解出θ

maximum likelihood estimator幫我們找到的是這樣的解 ˆθn

ˆθn=argmaxθΘlog(f(xn|θ))

然而,夠大的log-likelihood就行了嗎?其實不然,在maximum likelihood estimate的架構下,一味追求把log(f(xn|θ))變大其實會帶來非常不合理的結果

舉個非常簡單的例子,線性迴歸模型(linear regression model):

Y=XTβ+ϵ       ϵN(0,σ2)

likelihood function長這樣:


f(yi|xi;β)=12πσ2exp{12σ2(yixTiβ)2}


log-likelihood如下:


l(ˆβ)=ni=1logf(yi|xi;β)

                                        =n22log(πσ2)12σ2ni=1(yixTiβ)2 


如果我們的目的只是要讓l(ˆβ)變小,我們就只要無止盡的增加xTiβ的維度,就可以讓每個yi(xTi1β1+xTi2β2+xTi3β3+...)變得超小。但是這樣反而會使model裡有太多沒用的預測子,造成over-fitting的問題


因此,單靠夠大的log-likelihood是不夠的!!!


接下來插播Kullback-Leibler Divergence (KLD):

KLD是一個表示兩個pdf距離的量,定義是:


KLD=g(z)g(z)f(z)dx

其中g(z)是true probability 
f(z)則是model

其實也就G(Z)是真實pdf的情況下,一個log-likehood的概念

EG[logG(Z)F(Z)]


啊這到底和統計建模有筍磨關係?


KLD、統計建模和log-likelihood

其實,統計建模的精神就是,我們永遠不知道真實的分配G(Z)長怎樣,所以我們就去創造一個叫做F(Z)的model來模擬G(Z)。換句話說,F(Z)G(Z)越接近,我們對F(Z)就越有把握

所以我們希望KLD(G,F)很小,最好小到不能再小,這樣就表示我們的F(Z)非常完美

KLD(G,F)=EG[logG(Z)F(Z)]

=EG[logg(Z)]EG[logf(Z)]

EG[logg(Z)]是一個常數,基本上我們對他無能為力。我們只能盡量讓EG[logf(Z)]變大,只要EG[logf(Z)]夠大,就可以讓KLD(G,F)就夠小,我們的model就越完美!

所以,請記得,越好的model的可以使得

EG[logf(Z)]夠大!



log_likelihood的誤差估計

我們回到熟悉的log-likelihood:

l(ˆθ)=nilogf(xi|ˆθ)

1nnilogf(xi|ˆθ)logf(z|ˆθ)dˆG(z)=EˆG[logf(Z|ˆθ)]

所以照理來說,l(ˆθ)應該是nEˆG[logf(Z|ˆθ)])的估計值,但是因為使用了同一筆資料兩次(先估計θ再用來估計nEˆG[logf(Z|ˆθ)])使得這樣的估計出現了偏誤(bias)

我們把這個bias寫成

b(G)=EG(xn)[logf(Xn|ˆθ(Xn))nEG(z)[logf(Z|ˆθ(Xn))]]

假設當nθn會逼近真實的值θ0

我們把剛剛的b(G)改寫一下,改成D1D2D3的相加


b(G)=EG(xn)[logf(Xn|ˆθ(Xn))nEG(z)[logf(Z|ˆθ(Xn))]]

=EG(xn)[logf(Xn|ˆθ(Xn))logf(Xn|θ0)]...D1

+EG(xn)[logf(Xn|θ0)nEG(z)[logf(Z|θ0)]]...D2

EG(xn)[nEG(z)[logf(Z|θ0)]nEG(z)[logf(Z|ˆθ(Xn))]]...D3

計算D1

先把logf(Xn|θ0)寫成l(θ0)

然後搬出泰勒展開式

l(θ0)l(ˆθ)+(θ0ˆθ)Tl(ˆθ)θ+12(θ0ˆθ)T2l(ˆθ)θθT(θ0ˆθ)

因為maximum likelihood estimator基本上就是在找可以使l(ˆθ)θ為0的θ,所以

(θ0ˆθ)Tl(ˆθ)θ=0

maximum likelihood estimator在大數法則下:

2l(ˆθ)θθTnJ(θ0)

然後D1就可以寫成

EG(xn)[l(ˆθ)l(θ)]

=n2EG(xn)[(θ0ˆθ)J(θ0)(θ0ˆθ)T]

=12tr{I(θ0)J(θ0)1}

其中:

I(θ0)=g(x)logf(x|θ)θlogf(x|θ)θTdx

J(θ0)=g(x)2logf(x|θ)θθTdx


計算D2

EG(xn)[logf(Xn|θ0)nEG(z)[logf(Z|θ0)]]

=EG(xn)[ni=1logf(Xi|θ0)]nEG(z)[[logf(Z|θ0)]]

=0


計算D3

先把nEG(z)[logf(Z|widethetaθ)]寫成η(ˆθ)

然後再度搬出泰勒展開式:

η(ˆθ)η(θ0)+ni=1(ˆθiθ(0)i)η(θ0)θi+12ni=1nj=1(ˆθiθ(0)i)(ˆθjθ(0)j)2η(θ0)θiθj


和在計算D1時一樣,

η(θ0)θi=EG(z)[thetailogf(Z|θ)|θ0]=0,   i=1,2,...n

因此

η(ˆθ)η(θ0)12(θ0ˆθ)J(θ0)(θ0ˆθ)T

D3就可以寫成

nEG(z)[η(θ0)η(ˆθ)]

=nEG(z)[12(θ0ˆθ)J(θ0)(θ0ˆθ)T]

=n2tr{J(θ0)EG(z)[(θ0ˆθ)(θ0ˆθ)T]}

=12tr{I(θ0)J(θ0)1}


現在我們把D1D2D3加起來

b(G)=12tr{I(θ0)J(θ0)1}+0+12tr{I(θ0)J(θ0)1}

=tr{I(θ0)J(θ0)1}


現在我們回過頭來看看I(θ0)J(θ0)

J(θ0)=g(x)2logf(x|θ)θθTdx

=EG[1f(x|θ)2θθTf(x|θ)]EG[θilogf(x|θ)θjlogf(x|θ)]

g(x)=f(x|θ0)

EG[1f(x|θ)2θθTf(x|θ)]

=2θiθjf(x|θ0)dx

=2θiθjf(x|θ0)dx=0

這個時候I(θ0)就會等於J(θ0)

b(G)=tr{I(θ0)J(θ0)1}

=tr(Ip)=p


AIC、log-likelihood和b(G)

AIC其實就是

2(log-likelihood)+2(estimator of b(G))

因此AIC越小表示model越好

log-likelihood和b(G)代入就完成了!

AIC=2log(L)+2p

參考資料:

Konishi, Sadanori, Kitagawa, Genshiro (2007). Information criteria and statistical modeling. Springer

2013年10月1日 星期二

[JAVA] Big Data(2) 終於寫出小兒科等級的mapreduce!!!

先來個最近當紅的半澤直樹



在Big Data的時代,很多工具都可以做mapreduce的計算,甚至不用知道mapreduce的原理
像是Hive, Pig
又或者是更有彈性的R的rmr2套件

說穿了以上的解決方案底層的邏輯都還是把較簡單的程式碼轉換成java code再執行
因此,為了炫耀或是其他更重要目的,用java寫mapreduce還是有其必要性的(肯定貌)

用java寫mapreduce的架構主要有三個部分:
1.Map class
2.Reduce class
3.主程式

在建立好Map和Reduce兩個class以後
再於主程式內用job方法呼叫
另外job方法也用來設定運行時的指令和資料輸入

說了一大堆,實際開始寫code才發現太複雜的mapreduce我也hadle不了啦(逃~~)
只好從小怪開始打起
wordcount的範例在網路上實在太多了有點蘚
所以就來做個平均數計意思意思一下

首先data長這樣,已經丟到hadoop上了是用逗點分隔的
我希望計算Tom和Mary等人三科的平均分數

$hadoop fs -cat chinese.txt
Tom,90
Mary,95
Lisa,94
Luke,87
Marx,76
Teresa,89

$hadoop fs -cat math.txt:
Tom,67
Mary,68
Lisa,75
Luke,82
Marx,66
Teresa,74

$hadoop fs -cat science.txt:
Tom,56
Mary,75
Lisa,85
Luke,96
Marx,74
Teresa,69


java code在這:

import java.io.IOException;
import java.util.StringTokenizer;
import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.StringUtils;

public class Avg{

 //map步驟
 public static class Map extends Mapper {
 
  //撰寫map方法
  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
      String line = value.toString();//數據先轉成字串(String)
      StringTokenizer script = new StringTokenizer(line, "\n");//分割數據
      while (script.hasMoreElements()) {
       StringTokenizer scriptLine = new StringTokenizer(script.nextToken());
           //將Key和Value用逗號(",")分開
              Text Name = new Text(scriptLine.nextToken(","));
              int Score = Integer.parseInt(scriptLine.nextToken(","));
              context.write(Name, new IntWritable(Score));
      }
  }
 }
 
 //reduce 步驟
 public static class Reduce extends Reducer {
         //撰寫reduce方法
   public void reduce(Text key, Iterable value, Context context) throws IOException, InterruptedException{
          int numerator = 0;//初始化分子
          int denominator = 0;//初始化分母
          for (IntWritable v : value) {
                  numerator += v.get();//分子累加
                  denominator ++;//分母每次+1
          }
          int avg = numerator/denominator;//相除
             context.write(key,new  IntWritable(avg));
         }
 }
 
 //主程式
 public static void main(String[] args) throws Exception {
 
   Configuration conf = new Configuration();
   String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
         Path dst_path = new Path (otherArgs[1]);
         FileSystem hdfs = dst_path.getFileSystem(conf);
 
         //檢查OUTPUT的路徑是否存在,有的話就宰了他!
         if (hdfs.exists(dst_path)){
          hdfs.delete(dst_path, true);
         };
 
         Job job = new Job(conf, "Avg");
            job.setJarByClass(Avg.class);
            job.setMapperClass(Map.class);
            job.setCombinerClass(Reduce.class);
            job.setReducerClass(Reduce.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
            FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
            FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

            System.exit(job.waitForCompletion(true) ? 0 : 1);
         }
 }


寫完之後還沒結束
得先用commend line把code做成一個job

mkdir test_classes javac -classpath /{hadoop_home}/hadoop-core-0.20.2-cdh3u1.jar
:/{hadoop_home}/commons-cli-1.2.jar : -d test_classes Avg.java
jar -cvf ~/Avg.jar -C test_classes/ .

用javac編譯的時候記得要用-classpath指令把參考的library指給他(很重要)
之後再把它打包成.jar的檔案
之後就可以用hadoop jar指令執行了!
$hadoop jar ~/Avg.jar org.test.Avg {input} {output}

執行完來看看結果
$hadoop fs -cat ~/part-m-0000

Luke    88
Marx    72
Mary    79
Teresa  77
Tom     71



------ 後記:

其實這樣的東西不是很夠用 T_T 稍微進階版的Multiple input可以參考另一篇