2017年8月6日 星期日

[無母] K Nearest neighbour estimator

這是最近寫論文用到的東西。

冰島的火山坑(我當下其實看不出來那是什麼)


首先直接看公式

$\hat{p}\left(x_{i}\right)=\frac{1}{n-1}\frac{k}{c_{d}\ \epsilon_{k}\left(i\right)^{d}}$

其中$d$是維度,$\epsilon$則是該點的與第$k$個鄰居的距離,並且

$c_{d}=\frac{\pi^{d/2}}{\Gamma\left(d/2 + 1\right)}$

如果單獨把第二個component的分母拿出來看,其實$c_{d}\ \epsilon_{k}\left(i\right)^{d}$就是半徑為$\epsilon_{k}\left(i\right)$球體的體積,若簡寫為$V\left(i\right)$,則上式可寫成

$\frac{k}{n-1}\frac{1}{V\left(i\right)}$

整個基本概念就很清楚了,可以把這個estimator想成你在這個資料點畫出一個半徑為$\epsilon_{k}\left(i\right)$的球,並且觀察有多少點落在球內。如果你讓半徑是距離第$k$個點的距離,那麼落在球內的點當然就是$k$個。

2017年8月5日 星期六

[無關程式] 說書(1) Data and Social Good

最近網路上似乎刮起了一陣說書炫風,於是乎我也想來跟風一下。

波里(Pori), 芬蘭


緣起是之前在電子郵箱裡收到一封O'Reilly的廣告信,說只要註冊還幹嘛的就可以下載免費的電子書看,因著歐巴桑心態當然是要下載一下啦


這本書很好玩,叫做Data and Social Good,內容是關於資料科學在社會公益上的應用。這本書沒有太多的硬知識,當做消遣的讀物蠻適合的,並且相較於目前大部分討論資料科學應用的書,因為較著重在社會公益上,這本書的內容算是蠻清流的,銅臭味比較沒那麼重。


書很薄,只有19頁,可能比多數的paper還短。內容主要是實際案例,以下列出幾個我覺得比較有趣的。


1. DataKind and Simpa Networks 


DataKind是一間非營利公司,主要工作是媒合資料科學家和社會企業或公益組織,Simpa Networks就是一個有趣的案例。


Simpa Networks是一間致力於提供印度鄉村地區太陽能發電設備的公司。能源問題在印度是一個相當嚴重的問題,將近七千五百萬個家庭沒有電力供應,或者必須使用煤油等燃料,造成許多健康問題,如眼睛疾病等。


DataKind和Simpa Networks合作,追蹤並且分析客戶的交易歷史資料,幫助Simpa Networks有效挑選新的合作客戶。


2. DataKind and CTL (Crisis Text Line)

CTL是一個提供心理支持的非營利組織,當人們在遇到重大危機的時候,往往面臨不知所措的景況,這時就可以發簡訊給CTL,受過訓練的專員透過回發簡訊提供支持、安慰或是轉介的服務。


CTL遇到的問題是,因為許多人重複的寄發簡訊,義工們花了將近34%的時間在處理3%的使用者的簡訊。DataKind和CTL合作,幫助CTL建立一套篩選出即興需求的機制,已將資源花在真正的刀口上。經過努力後,原本的34%有效將至8%,因此幫助CTL拯救了更多人的生命。


3. New York City Department of Health and Mental Hygiene (DOHMH), Yelp.com and Columbia University 


紐約市健康與心理衛生局(New York City Department of Health and Mental Hygiene, DOHMH)發現,餐廳評論網Yelp上的文章可以做為食物傳染疾病的重要資料。


因此DOHMH找上了Yelp.comColumbia University的資料科學家,建立了一套機制,利用文字探勘工具(Text Mining Tools)篩選出有可能有問題的餐廳並介入調查。


其實書裡面提到的案例還很多,有興趣的自己去看吧!(爛尾)