2013年12月18日 星期三

【R軟體】基本數學函數指令

這邊將一些在R裡面的基本數學函數指令整理如下,供大家方便查閱,也放在GitHub:


功能:絕對值(Absolute value)
指令:abs(x)
範例:abs(-8) 得到 8

功能:平方根(Square root)
指令:sqrt(x)
範例:sqrt(25) 得到 5

功能:四捨五入
指令:ceiling(x)
範例:ceiling(3.475) 得到 4

功能:無條件捨去
指令:floor(x)
範例:floor(3.475) 德到 3

功能:無條件捨去
指令:trunc(x)
範例:trunc(8.5355)  得到 8

功能:去掉小數的部分且進位
指令:round(x, digits=n)
說明:其中n為設定留下的位數
範例:round(3.855, digits=2) 得到 3.86

功能:去掉小數的部分且進位
指令:signif(x, digits=n)
說明:其中n為設定捨掉的位數
範例:round(3.855, digits=2) 得到 3.9

功能:餘弦(Cosine)、正弦(Sine)、正切(Tangent)
指令:cos(x)、sin(x)、tan(x)

功能:餘切(Cotangent)、正割(Secant)、餘割(Cosecant)
指令:cot(x)、sec(x)、csc(x)
說明:需要先安裝套件(pracma),才能使用。

功能:反餘切(Arc-cotangent)、反正割(Arc-secant)、反餘割(Arc-cosecant)
指令:acot(x)、acec(x)、acsc(x)

功能:反餘弦(Arc-cosine)、反正弦(Arc-sine)、反正切(Arc-tangent)
指令:acos(x)、asin(x)、atan(x)

功能:雙曲餘弦(Hyperbolic cosine)、雙曲正弦(Hyperbolic sine)、雙曲正切(Hyperbolic tangent)
指令:cosh(x)、sinh(x)、tanh(x)

功能:反雙曲餘弦(Hyperbolic arc-cosine)、反雙曲正弦(Hyperbolic arc-sine)、反雙曲正切(Hyperbolic arc-tangent)
指令:acosh(x)、asinh(x)、atanh(x)

功能:對數
指令:log(x)、log10(x)

功能:指數
指令:exp(x)



2013年 兩岸資料科學家職缺

最近玩資料庫、資料探勘、分散式運算,有志成為資料科學家、巨量資料專家的朋友們有福了,以下為2013年12月份筆者收集關於這行的職缺,這些職缺的薪水隨著資料的成長水漲船高,部分職缺薪水已經可以媲美早期的科技新貴。

為了方便大家閱讀,已將薪水轉換為台幣,並依照薪水排序。

招募公司:金电联行(北京)
工作地點:北京
月薪:1,128,000元
網址:http://www.wealink.com/zhiwei/view/15389767/

招募公司:SuccessFactors(台灣分公司)
工作地點:台灣
月薪:235,000元
網址:http://www.wealink.com/zhiwei/view/4483392/

招募公司:NTT DATA(北京分公司)
工作地點:北京
月薪:235,000元
網址:http://www.wealink.com/zhiwei/view/16341665/

招募公司:Amazon(北京分公司)
工作地點:北京
月薪:211,600元
網址:http://www.wealink.com/zhiwei/view/13896177/

招募公司:Teradata(台灣分公司)
工作地點:台灣
月薪:197,400元
網址:http://www.wealink.com/zhiwei/view/16489605/

招募公司:新東方教育科技集團
工作地點:北京
月薪:188,000元
網址:http://www.wealink.com/zhiwei/view/17733552/

招募公司:Gogolook(WhosCall)
工作地點:台灣
月薪:100,000元
網址:http://www.ptt.cc/bbs/Soft_Job/M.1380274016.A.55D.html

招募公司:安居客(內地第一房地產租售平台)
工作地點:上海
月薪:94,000元
網址:http://www.wealink.com/zhiwei/view/18388892/


12月截止目前,資料科學家在內地的薪水平均月薪在20W上下,台灣本地約在10W上下。




2013年12月17日 星期二

2013 R Taiwan 研討會小記

小記一下心得,近期於12月6日(星期五)在德明財金科技大學舉辦的2013 R Taiwan 研討會,算是臺灣在R這塊領域比較盛大的活動之一,現場有來自內政部、中研院、工研院、資策會、環保署、中央大學、台達電、統一集團、台大醫院、榮總、仁寶......等產、官、學單位,一同齊聚了解關於R軟體在資料分析的最新趨勢。

































筆者估算這次活動超過百人參與,現場可以說是座無虛席,可以媲美中國的R語言會議
這次的演講主題所邀請的講師有淡江大學的吳漢銘博士主講VisFuzClust:Visualization of fuzzy clustering results in R、英國Mango Solutions資深顧問李艦主講中文文字資料探勘、中研院陳昇瑋博士主講資料科學家未曾公開之資安研究事件簿,但陳博士後來沒按表訂的題目演講,而是分享許多在資料分析研究上有趣的事情,像是魔獸世界WhosCall,可以說是非常的精彩。













講到WhosCall就不能不提到關於他們振奮人心事情,這些事情讓台灣新創團隊有如吃下定心丸一樣勇往前進,相關事件如下:

  1. LINE花逾3億買台灣whoscall
  2. 台灣《WhosCall》開發商加入LINE家族
  3. 為什麼 NAVER 砸 3 億買台灣團隊 Gogolook?
當然他們也很重視資料分析,於是也有在找會寫R的資料科學家(Data Scientist)


下午的講題也非常的豐富,講題有High Performance Predictive Analytics in R and Hadoop、Social Network Analysis With R、Sentiment, Market Order Choice, and Returns、iNEXT: An R package for interpolation and extrapolation species diversity、R for finding the non-dominated rules in multi-objective optimization、藉由歐盟F4K計畫來探討2011年墾丁核三廠入水口之熱帶魚行為分析、工作相依性與自我效能對工作滿意度的中介效果分析-以工作複雜度及社會支持為調節變數、智慧用電Big Data 分析平台、ggplot2 繪圖套件介紹結合群集之多目標微粒群演算法、以非凌越排序基因演算法探討永續存貨管理、以文字資料探勘研究新技術趨勢,有近年流行的文字探勘(Text mining)RHadoop,以及R應用的案例。


近年來RPythonHadoop應用在巨量資料已經是一門顯學,有許多企業紛紛在找尋屬於他們產業的資料科學家,因此巨量資料與資料科學家的相關課程也一個個開,請參閱2013台灣巨量資料、資料科學家等相關課程,而明年可以說是資料科學的元年,有許多的資料科學的議題會相繼出現,讓我們一起期待吧!

R研討會後記:

  1. 當天簡報下載
  2. 活動剪影


2013年11月18日 星期一

資料探勘軟體Weka之安裝篇

最近在準備資料探勘相關課程,為了讓大家能快快上手玩資料,這邊就寫整理一篇Weka的安裝篇給大家。


Weka是以Java為基礎的資料探勘(Data mining )(Machine learning)軟體,也是自由軟體(Open Source Software)Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),而Weka同時也是紐西蘭(New Zealand)的特有種鳥名,而開發者也是來自紐西蘭的懷卡託大學(The University of Waikato)
(圖片來源:網路)


Weka整合了大量的資料探勘的演算法,因此在2005年第11ACM SIGKDD國際會議上,Weka小組獲得了資料探勘與知識探索的最高服務獎(2005 ACM SIGKDD Service Award)。

首先我們先到Weka官方網頁中下載Weka 3.6版本,依據個人電腦版本(Windows x86Windows x64Mac OS XLinux)來做下載,本篇範例是下載Windowsx86包含Java VM 1.7的版本,大約51MB

進入安裝畫面後,跟一般軟體安裝一樣,非常簡單,Next, Next....Next!!
按下「Next

按下「I Agree

按下「Next

按下「Next

按下「Install」,就開始安裝!!


接下來是安裝 Java,如果您確定電腦有就可以跳過,如果不確定就繼續安裝。



 再回到剛剛的安裝畫面,按下「Next」。

按下「Finish」,就可看到Weka的畫面了! 

Weka 工具畫面,請點選「Explorer



 接下來還沒完,由於我們探勘的資料集大部分都是華文為主,直接放到Weka裡面會發生下面亂碼悲劇。
因此要進行中文資料的參數調整。


首先我們要到Weka的資料夾中找尋RunWeka.ini的文件,使用記事本開啟。


接著在密密麻麻的文字中找 fileEncoding=Cp1252
接著將Cp1252 換成 UTF-8後儲存,接下來將Weka重新啟動即可。

提供大家測試資料做測試,若顯示下面畫面,表示您已更改成功!!


Weka如有無法啟動的問題,表示環境變量需設定,如下:
PATH:C:\Program Files\Java\jre7\bin


延伸閱讀:
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
台灣生活資料科學培養計畫 Data Science Program

2013年11月6日 星期三

2013資料科學家書籍學習清單

最近一直有朋友詢問,如果想當資料科學家,有沒有相關的書籍可以提供修讀。於是這邊整理一些清單如下,包含一些個人推薦書籍,歡迎大家一起推薦書籍:

資料探勘書籍(Data Mining Books)
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Data Mining: Concepts and Techniques, Third Edition
Handbook of Statistical Analysis and Data Mining Applications
Introduction to Data Mining
Contrast Data Mining: Concepts, Algorithms, and Applications
Principles of Data Mining
Data Mining: Introductory and Advanced Topics
A First Course in Machine Learning

工具書籍(Tool Books)
R in a Nutshell
Data Mining with R: Learning with Case Studies
R Cookbook
R Graphics Cookbook
R in Action: Data Analysis and Graphics with R
Introductory Statistics with R
R by Example
Software for Data Analysis: Programming with R
Interactive and Dynamic Graphics for Data Analysis: With R and Ggobi
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition

資料庫書籍(Database Books)
Database Systems
Database Systems: A Practical Approach to Design, Implementation and Management (5th Edition)
Database Management Systems
User Interface Design for Mere Mortals™
Beginning Database Design

資料倉儲書籍(Data Warehousing Books)
Building the Data Warehouse
The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
Mastering Data Warehouse Design: Relational and Dimensional Techniques
Data Warehouse and Business Information Quality

資料視覺化(Data visualization)
Visualizing Data




  • 持續更新中.......