Open source application for big data

1. Hadoop

  • 這我知 要細看一下網站及文件
  • OS:Windows、Linux 和 OS X
  • website:http://hadoop.apache.org

2. Hypertable

  • Hypertable 在互联网公司当中非常流行,它由谷歌开发,用来提高数据库的可扩展性
  • 与 Hadoop 兼容,提供商业支持和培训。
  • OS:Linux 和 OS X
  • website:http://www.hypertable.com

3. Mesos

  • Apache Mesos 是一种资源抽象工具,有了它,企业就可以鼗整个数据中心当成一个资源池,它在又在运行 Hadoop、Spark 及类似应用程序的公司当中很流行
  • OS:Linux 和 OS X
  • website:http://mesos.apache.org

4. Presto 

  • Presto 由 Facebook 开发,自称是“一款开源分布式 SQL 查询引擎,用于对大大小小(从 GB 级到 PB 级)的数据源运行交互式分析查询
  • OS:Linux
  • website:https://prestodb.io

5. Solr

  • 这种“快若闪电”的企业搜索平台声称高度可靠、扩展和容错
  • OS:与操作系统无关
  • website:http://Lucene.apache.org/solr/

6. Spark

  • 這我寫過
  • Apache Spark 声称,“它在内存中运行程序的速度比 Hadoop MapReduce 最多快 100 倍,在磁盘上快 10 倍
  • OS:Windows、Linux 和 OS X
  • website:http://spark.apache.org

7. Storm

  • Apache Storm 用来处理实时数据
  • OS:Linux
  • 相关网站:https://storm.apache.org

我提過這些技術該如何看,我有興趣的是1.4.5.6,但目前我個人用不到, 要考量時間的機會成本. 不是瞎學就能解決問題, 台灣的企業有多少需要big data 作決策, 擔心市場應用的程度.  我只是要找到應用解決問題,數據要多大,坦白說對我並不重要, 黑貓白貓, 抓的到老鼠就是好貓.

我會繼讀這些文件啦.

Machine Learning for Marketing

The marketing big data ecosystem being impacted by machine learning in four major areas:

  1. Automated data visualization (including ML results) will become more rich, and user-friendly.
  2. Content analysis (textual, lexical, multimedia/rich) will be used to drive better marketing conversations.
  3. Incremental ML techniques will become more prevalent, leading to real-time, not just on-going and automated, changes in marketing execution.
  4. Learning from ML results will accelerate the growth and skills of marketing professionals.
  • Automated Data Visualization tools: Tableau and Qlikview

Predictive model : The objective of ML is to build predictive model for forecast.

the ability to modify a solution that is already in place by introducing new data rather than having to stop using the current solution before building a new model from scratch.

(Source from How Machine Learning Will Be Used For Marketing In 2017)

Big data process

BIG DATA PROCESS

這流程跟產業,企業分析是一樣的, 只是數據有大有小有深有淺,對決策而言 只要能解決問題 就是好數據. 以數據強化決策的理性與精準

  • 大数据报告根据功能来分,可分为4个常见类型
  1.  市場 行業分析
  2.  用戶 (user demographic profile)

  3.  競爭者 (Competitors)

4.  经营分析/业务问题专题:企业经营中重大战略决策的分析或针对某具体业务问题进行专题分析

Big data 支持商業決策,  這部分應該同業相當熟, 需要加強的是技術上的掌握與實作.

數據太多對我來說是一個困擾, 夠用就好,是我的原則,但是 所謂big data 資料超多的,架幾10台到幾百台server 平行處理都是有的, 就商業決策不見得時時都要這麼多data, 但要用時卻不會就麻煩了.  這些分析也可參考產業圈部落格, 我應該還是會多學些技術方面的理解

(參 :http://p.t.qq.com/longweibo/page.php?lid=18427992910191656282)

Big data-related open source application

我有興趣的是1.4.5.6.  6 之前寫過. 遊戲業很早已有用Hadoop, 關鍵還是在應用的規模, 技術包山包海,我也只能挑重點看, 且戰且走,  Java Scirpt npm 裡有20幾萬個modules,  根本不可能線性學習, 必須博觀而約取.

1. Hadoop
OS:Windows、Linux 和 OS X
Reference : http://hadoop.apache.org

2.Hypertable

Hypertable 在互联网公司当中非常流行,它由谷歌开发,用来提高数据库的可扩展性。
与 Hadoop 兼容,提供商业支持和培训
OS:Linux 和 OS X
Reference:http://www.hypertable.com

3.Mesos

Apache Mesos 是一种资源抽象工具,有了它,企业就可以鼗整个数据中心当成一个资源池,它在又在运行 Hadoop、Spark 及类似应用程序的公司当中很流行
OS:Linux 和 OS X
Reference:http://mesos.apache.org

4.Presto

Presto 由 Facebook 开发,自称是“一款开源分布式 SQL 查询引擎,用于对大大小小(从 GB 级到 PB 级)的数据源运行交互式分析查询。”Facebook 表示,它将 Presto 用于对 300PB 大小的数据仓库执行查询

OS:Linux
Reference:https://prestodb.io

5. Solr

这种“快若闪电”的企业搜索平台声称高度可靠、扩展和容错

OS:与操作系统无关
Reference:http://Lucene.apache.org/solr/

6.Spark

Apache Spark 声称,“它在内存中运行程序的速度比 Hadoop MapReduce 最多快 100 倍,在磁盘上快 10 倍。

OS:Windows、Linux 和 OS X
Reference:http://spark.apache.org

7.Storm

Apache Storm 用来处理实时数据
OS:Linux
Reference:https://storm.apache.org

Apache Flink

這是個計算引擎, 號稱" 4G of Big Data" (note1), 快, 易用,開源, 效能佳, 但沒有儲存系統

  • Batch Processing
  • Interactive processing
  • Real-time stream processing
  • Graph Processing
  • Iterative Processing
  • In-memory processing

Flink is an alternative of Mapreduce, it processes data more than 100 times faster than MapReduce.

Flink is independant from hadoop but it can use hdfs to read, write, store, process the data. Flink does not provide its own data storage system.it takes data from distributed storage.

Flink  ecosystem:   (note2)

apache-flink-ecosystem-components

 Storage: 讀寫別家的資料庫大概都沒什麼問題

  • HDFS – Hadoop Distributed File System
  • Local-FS – Local File System
  • S3 – Simple Storage Service from Amazon
  • HBase – NoSQL Database in Hadoop ecosystem
  • MongoDB – NoSQL Database
  • RBDBMs – Any relational database
  • Kafka – Distributed messaging Queue
  • RabbitMQ – Messaging Queue
  • Flume – Data Collection and Aggregation Tool

以上都可

Deploy: 能分配部署資源 :

  • Local mode – On single node, in single JVM
  • Cluster – On multi-node cluster, with following resource manager
    • Standalone – This is the default resource manager which is shipped with Flink
    • YARN – This is very popular resource manager, it is part of Hadoop, introduced in Hadoop 2.x
    • Mesos – This is a generalized resource manager.
  • Cloud – on Amazon or Google cloud

Runtime :

the Distributed Streaming Dataflow, which is also called as kernel of Apache Flink. This is the core layer of flink which provides distributed processing, fault tolerance, reliability, native iterative processing capability, etc.

主從架構:

maxthonsnap20170216092524

 

特色:

  • Streaming – Flink is a true stream processing engine.
  • High performance – Flink’s data streaming Runtime provides very high throughput
  • Low latency – Flink can process the data in sub-second range without any delay
  • Event Time and Out-of-Order Events – Flink supports stream processing and windowing where events arrive delayed or out of order
  • Lightning fast speed – Flink processes data at lightning fast speed (hence also called as 4G of Big Data)
  • Fault Tolerance – Failure of hardware, node, software or a process doesn’t affect the cluster
  • Memory management – Flink works in managed memory and never get out of memory exception
  • Broad integration – Flink can be integrated with various storage system to process their data, it can be deployed with various resource management tools. It can also be integrated with several BI tools for reporting
  • Stream processing – Flink is a true streaming engine, can process live streams in sub-second interval
  • Program optimizer – Flink is shipped with an optimizer, before execution of a program it is optimized
  • Scalable – Flink is highly scalable. With increasing requirements we can scale flink cluster
  • Rich set of operators – Flink has lots of pre-defined operators to process the data. All the common operations can be done using these operators
  • Exactly-once Semantics – It can maintain custom state during computation
  • Highly flexible Streaming Windows – In flink we can customize windows by triggering conditions flexibly, to get required streaming patterns. We can create window according to time t1 to t5 and data driven windows.
  • Continuous streaming model with backpressure – Data streaming applications are executed with continuous (long lived) operators. Flink’s streaming engine naturally handles backpressure.
  • One Runtime for Streaming and Batch Processing – Batch processing and data streaming both have common runtime in flink
  • Easy and understandable Programmable APIs – Flink’s APIs are developed in a way to cover all the common operations, so programmers can use it efficiently.
  • Little tuning required – Requires no memory, network, serializer to configure

初看這Apache Flink, 電視台轉型需用到,以往直播用SNG車, 上衛星, 現在改串流技術,  光這樣成本就不知省多少,用途滿廣, 也可處理髒資料,推薦產品用, 作預測.

 

(note1: http://data-flair.training/blogs/apache-flink-production-fortune-500-companies-top-real-world-use-cases/)

(note2: data-flair.training/blogs/apache-flink-comprehensive-guide-tutorial-for-beginners/)

(Installation:

)

 

 

 

Sentiment analysis

  • 收集分析意見,態度,意向
  • 用在品牌行銷管理,收集消費者, 用在選民意向,  外匯走勢…等等,  發現資料的深度意義.

分2種:

1

  • Subjectivity/objectivity identification (主客觀認定)

以文字句子分析對主客觀分類

classifying a given text (usually a sentence) into one of two classes: objective or subjective.

2

基於特色的分析

  • Feature/aspect-based sentiment analysis

It refers to determining the opinions or sentiments expressed on different features or aspects of entities, e.g., of a cell phone, a digital camera, or a bank. (在不同裝置上的各種意見)

A feature or aspect is an attribute or component of an entity, e.g., the screen of a cell phone, the service for a restaurant, or the picture quality of a camera.  (特色是實體的一個屬性)

The advantage of feature-based sentiment analysis is the possibility to capture nuances about objects of interest.  ( 可以抓一些關於偏好比較細微之處)

  • 方法

1 knowledge-based techniques
2 statistical methods
3 hybrid approaches

新媒體的分析就是要用到 sentiment analysis.  從 blog, weibo 抓出偏好.

online opinion has turned into a kind of virtual currency for businesses" ,這是商機之所在.

democratizing data mining of all the content that is getting published."

“As businesses look to automate the process of filtering out the noise, understanding the conversations, identifying the relevant content and actioning it appropriately, many are now looking to the field of sentiment analysis."

用在machine learning , 分辨贊成 和反對的意見. 找用戶的意向,  根據這偏好, 跟用戶推薦, 用Python,

這有個簡單的介紹:

舉個例子

在twitter 上,找 “Sentiment analysis" 這句話的Feature,

果然找到很多意向,偏好,

例如, Brexit這議題,就很適合做 sentiment analysis. 這樣民意可以徹底反映出來.

Twitter Reveals That the UK Will Vote to Leave the EU
http://bit.ly/22GpS2Q
Twitter sentiment analysis.

20160606-Brexit

分析結果的呈現 又跟資料的視覺化有關聯, 我是有用一些資料視覺化軟件,

這領域我很喜歡,是很好創新方向

  • 台大 企業風險管理與商業情報分析研究中心

隨Web2.0概念風行全球,每天有上百萬筆資訊,在網路世界流竄,資訊流通的速度,更多也更快了。更添企業進行質化分析的難度,若分析的資訊豐富度不夠完整,則判斷未來的風險不小。商業情報分析要有新突破,要能在很短的時間內,更有效的蒐集和分析大量的質化資訊。所以透過先進技術,應用在商業情報分析,不但能在最快的時間,掌握世界各角落的資訊,也能讓資訊工程帶動商管的成長,並有效控制企業經營風險。

文字探勘(Text mining)技術不只能分析,媒體記者報導的文章內容,也可以分析散落於網路世界各個部落格的網誌、政府網站等公開資訊內容,事實上很多資訊,在正式管道還未公開前,已經可以在部落格上,看到端倪。像是在部落格的文章,多少帶有部落客的「情緒反應」,透過系統分析,可為文章內的關鍵文字,下「分數」,企業可以根據最後總分的分析結果,做為評估決策判斷的參考,尤其目前這方面之技術成熟度已相當高。

傳統負責銀行貸款的受信業務的人員,在評估放款風險時,以往只能從財務報表與基本書面資料,執行人為判斷,不免有判斷失誤的風險。但透過系統分析,可理清該公司的企業關係網絡(social network)及經營者之人格特質與社會評價,據此可做出更準確之授信風險評估。故若能運用資料與文字探勘(data and text mining)技術,同時有系統的分析財務資訊與網路上「文字類」的商業資訊,結合量化與質化分析,強化商業情報的可信度,協助企業更有效的制訂決策與管控風險。

臺大管理學院「企業風險管理(ERM)與商業情報(Business Intelligence)分析研究中心」未來將整合院內不同系所老師與博士班學生,結合產業資源長期有深度跨議題共同合作,此外本中心未來將與本院「校特聘講座教授」陳炘鈞博士位於美國的研究中心,進行雙邊資源共享交流,帶動本院跨領域之研究風氣,創造世界頂尖之研究領域,最後把研究結果從學界延伸到實務界,帶動台灣產業快速成長。

 

(Ref:http://www.management.ntu.edu.tw/research/research_8)

 

(Ref: How to Use Social Media Sentiment Analysis in Your Listening?)

(Ref: https://en.wikipedia.org/wiki/Sentiment_analysis  )

XBRL

可擴展商業報告語言(eXtensible Business Reporting Language,XBRL)
用於商業和財務信息的定義和交換

XBRL作用
企業的各種信息,特別是財務信息,都可以通過XBRL在計算機網際網路上有效地進行處理
通過XBRL就可以很方便地轉檔. 書面文字、PDF文件、HTML頁面或者其他相應的文件格式

XBRL 對於資料輸出處理將更方便,  可以降低資料採集,  報表重新編製的成本, 用這語言,  企業資料彙整,分析,比較,排序, 才方便, 做數據分析需要.

XBRL+IFRS  應該是跟國際越來越接軌了. 後面的加值應用就很多了

(Ref: http://www.twse.com.tw/ch/about/press_room/tsec_news_detail.php?id=3119)

(Ref:https://en.wikipedia.org/wiki/XML)

決策樹

  • 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法
  • 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别

是一個風險評估和預測的好工具.  最近也在看賽局理論,   這是我以前英國同學的學術專長.  decisoin tree 的觀念的應用無所不在, 想辦法讓理論生活化, 應用化, 讓這些決策工具應用在自己的人生. 企業裡懂這些決策工具的高層主管也不多, 但我很多年前以前真的遇到一個年輕主管 非常會做決策,  所做的決定都很漂亮,  每批貨, 每個價格, 條款, 客戶之間的平衡拿捏很不錯.   工廠裡,品保系統 有些也是有用決策樹 , 尤其狀況混沌不明時, 新產品開發遇到很多瓶頸, 每個瓶頸都是一個決策點. 生活裡,剪刀石頭布也是一種決策遊戲, 幾個人同時剪刀時頭布, 最後選出人選, 或事件. 這要當成心法來練, 做決策用的到.

从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树

一个决策树包含三种类型的节点:
  1. 决策节点:通常用矩形框来表示
  2. 机会节点:通常用圆圈来表示
  3. 终结点:通常用三角形来表示

20160528-decisiontree-chart

决策树学习也是资料探勘中一个普通的方法

在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类

每个决策树可以依靠对源数据库的分割进行数据测试

所以 大數據資料對決策樹能有幫助. 最好把Python 學好, Python 語言極適合處理大數據的髒資料.

(Ref:http://baike.baidu.com/view/589872.htm)

 

 

 

 

 

 

 

 

推荐算法

好的Sales 就是會掌握這些銷售相關技術.

Sales 根據業務特性對客戶分類,並挑出好客戶, 精準投放行銷訊息.

  • 推荐算法

利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西

通过用户数据、行为数据、商品等特征数据,预测出用户对公司产品的需求,正是销售核心问题的妙解

推薦算法, 運用用戶,行為, 商品的相關數據,預測用戶對公司產品的需求, 解決 Sales 的問題.

  • 基本原理: 掌握 客戶與產品的屬性和相關性20160528-推薦算法-基本原理
  • 實作的流程:

篩選出特徵值,  建模, 預測結果應用, 與演算法優化

以前這種選擇都是Sales 自己的人工判斷, 現在用大數據篩選, 好公司都已經在用了.

  • 推荐算法主要分为6种:

根據內容

根據协同过滤

根據关联规则

根據效用

根據知識

根據组合推荐

  • 6種的優缺點

20160528-推薦算法-優缺點

我最近又有在看大數據這主題,  能用文字表達的心得,盡量寫下來.

行銷 需要應用這些新觀念,新工具. 所以要理解這方面的商業應用.

(Ref : http://baike.baidu.com/view/5909535.htm)

 

 

 

 

 

關於 Data Capital

資料數據做為競爭優勢都是很新的觀念.

發覺這資料的3個原則:

Principle #1: Data comes from activity.
Principle #2: Data tends to make more data.
Principle #3: Platforms tend to win

“活動", 就像是發現新大陸一樣,

找出哪些活動比較有價值
所有活動會產生資訊. 但要用一些應用或感測器,才會產生數位資料.

重點: It’s difficult to know which activities will yield the most valuable data.

應該: focus on activities that reinforce its competitive advantage, the things that make it unique.

應該: 先看企業的最大利潤和主要成本

Digitizing activities:資料數據化

Datafying activities:擴大觀察

Datification: 建最小的數據

這是競爭優勢的新概念. 服務業,流通業 已經廣泛在運用, 但各行各業在運用上有差異.  重視資料價值, 肯定是大方向, 可以降低企業很多不理性的決策.

%d 位部落客按了讚: