Sentiment analysis

  • 收集分析意見,態度,意向
  • 用在品牌行銷管理,收集消費者, 用在選民意向,  外匯走勢…等等,  發現資料的深度意義.

分2種:

1

  • Subjectivity/objectivity identification (主客觀認定)

以文字句子分析對主客觀分類

classifying a given text (usually a sentence) into one of two classes: objective or subjective.

2

基於特色的分析

  • Feature/aspect-based sentiment analysis

It refers to determining the opinions or sentiments expressed on different features or aspects of entities, e.g., of a cell phone, a digital camera, or a bank. (在不同裝置上的各種意見)

A feature or aspect is an attribute or component of an entity, e.g., the screen of a cell phone, the service for a restaurant, or the picture quality of a camera.  (特色是實體的一個屬性)

The advantage of feature-based sentiment analysis is the possibility to capture nuances about objects of interest.  ( 可以抓一些關於偏好比較細微之處)

  • 方法

1 knowledge-based techniques
2 statistical methods
3 hybrid approaches

新媒體的分析就是要用到 sentiment analysis.  從 blog, weibo 抓出偏好.

online opinion has turned into a kind of virtual currency for businesses" ,這是商機之所在.

democratizing data mining of all the content that is getting published."

“As businesses look to automate the process of filtering out the noise, understanding the conversations, identifying the relevant content and actioning it appropriately, many are now looking to the field of sentiment analysis."

用在machine learning , 分辨贊成 和反對的意見. 找用戶的意向,  根據這偏好, 跟用戶推薦, 用Python,

這有個簡單的介紹:

舉個例子

在twitter 上,找 “Sentiment analysis" 這句話的Feature,

果然找到很多意向,偏好,

例如, Brexit這議題,就很適合做 sentiment analysis. 這樣民意可以徹底反映出來.

Twitter Reveals That the UK Will Vote to Leave the EU
http://bit.ly/22GpS2Q
Twitter sentiment analysis.

20160606-Brexit

分析結果的呈現 又跟資料的視覺化有關聯, 我是有用一些資料視覺化軟件,

這領域我很喜歡,是很好創新方向

  • 台大 企業風險管理與商業情報分析研究中心

隨Web2.0概念風行全球,每天有上百萬筆資訊,在網路世界流竄,資訊流通的速度,更多也更快了。更添企業進行質化分析的難度,若分析的資訊豐富度不夠完整,則判斷未來的風險不小。商業情報分析要有新突破,要能在很短的時間內,更有效的蒐集和分析大量的質化資訊。所以透過先進技術,應用在商業情報分析,不但能在最快的時間,掌握世界各角落的資訊,也能讓資訊工程帶動商管的成長,並有效控制企業經營風險。

文字探勘(Text mining)技術不只能分析,媒體記者報導的文章內容,也可以分析散落於網路世界各個部落格的網誌、政府網站等公開資訊內容,事實上很多資訊,在正式管道還未公開前,已經可以在部落格上,看到端倪。像是在部落格的文章,多少帶有部落客的「情緒反應」,透過系統分析,可為文章內的關鍵文字,下「分數」,企業可以根據最後總分的分析結果,做為評估決策判斷的參考,尤其目前這方面之技術成熟度已相當高。

傳統負責銀行貸款的受信業務的人員,在評估放款風險時,以往只能從財務報表與基本書面資料,執行人為判斷,不免有判斷失誤的風險。但透過系統分析,可理清該公司的企業關係網絡(social network)及經營者之人格特質與社會評價,據此可做出更準確之授信風險評估。故若能運用資料與文字探勘(data and text mining)技術,同時有系統的分析財務資訊與網路上「文字類」的商業資訊,結合量化與質化分析,強化商業情報的可信度,協助企業更有效的制訂決策與管控風險。

臺大管理學院「企業風險管理(ERM)與商業情報(Business Intelligence)分析研究中心」未來將整合院內不同系所老師與博士班學生,結合產業資源長期有深度跨議題共同合作,此外本中心未來將與本院「校特聘講座教授」陳炘鈞博士位於美國的研究中心,進行雙邊資源共享交流,帶動本院跨領域之研究風氣,創造世界頂尖之研究領域,最後把研究結果從學界延伸到實務界,帶動台灣產業快速成長。

 

(Ref:http://www.management.ntu.edu.tw/research/research_8)

 

(Ref: How to Use Social Media Sentiment Analysis in Your Listening?)

(Ref: https://en.wikipedia.org/wiki/Sentiment_analysis  )

技術是個商業問題

之前 寫了這一篇 : 學好技術是態度 但解決不了商業問題.

今讀到這一篇 :工程師轉職商人的心路歷程 #1 – 這輩子成長最快的一年

文中分享的心得和我的觀察是一致的, 10多年前,  e-business 的教授 就在課堂跟我們講得很清楚.

寫程式 比較像是一種心法 ,個人素養, 是內功.  最好小時候就要練好這些內功, 長大後才知運用這些內功去解決外界問題. 所以 很多舊觀念是要適時保留或收斂,  在真實的應用場景,  不能老用技術想事情.  技術教授的問題也就是在這裡,   畢竟對真實的商業情境缺了一份把握.  但絕對不是無用, 只是很多事情是有優先順序, 輕重緩急, 很多技術社群 限制在自己技術的範圍,  最後變成自言自語,及重複學習, 最後只能開班授課, 賺點家教費. 不用一直重複學習同一個領域的技術, 應該是以做一個MVP 為目標即可.

如果 以技術教授的思路, 在真實世界 將會錯置了商業的重要次序, 這要小心.

我也是那種很喜歡自幹的人, 但某種程度,就是需要學會放手, 尊重別人.

什麼事情 是可以自幹? 一人公司,  投資顧問業, 自營商, 可以. 但 大多數的事,都是要團隊分工.

文中所提的3個要素, 我大致接受,

“廣告 使用者的期待 + 使用者實際看到的 + 價格"

我用比較學術的一句哲理比較通達:

“A right product, at a right place, ar a right time, with a right price, for the right people "

交易, 就是每天分分秒秒在是發生的事.

我只是要提醒,  技術的問題其實是個商業問題, 所以忌本末倒置 ,小學大遺,

我沒用任何符號或代碼,  純粹就是觀念上以文字敘述再次提醒什麼才是最重要的事.

 

 

 

 

 

學好技術是態度 但解決不了商業問題.

這國家如果定位是發展世界級 全球連結的系統級產品, 的確是要學很多軟硬體技能,效能監看, 優化, 最佳化, 最適化的資工技術.

但如果沒全球連結的雄心壯志, 學這麼多其實是無用武之地, 根本沒有沒有舞台,只會社會適應不良.

全球連結系統及產品, 台灣不是沒有, 台灣是不夠多.

主要問題還是投資回報的不確定性, 市場的侷限性, 讓老闆確步,

例如,台灣系統級開發商做過3D MMORPG的大作, 系統級,效能,附載平衡,concurrent 可以設定到多少…等等, 結果多慘, 事不想重提, 但是有心人,很多問題是市場, 市場很折磨人.
市場沒到那階段,就是無用武之地.

我今天看到Hbase 的資料特別有感.
FB 就用HBASE但台灣沒有像 FB 的產品,

台灣是有Geek般的有心人,但這環境的淺碟很難讓人精益求精,
學點小東西 很容易就滿足了,就一招半式就可以撐十幾年

學技術有很多時間成本和機會成本隱含在內.

並非深奧 困難,或旁大, 複雜, 難搞的東西就是好.

技術終究是一個商業問題, 是社會問題, 是文化問題, 也是人的問題.

做幾個NPI, 賠個幾億, 雄心壯志就沒了,
就隨便湊一些垃圾產品, 搞不好ROI 還不難看哩.
這是多少有心人的慘痛經歷.

開發系統級產品能開創多少工作機會?

跟在地化產品有差很多嗎?

沒人用,沒市場, 系統是大不到哪裡去的

只要能保證市場接受 產生穩定可觀獲利來源,鑽石級也會有人跳進去做.

手機市場不是如此嗎?

只怪企業做快老二也不盡合理,
市場變化太快 開發什麼系統技術根本緩不濟急.

就算開發系統級的殺手產品, 遇到跨境問題, 不就還是一樣會到台灣的套套邏輯.

就商業而言,以台灣的條件, “善用系統及產品" 會比較合理.
關鍵在於行業的深入理解,
但凡是想的到的系統及有賺錢可能的機會, 大陸各行各業早就在做了, 而且是不惜賠本,燒錢的在卡位.

光只是要認真學好技術, 根本解決不了商業問題.

低成本, 高技術門檻的創業模式是可行,這商業模式並非成本定價, 產品能有很好的附加價值.

現在的情況是, 很多檯面上公司, 低成本但又沒什麼技術,

這種公司就不在討論的範圍了.

Data Base-Oracle 10g

很多年前,學生時代學校是教Dbase, 過去職場工作公司的ERP 是用關聯式資料庫, 原理是一樣的.
Oracle 10-g 就是 relational DB.

關聯式資料庫
優點也是缺點就是它的嚴謹與正規化, 資料的每一個欄位與屬性都要先規劃好.

實體關係模型 (entity- relation model)
很適合文組背景的人去學,  多去找一些真實生活中的資料庫應用場景, 把行業需求做成關聯模型.

練習  ER model 轉成 關聯表

關聯式資料庫- relational DB, 就是有很多TABLE. 很多表格.  表格之間都有鍵值相關 把每個表關聯起來,   生活裡已有很多應用場景, 像身分證, 健保卡,駕照, 行照, 會員卡. 應用無所不在.

資料型態

DB 有分:

階層式: PCR type (parent-child relationship type)

網路式: 多對多

關聯式

db 的重點:功能相依
儲存方面:

Storage

in the form of tablespaces
Tablespaces can contain various types of memory segments, such as Data Segments, Index Segments, etc. Segments in turn comprise one or more extents. Extents comprise groups of contiguous data blocks. Data blocks form the basic units of data storage.

A DBA can impose maximum quotas on storage per user within each tablespace.[9]

-分割

The partitioning feature was introduced in Oracle 8
This allows the partitioning of tables based on different set of keys (鍵).
Specific partitions can then be easily added or dropped to help manage large data sets.

-監看
Monitoring

Oracle database management tracks its computer data storage with the help of information stored in the SYSTEM tablespace.

The SYSTEM tablespace contains the data dictionary—and often (by default) indexes and clusters.

A data dictionary consists of a special collection of tables that contains information about all user-objects in the database. Since version 8i, the Oracle RDBMS also supports “locally managed" tablespaces that store space management information in bitmaps in their own headers rather than in the SYSTEM tablespace (as happens with the default “dictionary-managed" tablespaces). Version 10g and later introduced the SYSAUX tablespace, which contains some of the tables formerly stored in the SYSTEM tablespace, along with objects for other tools such as OEM, which previously required its own tablespace.

現在資料的形式越來越多元, 有時結構化的資料庫太嚴謹不方便.

用哪一種資料庫, 還是要從需求面及對技術的熟悉度, 成本, 安全性來考慮.

對創業而言,成本是一大考量,  成本減少,效益才看得出來.

學資料庫的搜尋和分析, 對數字管理有很大幫助.
這關聯式資料庫發展有10多年了吧,  雖然不是新的,但很實用,  理解資料庫的原理和實際場景的建模, 其他的資料庫道理是一樣的.

(閱讀: Oracle data base : https://en.wikipedia.org/wiki/Oracle_Database)

如何寫具吸引力的網路內容?

  • 讀到 Guy Kawakaki 分享的一張圖是關於" Expert tips for creating addictive content",
    很中肯實用, 這些技巧可以用在自己工作上.20160314-EXPERT-SERIES-INFOGRAPHIC-resize-2

    技巧不"難",而是"活".  一直站在顧客讀者這一邊著想.

    “Value to our reader"

    故事性, 與競爭對手的內容差異化, 成為一個資源中心, 內容的相關性與耐久程度,
    關鍵字技巧, 內容是讀者易讀,易分享的視覺化資訊…等等.

    道理都不難,但哲理卻深, 卻隻字沒提什麼深奧理論或技術.
    這些技巧內化成自己的工作守則, 成為企業和消費者之間的資源

但我觀察對台灣媒體的網路內容並不適用, 台灣媒體用很多釣魚式的標題 並不是伴隨有價值的內容. 而是重點擊,重流量,而不重讀者價值. 可以觀察臉書的資訊流, 看看是否是這樣. 但對讀者有價值的內容,其實這張圖 這些專家所述才是對的.

寫程式和藝術創作

寫程式和藝術創作有很多相通之處. 布局, 設計, 實作, 測試, 修改 皆相似

前端工程也需要有藝術的美感, 對構圖, 色彩, 線條, 字型, 和文字的意涵要很有感覺並能實作.

最近去看了一位政治人物的畫展,  這可能是我在台灣看過最有才氣的政治人物.

人記憶和想像的潛能是很偉大, 是心胸的氣度與宏觀所呈現的高度.從抽象觀照自省, 收放是如此瀟灑,  我非常享受在科技與藝術之間遊走. 看到好作品, 心中的那種感動.  但真實中作品的純淨已超越語言

學程式設計可以從藝術創作得到很多靈感,

學 簡潔與精練

學 用工具表達意念

學 布局

學 知行合一

人生很短, 能站在舞台上, 必盡心盡力,  下台亦是瀟灑, 揮揮衣袖, 不帶雲彩

20151220-周錫瑋-9

 

周錫瑋

 

 

 

越來越多騙人的新創企業

創業很熱門 但很多也騙人 (note1)

20151216-PHOTO

科技新創事業, 資本額低, 免稅, 又可申請替代役男.
期許企業家能開創新局, 期待用新技術為社會轉型, 並創造價值.

正派的創業家訂方向與願景, 慎密的營銷計畫和產品開發, 創辦人日以繼夜專注產品開發, 希望開拓一片天, 為經濟轉型注入動能.

  • 但創業的資源與環境也有被誤用的現象.

創辦人沒有深思熟慮企業願景與事業發展方向, 利用替代役男的配額,找一些理工科畢業生來當作業員, 所謂新創事業不過就是找一些案子來做, 餬口飯吃, 替代役男又成cost down的代罪羔羊

創辦人為了彰顯自己"創業有成" 更是在國外逍遙遊, 編撰一堆開會合作理由, 從海外跟員工炫耀, 膚淺的以為這樣就是創業, 這更是對國際化的嚴重誤解

  • 當心: 創業的形式化,表面化而失去精神與內涵

這種心態下新創事業的員工也漸以為常
老闆不在,比較輕鬆. 老闆回來,吃吃喝喝.

  • 缺乏對事業的深刻理解,
  • 沒有對企業及技術方向有深度的共識.
    不是創業,而是酒肉之交.

對於企業的願景, 使命, 這新創事業的DNA , 慢慢隨這新創事業而麻痺.

新創事業, 沒有上市, 少了監督,也多了放任,
怠惰非常可能
看看新創公司是不是懈怠了? 只要蛛絲馬跡, 即看出冰山的一角.

創業99%的公司都終將失敗, 怎有藉口懈怠?
除非社會結構建了創業的幻境但還沒有建立制約的機制, 讓創業,當玩具,當兒戲.

除非創業是全獨資, 沒有仰賴政策的補助與資源

如果新創事業領了政府的補助, 銀行的優惠貸款, 領了替代役男的名額, 不用繳稅, 因為這些條件而創辦了新創事業, 但本質上其實沒有改變,還是代工思維,用便宜勞力, 成就個人, 利用年輕人對科技的崇拜, 搞些浮誇的項目,賺勞務財, 看不見產品成長規模的潛力與未來.

每到年終的這個時候, 納稅義務人想知道免繳稅公司, 也評價一下新創公司CEO.

1  目標市場在哪? 是做哪一行?

  1. 過去及未來1 年產品開發進度
  2. 創辦人專注產品? 還是整天不見人影?

  3. 產品試用評價

  4. 未來產生現金的能力

  5. 獲利品質及獲利來源

  6. 市場進入或募資時程表

開始有靠補助的新創事業都玩假的
對於有政策補助的新創事業, 應給予適當的評鑑機制

新創事業如果資本額只有一點點, 如果創辦人又心猿意馬, 失去專注, 沒有腳踏實地了解市場, 扎實做出產品, 這一類新創企業的心態與未來命運已經非常清楚.

這將會像是一種共生結構,  創辦人想當老闆, 替代役男不想當兵. 政府需要配合創業政策的創業家來當政策演員.

最後 因為那初衷產生質變, 投入了資源, 卻沒有成效

創業99%的公司都終將失敗, 但社會總是會有那1% 出類拔萃

(note1: 新創公司演鬧劇,「中國版 Tesla」// http://technews.tw/2015/07/29/youxia-x/)

青春

昨天讀到一則心臟保健的醫藥新聞, 發現那文中的心臟科醫生是我國中同學, 相當不容易, 青春歲月都貢獻在醫學領域,  醫學中心醫生平常工作之繁忙與疲累,主任更是每個都過勞, 更不得抱怨,  是承擔,  如果遇過急診心臟病人那種場面, 那是生死交關, 幾分鐘的輕忽,往往就是一生的遺憾.

漸漸的我們長大了,  在每一個人的身上, 我們都隱約看到自己的承擔, 我們都不再是校園裡,黑板前的那個青春年少, 而是各在自己的人生軌跡上體驗自己的生命與觀見人來人往.

離開校園之後多少會在午夜夢會想想自己的初衷, 當初的決定,  一步一步造就現在的自己,  尤其當活的真實, 遭遇無常, 像一個放手的氣球, 回首過往是否記得初衷?

每一個人都有其生命的天職. 生命的意義往往就是專注. 各行各業都像心臟科醫生. 每一個人在自己的生命裡競競業業, 該反省的是否珍惜善用自己生命中的一分一秒,  還是在浮光掠影中虛度年華 ?

檢視自己做的事情是否都敬業,伏仰無愧?  是否自己的選擇和努力也能對他人產生價值.  醫界是容易看到這些具象的結果, 也別忘了其他各行各業的人也有很多人沉默地做著有貢獻有價值的事, 很多的修為需要時間培養與沉澱. 各行各業都有拔粹之人.

想起那青春年少, 每個人的路都不同, 天資聰穎也有別, 能把握的是在自己領域中的專業與精練. 在本業上兢兢業業 也許多年後心臟科醫生讀到別人的文章 也會感覺那青春跟努力在其他人的生命中也是一樣的精彩.

智能化之後

學界遠見引導產業的發展.  但行業的速度可能差異會很大

HBR 這篇文章談智能產品未來的發展 

我上次寫那篇, 談 Michael Porter 談物聯網的競爭策略,

在觀點上是一致的.

  • 從Digital 1.0到2.0 

This means advancing from simply overlaying digital functionality on existing offerings to learning the customer context via connected products and services and adapting them to meet customer needs.

Digitization 2.0 is about the exchange of “in-context” data on how consumers and enterprises use different interconnected products and services across industry boundaries. (跨界)

Digitization 2.0: mobility ecosystems, 是生態系

  • Homes as digital hubs
  • 數位家庭,智能家居, 都是同樣的概念

未來是"平台" “生態系" 的競爭.

現在有台灣晶圓代工廠已有自己的作業系統.

這個概念重要: 

  • “Map your digital ecosystem beyond your core industry’s boundaries"

可能是線上音樂與咖啡店,  可能是畫廊網站與餐飲業,  產業的界線因為連網而改變了

這洞察的能力, 掌握資料的能力 是要學的.

Develop capability for context-aware insights.

Digitization, sensors, and connectivity lead to the generation of large volumes of data

學習掌握數據的技術, 和學會解讀數據,學會應用數據掌握使用者行為, 學會在行為預測上找到價值.

  • 大數據相關課程. 

bigdataonlinecourse

  •  書單reading list

重塑競爭優勢

因為產品聯網, 競爭環境也改變,  不要再提過去的那些典範大老了.

因應這種變化,  Porter 的文章有些難度,但我用簡單的比喻來說明..

5 force

運輸業, 台灣大車隊就是最好的例子.

因為連網, 更能了解掌握,監控,控制,最佳化乘客的乘車行為,  更能提供精確的服務, 分眾行銷, 反而獲利更好, 跟從前運將開小黃的方式已有很大變化.  一旦成為會員, 就習慣了這一家車行的服務. 沒特別情況也不會轉換, 因轉換成本高, 要重新習慣新叫車方式及種種不便.

行業上 漸變成這樣, 台灣大車隊的服務生態系與其他家小黃的競爭.

運輸業是如此, 其他像, 資訊業 瀏覽器, 作業系統, 可以想像, 補教業, 金融業, 餐飲業, 製造業, 皆適用這樣的競爭型態

國家競爭也像這樣, 不同國家的結盟,  項目上的共同合作擴大了機會.

  • Substitute

替代的產品和服務是要留意的, 本來不同行的現在也來搶飯碗,  現在音樂居然跟蘋果手機有關聯, 這種情況會越來越多, 咖啡店可能又跟音樂產業關連,

這種產業的想像力與可能性會重塑競爭環境

%d 位部落客按了讚: