Stanford CoreNLP – a suite of core NLP tools

這是一個 Sentiment Analysis 的工具.

  • a set of natural language analysis tools. It can give the base forms of words, their parts of speech, whether they are names of companies, people, etc., normalize dates, times, and numeric quantities, mark up the structure of sentences in terms of phrases and word dependencies, indicate which noun phrases refer to the same entities, indicate sentiment, extract particular or open-class relations between entity mentions, get quotes people said, etc.

語言,句子是可以分解,分析,分類 找出情緒傾向(人 時,地, 事件)

maxthonsnap20170219114627

用途

  • An integrated toolkit with a good range of grammatical analysis tools //語法分析工具
  • Fast, reliable analysis of arbitrary texts //文本分析
  • The overall highest quality text analytics
  • Support for a number of major (human) languages
  • Available interfaces for most major modern programming languages
  • Ability to run as a simple web service

這對人文,社會學科會有些影響吧.  文本分析都有工具可以處理了, 分析文本的情緒意向, 是愛是恨? 是贊成是反對? 是同意是不同意? 是支持或不支持?  高盛已有在用這工具了.

這工具是開源, 但注意若要轉用商用或用在自己軟件裡要申請授權(note1),

這工具,廣告公司,民調中心, 經濟政策研究單位會用的到.

  • Download at http://stanfordnlp.github.io/CoreNLP/download.html
  • 或 http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22stanford-corenlp%22

 

(note1: Stanford CoreNLP is licensed under the GNU General Public License (v3 or later; in general Stanford NLP code is GPL v2+, but CoreNLP uses several Apache-licensed libraries, and so the composite is v3+). Note that the license is the full GPL, which allows many free uses, but not its use in proprietary software which is distributed to others.)

Sentiment analysis

  • 收集分析意見,態度,意向
  • 用在品牌行銷管理,收集消費者, 用在選民意向,  外匯走勢…等等,  發現資料的深度意義.

分2種:

1

  • Subjectivity/objectivity identification (主客觀認定)

以文字句子分析對主客觀分類

classifying a given text (usually a sentence) into one of two classes: objective or subjective.

2

基於特色的分析

  • Feature/aspect-based sentiment analysis

It refers to determining the opinions or sentiments expressed on different features or aspects of entities, e.g., of a cell phone, a digital camera, or a bank. (在不同裝置上的各種意見)

A feature or aspect is an attribute or component of an entity, e.g., the screen of a cell phone, the service for a restaurant, or the picture quality of a camera.  (特色是實體的一個屬性)

The advantage of feature-based sentiment analysis is the possibility to capture nuances about objects of interest.  ( 可以抓一些關於偏好比較細微之處)

  • 方法

1 knowledge-based techniques
2 statistical methods
3 hybrid approaches

新媒體的分析就是要用到 sentiment analysis.  從 blog, weibo 抓出偏好.

online opinion has turned into a kind of virtual currency for businesses" ,這是商機之所在.

democratizing data mining of all the content that is getting published."

“As businesses look to automate the process of filtering out the noise, understanding the conversations, identifying the relevant content and actioning it appropriately, many are now looking to the field of sentiment analysis."

用在machine learning , 分辨贊成 和反對的意見. 找用戶的意向,  根據這偏好, 跟用戶推薦, 用Python,

這有個簡單的介紹:

舉個例子

在twitter 上,找 “Sentiment analysis" 這句話的Feature,

果然找到很多意向,偏好,

例如, Brexit這議題,就很適合做 sentiment analysis. 這樣民意可以徹底反映出來.

Twitter Reveals That the UK Will Vote to Leave the EU
http://bit.ly/22GpS2Q
Twitter sentiment analysis.

20160606-Brexit

分析結果的呈現 又跟資料的視覺化有關聯, 我是有用一些資料視覺化軟件,

這領域我很喜歡,是很好創新方向

  • 台大 企業風險管理與商業情報分析研究中心

隨Web2.0概念風行全球,每天有上百萬筆資訊,在網路世界流竄,資訊流通的速度,更多也更快了。更添企業進行質化分析的難度,若分析的資訊豐富度不夠完整,則判斷未來的風險不小。商業情報分析要有新突破,要能在很短的時間內,更有效的蒐集和分析大量的質化資訊。所以透過先進技術,應用在商業情報分析,不但能在最快的時間,掌握世界各角落的資訊,也能讓資訊工程帶動商管的成長,並有效控制企業經營風險。

文字探勘(Text mining)技術不只能分析,媒體記者報導的文章內容,也可以分析散落於網路世界各個部落格的網誌、政府網站等公開資訊內容,事實上很多資訊,在正式管道還未公開前,已經可以在部落格上,看到端倪。像是在部落格的文章,多少帶有部落客的「情緒反應」,透過系統分析,可為文章內的關鍵文字,下「分數」,企業可以根據最後總分的分析結果,做為評估決策判斷的參考,尤其目前這方面之技術成熟度已相當高。

傳統負責銀行貸款的受信業務的人員,在評估放款風險時,以往只能從財務報表與基本書面資料,執行人為判斷,不免有判斷失誤的風險。但透過系統分析,可理清該公司的企業關係網絡(social network)及經營者之人格特質與社會評價,據此可做出更準確之授信風險評估。故若能運用資料與文字探勘(data and text mining)技術,同時有系統的分析財務資訊與網路上「文字類」的商業資訊,結合量化與質化分析,強化商業情報的可信度,協助企業更有效的制訂決策與管控風險。

臺大管理學院「企業風險管理(ERM)與商業情報(Business Intelligence)分析研究中心」未來將整合院內不同系所老師與博士班學生,結合產業資源長期有深度跨議題共同合作,此外本中心未來將與本院「校特聘講座教授」陳炘鈞博士位於美國的研究中心,進行雙邊資源共享交流,帶動本院跨領域之研究風氣,創造世界頂尖之研究領域,最後把研究結果從學界延伸到實務界,帶動台灣產業快速成長。

 

(Ref:http://www.management.ntu.edu.tw/research/research_8)

 

(Ref: How to Use Social Media Sentiment Analysis in Your Listening?)

(Ref: https://en.wikipedia.org/wiki/Sentiment_analysis  )

%d 位部落客按了讚: