大數據股票價格預測_股票價格可以預測嗎

A. 大數據能不能預測股市

隨著人們生活水平的提高，經濟的發展，人們的口袋也開始慢慢變得富裕起來，身邊也就有了一點小錢，就開始尋思著如何做做投資，讓自己的閑錢為自己生錢。所以便有了各種各樣的投資理財方式，其中最為普遍的就是投資股票市場。

隨著股票市場的日趨完善，人們接觸股市次數的增加，便有了各種各樣分析股市的方法，其中有些有一定的作用，而有些是毫無意義的。那麼你說的大數據能不能預測股市這個問題，我的答案是肯定的，可以，但是並非十分准確。首先，你要知道你所謂的大數據，是個常人無法統計的數據，一般如果沒有從事股票投資市場很多年，並且時刻用心無記錄以往的各類事件所導致的股價的異動的話，你所謂的大數據基本就不算合格的，所以就很可能沒有用處。再者，股票市場千變萬化，不是單單一些數據就能解決的，要是這么容易，股市還能有人那麼容易數錢嗎。股票莊家不會那麼傻，讓你看清楚他們的出牌套路，所以用大數據來預測股市，我覺得有用，但是作用性不是很大，准確性也不是很大，想要真正預測股市，除了需要收集大數據作為參考之外，還需要多學習看盤技術，留意國內各大財經報道以及國外外盤的影響。

炒股不是件容易的事情，想要炒好股票，沒那麼容易，這需要你的日積月累的經驗以及對問題的敏感程度，所以大數據的預測只能作為一種輔助用，不能起決定性作用。

B. 如何運用大數據

1.可視化分析
大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統
計
學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如
果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰，我們需要一套工具系統的去分析，提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

大數據的技術
數據採集： ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數
據處理：自然語言處理(NLP，Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言，所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支，另一方面它是人工智慧的核心課題之一。
統計分析：
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數
據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity
grouping or association rules）、聚類（Clustering）、描述和可視化、Description and
Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。

大數據的處理
1. 大數據處理之一：採集
大
數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的
數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據，除
此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時
有可能會有成千上萬的用戶
來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二：導入/預處理
雖然採集端本身會有很多資料庫，但是如果要對這些
海量數據進行有效的分析，還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫，或者分布式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鍾的導入量經常會達到百兆，甚至千兆級別。
3. 大數據處理之三：統計/分析
統
計與分析主要利用分布式資料庫，或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於
MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。
4. 大數據處理之四：挖掘
與
前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數
據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於

統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜，並
且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理。

C. 股票價格可以預測嗎

股票價格預測

理論上股票價格是可以預測的，實際上都是只是聽說，而從未被證實（比如江恩理論中說道可以預測到具體的價格）但實際也是聽說，如果要說親眼看見的話，我只看到過用易經預測真可以看見漲到具體價格。但不是每次。

價格在支撐位、壓力位這都是人為附加理論。認同者則有用，沒有這個概念的人那管他支撐壓力只要經過分析加和經驗認為它要漲就進。當然同時也要根據大盤行情，結合指標，經驗一起下結論。盲目進倉那是韭菜送肉行為。

雖然價格不可測，但是漲或者跌卻是絕對的可以預測的，只是掌握它的人不說，悶頭收割，那有時間閑扯。

D. 如何用大數據炒股

我們如今生活在一個數據爆炸的世界裡。網路每天響應超過60億次的搜索請求，日處理數據超過100PB，相當於6000多座中國國家圖書館的書籍信息量總和。新浪微博每天都會發布上億條微博。在荒無人煙的郊外，暗藏著無數大公司的信息存儲中心，24小時夜以繼日地運轉著。
克托·邁爾-舍恩伯格在《大數據時代》一書中認為，大數據的核心就是預測，即只要數據豐富到一定程度，就可預測事情發生的可能性。例如，「從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性」，或者通過一個人穿過馬路的速度，預測車子何時應該減速從而讓他及時穿過馬路。

那麼，如果把這種預測能力應用在股票投資上，又會如何？

目前，美國已經有許多對沖基金採用大數據技術進行投資，並且收獲甚豐。中國的中證廣發網路百發100指數基金（下稱百發100），上線四個多月以來已上漲68%。

和傳統量化投資類似，大數據投資也是依靠模型，但模型里的數據變數幾何倍地增加了，在原有的金融結構化數據基礎上，增加了社交言論、地理信息、衛星監測等非結構化數據，並且將這些非結構化數據進行量化，從而讓模型可以吸收。

由於大數據模型對成本要求極高，業內人士認為，大數據將成為共享平台化的服務，數據和技術相當於食材和鍋，基金經理和分析師可以通過平台製作自己的策略。

量化非結構數據

不要小看大數據的本領，正是這項剛剛興起的技術已經創造了無數「未卜先知」的奇跡。

2014年，網路用大數據技術預測命中了全國18卷中12卷高考作文題目，被網友稱為「神預測」。網路公司人士表示，在這個大數據池中，包含互聯網積累的用戶數據、歷年的命題數據以及教育機構對出題方向作出的判斷。

在2014年巴西世界盃比賽中，Google亦通過大數據技術成功預測了16強和8強名單。

從當年英格蘭報社的信鴿、費城股票交易所的信號燈到報紙電話，再到如今的互聯網、雲計算、大數據，前沿技術迅速在投資領域落地。在股票策略中，大數據日益嶄露頭角。

做股票投資策略，需要的大數據可以分為結構化數據和非結構化數據。結構化數據，簡單說就是「一堆數字」，通常包括傳統量化分析中常用的CPI、PMI、市值、交易量等專業信息；非結構化數據就是社交文字、地理位置、用戶行為等「還沒有進行量化的信息」。

量化非結構化就是用深度模型替代簡單線性模型的過程，其中所涉及的技術包括自然語言處理、語音識別、圖像識別等。

金融大數據平台-通聯數據CEO王政表示，通聯數據採用的非結構化數據可以分為三類：第一類和人相關，包括社交言論、消費、去過的地點等；第二類與物相關，如通過正在行駛的船隻和貨車判斷物聯網情況；第三類則是衛星監測的環境信息，包括汽車流、港口裝載量、新的建築開工等情況。

衛星監測信息在美國已被投入使用，2014年Google斥資5億美元收購了衛星公司Skybox，從而可以獲得實施衛星監測信息。

結構化和非結構化數據也常常相互轉化。「結構化和非結構化數據可以形象理解成把所有數據裝在一個籃子里，根據應用策略不同相互轉化。例如，在搜索頻率調查中，用戶搜索就是結構化數據；在金融策略分析中，用戶搜索就是非結構化數據。」網路公司人士表示。

華爾街拿著豐厚薪水的分析師們還不知道，自己的僱主已經將大量資本投向了取代自己的機器。
2014年11月23日，高盛向Kensho公司投資1500萬美元，以支持該公司的大數據平台建設。該平台很像iPhone里的Siri，可以快速整合海量數據進行分析，並且回答投資者提出的各種金融問題，例如「下月有颶風，將對美國建材板塊造成什麼影響？」

在Kensho處理的信息中，有80%是「非結構化」數據，例如政策文件、自然事件、地理環境、科技創新等。這類信息通常是電腦和模型難以消化的。因此，Kensho的CEO Daniel Nadler認為，華爾街過去是基於20%的信息做出100%的決策。

既然說到高盛，順便提一下，這家華爾街老牌投行如今對大數據可謂青睞有加。除了Kensho，高盛還和Fortress信貸集團在兩年前投資了8000萬美元給小額融資平台On Deck Capital。這家公司的核心競爭力也是大數據，它利用大數據對中小企業進行分析，從而選出值得投資的企業並以很快的速度為之提供短期貸款。

捕捉市場情緒

上述諸多非結構化數據，歸根結底是為了獲得一個信息：市場情緒。

在采訪中，2013年諾貝爾經濟學獎得主羅伯特•席勒的觀點被無數采訪對象引述。可以說，大數據策略投資的創業者們無一不是席勒的信奉者。

席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中，主要參考三個變數：投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應（市場情緒）。他認為，市場本身帶有主觀判斷因素，投資者情緒會影響投資行為，而投資行為直接影響資產價格。
然而，在大數據技術誕生之前，市場情緒始終無法進行量化。

回顧人類股票投資發展史，其實就是將影響股價的因子不斷量化的過程。

上世紀70年代以前，股票投資是一種定性的分析，沒有數據應用，而是一門主觀的藝術。隨著電腦的普及，很多人開始研究驅動股價變化的規律，把傳統基本面研究方法用模型代替，市盈率、市凈率的概念誕生，量化投資由此興起。

量化投資技術的興起也帶動了一批華爾街大鱷的誕生。例如，巴克萊全球投資者（BGI）在上世紀70年代就以其超越同行的電腦模型成為全球最大的基金管理公司；進入80年代，另一家基金公司文藝復興（Renaissance）年均回報率在扣除管理費和投資收益分成等費用後仍高達34%，堪稱當時最佳的對沖基金，之後十多年該基金資產亦十分穩定。

「從主觀判斷到量化投資，是從藝術轉為科學的過程。」王政表示，上世紀70年代以前一個基本面研究員只能關注20隻到50隻股票，覆蓋面很有限。有了量化模型就可以覆蓋所有股票，這就是一個大的飛躍。此外，隨著計算機處理能力的發展，信息的用量也有一個飛躍變化。過去看三個指標就夠了，現在看的指標越來越多，做出的預測越來越准確。

隨著21世紀的到來，量化投資又遇到了新的瓶頸，就是同質化競爭。各家機構的量化模型越來越趨同，導致投資結果同漲同跌。「能否在看到報表數據之前，用更大的數據尋找規律？」這是大數據策略創業者們試圖解決的問題。

於是，量化投資的多米諾骨牌終於觸碰到了席勒理論的第三層變數——市場情緒。

計算機通過分析新聞、研究報告、社交信息、搜索行為等，藉助自然語言處理方法，提取有用的信息；而藉助機器學習智能分析，過去量化投資只能覆蓋幾十個策略，大數據投資則可以覆蓋成千上萬個策略。

基於互聯網搜索數據和社交行為的經濟預測研究，已逐漸成為一個新的學術熱點，並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上，研究發現搜索數據可有效預測未來股市活躍度（以交易量指標衡量）及股價走勢的變化。

海外就有學術研究指出，公司的名稱或者相關關鍵詞的搜索量，與該公司的股票交易量正相關。德國科學家Tobias Preis就進行了如此研究：Tobias利用谷歌搜索引擎和谷歌趨勢（Google Trends），以美國標普500指數的500隻股票為其樣本，以2004年至2010年為觀察區間，發現谷歌趨勢數據的公司名稱搜索量和對應股票的交易量，在每周一次的時間尺度上有高度關聯性。也就是說，當某個公司名稱在谷歌的搜索量活動增加時，無論股票的價格是上漲或者下跌，股票成交量與搜索量增加；反之亦然，搜索量下降，股票成交量下降。以標普500指數的樣本股為基礎，依據上述策略構建的模擬投資組合在六年的時間內獲得了高達329%的累計收益。

在美國市場上，還有多家私募對沖基金利用Twitter和Facebook的社交數據作為反映投資者情緒和市場趨勢的因子，構建對沖投資策略。利用互聯網大數據進行投資策略和工具的開發已經成為世界金融投資領域的新熱點。

保羅·霍丁管理的對沖基金Derwent成立於2011年5月，注冊在開曼群島，初始規模約為4000萬美元， 2013年投資收益高達23.77%。該基金的投資標的包括流動性較好的股票及股票指數產品。
通聯數據董事長肖風在《投資革命》中寫道，Derwent的投資策略是通過實時跟蹤Twitter用戶的情緒，以此感知市場參與者的「貪婪與恐懼」，從而判斷市場漲跌來獲利。

在Derwent的網頁上可以看到這樣一句話：「用實時的社交媒體解碼暗藏的交易機會。」保羅·霍丁在基金宣傳冊中表示：「多年以來，投資者已經普遍接受一種觀點，即恐懼和貪婪是金融市場的驅動力。但是以前人們沒有技術或數據來對人類情感進行量化。這是第四維。Derwent就是要通過即時關注Twitter中的公眾情緒，指導投資。」

另一家位於美國加州的對沖基金MarketPsych與湯普森·路透合作提供了分布在119個國家不低於18864項獨立指數，比如每分鍾更新的心情狀態（包括樂觀、憂郁、快樂、害怕、生氣，甚至還包括創新、訴訟及沖突情況等），而這些指數都是通過分析Twitter的數據文本，作為股市投資的信號。

此類基金還在不斷涌現。金融危機後，幾個台灣年輕人在波士頓組建了一家名為FlyBerry的對沖基金，口號是「Modeling the World（把世界建模）」。它的投資理念全部依託大數據技術，通過監測市場輿論和行為，對投資做出秒速判斷。

關於社交媒體信息的量化應用，在股票投資之外的領域也很常見：Twitter自己也十分注重信息的開發挖掘，它與DataSift和Gnip兩家公司達成了一項出售數據訪問許可權的協議，銷售人們的想法、情緒和溝通數據，從而作為顧客的反饋意見匯總後對商業營銷活動的效果進行判斷。從事類似工作的公司還有DMetics，它通過對人們的購物行為進行分析，尋找影響消費者最終選擇的細微原因。

回到股票世界，利用社交媒體信息做投資的公司還有StockTwits。打開這家網站，首先映入眼簾的宣傳語是「看看投資者和交易員此刻正如何討論你的股票」。正如其名，這家網站相當於「股票界的Twitter」，主要面向分析師、媒體和投資者。它通過機器和人工相結合的手段，將關於股票和市場的信息整理為140字以內的短消息供用戶參考。

此外，StockTwits還整合了社交功能，並作為插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台，讓人們可以輕易分享投資信息。

另一家公司Market Prophit也很有趣。這家網站的宣傳語是「從社交媒體噪音中提煉市場信號」。和StockTwits相比，Market Prophit更加註重大數據的應用。它採用了先進的語義分析法，可以將Twitter里的金融對話量化為「-1（極度看空）」到「1（極度看多）」之間的投資建議。網站還根據語義量化，每天公布前十名和後十名的股票熱度榜單。網站還設計了「熱度地圖」功能，根據投資者情緒和意見，按照不同板塊，將板塊內的個股按照顏色深淺進行標注，誰漲誰跌一目瞭然。

中國原創大數據指數

盡管大數據策略投資在美國貌似炙手可熱，但事實上，其應用尚僅限於中小型對沖基金和創業平台公司。大數據策略投資第一次被大規模應用，應歸於中國的百發100。

網路金融中心相關負責人表示，與歐美等成熟資本市場主要由理性機構投資者構成相比，東亞尤其是中國的股票類證券投資市場仍以散戶為主，因此市場受投資者情緒和宏觀政策性因素影響很大。而個人投資者行為可以更多地反映在互聯網用戶行為大數據上，從而為有效地預測市場情緒和趨勢提供了可能。這也就是中國國內公募基金在應用互聯網大數據投資方面比海外市場並不落後、甚至領先的原因。

百發100指數由網路、中證指數公司、廣發基金聯合研發推出，於2014年7月8日正式對市場發布，實盤運行以來一路上漲，漲幅超過60%。跟蹤該指數的指數基金規模上限為30億份，2014年9月17日正式獲批，10月20日發行時一度創下26小時瘋賣18億份的「神話」。

外界都知道百發100是依託大數據的指數基金，但其背後的細節鮮為人知。

百發100數據層面的分析分為兩個層面，即數據工廠的數據歸集和數據處理系統的數據分析。其中數據工廠負責大數據的收集分析，例如將來源於互聯網的非結構化數據進行指標化、產品化等數據量化過程；數據處理系統，可以在數據工廠遞交的大數據中尋找相互統計關聯，提取有效信息，最終應用於策略投資。

「其實百發100是在傳統量化投資技術上融合了基於互聯網大數據的市場走勢和投資情緒判斷。」業內人士概括道。

和傳統量化投資類似，百發100對樣本股的甄選要考慮財務因子、基本面因子和動量因子，包括凈資產收益率（ROE）、資產收益率（ROA）、每股收益增長率（EPS）、流動負債比率、企業價值倍數（EV/EBITDA）、凈利潤同比增長率、股權集中度、自由流通市值以及最近一個月的個股價格收益率和波動率等。

此外，市場走勢和投資情緒是在傳統量化策略基礎上的創新產物，也是百發100的核心競爭力。接近網路的人士稱，市場情緒因子對百發100基金起決定性作用。

網路金融中心相關負責人是羅伯特•席勒觀點的支持者。他認為，投資者行為和情緒對資產價格、市場走勢有著巨大的影響。因此「通過互聯網用戶行為大數據反映的投資市場情緒、宏觀經濟預期和走勢，成為百發100指數模型引入大數據因子的重點」。

傳統量化投資主要著眼點在於對專業化金融市場基本面和交易數據的應用。但在網路金融中心相關業務負責人看來，無論是來源於專業金融市場的結構化數據，還是來源於互聯網的非結構化數據，都是可以利用的數據資源。因此，前文所述的市場情緒數據，包括來源於互聯網的用戶行為、搜索量、市場輿情、宏觀基本面預期等等，都被網路「變廢為寶」，從而通過互聯網找到投資者參與特徵，選出投資者關注度較高的股票。

「與同期滬深300指數的表現相較，百發100更能在股票市場振盪時期、行業輪動劇烈時期、基本面不明朗時期抓住市場熱點、了解投資者情緒、抗擊投資波動風險。」網路金融中心相關負責人表示。

百發100選取的100隻樣本股更換頻率是一個月，調整時間為每月第三周的周五。

業內人士指出，百發100指數的月收益率與中證100、滬深300、中證500的相關性依次提升，說明其投資風格偏向中小盤。

但事實並非如此。從樣本股的構成來說，以某一期樣本股為例，樣本股總市值6700億元，佔A股市值4.7%。樣本股的構成上，中小板21隻，創業板4隻，其餘75隻樣本股均為大盤股。由此可見，百發100還是偏向大盤為主、反映主流市場走勢。

樣本股每個月的改變比例都不同，最極端的時候曾經有60%進行了換倉。用大數據預測熱點變化，市場熱點往往更迭很快；但同時也要考慮交易成本。兩方面考慮，網路最後測算認為一個月換一次倉位為最佳。

樣本股對百發100而言是核心機密——據說「全世界只有基金經理和指數編制機構負責人兩個人知道」——都是由機器決定後，基金經理分配給不同的交易員建倉買入。基金經理也沒有改變樣本股的權利。

展望未來，網路金融中心相關負責人躊躇滿志，「百發100指數及基金的推出，只是我們的開端和嘗試，未來將形成多樣化、系列投資產品。」

除了百發100，目前市場上打著大數據旗幟的基金還有2014年9月推出的南方-新浪I100和I300指數基金。

南方-新浪I100和I300是由南方基金、新浪財經和深圳證券信息公司三方聯合編制的。和百發100類似，也是按照財務因子和市場情緒因子進行模型打分，按照分值將前100和前300名股票構成樣本股。推出至今，這兩個指數基金分別上漲了10%左右。

正如百發100的市場情緒因子來自網路，南方-新浪I100和I300的市場情緒因子全部來自新浪平台。其中包括用戶在新浪財經對行情的訪問熱度、對股票的搜索熱度；用戶在新浪財經對股票相關新聞的瀏覽熱度；股票相關微博的多空分析數據等。

此外，阿里巴巴旗下的天弘基金也有意在大數據策略上做文章。據了解，天弘基金將和阿里巴巴合作，推出大數據基金產品，最早將於2015年初問世。

天弘基金機構產品部總經理劉燕曾對媒體表示，「在傳統的調研上，大數據將貢獻於基礎資產的研究，而以往過度依賴線下研究報告。大數據將視野拓展至了線上的數據分析，給基金經理選股帶來新的邏輯。」

在BAT三巨頭中，騰訊其實是最早推出指數基金的。騰訊與中證指數公司、濟安金信公司合作開發的「中證騰安價值100指數」早在2013年5月就發布了，號稱是國內第一家由互聯網媒體與專業機構編制發布的A股指數。不過，業內人士表示，有關指數並沒有真正應用大數據技術。雖然騰訊旗下的微信是目前最熱的社交平台，蘊藏了大量的社交數據，但騰訊未來怎麼開發，目前還並不清晰。

大數據投資平台化

中歐商學院副教授陳威如在其《平台戰略》一書中提到，21世紀將成為一道分水嶺，人類商業行為將全面普及平台模式，大數據金融也不例外。

然而，由於大數據模型對成本要求極高，就好比不可能每家公司都搭建自己的雲計算系統一樣，讓每家機構自己建設大數據模型，從數據來源和處理技術方面看都是不現實的。業內人士認為，大數據未來必將成為平台化的服務。

目前，阿里、網路等企業都表示下一步方向是平台化。

螞蟻金服所致力搭建的平台，一方麵包括招財寶一類的金融產品平台，另一方麵包括雲計算、大數據服務平台。螞蟻金服人士說，「我們很清楚自己的優勢不是金融，而是包括電商、雲計算、大數據等技術。螞蟻金服希望用這些技術搭建一個基礎平台，把這些能力開放出去，供金融機構使用。」

網路亦是如此。接近網路的人士稱，未來是否向平台化發展，目前還在討論中，但可以確定的是，「網路不是金融機構，目的不是發產品，百發100的意義在於打造影響力，而非經濟效益。」
當BAT還在摸索前行時，已有嗅覺靈敏者搶佔了先機，那就是通聯數據。

通聯數據股份公司（DataYes）由曾任博時基金副董事長肖風帶隊創建、萬向集團投資成立，總部位於上海，公司願景是「讓投資更容易，用金融服務雲平台提升投資管理效率和投研能力」。該平台7月上線公測，目前已擁有130多家機構客戶，逾萬名個人投資者。

通聯數據目前有四個主要平台，分別是通聯智能投資研究平台、通聯金融大數據服務平台、通聯多資產投資管理平台和金融移動辦公平台。

通聯智能投資研究平台包括雅典娜-智能事件研究、策略研究、智能研報三款產品，可以對基於自然語言的智能事件進行策略分析，實時跟蹤市場熱點，捕捉市場情緒。可以說，和百發100類似，其核心技術在於將互聯網非結構化數據的量化使用。

通聯金融大數據服務平台更側重於專業金融數據的分析整理。它可以提供公司基本面數據、國內外主要證券、期貨交易所的行情數據、公司公告數據、公關經濟、行業動態的結構化數據、金融新聞和輿情的非結構化數據等。

假如將上述兩個平台比作「收割機」，通聯多資產投資管理平台就是「廚房」。在這個「廚房」里，可以進行全球跨資產的投資組合管理方案、訂單管理方案、資產證券化定價分析方案等。

通聯數據可以按照主題熱點或者自定義關鍵字進行分析，構建知識圖譜，將相關的新聞和股票提取做成簡潔的分析框架。例如用戶對特斯拉感興趣，就可以通過主題熱點看到和特斯拉相關的公司，並判斷這個概念是否值得投資。「過去這個搜集過程要花費幾天時間，現在只需要幾分鍾就可以完成。」王政表示。

「通聯數據就好比一家餐館，我們把所有原料搜集來、清洗好、准備好，同時准備了一個鍋，也就是大數據存儲平台。研究員和基金經理像廚師一樣，用原料、工具去『烹制』自己的策略。」王政形容道。

大數據在平台上扮演的角色，就是尋找關聯關系。人類總是習慣首先構建因果關系，繼而去倒推和佐證。機器學習則不然，它可以在海量數據中查獲超越人類想像的關聯關系。正如維克托`邁爾-舍恩伯格在《大數據時代》中所提到的，社會需要放棄它對因果關系的渴求，而僅需關注相互關系。

例如，美國超市沃爾瑪通過大數據分析，發現颶風用品和蛋撻擺在一起可以提高銷量，並由此創造了頗大的經濟效益。如果沒有大數據技術，誰能將這毫無關聯的兩件商品聯系在一起？
通聯數據通過機器學習，也能找到傳統量化策略無法發現的市場聯系。其中包括各家公司之間的資本關系、產品關系、競爭關系、上下游關系，也包括人與人之間的關系，例如管理團隊和其他公司有沒有關聯，是否牽扯合作等。

未來量化研究員是否將成為一個被淘汰的職業？目前研究員的主要工作就是收集整理數據，變成投資決策，而之後這個工作將更多由機器完成。

「當初醫療科技發展時，人們也認為醫生會被淘汰，但其實並不會。同理，研究員也會一直存在，但他們會更注重深入分析和調研，初級的數據搜集可以交給機器完成。」王政表示。
但當未來大數據平台並廣泛應用後，是否會迅速擠壓套利空間？這也是一個問題。回答根據網上資料整理

E. 大數據能不能預測股市

大數據可以預測股市，但是股市並不是靠大數據約束的，所以很大程度上雖然能預測股市，也會有或多或少的偏差。大數據時代的背景下，數據可以體現出很多實際的應用，而應用於預測股市也未嘗不可。

大數據預測的基本原理是根據大量的應用數據來進行整合分析，再利用概率論與數理統計的方式來進行整體評估，最後得到可靠的結論，同時運用數學方法分析數據，通過圖表或者數字的方式直觀的將股票走勢表現出來，再依據這些來進行決策。

依此來看，大數據對股市預測起著十分重要的影響，但是這只是預測股市的一個工具，在很多方面上依舊具有不全面性，股市的跌幅很大程度上受股民和社會大背景的影響，在不確定性因素的影響下也會出現較大的偏差，所以，在某些方面上來說不能一味的去依靠大數據統計的方式來預測。

如果想要盡可能的排除不可靠因素的影響，那麼在大數據的搜集上就要盡可能的更加全面和具體，數據不僅要偏重於股市近多年的，還要綜合實際應用中肯定影響結果的數據，只有更全面，覆蓋范圍更加廣泛，才能准確預測股市走向。股市同時也會收到實時事件和相關政策的影響，預測股市不僅需要以數據為基礎，更要結合經驗，只有依據科學的數據和敏銳的洞察力才能精確有效的預測出股市風雲。無論是哪一種方式，都不是一朝一夕就能完成的，需要長期的檢測才能使結果更加准確。

F. 大數據為什麼不能預測外匯期貨股票

為何無法使用大數據方法預測外匯期貨股票？匯查查淺談：

具體來說，人類目前連精確的天氣預報都做不到，全球各地每天、每小時、每分鍾的降水量、溫度、濕度、氣壓、洋流、日照、風力等等無數的數據，夠得上「大數據」的標准了吧，但我們依然無法准確預測天氣。那麼又如何能預測農產品的收成，進而預測農產品期貨的價格呢？

又比如，人類目前無法預測地震，那麼由地震引起的日本福島核電站泄漏，進而導致日經股票隨後的幾天內的狂跌，又如何利用大數據進行預測？

另外，外匯貨幣的走勢是有相關性的，比如同為商品貨幣的澳大利亞和紐西蘭的貨幣走勢就有很高的相關性。澳元與鐵礦石價格，俄羅斯盧布與石油價格這幾年也都有很強的相關性，現貨市場的價格對期貨也有影響，不過題主的這些疑問都不屬於「大數據」的范疇，頂多是統計學應用而已。

G. 用大數據炒股，靠譜嗎

利用大數據炒股是現在的量化交易趨勢，可以快速整合海量數據進行分析，但目前的大數據可能還不夠成熟，不能僅此作為依據，要謹慎使用，避免判斷失誤。

如需了解股票，您也可以登錄平安口袋銀行APP-金融-股票進行查詢。

溫馨提示：本信息不構成任何投資建議，投資者不應以該等信息取代其獨立判斷或僅根據該等信息做出決策，不構成任何買賣操作。
投資者應該充分認識投資風險，謹慎投資，充分了解並清楚知曉產品蘊含風險的基礎上，通過自身判斷自主參與交易，並自願承擔相關風險。
應答時間：2022-01-27，最新業務變化請以平安銀行官網公布為准。

H. 基於微信大數據的股票預測研究

基於微信大數據的股票預測研究
大數據是近些年來的熱門話題，無論國際上還是國內，影響很大。經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展，進而影響人類的價值體系、知識體系和生活方式。而全球經濟目前生成了史無前例的大量數據，如果把每天產生的大量數據比作神話時期的大洪水是完全正確的，這個數據洪流是我們前所未見的，他是全新的、強大的、當然，也是讓人恐慌但又極端刺激的。
而我所分享的話題，正是在互聯網環境下，如何利用大數據技術，進行股票預測的研究。–今天，我想分享我認為有意義的四點。
1.大數據下的商業預測
根據大數據，我們可以有效地進行故障、人流、流量、用電量、股票市場、疾病預防、交通、食物配送、產業供需等方面的預測。而本文我們所關心的內容是股票市場的預測。
大數據的核心是預測，預測依賴於對數據的分析。那麼分析的方法是否是基於隨機采樣的結果而設計的，這樣的分析方法是否會有誤差？
從傳統認識上，由於資源和科技的局限，如人和計算資源受限、從計算機處理能力來講無法處理全部數據來獲取人們所關注的結果。因此隨機采樣應運而生，通過所選取的個體來代表全體，如使用隨機抽取的方式來使得推論結果更科學。但既然提到了大數據，它是資源發展到一定程度、以及技術發展到一定階段產生的一個新的認識。如同電力的出現，使人類進入了一個快速發展階段，大數據也一樣，它的含義是全體樣本，從整體樣本來做推論。在本文大數據的含義是所有股票在整個社交網路上的流動信息，從數據源上講，本文沒有採用所有社交網路上的數據，只分析了微信這個最具代表性的社交媒體作為信息源。
互動數據能反映用戶情緒，搜索數據能反映用戶的關注點和意圖，在股市預測時這兩種數據哪種更具有參考價值？
我認為都有價值，互動數據反映了用戶對某一特定股票的喜好和厭惡，可以簡單描述為對該股票的操作是繼續持有還是賣出；而搜索數據則代表用戶在收集該股票信息的過程，它是關注度的概念，某隻股票搜索度高則意味著消息的影響力大。互動代表著方向，搜索代表著振幅。
我們知道這兩種數據得出的結論會有差異，您是如何平衡這兩種數據反映的情況來進行預測的？
正如上一個問題里提到的，如果是股票推薦，買進賣出等原則問題，則應該考慮互動數據，但如果已經買到手了，搜索數據可以提供一個幅度的概念，類似債券評級A級、AA級、AAA級等，供投資者參考，因為不同投資者對風險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發布，是否意味著主要發布渠道是微博？現在微信公眾號很火，有沒有考慮通過這個渠道也發布消息？
事實上，信息傳播的方式很多，微信作為新媒體當然影響力不容小覷，但目前技術投入最小的還是郵件、簡訊等方式，未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息，那麼推送的消息會不會作為數據來源被再次採集？這會有多大的影響？
會被採集，但互聯網上的每日關於個股的信息數量會達到很大，該推送會增加推薦股票1點權重，每隻股票的權重成百上千，因此影響極小。
數據來源是微信公眾號，除了准確性的考慮之外，是否還考慮過這樣收集數據會較少觸犯個人隱私？
從法律角度來看，搜索微信或其他個人聊天記錄，是侵犯個人隱私權的，因此如果騰訊開放了這樣的介面，每個公民都可以對這樣的行為進行投訴、抗議、甚至進行法律起訴直至其改正過錯、賠償損失的。
這樣是否意味著即使存在違法的行為，其結果也是由騰訊來承擔，而我們作為數據的使用方不需要承擔任何法律責任？
在整個社會，我們作為系統技術提供方，應恪守大數據的倫理道德，遵守國家法律，如侵犯個人隱私，系統不會採集，谷歌有一句座右銘「谷歌不作惡」，本文提到的系統也一樣。
2.基於大數據進行股票推薦實驗
股票的及時度反應了微信文章所發布的時效性，及時度越高，數據價值就越大。
股票的熱度反應了當前某隻股票被關注的頻度，關注頻度越大，上漲的可能性越高。

數據的完整性：我們採用循環的方式對所有深滬兩地發行約2236隻股票（創業版除外）在微信搜索網站上的搜索結果進行保存。
數據的一致性：文件格式由負責保存數據文件的程序決定，單一的流程保障了文件的一致性。
數據的准確性：由於所分析的訂閱號文章的是由微信公共平台的公眾號所提供，在一定程度上杜絕了虛假消息對於預測系統的破壞。
數據的及時性：考慮到磁碟讀寫以及採集程序所處的網路帶寬，以及搜索引擎對於採集程序的屏蔽，程序中採集兩條信息之間間隔了5秒，因此理論上11180秒（3.1個小時）可收集完當日推薦所需要的數據。對於每個交易日，在9點-9點30分之間採集所有數據，需要7台以上的設備可達到最佳效果。本次試驗受限於試驗設備，在一台設備上，交易日每天早六時開始進行數據採集，也滿足及時性要求。
數據分析：查看三個高優先順序的股票，該股票當日的開盤價與收盤價，再與當日（2015-4-8）上證綜指進行比較，可得在收益上該演算法是優於上證綜指為樣本的整體股票的股價差收益的。
實驗結論：按照上述方式，系統每天推薦出當日股票，在開盤時進行買進，在第二個交易日進行賣出。經過一個月21個交易日（2015-3-1至2015-3-31），系統的收益為20%/月。通過微信搜索公眾號來預測市場走勢和投資情緒呈現出正相關性，因此可以作為股票甄選的因子。
3.股票預測的大數據發展趨勢
網路數據分成三種：
一是瀏覽數據，主要用於電商領域的消費者行為分析，瀏覽數據反映了用戶每一步的訪問腳步，進一步刻畫出用戶的訪問路徑，分析不同頁面的跳轉概率等。
二是搜索數據，主要指搜索引擎記錄的關鍵詞被搜索頻次的時間序列數據，能反映數億用戶的興趣、關注點、意圖。
三是互動數據，主要是微博、微信、社交網站的數據，反映用戶的傾向性和情緒因素。
2013年諾貝爾經濟學獎得主羅伯特?席勒的觀點被無數采訪對象引述。席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中，主要參考三個變數：投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應（市場情緒）。他認為，市場本身帶有主觀判斷因素，投資者情緒會影響投資行為，而投資行為直接影響資產價格。
計算機通過分析新聞、研究報告、社交信息、搜索行為等，藉助自然語言處理方法，提取有用的信息；而藉助機器學習智能分析，過去量化投資只能覆蓋幾十個策略，大數據投資則可以覆蓋成千上萬個策略。
基於互聯網搜索數據和社交行為的經濟預測研究，已逐漸成為一個新的學術熱點，並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上，研究發現搜索數據可有效預測未來股市活躍度（以交易量指標衡量）及股價走勢的變化。
對於搜索數據：互聯網搜索行為與股票市場的關聯機理。這個研究屬於行為金融與互聯網的交叉領域，其原理是：股票量價調整是投資者行為在股票市場上的反應；與此同時，投資者行為在互聯網搜索市場也有相應地行為跡象，我們要做到是：找到互聯網搜索市場中領先於股票交易的行為指標，綜合眾多投資者的先行搜索指標，對未來的股票交易做出預判。
如同天氣預報那樣，不斷優化模型、灌入海量信息，然後給出結果。並且在處理的信息中，有80%是「非結構化」數據，例如政策文件、自然事件、地理環境、科技創新等，這類信息通常是電腦和模型難以消化的。採用了語義分析法，可以將互動數據里的金融對話量化為「-1（極度看空）」到「1（極度看多）」之間的投資建議，通過分析互動數據的數據文本，作為股市投資的信號。
4.正在發生的未來
大數據並不是一個充斥著演算法和機器的冰冷世界，人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案，只是參考答案，幫助是暫時的，而更好的方法和答案還在不久的將來。
大數據在實用層面的影響很廣泛，解決了大量的日常問題。大數據更是利害攸關的，它將重塑我們的生活、工作和思維方式。在某些方面，我們面臨著一個僵局，比其他劃時代創新引起的社會信息范圍和規模急劇擴大所帶來的影響更大。我們腳下的地面在移動。過去確定無疑的事情正在受到質疑。大數據需要人們重新討論決策、命運和正義的性質。擁有知識曾意味著掌握過去，現在則意味著能夠預測未來。
大數據並不是一個充斥著演算法和機器的冰冷世界，其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的，因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。這提示我們應該樂於接受類似的不準確，因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂數據一樣，因為這些數據服務的是更加廣大的目標。必將混亂構成了世界的本質，也構成了人腦的本職，而無論是世界的混亂還是人腦的混亂，學會接受和應用他們才能得益。
我相信，利用基礎數據、搜索數據、互動數據再進行加權計算，可以對所有股票進行大數據遴選，從而給出投資建議。我認為，我們的肉身剛剛步入大數據時代，但我們的精神還滯留在小數據、采樣思維之中，率先用理性擊碎固有思維的人，也將率先獲得大數據帶來的益處。

I. 可不可以基於海量數據預測股票

另外，市場是動態的，有時再多的海量數據也不能用來預測後期的市場，就比如2017年下半年，以往被證明操作成功率很高的三板股戰法和打板戰法等紛紛失效，就是因為上面維穩的介入。我們只能跟隨市場的變化，及時轉變自己的認知。

以上內容為股幫師姐原創，如轉載請註明出處，如有不同意見，歡迎交流。

最後分享一下微信公眾號：股幫師姐，獲取更多股市知識。

大數據股票價格預測

與大數據股票價格預測相關的內容