當前位置:首頁 » 股票入門 » 大數據與股票交易
擴展閱讀
設計總院股票歷史股價 2023-08-31 22:08:17
股票開通otc有風險嗎 2023-08-31 22:03:12
短線買股票一天最好時間 2023-08-31 22:02:59

大數據與股票交易

發布時間: 2023-05-30 10:49:49

❶ 用大數據炒股,靠譜嗎

利用大數據炒股是現在的量化交易趨勢,可以快速整合海量數據進行分析,但目前的大數據可能還不夠成熟,不能僅此作為依據,要謹慎使用,避免判斷失誤。

如需了解股票,您也可以登錄平安口袋銀行APP-金融-股票進行查詢。

溫馨提示:本信息不構成任何投資建議,投資者不應以該等信息取代其獨立判斷或僅根據該等信息做出決策,不構成任何買賣操作。
投資者應該充分認識投資風險,謹慎投資,充分了解並清楚知曉產品蘊含風險的基礎上,通過自身判斷自主參與交易,並自願承擔相關風險。
應答時間:2022-01-27,最新業務變化請以平安銀行官網公布為准。

❷ 大數據的應用領域有哪些

1.了解和定位客戶

這是大數據目前最廣為人知的應用領域。很多企業熱衷於社交媒體數據、瀏覽器日誌、文本挖掘等各類數據集,通過大數據技術創建預測模型,從而更全面地了解客戶以及他們的行為、喜好。

利用大數據,美國零售商Target公司甚至能推測出客戶何時會有Baby;電信公司可以更好地預測客戶流失;沃爾瑪可以更准確的預測產品銷售情況;汽車保險公司能更真實的了解客戶實際駕駛情況。

滑雪場利用大數據來追蹤和鎖定客戶。如果你是一名狂熱的滑雪者,想像一下,你會收到最喜歡的度假勝地的邀請;或者收到定製化服務的簡訊提醒;或者告知你最合適的滑行線路。。。。。。同時提供互動平台(網站、手機APP)記錄每天的數據——多少次滑坡,多少次翻越等等,在社交媒體上分享這些信息,與家人和朋友相互評比和競爭。

除此之外,政府競選活動也引入了大數據分析技術。一些人認為,奧巴馬在2012年總統大選中獲勝,歸功於他們團隊的大數據分析能力更加出眾。

2.

改善醫療保健和公共衛生

大數據分析的能力可以在幾分鍾內解碼整個DNA序列,有助於我們找到新的治療方法,更好地理解和預測疾病模式。試想一下,當來自所有智能手錶等可穿戴設備的數據,都可以應用於數百萬人及其各種疾病時,未來的臨床試驗將不再局限於小樣本,而是包括所有人!

蘋果公司的一款健康APPResearchKit有效將手機變成醫學研究設備。通過收集用戶的相關數據,可以追蹤你一天走了多少步,或者提示你化療後感覺如何,帕金森病進展如何等問題。研究人員希望這一過程變得更容易、更自動化,吸引更多的參與者,並提高數據的准確度。

大數據技術也開始用於監測早產兒和患病嬰兒的身體狀況。通過記錄和分析每個嬰兒的每一次心跳和呼吸模式,提前24小時預測出身體感染的症狀,從而及早干預,拯救那些脆弱的隨時可能生命危險的嬰兒。

更重要的是,大數據分析有助於我們監測和預測流行性或傳染性疾病的暴發時期,可以將醫療記錄的數據與有些社交媒體的數據結合起來分析。比如,谷歌基於搜索流量預測流感爆發,盡管該預測模型在2014年並未奏效——因為你搜索「流感症狀」並不意味著真正生病了,但是這種大數據分析的影響力越來越為人所知。

3.提供個性化服務

大數據不僅適用於公司和政府,也適用於我搏衫們每個人,比如從智能手錶或智能手環等可穿戴設備採集的數據中獲益。Jawbone的智能手環可以分析人們的卡路里消耗、活動量和睡眠質量等。Jawbone公司已經能夠收集長達60年的睡眠數據,從中分析出一些獨到的見解反饋給每個用戶。從中受益的還有網路平台「尋找真愛」,大多數婚戀網站都使用大數據分析工具和演算法為用戶匹配最合適的對象。

4.

了解和優化業務流程

大數據也困畢越來越多地應用於優化業務流程,比如供應鏈或配送路徑優化。通過定位和識別系統來跟蹤貨物或運輸車輛,並根據實時交通路況數據優化運輸路線。

人力資源業務流程也在使用大數據進行優化。SociometricSolutions公司通過在員工工牌里植入感測器,檢測其工作場所及社交活動——員工在哪些工作場所走動,與誰交談,甚至交流時的語氣如何。美國銀行在使用中發現呼叫中心表現最好的員工——他們制定了小組輪流休息制度,平均業績提高了23%。

如果在手機、鑰匙、眼鏡等隨身物品上粘貼RFID標簽,萬一不小心丟失就能迅速定位它們。假想一下未來可能創造出貼在任何東西上的智能標簽。它們能告訴你的不僅是物體在哪裡,還可以反饋溫度,濕度,運動狀態等等。這將打開一個全新的大數據時代,「大數據」領域尋求共性的信息和模式,那麼孕育其中的「小數據」著重關注單個產品。

5.

改善城市和國家建設

大數據被用於改善我們城市和國家的方方面面。目前很多大城市致力於構建智慧交通。車輛、行人、道路基礎設施、公共服務場所都被整合在智慧交通網路中,以提升資源運用的效率,優化城市管理和服務。

加州長灘市正在使用智能水表實時檢測非法用水,幫助一些房主減少80%的用水量。洛杉磯利用磁性道路感測器和交通攝像頭的數據來控制交通燈信號,從而優化城市的交通流量。據統計目前已經控制了全市4500個交通燈,將交通擁堵狀況減少了約16%。

6.提升科學研究

大數據帶來的無限可能性正在改變科學研究。歐洲核子研究中心(CERN)在全球遍布了150個數據中心,有65,000個處理器,能同時分析30pb的數據量,這樣的計算能力影響著很多領域的科學研究。比如政汪銀芹府需要的人口普查數據、自然災害數據等,變的更容易獲取和分析,從而為我們的健康和社會發展創造更多的價值。

7.提升機械設備性能

大數據使機械設備更加智能化、自動化。例如,豐田普銳斯配備了攝像頭、全球定位系統以及強大的計算機和感測器,在無人干預的條件下實現自動駕駛。XcelEnergy在科羅拉多州啟動了「智能電網」的首批測試,在用戶家中安裝智能電表,然後登錄網站就可實時查看用電情況。「智能電網」還能夠預測使用情況,以便電力公司為未來的基礎設施需求進行規劃,並防止出現電力耗盡的情況。在愛爾蘭,雜貨連鎖店Tescos的倉庫員工佩戴專用臂帶,追蹤貨架上的商品分配,甚至預測一項任務的完成時間。

8.強化安全和執法能力

大數據在改善安全和執法方面得到了廣泛應用。美國國家安全局(NSA)利用大數據技術,檢測和防止網路攻擊(挫敗恐怖分子的陰謀)。警察運用大數據來抓捕罪犯,預測犯罪活動。信用卡公司使用大數據來檢測欺詐交易等等。

2014年2月,芝加哥警察局對大數據生成的「名單」——有可能犯罪的人員,進行通告和探訪,目的是提前預防犯罪。

9.

提高體育運動技能

如今大多數頂尖的體育賽事都採用了大數據分析技術。用於網球比賽的IBMSlamTracker工具,通過視頻分析跟蹤足球落點或者棒球比賽中每個球員的表現。許多優秀的運動隊也在訓練之外跟蹤運動員的營養和睡眠情況。NFL開發了專門的應用平台,幫助所有球隊根據球場上的草地狀況、天氣狀況、以及學習期間球員的個人表現做出最佳決策,以減少球員不必要的受傷。

還有一件非常酷的事情是智能瑜伽墊:嵌入在瑜伽墊中的感測器能對你的姿勢進行反饋,為你的練習打分,甚至指導你在家如何練習。

10.金融交易

大數據在金融交易領域應用也比較廣泛。大多數股票交易都是通過一定的演算法模型進行決策的,如今這些演算法的輸入會考慮來自社交媒體、新聞網路的數據,以便更全面的做出買賣決策。同時根據客戶的需求和願望,這些演算法模型也會隨著市場的變化而變化。

❸ 同盾大數據能查到股票交易嗎

不能。同盾大數據不能查到股票交易,同盾大數據基本包含了網貸一信吵岩半以上的平台和公司。可以提供信貸審查和反欺詐服務,因為滑御碰塵中國央行徵信只覆蓋了銀行還有傳統的金融機構。

❹ 哪有大數據的股市分析

大智慧(7.23.4)、同花順(.76.9)、通達信(4.32.1),東方財付通(6.32.4)都有大數據分析系統,
1、大智慧
大智慧簡單易懂,數據分析系統也很完善、指標系統專業,畫面也簡潔。 同花順 界面有點復雜,數據分析系統,指標系統,都很好,就是編程有點復雜,需要有一定的編程知識。特別是大數據分析選股方面學起來有點吃力。適合專業選手。
2、通櫻皮達信
通達信是國內用得比較多的軟體,畫面簡潔,每次更新,版面變化不大,不仔細看,看不出來。不過 大數據分析系統功有點少,老年用戶、新股民用得比較多。
3、東方財富通
更新較快,每次跟他們提的意見,都能及時的回復,還不錯。他的大數據分析系統,再加上網站的數據,很及時,准確。
拓展資缺談料
一、股票交易手續費是進行股票交易時所支付的手續費。委託買賣的手續費分「階段式」和「跟價式」。
(1)階段式。根據股票價格和交易股數收取手續費。
(2)跟價式。根據股票的交易金額收取手續費,目前世界上多採用跟價式。
第二次世界大戰以後,許多國家為避免證券公司間的過度競爭,穩定證券業的經營,採取委託交易手續費最低限額制度。70年代中期以來,在證券市場自由化潮流的沖擊下、美國、英國等一些國家先後放棄這一制度,實現委託交易手續費的自由化,但日本等國至今仍實行這一制度。
股票交易是指股票投資者之間按照市場價格對已發行上市的股票所進行的買賣,包括場內交易和場外交易。股票公開轉讓的場所首先是證券交易所。中國大陸僅有兩家交易所,即上海證券交易所和深圳證券交易所。
二、費用內容
1.印花稅:成脊扮差交金額的1‰。2008年9月19日至今由向雙邊徵收改為向出讓方單邊徵收。受讓者不再繳納印花稅。投資者在買賣成交後支付給財稅部門的稅收。上海股票及深圳股票均按實際成交金額的千分之一支付,此稅收由券商代扣後由交易所統一代繳。債券與基金交易均免交此項稅收。
2.證管費:成交金額的0.002%雙向收取
3.證券交易經手費:A股,按成交金額的0.00487%雙向收取;B股,按成交額0.00487%雙向收取;基金,上海證券交易所按成交額雙邊收取0.0045%,深圳證券交易所按成交額0.00487%雙向收取;權證,按成交額0.0045%雙向收取。 A股2、3項收費合計稱為交易規費,合計收取成交金額的0.00687%,包含在券商交易傭金中。
4.過戶費(從2015年8月1日起已經更改為上海和深圳都進行收取):這是指股票成交後,更換戶名所需支付的費用。根據中國登記結算公司的發文《關於調整A股交易過戶費收費標准有關事項的通知》,從2015年8月1日起已經更改為上海和深圳都進行收取,此費用按成交金額的0.02‰收取。

❺ 利用大數據炒股會賺嗎

隨著科學技術的發展,現在很多炒股軟體都可以方便快捷地找到上市公司的關鍵數據。用大數據分析找出大股東的持倉成本,就等於看到了經銷商的底牌。購買價格接近或低於市場平均持倉成本。利潤機會越大,安全系數越高。

因為大數據分析人們的常識性需求或一些習慣性行為,只能通過多次或多次發生的常見行為事件找出一些規律。上述行為事件是相對固定時間或基本需求或習慣的單一行為的結果。作為股東,沒有人能夠預測未來。我們不否認這一點。然而,很少有人會否冊巧森認每個人都可以回顧歷史。我們不知道未來會上升還是下降。我們不知道如何波動。然而,如果一個好故事講得很辛苦,說書人肯定會得到好處。粉絲越多,他得到的好處就越多。

❻ 可以利用大數據炒股嗎

大數據可以用於股票交易,所謂大數據,就是一個新的分析概念,利用新的系統、新的工具、新的模型來挖掘大量動態的、可持續的數據,從而獲得具有洞察力和新價值的東西。大數據已經在一些金融工具中有所體現,大數據會將股票之前的數據全都發布出來,股民可以根據這只股票之前的數據來進行對比。

其實大數據只能說是個趨勢,我們可以通過打數據讓投資者能夠有一個參考性,但不能夠過度依賴大數據,畢竟著只是數據,這些數據是死的,而股市卻是千變萬化的,我們不能過度的依賴大數據得出的分析與結論,大數據也只是作為一個參考數據。世事無絕對,更何況是股票,可能上一秒還是盈利的狀態,但是下一秒就已經處於虧損了,不少人也因為炒股傾家盪產,所以這邊還是要提醒大家一下,謹慎行事,不要盲目跟風。

❼ 大數據是哪類股票屬什麼板塊成長性如何

現在還去投資股票的人都是傻子,我在國泰君安裡面就做過股票講師,沒有人比我有權利解答這個問題:
股票的漲跌就是多空拼殺,買入的資金多仔鄭,股票就漲,賣出的人多,股票就跌。很顯然擁有大資金的人就可以輕松操控股價。國外顯然不同,當用戶大資金買入股票時,證監會立馬就有電話詢問:「你持重倉的原因是什麼,而念鏈頌且需要自己舉證,否則就按非法操控股價為由凍結資金,甚至是多倍盈利的罰單,最高以詐騙罪判刑。中國股票交易市場的制度目前還不健全,不適合散戶投資,也這是為什麼國外大盤漲的的時候中國大盤跌的病根所在,
大家會問,中國的股票在剛剛興起時,很多人都大賺,為什麼近幾年來就沒有聽到誰買股票發財了呢?筆者經過多年實戰和同行交流,總結出以下三條原因:
第一、機構優勢
公司為了成功上市,通常需要大資金來拉動股價,按每股發行價一元計算,對做一級市商的機構來喚信講,他們因為量大的關系,往往每股只需0.8元~0.9元的成本。對於我們散戶的股民來講,就算第一時間入場,其實已經買了高價股,風險可想而知。
第二、內幕交易
股價的漲跌除了國家政策調控,還因公司因發展戰略事項有著密切的關系,公司有重大決策之前,散戶股民是不可能知道,軟體公布數據的時候,已是事後。
第三、莊家操控
按一家上市公司發行一億股,每股十元的發行價,即總市值十億元,擁有五六億元的個體和莊家就可以操控股價,散戶就是任人宰割的羊。
如果要做投資方面的,歡迎(扣我)網路號。

❽ 炒股App 大數據丟在風口上的蛋

炒股App:大數據丟在風口上的蛋

盡管炒股App處於剛剛勃興階段,但業內幾乎在短時間內迅速就其產品模式達成了共識——將交易與交流相結合,組建日常化的投資社區。在此之下,不同背景與定位的炒股App開始探索各自的商業模式,謀求符合自己的生存之道 ...

據媒體報道,與2007年「大牛市」不同,2014年以來的大牛市伴隨移動互聯網的蓬勃發展,特別是微信、移動新聞客戶端等加快了信息傳播速度。2007年時,股票投資者還需要在同花順、大智慧等PC客戶端瀏覽行情;而今,幾十個乃至近百個新式炒股App蓬勃而生,為無數趕赴牛市的「85後」新生代投資者提供參考。

一場以炒股App尋找全新App增長點的創投熱情,更在四五月間股市的「牛氣沖天」中,被極度釋放,進而又在6月末的一連串股市大跌之中,被非議無數。作為已經不再熱門的App創業中的一支奇葩,在股市的風口上,炒股App到底能夠走多遠?

社交應用的股票定製版?

在有關提到此次炒股App熱的媒體報道中,常有一段話,專門用來解析過去主要應用於PC的炒股軟體和當下應用於手機的炒股App的區別:「盡管炒股App處於剛剛勃興階段,但業內幾乎在短時間內迅速就其產品模式達成了共識——將交易與交流相結合,組建日常化的投資社區。在此之下,不同背景與定位的炒股App開始探索各自的商業模式,謀求符合自己的生存之道。」

如果翻譯成更為淺顯的話語,可以理解為這些炒股App的基礎架構頗類似微信、微博之類的社喊培交應用,一些炒股達人則成為這一社交應用之中的微信公眾號或者微博大V。當然,草根股民也可以用朋友圈,發表一下自己對股市的看法。

這樣的平台架構,其實在技術上已經沒有多少難度可言,因此,其快速爆發的效率可以用「扎堆」來形容。據6月22日中國之聲《新聞晚高峰》報道:「任意一個App Store,與『炒股』相關的新式App有幾十至近百個之多,包括公牛炒股、優顧炒股、短線放大器、投資堂等。」而火爆程度呢?「網路指數也顯示,近一個月內關鍵詞『炒股軟體』的搜索指數整體同比上升了834%,移動端同比上升超1000%。」

如此紅火的炒股App勢頭,它真正和過去大智慧、同花順這樣的PC客戶端相比,當然並不僅僅是炒股社交化如此簡單。以2011年就上線的炒股App股票雷達為例,其創始人馮月就坦言:在做法上,股票雷達要求投資者都必須公布自己的投資記錄,形成交易數據公開;通過一定時間內的收益排名數據比較自動推出「股票高手」,允許用戶跟著高手投資。一旦關注某個高手後,平台會自動向投資者發送該高手倉位實時變化消息。憑借「有跡可循」和「跟單交易」的新穎模式,股票雷達很快就吸引了首批用戶,截至目前,股票雷達實盤日交易額已經有幾億元,股票雷達團隊也已突破100人。

這被馮月稱之為是一種大數據的呈現,而真正對於股民來說,這其實就是一個實時的操作指南。這是以往大智慧、同花順等老牌股票應用,主要提供一些股票推薦和相關資訊所不能及的。

據《深市新開戶個人投資者學歷分析報告》顯示,在2014年初到2015年3月31日之間的新開戶投資者中,30歲以下人群佔比達到37.7%。這一批在互聯網土壤上生長起來的「85後」股市小白用戶,跟著帶頭大哥混的思維邏輯就是他們炒股的剛性需求。

一個前度玩家的新游戲

對於炒股App和過去的炒股軟體的區別,筆者有一個更為形象的比方,後者其實就是一款單機游戲,而大智慧們提供的各種資訊,則是股票這款游戲的玩家們,在一個封閉的小房子里,獨自專研著屬於自己的游戲攻略。你其實是一個人在戰斗。個人在股市裡摸爬滾打的長期經驗和對信息的分析研判能力,將為一次又一次通關,增加一些成功的砝碼。

而前者,則是一款網路游戲,面對全新的關卡,一個新手往往頓時迷失了方向,如果沿用過去的方法,去研究游戲攻略,學費高、課程長、見效慢。但在社交平台上,鄭遲唯可以有另一個選擇,跟著有經驗的老前輩、股票高手們一起,去開荒撈點戰利品。當然,這依然不能保證通關,但至少這是擺在還不太懂股市的「票友」們最簡單粗暴的炒股賺錢方式。

其實,這兩種旦滲模式之間,是有過渡階段的,即在2007年上一輪牛市期間,在博客平台上一度躍紅的那些薦股牛人,包括曾被譽為中國第一博後又因為詐騙罪而入獄的「帶頭大哥777」。所不同的是,這個中間階段的過渡平台,依然延續著那些專家薦股、炒股達人的神話,加上信息的不透明性和僅僅為推薦而非真正實時操盤,而備受詬病。

這就涉及一個所謂盈利模式的話題。即前代產品如大智慧、同花順的盈利模式,其實最主要的還是作為一個平台,協助股民瀏覽行情、獲取資訊、完成交易,並收取金融信息服務費用和少量的廣告費用。這種其實還停留在過去「賣產品」的服務模式和股票門戶平台的定位,在越來越海量的信息數據爆炸下,也越來越不合時宜,也更加地向摸爬滾打股海多年的重度股民方向發展,也使得其業績一直表現乏力。5月的媒體報道中,一位分析師則對騰訊財經表示,大智慧一向擅長給資本市場講故事,但其主業一直陷於巨額虧損,商業模式不可持續。

反之走「跟高手炒股」概念的股票雷達、雪球等炒股App,則以反專業化的面目出現,即用「高手」這一概念,以及自己平台對大量碎片化信息數據的分析並簡化成買進賣出的量化結果,讓小白用戶可以快速賺錢,並迅速地為自己的平台聚集起人氣。「人氣就是入口」,對於移動互聯網的App們來說,有了人氣,並用真正能賺到錢來黏住用戶,盈利模式總會有的。到6月,據稱股票雷達和雪球上的日均活躍用戶數接近100萬,對於一款「網路游戲」來說,社區的內容貢獻問題、高手數量、跟隨的小弟資源,均已盤活了。

只是,在大牛市下,怎麼炒都容易賺錢,矛盾不易爆發。但萬一熊了呢?

大數據!一個有關預測的局

萬一熊了,能不能真正讓小白用戶「跟高手炒股」賺到錢,就成為決定App黏合度的最終關鍵,為此,有志於炒股App的各路英雄,包括BAT們,都祭出了同一張牌——大數據。

騰訊早在2012年就推出了「自選股」App,在其社交領域基礎上打造「股票圈」;網路今年2月上線了選股App網路股市通,主推智能選股。阿里則在5月牽手第一財經,將第一財經專業的財經資訊、投研報告內容,通過支付寶「股市行情」埠直接抵達3億支付寶用戶。

在某種意義上,騰訊的「自選股」頗為類似上述草根創業的炒股App,阿里則以更為專業和標准化生產採集的第一手資訊和服務壓過傳統炒股軟體大智慧們一頭。兩大巨頭的切入角度,均是以自己最優勢而競爭對手難以山寨的平台力量,可謂刁鑽,但尚不具備顛覆力量;而最具典範意義的則是網路的股市通,其號稱基於網路每天數億量級的政經類搜索數據和數百萬新聞資訊信息,通過專業的數據挖掘和分析技術,將新聞信息、搜索數據與股票建立起相應的關系,以信息的熱度變化來實時分析股票市場的變動。

簡言之,就是通過信息流的快速變化得出一個漲跌的大數據結論,這個大數據優勢,只有網路具備,其原理頗為類似早前網路推出依託區域面積內使用網路地圖的人數而形成的景區熱力圖,來幫助出行人士選擇到底是看人海還是看風景。這一基於大數據和人工智慧技術的「智能選股」服務,據其統計數據顯示,上線3個月以來,網路股市通應用大數據推出的熱點有685個。如果以每個熱點的關聯股票作為一個組合,平均倉位以當日開盤價買入,第二天開盤價賣出計算,有78%的熱點題材股票是上漲的,且日均漲幅達到1.7%。如果按照A股1年240個交易日計算,年復利收益在理論上達到56倍。

但這依然只是一個理論化的模型,其特點也僅僅是用數據的力量來分析海量信息流,跳過股民不關心的分析過程而直接導出一個預測結果,與「跟高手炒股」的區別,也主要在於一個是以演算法來預測,一個則更多依靠經驗來預測。

且「跟高手炒股」目前也在探索一種經驗型大數據的解決方案,如股票雷達等,也在考慮除了供應大量信息和訂閱高手動態的方式之外,對信息數據以及高手們的實時動態,而形成一系列預測結果,甚至介入中信證券、廣發證券、國金證券、方正證券、國聯證券等老牌券商,以形成更具指導力的結果,供小白用戶直接選擇。

怎麼樣的大數據分析方案,其實都只是各個入局炒股App根據自身優勢與特點,對「真正能為小白客戶實現簡化投資」這一結果而找尋的出路,但真正能否預測到結果呢?正如抽樣調查只能為選舉結果提供參考系一樣,僅僅來自於某些領域的大數據,其實也只是一個較大的參考系,而非全量的數據分析,其參考價值更大,但也僅僅只是參考,是更無限接近真相的一個預測。

股市有風險,投資需謹慎。這句話同樣適用於炒股App們,能否在牛市和熊市的不同階段保持對用戶的黏合性,能否總是保持正確,很重要。而這其中,除了科學的大數據參考外,還有那麼一絲賭博的味道。

以上是小編為大家分享的關於炒股App 大數據丟在風口上的蛋的相關內容,更多信息可以關注環球青藤分享更多干貨

❾ 如何用大數據炒股

我們如今生活在一個數據爆炸的世界裡。網路每天響應超過60億次的搜索請求,日處理數據超過100PB,相當於6000多座中國國家圖書館的書籍信息量總和。新浪微博每天都會發布上億條微博。在荒無人煙的郊外,暗藏著無數大公司的信息存儲中心,24小時夜以繼日地運轉著。
克托·邁爾-舍恩伯格在《大數據時代》一書中認為,大數據的核心就是預測,即只要數據豐富到一定程度,就可預測事情發生的可能性。例如,「從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性」,或者通過一個人穿過馬路的速度,預測車子何時應該減速從而讓他及時穿過馬路。

那麼,如果把這種預測能力應用在股票投資上,又會如何?

目前,美國已經有許多對沖基金採用大數據技術進行投資,並且收獲甚豐。中國的中證廣發網路百發100指數基金(下稱百發100),上線四個多月以來已上漲68%。

和傳統量化投資類似,大數據投資也是依靠模型,但模型里的數據變數幾何倍地增加了,在原有的金融結構化數據基礎上,增加了社交言論、地理信息、衛星監測等非結構化數據,並且將這些非結構化數據進行量化,從而讓模型可以吸收。

由於大數據模型對成本要求極高,業內人士認為,大數據將成為共享平台化的服務,數據和技術相當於食材和鍋,基金經理和分析師可以通過平台製作自己的策略。

量化非結構數據

不要小看大數據的本領,正是這項剛剛興起的技術已經創造了無數「未卜先知」的奇跡。

2014年,網路用大數據技術預測命中了全國18卷中12卷高考作文題目,被網友稱為「神預測」。網路公司人士表示,在這個大數據池中,包含互聯網積累的用戶數據、歷年的命題數據以及教育機構對出題方向作出的判斷。

在2014年巴西世界盃比賽中,Google亦通過大數據技術成功預測了16強和8強名單。

從當年英格蘭報社的信鴿、費城股票交易所的信號燈到報紙電話,再到如今的互聯網、雲計算、大數據,前沿技術迅速在投資領域落地。在股票策略中,大數據日益嶄露頭角。

做股票投資策略,需要的大數據可以分為結構化數據和非結構化數據。結構化數據,簡單說就是「一堆數字」,通常包括傳統量化分析中常用的CPI、PMI、市值、交易量等專業信息;非結構化數據就是社交文字、地理位置、用戶行為等「還沒有進行量化的信息」。

量化非結構化就是用深度模型替代簡單線性模型的過程,其中所涉及的技術包括自然語言處理、語音識別、圖像識別等。

金融大數據平台-通聯數據CEO王政表示,通聯數據採用的非結構化數據可以分為三類:第一類和人相關,包括社交言論、消費、去過的地點等;第二類與物相關,如通過正在行駛的船隻和貨車判斷物聯網情況;第三類則是衛星監測的環境信息,包括汽車流、港口裝載量、新的建築開工等情況。

衛星監測信息在美國已被投入使用,2014年Google斥資5億美元收購了衛星公司Skybox,從而可以獲得實施衛星監測信息。

結構化和非結構化數據也常常相互轉化。「結構化和非結構化數據可以形象理解成把所有數據裝在一個籃子里,根據應用策略不同相互轉化。例如,在搜索頻率調查中,用戶搜索就是結構化數據;在金融策略分析中,用戶搜索就是非結構化數據。」網路公司人士表示。

華爾街拿著豐厚薪水的分析師們還不知道,自己的僱主已經將大量資本投向了取代自己的機器。
2014年11月23日,高盛向Kensho公司投資1500萬美元,以支持該公司的大數據平台建設。該平台很像iPhone里的Siri,可以快速整合海量數據進行分析,並且回答投資者提出的各種金融問題,例如「下月有颶風,將對美國建材板塊造成什麼影響?」

在Kensho處理的信息中,有80%是「非結構化」數據,例如政策文件、自然事件、地理環境、科技創新等。這類信息通常是電腦和模型難以消化的。因此,Kensho的CEO Daniel Nadler認為,華爾街過去是基於20%的信息做出100%的決策。

既然說到高盛,順便提一下,這家華爾街老牌投行如今對大數據可謂青睞有加。除了Kensho,高盛還和Fortress信貸集團在兩年前投資了8000萬美元給小額融資平台On Deck Capital。這家公司的核心競爭力也是大數據,它利用大數據對中小企業進行分析,從而選出值得投資的企業並以很快的速度為之提供短期貸款。

捕捉市場情緒

上述諸多非結構化數據,歸根結底是為了獲得一個信息:市場情緒。

在采訪中,2013年諾貝爾經濟學獎得主羅伯特•席勒的觀點被無數采訪對象引述。可以說,大數據策略投資的創業者們無一不是席勒的信奉者。

席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中,主要參考三個變數:投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產價格。
然而,在大數據技術誕生之前,市場情緒始終無法進行量化。

回顧人類股票投資發展史,其實就是將影響股價的因子不斷量化的過程。

上世紀70年代以前,股票投資是一種定性的分析,沒有數據應用,而是一門主觀的藝術。隨著電腦的普及,很多人開始研究驅動股價變化的規律,把傳統基本面研究方法用模型代替,市盈率、市凈率的概念誕生,量化投資由此興起。

量化投資技術的興起也帶動了一批華爾街大鱷的誕生。例如,巴克萊全球投資者(BGI)在上世紀70年代就以其超越同行的電腦模型成為全球最大的基金管理公司;進入80年代,另一家基金公司文藝復興(Renaissance)年均回報率在扣除管理費和投資收益分成等費用後仍高達34%,堪稱當時最佳的對沖基金,之後十多年該基金資產亦十分穩定。

「從主觀判斷到量化投資,是從藝術轉為科學的過程。」王政表示,上世紀70年代以前一個基本面研究員只能關注20隻到50隻股票,覆蓋面很有限。有了量化模型就可以覆蓋所有股票,這就是一個大的飛躍。此外,隨著計算機處理能力的發展,信息的用量也有一個飛躍變化。過去看三個指標就夠了,現在看的指標越來越多,做出的預測越來越准確。

隨著21世紀的到來,量化投資又遇到了新的瓶頸,就是同質化競爭。各家機構的量化模型越來越趨同,導致投資結果同漲同跌。「能否在看到報表數據之前,用更大的數據尋找規律?」這是大數據策略創業者們試圖解決的問題。

於是,量化投資的多米諾骨牌終於觸碰到了席勒理論的第三層變數——市場情緒。

計算機通過分析新聞、研究報告、社交信息、搜索行為等,藉助自然語言處理方法,提取有用的信息;而藉助機器學習智能分析,過去量化投資只能覆蓋幾十個策略,大數據投資則可以覆蓋成千上萬個策略。

基於互聯網搜索數據和社交行為的經濟預測研究,已逐漸成為一個新的學術熱點,並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上,研究發現搜索數據可有效預測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。

海外就有學術研究指出,公司的名稱或者相關關鍵詞的搜索量,與該公司的股票交易量正相關。德國科學家Tobias Preis就進行了如此研究:Tobias利用谷歌搜索引擎和谷歌趨勢(Google Trends),以美國標普500指數的500隻股票為其樣本,以2004年至2010年為觀察區間,發現谷歌趨勢數據的公司名稱搜索量和對應股票的交易量,在每周一次的時間尺度上有高度關聯性。也就是說,當某個公司名稱在谷歌的搜索量活動增加時,無論股票的價格是上漲或者下跌,股票成交量與搜索量增加;反之亦然,搜索量下降,股票成交量下降。以標普500指數的樣本股為基礎,依據上述策略構建的模擬投資組合在六年的時間內獲得了高達329%的累計收益。

在美國市場上,還有多家私募對沖基金利用Twitter和Facebook的社交數據作為反映投資者情緒和市場趨勢的因子,構建對沖投資策略。利用互聯網大數據進行投資策略和工具的開發已經成為世界金融投資領域的新熱點。

保羅·霍丁管理的對沖基金Derwent成立於2011年5月,注冊在開曼群島,初始規模約為4000萬美元, 2013年投資收益高達23.77%。該基金的投資標的包括流動性較好的股票及股票指數產品。
通聯數據董事長肖風在《投資革命》中寫道,Derwent的投資策略是通過實時跟蹤Twitter用戶的情緒,以此感知市場參與者的「貪婪與恐懼」,從而判斷市場漲跌來獲利。

在Derwent的網頁上可以看到這樣一句話:「用實時的社交媒體解碼暗藏的交易機會。」保羅·霍丁在基金宣傳冊中表示:「多年以來,投資者已經普遍接受一種觀點,即恐懼和貪婪是金融市場的驅動力。但是以前人們沒有技術或數據來對人類情感進行量化。這是第四維。Derwent就是要通過即時關注Twitter中的公眾情緒,指導投資。」

另一家位於美國加州的對沖基金MarketPsych與湯普森·路透合作提供了分布在119個國家不低於18864項獨立指數,比如每分鍾更新的心情狀態(包括樂觀、憂郁、快樂、害怕、生氣,甚至還包括創新、訴訟及沖突情況等),而這些指數都是通過分析Twitter的數據文本,作為股市投資的信號。

此類基金還在不斷涌現。金融危機後,幾個台灣年輕人在波士頓組建了一家名為FlyBerry的對沖基金,口號是「Modeling the World(把世界建模)」。它的投資理念全部依託大數據技術,通過監測市場輿論和行為,對投資做出秒速判斷。

關於社交媒體信息的量化應用,在股票投資之外的領域也很常見:Twitter自己也十分注重信息的開發挖掘,它與DataSift和Gnip兩家公司達成了一項出售數據訪問許可權的協議,銷售人們的想法、情緒和溝通數據,從而作為顧客的反饋意見匯總後對商業營銷活動的效果進行判斷。從事類似工作的公司還有DMetics,它通過對人們的購物行為進行分析,尋找影響消費者最終選擇的細微原因。

回到股票世界,利用社交媒體信息做投資的公司還有StockTwits。打開這家網站,首先映入眼簾的宣傳語是「看看投資者和交易員此刻正如何討論你的股票」。正如其名,這家網站相當於「股票界的Twitter」,主要面向分析師、媒體和投資者。它通過機器和人工相結合的手段,將關於股票和市場的信息整理為140字以內的短消息供用戶參考。

此外,StockTwits還整合了社交功能,並作為插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台,讓人們可以輕易分享投資信息。

另一家公司Market Prophit也很有趣。這家網站的宣傳語是「從社交媒體噪音中提煉市場信號」。和StockTwits相比,Market Prophit更加註重大數據的應用。它採用了先進的語義分析法,可以將Twitter里的金融對話量化為「-1(極度看空)」到「1(極度看多)」之間的投資建議。網站還根據語義量化,每天公布前十名和後十名的股票熱度榜單。網站還設計了「熱度地圖」功能,根據投資者情緒和意見,按照不同板塊,將板塊內的個股按照顏色深淺進行標注,誰漲誰跌一目瞭然。

中國原創大數據指數

盡管大數據策略投資在美國貌似炙手可熱,但事實上,其應用尚僅限於中小型對沖基金和創業平台公司。大數據策略投資第一次被大規模應用,應歸於中國的百發100。

網路金融中心相關負責人表示,與歐美等成熟資本市場主要由理性機構投資者構成相比,東亞尤其是中國的股票類證券投資市場仍以散戶為主,因此市場受投資者情緒和宏觀政策性因素影響很大。而個人投資者行為可以更多地反映在互聯網用戶行為大數據上,從而為有效地預測市場情緒和趨勢提供了可能。這也就是中國國內公募基金在應用互聯網大數據投資方面比海外市場並不落後、甚至領先的原因。

百發100指數由網路、中證指數公司、廣發基金聯合研發推出,於2014年7月8日正式對市場發布,實盤運行以來一路上漲,漲幅超過60%。跟蹤該指數的指數基金規模上限為30億份,2014年9月17日正式獲批,10月20日發行時一度創下26小時瘋賣18億份的「神話」。

外界都知道百發100是依託大數據的指數基金,但其背後的細節鮮為人知。

百發100數據層面的分析分為兩個層面,即數據工廠的數據歸集和數據處理系統的數據分析。其中數據工廠負責大數據的收集分析,例如將來源於互聯網的非結構化數據進行指標化、產品化等數據量化過程;數據處理系統,可以在數據工廠遞交的大數據中尋找相互統計關聯,提取有效信息,最終應用於策略投資。

「其實百發100是在傳統量化投資技術上融合了基於互聯網大數據的市場走勢和投資情緒判斷。」業內人士概括道。

和傳統量化投資類似,百發100對樣本股的甄選要考慮財務因子、基本面因子和動量因子,包括凈資產收益率(ROE)、資產收益率(ROA)、每股收益增長率(EPS)、流動負債比率、企業價值倍數(EV/EBITDA)、凈利潤同比增長率、股權集中度、自由流通市值以及最近一個月的個股價格收益率和波動率等。

此外,市場走勢和投資情緒是在傳統量化策略基礎上的創新產物,也是百發100的核心競爭力。接近網路的人士稱,市場情緒因子對百發100基金起決定性作用。

網路金融中心相關負責人是羅伯特•席勒觀點的支持者。他認為,投資者行為和情緒對資產價格、市場走勢有著巨大的影響。因此「通過互聯網用戶行為大數據反映的投資市場情緒、宏觀經濟預期和走勢,成為百發100指數模型引入大數據因子的重點」。

傳統量化投資主要著眼點在於對專業化金融市場基本面和交易數據的應用。但在網路金融中心相關業務負責人看來,無論是來源於專業金融市場的結構化數據,還是來源於互聯網的非結構化數據,都是可以利用的數據資源。因此,前文所述的市場情緒數據,包括來源於互聯網的用戶行為、搜索量、市場輿情、宏觀基本面預期等等,都被網路「變廢為寶」,從而通過互聯網找到投資者參與特徵,選出投資者關注度較高的股票。

「與同期滬深300指數的表現相較,百發100更能在股票市場振盪時期、行業輪動劇烈時期、基本面不明朗時期抓住市場熱點、了解投資者情緒、抗擊投資波動風險。」網路金融中心相關負責人表示。

百發100選取的100隻樣本股更換頻率是一個月,調整時間為每月第三周的周五。

業內人士指出,百發100指數的月收益率與中證100、滬深300、中證500的相關性依次提升,說明其投資風格偏向中小盤。

但事實並非如此。從樣本股的構成來說,以某一期樣本股為例,樣本股總市值6700億元,佔A股市值4.7%。樣本股的構成上,中小板21隻,創業板4隻,其餘75隻樣本股均為大盤股。由此可見,百發100還是偏向大盤為主、反映主流市場走勢。

樣本股每個月的改變比例都不同,最極端的時候曾經有60%進行了換倉。用大數據預測熱點變化,市場熱點往往更迭很快;但同時也要考慮交易成本。兩方面考慮,網路最後測算認為一個月換一次倉位為最佳。

樣本股對百發100而言是核心機密——據說「全世界只有基金經理和指數編制機構負責人兩個人知道」——都是由機器決定後,基金經理分配給不同的交易員建倉買入。基金經理也沒有改變樣本股的權利。

展望未來,網路金融中心相關負責人躊躇滿志,「百發100指數及基金的推出,只是我們的開端和嘗試,未來將形成多樣化、系列投資產品。」

除了百發100,目前市場上打著大數據旗幟的基金還有2014年9月推出的南方-新浪I100和I300指數基金。

南方-新浪I100和I300是由南方基金、新浪財經和深圳證券信息公司三方聯合編制的。和百發100類似,也是按照財務因子和市場情緒因子進行模型打分,按照分值將前100和前300名股票構成樣本股。推出至今,這兩個指數基金分別上漲了10%左右。

正如百發100的市場情緒因子來自網路,南方-新浪I100和I300的市場情緒因子全部來自新浪平台。其中包括用戶在新浪財經對行情的訪問熱度、對股票的搜索熱度;用戶在新浪財經對股票相關新聞的瀏覽熱度;股票相關微博的多空分析數據等。

此外,阿里巴巴旗下的天弘基金也有意在大數據策略上做文章。據了解,天弘基金將和阿里巴巴合作,推出大數據基金產品,最早將於2015年初問世。

天弘基金機構產品部總經理劉燕曾對媒體表示,「在傳統的調研上,大數據將貢獻於基礎資產的研究,而以往過度依賴線下研究報告。大數據將視野拓展至了線上的數據分析,給基金經理選股帶來新的邏輯。」

在BAT三巨頭中,騰訊其實是最早推出指數基金的。騰訊與中證指數公司、濟安金信公司合作開發的「中證騰安價值100指數」早在2013年5月就發布了,號稱是國內第一家由互聯網媒體與專業機構編制發布的A股指數。不過,業內人士表示,有關指數並沒有真正應用大數據技術。雖然騰訊旗下的微信是目前最熱的社交平台,蘊藏了大量的社交數據,但騰訊未來怎麼開發,目前還並不清晰。

大數據投資平台化

中歐商學院副教授陳威如在其《平台戰略》一書中提到,21世紀將成為一道分水嶺,人類商業行為將全面普及平台模式,大數據金融也不例外。

然而,由於大數據模型對成本要求極高,就好比不可能每家公司都搭建自己的雲計算系統一樣,讓每家機構自己建設大數據模型,從數據來源和處理技術方面看都是不現實的。業內人士認為,大數據未來必將成為平台化的服務。

目前,阿里、網路等企業都表示下一步方向是平台化。

螞蟻金服所致力搭建的平台,一方麵包括招財寶一類的金融產品平台,另一方麵包括雲計算、大數據服務平台。螞蟻金服人士說,「我們很清楚自己的優勢不是金融,而是包括電商、雲計算、大數據等技術。螞蟻金服希望用這些技術搭建一個基礎平台,把這些能力開放出去,供金融機構使用。」

網路亦是如此。接近網路的人士稱,未來是否向平台化發展,目前還在討論中,但可以確定的是,「網路不是金融機構,目的不是發產品,百發100的意義在於打造影響力,而非經濟效益。」
當BAT還在摸索前行時,已有嗅覺靈敏者搶佔了先機,那就是通聯數據。

通聯數據股份公司(DataYes)由曾任博時基金副董事長肖風帶隊創建、萬向集團投資成立,總部位於上海,公司願景是「讓投資更容易,用金融服務雲平台提升投資管理效率和投研能力」。該平台7月上線公測,目前已擁有130多家機構客戶,逾萬名個人投資者。

通聯數據目前有四個主要平台,分別是通聯智能投資研究平台、通聯金融大數據服務平台、通聯多資產投資管理平台和金融移動辦公平台。

通聯智能投資研究平台包括雅典娜-智能事件研究、策略研究、智能研報三款產品,可以對基於自然語言的智能事件進行策略分析,實時跟蹤市場熱點,捕捉市場情緒。可以說,和百發100類似,其核心技術在於將互聯網非結構化數據的量化使用。

通聯金融大數據服務平台更側重於專業金融數據的分析整理。它可以提供公司基本面數據、國內外主要證券、期貨交易所的行情數據、公司公告數據、公關經濟、行業動態的結構化數據、金融新聞和輿情的非結構化數據等。

假如將上述兩個平台比作「收割機」,通聯多資產投資管理平台就是「廚房」。在這個「廚房」里,可以進行全球跨資產的投資組合管理方案、訂單管理方案、資產證券化定價分析方案等。

通聯數據可以按照主題熱點或者自定義關鍵字進行分析,構建知識圖譜,將相關的新聞和股票提取做成簡潔的分析框架。例如用戶對特斯拉感興趣,就可以通過主題熱點看到和特斯拉相關的公司,並判斷這個概念是否值得投資。「過去這個搜集過程要花費幾天時間,現在只需要幾分鍾就可以完成。」王政表示。

「通聯數據就好比一家餐館,我們把所有原料搜集來、清洗好、准備好,同時准備了一個鍋,也就是大數據存儲平台。研究員和基金經理像廚師一樣,用原料、工具去『烹制』自己的策略。」王政形容道。

大數據在平台上扮演的角色,就是尋找關聯關系。人類總是習慣首先構建因果關系,繼而去倒推和佐證。機器學習則不然,它可以在海量數據中查獲超越人類想像的關聯關系。正如維克托`邁爾-舍恩伯格在《大數據時代》中所提到的,社會需要放棄它對因果關系的渴求,而僅需關注相互關系。

例如,美國超市沃爾瑪通過大數據分析,發現颶風用品和蛋撻擺在一起可以提高銷量,並由此創造了頗大的經濟效益。如果沒有大數據技術,誰能將這毫無關聯的兩件商品聯系在一起?
通聯數據通過機器學習,也能找到傳統量化策略無法發現的市場聯系。其中包括各家公司之間的資本關系、產品關系、競爭關系、上下游關系,也包括人與人之間的關系,例如管理團隊和其他公司有沒有關聯,是否牽扯合作等。

未來量化研究員是否將成為一個被淘汰的職業?目前研究員的主要工作就是收集整理數據,變成投資決策,而之後這個工作將更多由機器完成。

「當初醫療科技發展時,人們也認為醫生會被淘汰,但其實並不會。同理,研究員也會一直存在,但他們會更注重深入分析和調研,初級的數據搜集可以交給機器完成。」王政表示。
但當未來大數據平台並廣泛應用後,是否會迅速擠壓套利空間?這也是一個問題。回答根據網上資料整理

❿ 基於微信大數據的股票預測研究

基於微信大數據的股票預測研究
大數據是近些年來的熱門話題,無論國際上還是國內,影響很大。經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體系、知識體系和生活方式。而全球經濟目前生成了史無前例的大量數據,如果把每天產生的大量數據比作神話時期的大洪水是完全正確的,這個數據洪流是我們前所未見的,他是全新的、強大的、當然,也是讓人恐慌但又極端刺激的。
而我所分享的話題,正是在互聯網環境下,如何利用大數據技術,進行股票預測的研究。–今天,我想分享我認為有意義的四點。
1.大數據下的商業預測
根據大數據,我們可以有效地進行故障、人流、流量、用電量、股票市場、疾病預防、交通、食物配送、產業供需等方面的預測。而本文我們所關心的內容是股票市場的預測。
大數據的核心是預測,預測依賴於對數據的分析。那麼分析的方法是否是基於隨機采樣的結果而設計的,這樣的分析方法是否會有誤差?
從傳統認識上,由於資源和科技的局限,如人和計算資源受限、從計算機處理能力來講無法處理全部數據來獲取人們所關注的結果。因此隨機采樣應運而生,通過所選取的個體來代表全體,如使用隨機抽取的方式來使得推論結果更科學。但既然提到了大數據,它是資源發展到一定程度、以及技術發展到一定階段產生的一個新的認識。如同電力的出現,使人類進入了一個快速發展階段,大數據也一樣,它的含義是全體樣本,從整體樣本來做推論。在本文大數據的含義是所有股票在整個社交網路上的流動信息,從數據源上講,本文沒有採用所有社交網路上的數據,只分析了微信這個最具代表性的社交媒體作為信息源。
互動數據能反映用戶情緒,搜索數據能反映用戶的關注點和意圖,在股市預測時這兩種數據哪種更具有參考價值?
我認為都有價值,互動數據反映了用戶對某一特定股票的喜好和厭惡,可以簡單描述為對該股票的操作是繼續持有還是賣出;而搜索數據則代表用戶在收集該股票信息的過程,它是關注度的概念,某隻股票搜索度高則意味著消息的影響力大。互動代表著方向,搜索代表著振幅。
我們知道這兩種數據得出的結論會有差異,您是如何平衡這兩種數據反映的情況來進行預測的?
正如上一個問題里提到的,如果是股票推薦,買進賣出等原則問題,則應該考慮互動數據,但如果已經買到手了,搜索數據可以提供一個幅度的概念,類似債券評級A級、AA級、AAA級等,供投資者參考,因為不同投資者對風險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發布,是否意味著主要發布渠道是微博?現在微信公眾號很火,有沒有考慮通過這個渠道也發布消息?
事實上,信息傳播的方式很多,微信作為新媒體當然影響力不容小覷,但目前技術投入最小的還是郵件、簡訊等方式,未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息,那麼推送的消息會不會作為數據來源被再次採集?這會有多大的影響?
會被採集,但互聯網上的每日關於個股的信息數量會達到很大,該推送會增加推薦股票1點權重,每隻股票的權重成百上千,因此影響極小。
數據來源是微信公眾號,除了准確性的考慮之外,是否還考慮過這樣收集數據會較少觸犯個人隱私?
從法律角度來看,搜索微信或其他個人聊天記錄,是侵犯個人隱私權的,因此如果騰訊開放了這樣的介面,每個公民都可以對這樣的行為進行投訴、抗議、甚至進行法律起訴直至其改正過錯、賠償損失的。
這樣是否意味著即使存在違法的行為,其結果也是由騰訊來承擔,而我們作為數據的使用方不需要承擔任何法律責任?
在整個社會,我們作為系統技術提供方,應恪守大數據的倫理道德,遵守國家法律,如侵犯個人隱私,系統不會採集,谷歌有一句座右銘「谷歌不作惡」,本文提到的系統也一樣。
2.基於大數據進行股票推薦實驗
股票的及時度反應了微信文章所發布的時效性,及時度越高,數據價值就越大。
股票的熱度反應了當前某隻股票被關注的頻度,關注頻度越大,上漲的可能性越高。

數據的完整性:我們採用循環的方式對所有深滬兩地發行約2236隻股票(創業版除外)在微信搜索網站上的搜索結果進行保存。
數據的一致性:文件格式由負責保存數據文件的程序決定,單一的流程保障了文件的一致性。
數據的准確性:由於所分析的訂閱號文章的是由微信公共平台的公眾號所提供,在一定程度上杜絕了虛假消息對於預測系統的破壞。
數據的及時性:考慮到磁碟讀寫以及採集程序所處的網路帶寬,以及搜索引擎對於採集程序的屏蔽,程序中採集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個小時)可收集完當日推薦所需要的數據。對於每個交易日,在9點-9點30分之間採集所有數據,需要7台以上的設備可達到最佳效果。本次試驗受限於試驗設備,在一台設備上,交易日每天早六時開始進行數據採集,也滿足及時性要求。
數據分析:查看三個高優先順序的股票,該股票當日的開盤價與收盤價,再與當日(2015-4-8)上證綜指進行比較,可得在收益上該演算法是優於上證綜指為樣本的整體股票的股價差收益的。
實驗結論:按照上述方式,系統每天推薦出當日股票,在開盤時進行買進,在第二個交易日進行賣出。經過一個月21個交易日(2015-3-1至2015-3-31),系統的收益為20%/月。通過微信搜索公眾號來預測市場走勢和投資情緒呈現出正相關性,因此可以作為股票甄選的因子。
3.股票預測的大數據發展趨勢
網路數據分成三種:
一是瀏覽數據,主要用於電商領域的消費者行為分析,瀏覽數據反映了用戶每一步的訪問腳步,進一步刻畫出用戶的訪問路徑,分析不同頁面的跳轉概率等。
二是搜索數據,主要指搜索引擎記錄的關鍵詞被搜索頻次的時間序列數據,能反映數億用戶的興趣、關注點、意圖。
三是互動數據,主要是微博、微信、社交網站的數據,反映用戶的傾向性和情緒因素。
2013年諾貝爾經濟學獎得主羅伯特?席勒的觀點被無數采訪對象引述。席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中,主要參考三個變數:投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產價格。
計算機通過分析新聞、研究報告、社交信息、搜索行為等,藉助自然語言處理方法,提取有用的信息;而藉助機器學習智能分析,過去量化投資只能覆蓋幾十個策略,大數據投資則可以覆蓋成千上萬個策略。
基於互聯網搜索數據和社交行為的經濟預測研究,已逐漸成為一個新的學術熱點,並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上,研究發現搜索數據可有效預測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。
對於搜索數據:互聯網搜索行為與股票市場的關聯機理。這個研究屬於行為金融與互聯網的交叉領域,其原理是:股票量價調整是投資者行為在股票市場上的反應;與此同時,投資者行為在互聯網搜索市場也有相應地行為跡象,我們要做到是:找到互聯網搜索市場中領先於股票交易的行為指標,綜合眾多投資者的先行搜索指標,對未來的股票交易做出預判。
如同天氣預報那樣,不斷優化模型、灌入海量信息,然後給出結果。並且在處理的信息中,有80%是「非結構化」數據,例如政策文件、自然事件、地理環境、科技創新等,這類信息通常是電腦和模型難以消化的。採用了語義分析法,可以將互動數據里的金融對話量化為「-1(極度看空)」到「1(極度看多)」之間的投資建議,通過分析互動數據的數據文本,作為股市投資的信號。
4.正在發生的未來
大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的將來。
大數據在實用層面的影響很廣泛,解決了大量的日常問題。大數據更是利害攸關的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著一個僵局,比其他劃時代創新引起的社會信息范圍和規模急劇擴大所帶來的影響更大。我們腳下的地面在移動。過去確定無疑的事情正在受到質疑。大數據需要人們重新討論決策、命運和正義的性質。擁有知識曾意味著掌握過去,現在則意味著能夠預測未來。
大數據並不是一個充斥著演算法和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂數據一樣,因為這些數據服務的是更加廣大的目標。必將混亂構成了世界的本質,也構成了人腦的本職,而無論是世界的混亂還是人腦的混亂,學會接受和應用他們才能得益。
我相信,利用基礎數據、搜索數據、互動數據再進行加權計算,可以對所有股票進行大數據遴選,從而給出投資建議。我認為,我們的肉身剛剛步入大數據時代,但我們的精神還滯留在小數據、采樣思維之中,率先用理性擊碎固有思維的人,也將率先獲得大數據帶來的益處。