संरचनात्मक तुल्यता और समरूपता
नोड एम्बेडिंग का लक्ष्य ग्राफ़ की संरचना को संरक्षित करते हुए प्रत्येक नोड को कम आयामी फीचर वेक्टर के रूप में प्रस्तुत करना है। इसका मतलब है कि दो समान नोड्स के फीचर वैक्टर एक दूसरे के समान हैं। नोड समानता को अलग तरह से परिभाषित किया जा सकता है, और दृढ़ता से कार्य पर निर्भर करता है। मानव संपर्क नेटवर्क में नोड्स के बीच दो सबसे अधिक अध्ययन की गई समानताएं हैं: (1) होमोफिलीदो नोड्स के साझा पड़ोसियों द्वारा परिभाषित, और (2) संरचनात्मक समानतानेटवर्क में किसी भी दो नोड्स की संरचनात्मक स्थिति में समानता द्वारा परिभाषित किया गया है।
अक्सर, होमोफिली का अर्थ है कि जुड़े हुए नोड एक दूसरे के समान होते हैं क्योंकि वे समान संपर्क साझा करने की संभावना रखते हैं। एक उदाहरण के रूप में, समान रुचियों वाले लोगों के मिलने की संभावना अधिक होती है क्योंकि वे सक्रिय रूप से समान रुचियों वाले अन्य लोगों की तलाश करते हैं। इसलिए, एक नोड एम्बेडिंग जो संरक्षित करता है होमोफिली यदि लक्ष्य नेटवर्क में लोगों के हितों की भविष्यवाणी करना था तो यह एक अच्छा विकल्प होगा। ध्यान दें कि होमोफिली 2-हॉप (या एन-हॉप) पड़ोसियों या “दोस्तों के दोस्त” को समान मानने के लिए भी संशोधित किया जा सकता है, जो एक सामाजिक नेटवर्क में प्रत्यक्ष कनेक्शन की तुलना में एक मजबूत भविष्यवक्ता का प्रतिनिधित्व कर सकता है9. हालाँकि, जैसा कि आगे हॉप्स पर विचार किया जाता है, पड़ोसियों की अपेक्षित संख्या तेजी से बढ़ती है, जिससे समानता मीट्रिक की उपयोगिता के साथ-साथ प्रत्येक नोड की विशिष्टता कम हो जाती है।
संरचनात्मक समानता नेटवर्क में उनकी स्थिति की समानता के आधार पर दो नोड्स के बीच संबंध को मापती है, भले ही वे सीधे तौर पर जुड़े न हों। इस तरह की समानता की व्याख्या अक्सर समाज में लोगों की भूमिकाओं के एक अच्छे संकेतक के रूप में की जाती है। उदाहरण के लिए, एक बड़ी कंपनी के प्रबंधक की संपर्क नेटवर्क में उनके घर पर रहने वाले साथी की तुलना में एक अलग संरचनात्मक स्थिति होगी, भले ही वे अक्सर संपर्क में हों।
साथ में संरचनात्मक समानतादो नोड्स को समान माना जा सकता है, भले ही वे नेटवर्क के विभिन्न पक्षों पर हों, जबकि साथ में होमोफिली, समान नोड हमेशा सीधे एक दूसरे के बगल में होते हैं। यह दो अवधारणाओं को विपरीत प्रतीत होता है, लेकिन मानव संपर्क नेटवर्क में दोनों एक ही समय में प्रकट हो सकते हैं, उदाहरण के लिए, जब कोई व्यक्ति अपने दोस्तों के समान होता है, लेकिन उसी भूमिका में अन्य लोगों के साथ भी उनका संपर्क नहीं होता है। कुछ अनुप्रयोगों के लिए, रोग की गतिशीलता की भविष्यवाणी सहित, समाज के सटीक प्रतिनिधित्व के लिए एम्बेडिंग एल्गोरिदम द्वारा दो अवधारणाओं के मिश्रण को संरक्षित और संतुलित करने की आवश्यकता है।
node2vec
node2vec एक नोड एम्बेडिंग विधि है जो हमें व्यवस्थित रूप से संतुलित करने की अनुमति देती है होमोफिली और संरचनात्मक समानता10 यादृच्छिक सैर की एक श्रृंखला के माध्यम से। किए गए रैंडम वॉक की संख्या और इन वॉक की लंबाई एम्बेडिंग एल्गोरिथम के हाइपरपैरामीटर हैं। इसके अतिरिक्त, node2vec दो पैरामीटर हैं जो इन खोजपूर्ण यादृच्छिक चालों में पूर्वाग्रह को नियंत्रित करते हैं। इन मापदंडों के आधार पर, रैंडम वॉक से नमूना नोड्स की संभावना अधिक होती है जो या तो बहुत दूर हैं (अर्थात। जावक अन्वेषण) या प्रारंभिक नोड के करीब (अर्थात। आवक अन्वेषण)। आवक अन्वेषण के साथ, यादृच्छिक चलना ग्राफ़ में एक चौड़ाई की पहली खोज के खोज वृक्ष की तरह अधिक हो जाता है, जबकि बाहरी अन्वेषण के साथ, यह गहराई से पहली खोज के समान होता है।
वापसी पैरामीटर पी संभाव्यता को नियंत्रित करता है जिसके साथ रैंडम वॉक अंतिम विज़िट किए गए नोड पर लौटता है। ऊंचा पी इसका मतलब है कि रैंडम वॉक के वापस आने की संभावना कम है, और कम है पी उन नोड्स में परिणाम जो पहले से ही रैंडम वॉक में हैं, उन्हें अधिक बार सैंपल किया जा रहा है, उन नोड्स के बीच और भी अधिक समानताएं पैदा कर रहा है। इस प्रभाव को संतुलित करने के लिए, इन-आउट पैरामीटर क्यू रैंडम वॉक को उन नोड्स का पक्ष लेने की अनुमति देता है जो शुरुआती नोड से और दूर हैं। कम के साथ क्यू, रैंडम वॉक आउटवर्ड लेइंग नोड्स के प्रति पक्षपाती है, विशेष रूप से, रैंडम वॉक अधिक से अधिक विभिन्न प्रकार के नोड्स तक पहुंचता है और जो आगे दूर हैं उन्हें अभी भी समान माना जा सकता है। मूल के लेखक node2vec कागज़10 प्रस्ताव है कि आवक अन्वेषण संरक्षित करता है होमोफिली नेटवर्क में, जबकि बाहरी अन्वेषण संरक्षित करता है संरचनात्मक समानता.
सभी टेम्पोरल नेटवर्क के साथ एम्बेडेड थे node2vec विभिन्न हाइपरपरमेटर्स का उपयोग करना (तालिका S4 देखें)। हमारे प्रयोगों से पता चला है कि रैंडम वॉक की लंबाई और रैंडम वॉक की संख्या का परिणामों पर ज्यादा प्रभाव नहीं पड़ता है, इसलिए हमने उन मापदंडों को आकार 80 के 10 रैंडम वॉक के लिए निर्धारित किया है। चूंकि पी और क्यू सकारात्मक हैं और 1 तटस्थ मूल्य है, हमने मूल्यों को वितरित किया है पी और क्यू लॉगरिदमिक रूप से 0 और 80 के बीच। हमने प्रत्येक पैरामीटर के लिए 10 अलग-अलग मानों का परीक्षण किया, 5 इनवर्ड के लिए और 5 आउटवर्ड एक्सप्लोरेशन के लिए। इन रनों के परिणामस्वरूप पी और क्यू. इन सभी एम्बेडिंग का उपयोग प्रत्येक नेटवर्क के लिए 250 SIR-सिमुलेशन से प्राप्त लेबल की भविष्यवाणी करने के लिए किया गया था। इस्तेमाल किया गया भविष्यवाणी एल्गोरिथ्म l2 नियमितीकरण के साथ लॉजिस्टिक रिग्रेशन था।
डेटासेट
हमने 24 डेटासेट का उपयोग किया, जिनमें से 6 वास्तविक विश्व डेटा से प्राप्त हुए हैं। इनमें से पांच डेटासेट वर्ष 2009 और 2015 के बीच कई स्थानों पर एकत्र किए गए थे, प्रत्येक संग्रह अभियान 2 दिन और 2 सप्ताह के बीच चलता था। सभी मामलों में, विषयों की पहचान को संरक्षित करने के लिए डेटा को गुमनाम रूप से नमूना लिया गया था। इसके अलावा, सभी विषयों या उनके कानूनी अभिभावकों ने स्पष्ट रूप से प्रदान किया सूचित सहमति उनके डेटा एकत्र करने और उनका विश्लेषण करने में। वास्तविकता खनन डेटासेट3 एमआईटी ह्यूमन डायनेमिक्स लैब द्वारा सभी विषयों से स्पष्ट सहमति के साथ एकत्र किया गया था, और इस तरह के अध्ययन के लिए सेट का उपयोग अधिकृत किया गया था जब तक कि प्रतिभागियों की गोपनीयता सुरक्षित थी (अर्थात, कोई गुमनामी का प्रयास नहीं किया गया था)। शेष डेटासेट में अस्थायी नेटवर्क शामिल हैं, जिन्हें विषयों या उनके लिए जिम्मेदार किसी व्यक्ति की सहमति से एकत्र किया गया है7. हमारे विश्लेषणों में, सभी विधियों का प्रदर्शन प्रासंगिक नैतिक और कानूनी दिशानिर्देशों और विनियमों के अनुसार किया गया था।
उन डेटासेट से अनुभवजन्य डेटा को एक ही विधि से नमूना लिया गया था: प्रत्येक विषय के लिए निश्चित स्थानों और पहनने योग्य उपकरणों पर आरएफआईडी स्कैनर का एक सेटअप। एक ही समय में पाठकों के एक ही समूह द्वारा दो प्रतिभागियों को पंजीकृत किए जाने पर एक संपर्क का दस्तावेजीकरण किया गया था। डेटासेट में, सभी संपर्क प्रतिभागियों की आईडी और 20 सेकंड के रिज़ॉल्यूशन के साथ संबंधित समय चरण द्वारा सूचीबद्ध होते हैं7. केवल एक डेटासेट, रियलिटी माइनिंग डेटासेट, स्मार्टफ़ोन पर ब्लूटूथ स्कैन द्वारा पता लगाए गए संपर्कों का उपयोग करता है। एमआईटी मीडिया प्रयोगशाला के 100 छात्रों और संकाय सदस्यों ने इस अध्ययन में भाग लिया, जो 2004 में 9 महीनों में हुआ था। स्कैन हर 5 मिनट में आयोजित किए गए थे और सेकंड में टाइमस्टैम्प शामिल थे3. डेटासेट के बारे में विस्तृत जानकारी तालिका S2 में पाई जा सकती है। इन आंकड़ों से, हमने प्रत्येक प्रतिभागी के लिए प्रत्येक समय चरण और किनारों पर संपर्क के रूप में एक नोड के साथ अस्थायी नेटवर्क प्राप्त किए। डेटा को 10 मिनट के समय चरणों में एकत्र किया गया था, एक समय खिड़की जो बीमारी के प्रसार के लिए आवश्यक न्यूनतम संपर्क अवधि और इस अध्ययन में विश्लेषण किए जाने वाले समय चरणों की संख्या के बीच एक अच्छा संतुलन प्राप्त करती है। अन्य 18 नेटवर्क मानव संपर्क नेटवर्क के कृत्रिम रूप से बनाए गए मॉडल थे। उनमें से 9 में नोड्स बेतरतीब ढंग से जुड़े हुए हैं और नोड डिग्री वितरण द्विपद है। अन्य 9 नेटवर्कों में, नोड डिग्री पावर-लॉ डिस्ट्रीब्यूटेड है, जो वास्तविक दुनिया के डेटा से प्राप्त नेटवर्क में पाया गया है।20.
सर सिमुलेशन
इन नेटवर्कों में कोई बीमारी कैसे फैलती है, इसके संदर्भ में एक गतिशील एसआईआर सिमुलेशन आयोजित किया गया था। SIR सिमुलेशन में, नेटवर्क में एक यादृच्छिक नोड संक्रमित होता है। फिर, हर बार कदम पर, एक संक्रमित नोड संभावना के साथ अपने पड़ोसियों में से एक को संक्रमित करता है (अल्फ़ा) (संक्रमण दर) और संभाव्यता के साथ ठीक हो जाता है (में) (वसूली दर)। यह प्रत्येक नोड को तीन लेबलों में से एक के साथ प्रत्येक चरण पर प्रदान करता है: अतिसंवेदनशील (एस), संक्रमित (मैं) या बरामद (आर)। रोग की प्रगति के इस सरलीकृत मॉडल में, “संक्रमित” का अर्थ है कि एक व्यक्ति संक्रामक है, “अतिसंवेदनशील” का अर्थ है कि एक व्यक्ति संक्रमित हो सकता है और “ठीक हो” का अर्थ है कि एक व्यक्ति संक्रमित नहीं हो सकता है और बीमारी के फैलने में कोई भूमिका नहीं निभाता है। इस समय। SIR सिमुलेशन में, नोड्स हमेशा S से I फिर R तक एक ही बीमारी की प्रगति का पालन करते हैं। ध्यान दें, हालांकि, भविष्यवाणी मॉडल शब्दार्थ या इन लेबलों के क्रम के बारे में अज्ञेयवादी है, और यह SIS या SI सिमुलेशन की भविष्यवाणी भी कर सकता है। . हमने 5 अलग-अलग पैरामीटर सेट के साथ सिमुलेशन किया, जो तालिका S4 में पाया जा सकता है।
नेटवर्क प्रतिनिधित्व
भविष्यवाणी के लिए गतिशील नेटवर्क तैयार करने के लिए, प्रत्येक नेटवर्क के समय चरणों को एक स्थिर सुप्रा-आसन्नता नेटवर्क में जोड़ा गया था। नोड्स को जोड़ी (के, टी) द्वारा पहचाना जा सकता है, जहां के वह व्यक्ति है जो यह नोड प्रतिनिधित्व करता है और टी वर्तमान समय कदम है। यदि एक नोड समय चरण टी पर संक्रमित है, तो यह अभी भी संक्रमित होने की संभावना है (टी+1). भविष्यवाणी में इस अस्थायी निर्भरता का उपयोग करने के लिए, नेटवर्क के समय चरण आपस में जुड़े हुए हैं। यह इंटरकनेक्शन नोड (i, t) को हमेशा (i, t+1) से जोड़कर किया जाता है। इसके अलावा, यदि समय टी पर व्यक्ति i और व्यक्ति j के बीच संपर्क होता है, तो (i, t) से (j, t+1) और (j, t) से (j, t+1) तक एक बढ़त मौजूद है। . इसके अतिरिक्त, उन नोड्स की संख्या को कम करने के लिए जिन्हें एम्बेड करने की आवश्यकता है, केवल सक्रिय नोड्स पर विचार किया जाता है। ये नोड्स (i, t) हैं जहां मेरे पास समय चरण टी पर कम से कम एक संपर्क था। निष्क्रिय नोड्स को हटा दिया जाता है और उनके आने वाले किनारों को उनके अगले सक्रिय भविष्य में फिर से भेज दिया जाता है, जैसा कि पहले सैटो द्वारा किया गया था और अन्य।21. अंत में, हमने वर्णित सभी 24 डेटासेट को सुप्रा-आसन्न नेटवर्क में बदल दिया। तालिका S3 वास्तविक विश्व नेटवर्क के विभिन्न आकारों और घनत्वों को दिखाती है, और तालिका S1 उन कृत्रिम लोगों को सारांशित करती है। भविष्यवाणी में, कुछ नेटवर्क ने दूसरों की तुलना में बेहतर प्रदर्शन किया, लेकिन सभी ने बाहरी अन्वेषण के लिए वर्णित सुधार दिखाए (देखें चित्र। S1, S6, S7 और तालिका S7)।
मूल्यांकन मेट्रिक्स
हमने सही और गलत सकारात्मक या नकारात्मक को संतुलित करके भविष्यवाणी सटीकता का मूल्यांकन करने में इसकी मजबूती के लिए प्राथमिक रूप से एफ1-स्कोर को एक मूल्यांकन मीट्रिक के रूप में चुना है। चूंकि कक्षाओं का आकार अत्यधिक असंतुलित हो सकता है, हम f1-स्कोर को कई लेबलों तक विस्तारित करने के लिए दो अलग-अलग संस्करणों को देखते हैं, अर्थात् माइक्रो f1-स्कोरजो सभी वर्गों को समान रूप से तौलता है, और मैक्रो f1-स्कोर, जो प्रत्येक कक्षा के लिए अलग-अलग स्कोर का मूल्यांकन करता है और सभी वर्गों के औसत की रिपोर्ट करता है। इसके अतिरिक्त, हमने विभिन्न रोग-विशिष्ट मेट्रिक्स पर विचार किया जो इसकी प्रसार प्रक्रिया से संबंधित हैं:
-
अंत प्रकोप आकार, या अनुकरण के अंत में संक्रमित या ठीक होने वाले लोगों की संख्या। यह संख्या बताती है कि कितने लोग महामारी से सीधे प्रभावित हुए।
-
माध्य व्यापकता, या प्रति समय चरण में संक्रमित लोगों की औसत संख्या, जो किसी भी समय कदम पर अपेक्षित प्रकोप आकार को इंगित करता है।
-
पीक प्रसार, या किसी भी चरण में संक्रमित लोगों की अधिकतम संख्या। यह मीट्रिक क्षमता का अनुमान लगाने के लिए प्रासंगिक है कि महामारी के प्रकोप के सबसे बुरे समय में अस्पतालों को संक्रमित लोगों की देखभाल करने की आवश्यकता है।
-
पीक प्रसार समय, जो वह समय कदम है जब पीक प्रसार होता है और अक्सर रोग के आक्रामक रूप से फैलने से जुड़ा होता है।
-
औसत घटना, या नोड्स की औसत संख्या जिन्होंने एक बार के चरण में अपनी स्थिति को अतिसंवेदनशील से संक्रमित में बदल दिया। यह उस दर का संकेत है जिसके साथ बीमारी फैलती है।
इन सभी मेट्रिक्स का मूल्यांकन सिमुलेशन और भविष्यवाणी के बीच के अंतर के रूप में किया जाता है। विभिन्न नेटवर्कों के बीच सार्थक रूप से परिणामों की तुलना करने के लिए, उन्हें नेटवर्क में प्रतिभागियों के प्रतिशत या समय चरणों की संख्या के प्रतिशत के रूप में दिया जाता है।