چکیده:
این مقاله روشی را برای بررسی الگوهای ترکیب و ساختار توپولوژیکی زبان فارسی پیشنهاد میکند. روش بهبودیافته متن فارسی را در قالب گراف شبکه همزمان در چارچوب نظریه شبکه پیچیده بررسی میکند. برای اولین بار، متن فارسی با موفقیت به گراف تبدیل شد. ما یک مجموعه باز و بدون حاشیه بیش از دو میلیون کلمه با استفاده از رویکرد جنگل تصادفی ساختهایم. شبکه حاصل طراحی شده با مدل کیسه بایگرام شامل 3256 گره و 79705 لبه می باشد. علاوه بر این، یک مدل تهی با اندازه مشابه با توجه به گراف تصادفی Erdos-Renyi برای مقایسه با شبکه فارسی تولید میشود. مقایسه بر اساس طول مسیر متوسط، ضریب خوشه بندی و سلسله مراتب هر دو شبکه است. از تجزیه و تحلیل این ویژگی های کلیدی، مشاهده می شود که گراف شبکه فارسی با شبکه تصادفی متفاوت است. طول مسیر متوسط کوچکتر و ضریب خوشه بندی بالا نیز تأثیر مدل جهانی کوچک را در زبان فارسی تأیید میکند. علاوه بر این، بر خلاف شبکه تصادفی که تنها یک جامعه وجود دارد، 12 اجتماع در شبکه فارسی شناسایی شده است. واقعیت های آماری نشان می دهد که شبکه فارسی یک شبکه بدون مقیاس با الگوی ترکیب لایه ای است.
This article proposes a method to investigate compositional patterns and topological structure of Persian language. The improved method examines Persian text in the form of simultaneous network graph in the framework of complex network theory. For the first time, Persian text was successfully converted into graph. We have constructed an open, unbounded corpus of over two million words using a random forest approach. The resulting network designed with the Bygram bag model contains 3256 nodes and 79705 edges. In addition, a null model with the same size is generated according to the Erdos-Renyi random graph for comparison with the Persian network. The comparison is based on average path length, clustering coefficient and hierarchy of both networks. From the analysis of these key features, it can be seen that the Persian network graph is different from the random network. The smaller average path length and high clustering coefficient also confirm the influence of the small global model in Persian language. In addition, unlike the random network where there is only one community, 12 communities have been identified in the Persian network. Statistical facts show that the Persian network is a scale-free network with a layered composition pattern.