یک شیء توکن را بسازید

ساخت وبلاگ

یک شیء توکن را بسازید ، یا با وارد کردن یک لیست نامگذاری شده از شخصیت ها از یک توکین کننده خارجی ، یا با فراخوانی Tokenizer داخلی.

استدلال

شیء ورودی به سازنده توکن ، یکی از: لیست (منحصر به فرد) لیست شخصیت ها. یک شیء توکن ؛یا یک شیء یا شیء کاراکتر که نشانه گذاری خواهد شد

شخصیت؛از کدام توکن ساز استفاده می شود. پیش فرض What = "Word" نسخه 2 Tokenizer است. نشانه های میراث (نسخه< 2) are also supported, including the default what = "word1" . See the Details and quanteda Tokenizers below.

منطقی ؛اگر TRUE تمام کاراکترها را در کلاس "نگارشی" یونیکد [P] حذف کنید ، با استثنائاتی برای کسانی که به عنوان پیشوندها برای برچسب های رسانه های اجتماعی معتبر استفاده می شوند اگر Preserve_Tags = TRUE

منطقی ؛اگر واقعی همه کاراکترها را در کلاس "نماد" یونیکد حذف کنید

منطقی ؛اگر TRUE نشانه هایی را که فقط از اعداد تشکیل شده اند ، حذف کنید ، اما کلماتی نیستند که با رقم شروع می شوند ، به عنوان مثال. 2 روز

منطقی ؛در صورت واقعی یافتن و از بین بردن URL ها با HTTP (ها)

منطقی ؛اگر True جداکننده ها و شخصیت های جداکننده را حذف کنید (unicode "جداکننده" [Z] و "کنترل" [C] دسته)

منطقی ؛اگر نادرست است ، کلماتی را که توسط شخصیت های hyphenation و hyphenation مانند بین کلمات وصل می شوند ، تقسیم نکنید."خودآگاهی" C ("خود" ، "-" ، "آگاه" می شود)

منطقی ؛اگر نادرست است ، برچسب های رسانه های اجتماعی تعریف شده در quanteda_options () را تقسیم نکنید. الگوهای پیش فرض patte_hashtag = "#\w+#؟ "و patte_useame ="@[a-za-z0-9 _]+".

اگر درست است ، Docvars را به شیء نشانه ها منتقل کنید. هنگامی که ورودی یک داده کاراکتر یا لیستی از کاراکترها باشد ، اعمال نمی شود.

اگر درست است ، یک رشته خالی بگذارید که در آن نشانه های برداشته شده قبلاً وجود داشته باشند. این امر در صورت نیاز به یک مسابقه موقعیتی بین نشانه های قبل و بعد از انتخاب ، مفید است ، به عنوان مثال اگر یک پنجره از مجاورت محاسبه شود.

اگر درست است ، پیام های زمان بندی را به کنسول چاپ کنید

برای تصویب آرگومان ها در بین توابع استفاده می شود

ارزش

شیء کلاس توکن ، به طور پیش فرض یک لیست سریالی از اعداد صحیح مربوط به یک بردار از انواع.

جزئیات

توکن ها () روی اشیاء کلاس توکن کار می کنند ، به این معنی که قوانین حذف می تواند پس از اتمام کار اعمال شود ، اگرچه لازم به ذکر است که حذف موارد موجود امکان پذیر نخواهد بود. به عنوان مثال ، اگر شیء توکن ها قبلاً نگارشی را برداشته باشند ، سپس توکن ها (x ، remove_punct = true) تأثیر اضافی نخواهد داشت.

جزئیات

از نسخه 2 ، انتخاب Tokenizer بیشتر در اختیار کاربر قرار می گیرد ، و نشانه های () بیشتر به عنوان سازنده (از یک لیست نامگذاری شده) نسبت به یک توکین ساز رفتار می شود. این امر به کاربران امکان می دهد از هر توکین کننده دیگری که یک لیست نامگذاری شده را برگرداند ، استفاده کنند و از این امر به عنوان ورودی به نشانه ها () استفاده کنند ، با قوانین حذف و تقسیم اعمال شده پس از این کار (به عنوان آرگومان) تصویب شده است. این قوانین حذف و تقسیم محافظه کارانه است و هر چیزی را حذف یا تقسیم نمی کند ، مگر اینکه کاربر درخواست کند.

شما معمولاً نمی خواهید کلمات hyphenated یا برچسب های رسانه های اجتماعی را تقسیم کنید ، اما مراحل اضافی برای حفظ چنین نشانه های خاص لازم است. اگر شخصیت های تصادفی زیادی در متون شما وجود دارد ، باید split_hyphens = true و split_tags = true برای جلوگیری از کند شدن در نشانه گذاری.

استفاده از نشانه های خارجی به بهترین وجه با لوله کشی خروجی از این نشانه های دیگر به سازنده توکن () انجام می شود ، با گزینه های حذف و تقسیم اضافی که در مرحله ساخت و ساز اعمال می شود. با این حال ، این موارد فقط در صورت وجود توکن وجود خواهد داشت که حذف آنها در تماس با توکن () مشخص می شود. به عنوان مثال ، اگر لیست ورودی به نشانه ها () قبلاً نشانه های نگارشی خود را در مرحله توکن سازی خارجی برداشته باشد ، حذف نگارشی غیرممکن است.

برای ساختن یک شیء توکن از لیستی بدون پردازش اضافی ، به جای توکن () با as. tokens () تماس بگیرید.

نشان دهنده های توصیه شده از بسته Tokenizer هستند که به طور کلی سریعتر از توکین ساز پیش فرض (داخلی) هستند اما همیشه Hyphens Infix یا Spacyr را تقسیم می کنند.

نشان دهنده های Quanteda

پیش فرض کلمه tokenizer What = "Word" نشانه های Stri_Split_Boundaries (x ، type = "کلمه") را تقسیم می کند اما به طور پیش فرض باعث می شود hyphens infix (به عنوان مثال "خود تأمین مالی") ، URL ها و رسانه های اجتماعی "برچسب" (#HashTags و "useames) ، و آدرس های ایمیل. قوانینی که یک "برچسب" معتبر را می توان در https://www. hashtags. org/featured/what-characters-can-a-hashtag-include/ برای هشتگ ها و در https://help. twitter. com/ یافت. en/مدیریت-حساب-حساب کاربری خود/توییتر-کاربر برای نام های کاربری.

برای سازگاری به عقب ، نشانه های قدیمی زیر نیز از طریق آنچه پشتیبانی می شوند پشتیبانی می شوند:

(میراث) رفتار مشابهی را با نسخه What = "کلمه" یافت شده در پیش نسخه 2 مشاهده می کند.

(میراث) با استفاده از stringi :: stri_split_charclass (x ، "در فضای سفید و کنترل تقسیم می شود (x ،" [\ p \ p]+")

(میراث) با استفاده از stringi :: stri_split_fixed (x ، "") روی شخصیت فضا تقسیم می شود

نشانه گذاری در شخصیت های فردی

بخش جمله بر اساس stri_split_boundaries ، اما با قوانین اضافی برای جلوگیری از تقسیم بر کلماتی مانند "آقای"در غیر این صورت نادرست به عنوان مرزهای جمله شناسایی می شود. برای نشان دادن جمله بهتر ، استفاده از Spacyr را در نظر بگیرید.

فارکس را از کجا شروع کنیم...
ما را در سایت فارکس را از کجا شروع کنیم دنبال می کنید

برچسب : نویسنده : علیرضا خمسه بازدید : 80 تاريخ : چهارشنبه 2 فروردين 1402 ساعت: 23:02