Elimu:Vyuo vikuu na vyuo vikuu

Je, lugha ya lugha ni nini?

Miongo michache iliyopita, wanasayansi wanaweza tu ndoto ya kuendesha utafiti wa lugha. Kazi ilifanyika kwa mikono, idadi kubwa ya wanafunzi walihusika ndani yake, kuna uwezekano mkubwa wa makosa "kwa kutokuwa na haki", na muhimu zaidi - yote yalitumia mengi, muda mwingi sana.

Pamoja na maendeleo ya teknolojia ya kompyuta, ikawa inawezekana kufanya masomo ya utaratibu wa ukubwa kwa kasi, na leo moja ya maeneo ya kuahidi zaidi katika utafiti wa lugha ni corpus linguistics. Kipengele chake kuu ni matumizi ya kiasi kikubwa cha maelezo ya habari, pamoja katika database moja, maalum na iliyoitwa mwili.

Hadi sasa, kuna majengo mengi yaliyoundwa kwa madhumuni mbalimbali, kwa misingi ya vifaa mbalimbali vya lugha, vinavyotokana na mamilioni hadi mabilioni ya vitengo vya lexical. Mwelekeo huu ni kutambuliwa kama kuahidi na inaonyesha maendeleo muhimu katika kufikia malengo ya kutumika na utafiti. Wataalamu ambao kwa namna fulani wanahusika na lugha ya asili, inashauriwa kujitambulisha na maandishi ya maandiko, angalau katika ngazi ya msingi.

Historia ya lugha za lugha

Uundaji wa mwelekeo huu unahusishwa na uumbaji huko Marekani wa Brown Corps mapema miaka ya 1960. Mkusanyiko wa maandiko zilikuwa na fomu za neno milioni 1 tu, na leo mwili wa kiasi hicho hautaweza kabisa. Kwa kiasi kikubwa, hii inatokana na kasi ya maendeleo ya teknolojia za kompyuta, pamoja na mahitaji ya kukua kwa rasilimali mpya za utafiti.

Katika miaka ya 1990 lugha za lugha zilianzishwa kuwa nidhamu kamili na kujitegemea, makusanyo ya maandiko yalitengenezwa na imewekwa kwa lugha kadhaa. Katika kipindi hiki, kwa mfano, British National Corps iliundwa kwa matumizi ya milioni 100.

Kwa kuwa mstari huu wa lugha huendelea, kiasi cha maandiko huwa zaidi na zaidi (na kufikia mabilioni ya vitengo vya msamiati), na markup inaonekana kuwa tofauti na zaidi. Leo, katika nafasi ya mtandao, unaweza kupata matukio ya maandishi yaliyoandikwa na mazungumzo, lugha nyingi na mafundisho, yanayoelekezwa kwa maandishi ya kisanii au kitaaluma, pamoja na aina nyingine nyingi.

Miili ni nini?

Aina ya kesi katika lugha ya baraza la mawaziri zinaweza kutolewa kwa sababu kadhaa. Intuitively wazi kwamba msingi wa uainishaji unaweza kuwa lugha ya maandiko (Kirusi, Kijerumani), njia ya kupata (chanzo wazi, imefungwa, biashara), aina ya vifaa vya habari (uongo, waraka, elimu, uandishi wa habari).

Njia ya kuvutia ni kizazi cha vifaa vinavyowakilisha hotuba ya mdomo. Kwa kuwa kurekodi kwa makusudi ya hotuba hiyo kutengeneza hali ya bandia kwa wahojiwa, na nyenzo zilizosababisha haikuweza kuitwa "papo hapo", lugha za kisasa za lugha zilifanya njia tofauti. Kujitolea ni pamoja na kipaza sauti, na wakati wa mchana, majadiliano yote ambayo yeye hushiriki ni kumbukumbu. Watu wa jirani, bila shaka, hawawezi kujua kwamba wakati wa mazungumzo ya kaya wanachangia maendeleo ya sayansi.

Baadaye, rekodi zilizopokea zilizohifadhiwa zimehifadhiwa kwenye darasani na zinaongozana na maandishi yaliyochapishwa kulingana na aina ya nakala. Hivyo, markup muhimu kuunda mwili wa hotuba ya kila siku ya kila siku inawezekana.

Maombi

Ambapo matumizi ya lugha yanawezekana, inawezekana kutumia masanduku ya maandishi. Madhumuni ya kutumia mbinu za hull katika lugha zinaweza:

  • Uumbaji wa mipango ya uamuzi wa sauti, kikamilifu kutumika katika siasa na biashara kufuatilia maoni chanya na hasi kutoka kwa wapiga kura na wateja, kwa mtiririko huo.
  • Kuunganisha mfumo wa habari kwa kamusi na watafsiri ili kuboresha utendaji wao.
  • Kazi mbalimbali za utafiti zinazochangia kuelewa muundo wa lugha, historia ya maendeleo yake na utabiri wa mabadiliko yake katika siku za usoni.
  • Maendeleo ya mifumo ya upatikanaji wa habari kulingana na sifa za kimapenzi, syntactic, semantic na nyingine.
  • Uboreshaji wa kazi ya mifumo mbalimbali ya lugha, nk.

Matumizi ya housings

Kiambatanisho cha rasilimali ni sawa na injini ya kawaida ya utafutaji na inawezesha mtumiaji kuingia neno fulani au mchanganyiko wa maneno kutafuta kupitia msingi wa habari. Mbali na fomu ya swala halisi, unaweza kutumia toleo la kupanuliwa, linalowezesha kupata maelezo ya maandishi kwa vigezo vyovyote vya lugha.

Msingi wa utafutaji unaweza kuwa:

  • Kuwa na kundi fulani la sehemu za hotuba;
  • Ishara za grammatic;
  • Semantiki;
  • Kuchorea rangi na kihisia.

Kwa kuongeza, unaweza kuchanganya vigezo vya utafutaji kwa mlolongo wa maneno: kwa mfano, tazama matukio yote ya kitenzi kwa sasa, mtu wa kwanza, umoja, ikifuatiwa na maonyesho "c" na jina katika kesi ya mashtaka. Suluhisho la kazi hiyo rahisi inachukua sekunde chache kwa mtumiaji na inahitaji clicks chache tu katika maeneo maalum.

Mchakato wa Uumbaji

Utafutaji yenyewe unaweza kutekelezwa wote kwenye subcorps zote, na kwa moja, hasa waliochaguliwa, kulingana na mahitaji wakati wa kufikia lengo maalum:

  1. Kwanza kabisa, imeamua ambayo maandiko yatakuwa msingi wa kesi hiyo. Kwa madhumuni ya vitendo, mara nyingi hutumiwa uandishi wa habari, vifaa vya gazeti, maoni ya mtandaoni. Katika miradi ya utafiti, aina mbalimbali za mafichoni hutumiwa, lakini maandiko yanapaswa kuchaguliwa kulingana na ardhi ya kawaida.
  2. Seti inayofuata ya maandiko hufanyika kabla ya kufanywa, makosa yanarekebishwa, ikiwa yanapatikana, maelezo ya kibiblia na ya ziada ya lugha ya maandiko yanatayarishwa.
  3. Taarifa zote zisizo za maandiko zimefutwa: picha, picha, meza, zimefutwa.
  4. Kuna uteuzi wa ishara, ambazo huwakilisha maneno, kwa usindikaji wao zaidi.
  5. Hatimaye, maadili ya kimaadili, maonyesho na mengine ya vipengele vya matokeo yanayotokana.

Matokeo ya shughuli zote zinazotengenezwa ni muundo wa maonyesho na seti ya vipengele vinavyosambazwa juu yake, kwa kila sehemu ambayo sehemu ya hotuba inaelezwa, grammatical na, wakati mwingine, vipengele vya semantic.

Vigumu katika kujenga miili

Ni muhimu kuelewa kwamba haitoshi kukusanya maneno mengi au hukumu ili kupata kesi. Kwa upande mmoja, ukusanyaji wa maandiko unapaswa kuwa sawa, yaani, kuwakilisha aina tofauti za maandiko kwa kiasi fulani. Kwa upande mwingine, yaliyomo katika kesi hiyo lazima iwe na alama maalum.

Swali la kwanza linatatuliwa kwa makubaliano: kwa mfano, 60% ya maandishi ya sanaa, asilimia 20 ya waraka ni pamoja na katika ukusanyaji, sehemu fulani hupewa uwakilishi wa maandishi, matendo ya kisheria, kazi za kisayansi, nk. Kichocheo bora cha mwili usiofaa haipo leo.

Swali la pili, kuhusu markup ya maudhui, ni vigumu zaidi kutatua. Kuna mipango maalum na taratibu zinazotumiwa kwa markup moja kwa moja, lakini hazipa matokeo ya 100%, zinaweza kusababisha kushindwa na zinahitaji marekebisho ya mwongozo. Uwezekano na matatizo katika kutatua tatizo hili ni maelezo ya kina katika kazi ya Zakharov juu ya lugha za lugha.

Sawa ya maandiko hufanyika kwenye ngazi kadhaa, ambazo tutaorodhesha hapa chini.

Kuweka alama ya kimapenzi

Kutoka kwa benchi ya shule tunakumbuka kwamba katika Kirusi kuna sehemu tofauti za hotuba, na kila mmoja ana sifa zake. Kwa mfano, kitenzi kina makundi ya hisia na wakati ambao jina hauna. Msemaji wa asili hatisite kupungua kwa majina na kutafsiri vitenzi, lakini kazi ya mwongozo haifai kuashiria kesi katika maneno milioni 100. Shughuli zote muhimu zinaweza kufanywa na kompyuta, hata hivyo, kwa hili inahitaji kufundishwa.

Kuweka alama ya kimapenzi ni muhimu kwa kompyuta ili "kuelewa" kila neno kama sehemu fulani ya hotuba yenye vipengele vingine vya kisarufi. Kwa kuwa kuna kanuni za kawaida kwa Kirusi (kama ilivyo katika lugha nyingine yoyote), inawezekana kujenga utaratibu wa moja kwa moja wa uchambuzi wa kimaadili kwa kuwekeza idadi ya algorithms kwenye mashine. Hata hivyo, kuna tofauti na sheria, pamoja na mambo mbalimbali ya ngumu. Kwa hiyo, uchambuzi wa kompyuta safi leo hauwezi kuwa bora, na hata makosa 4% hutoa maneno milioni 4 kila kesi kwa vitengo milioni 100, zinahitaji marekebisho ya mwongozo.

Kwa undani tatizo hili linaelezewa na Zakharov VP "Corpus linguistics".

Markup ya usahihi

Kusisimua au kupitisha ni utaratibu ambao huamua uhusiano wa maneno katika sentensi. Kwa msaada wa seti ya algorithms, inakuwa inawezekana kufafanua katika maandishi somo, maandamano, nyongeza, zamu mbalimbali za hotuba. Kutafuta maneno gani katika mlolongo ni kuu na ambayo ni tegemezi, tunaweza kuchunguza kwa ufanisi habari kutoka kwa maandiko na treni mashine ili kutoa taarifa tu inayotupendeza kwa kujibu swali la utafutaji.

Kwa njia, injini ya kisasa ya utafutaji hutumia hii ili kuzalisha takwimu maalum badala ya maandiko ndefu kwa kukabiliana na maswali yanayofanana kama "kalori ngapi katika apple" au "umbali kutoka Moscow hadi Petersburg". Hata hivyo, kuelewa hata misingi ya mchakato ulioelezwa, utahitaji kujitambulisha na "Utangulizi wa lugha za Corpus" au msaada mwingine wa msingi wa kufundisha.

Marathi ya Semantic

Semantics ya neno ni, kwa maneno rahisi, maana yake. Njia inayofaa sana katika uchambuzi wa semantic inahusisha maneno kwa neno, na kuonyesha yake ni ya seti ya makundi ya semantic na vijamii. Taarifa hiyo ni muhimu kwa ajili ya uboreshaji wa taratibu za kuchambua tani ya maandishi, kufuta moja kwa moja na kazi nyingine kwa kutumia njia za lugha za lugha.

Kuna idadi ya "mizizi" ya mti, inayowakilisha maneno yasiyo ya kawaida, kuwa na semantics pana sana. Kama matawi ya mti huu, nodes hutengenezwa ambayo ina vipengele vyenye zaidi vya lexical. Kwa mfano, neno "kuwa" linaweza kuhusishwa na dhana kama "mtu" na "wanyama". Neno la kwanza litakuwa na matawi zaidi kwa fani mbalimbali, masharti ya uhusiano, utaifa, na pili - kwa madarasa na aina ya wanyama.

Matumizi ya mifumo ya upatikanaji wa habari

Mashamba ya matumizi ya lugha za lugha hufunika aina mbalimbali za shughuli. Matukio hutumiwa kukusanya na kurekebisha kamusi, kuunda mifumo ya tafsiri ya moja kwa moja, kufuta, kuondokana na ukweli, kuamua ufunguo wa maneno na nyingine.

Aidha, rasilimali hizo zinatumika kikamilifu katika utafiti wa lugha za dunia na utaratibu wa utendaji wa lugha kwa ujumla. Upatikanaji wa kiasi kikubwa cha habari iliyoandaliwa tayari huwezesha utafiti wa kina na wa kina wa mwenendo katika maendeleo ya lugha, uundaji wa neologisms na mauzo ya hotuba imara, mabadiliko katika maadili ya vitengo vya lexical,

Kwa kuwa kufanya kazi kwa kiasi kikubwa cha data inahitaji automatisering, leo kuna ushirikiano wa karibu wa lugha na kompyuta za lugha.

Jengo la Taifa la lugha ya Kirusi

Jengo hili (lililofasiriwa kama NKRY) linajumuisha idadi ndogo ya vifungu vinavyowezesha kutumia rasilimali ya kutatua kazi mbalimbali.

Vifaa vya chini ya NKRN vinagawanyika:

  • Katika kuchapishwa katika vyombo vya habari vya miaka ya 90 na 2000 ya ndani na nje ya nchi;
  • Kumbukumbu ya hotuba ya mdomo;
  • Maandiko yaliyotambuliwa kwa usahihi (yaani kwa alama za dhiki);
  • Kusema hotuba;
  • Kazi ya mashairi;
  • Vifaa vinavyoashiria alama, nk.

Mfumo wa habari pia unajumuisha subcorps na tafsiri sawa za kazi kutoka Kirusi hadi Kiingereza, Kijerumani, Kifaransa na lugha nyingine nyingi (na kinyume chake).

Pia katika daraka kuna sehemu ya maandiko ya kihistoria yanayewakilisha hotuba iliyoandikwa kwa Kirusi wakati wa vipindi mbalimbali vya maendeleo yake. Pia kuna jengo la elimu, ambayo inaweza kuwa na manufaa kwa wananchi wa kigeni katika ujuzi wa lugha ya Kirusi.

National Corpus ya lugha ya Kirusi inajumuisha vitengo milioni 400 vya lexical na, kwa namna nyingi, hutoka sehemu kubwa ya majengo ya lugha ya Ulaya.

Matarajio

Ukweli kwamba maabara ya lugha za lugha katika vyuo vikuu vya Kirusi, pamoja na watu wa kigeni, ni ahadi ni ukweli kwa kutambua mwelekeo huu. Kwa maombi na utafiti katika muktadha wa habari na rasilimali za utafutaji zinazozingatiwa, maendeleo ya maeneo fulani katika uwanja wa teknolojia ya juu, mifumo ya jibu la jibu linahusika, lakini hii imejadiliwa hapo juu.

Uendelezaji zaidi wa lugha za lugha hutabiriwa katika viwango vyote, kuanzia teknolojia, kwa kuanzisha taratibu mpya za kuboresha utaratibu wa kutafuta na usindikaji habari, kupanua uwezo wa kompyuta, kuongeza RAM, na kuishia na kila siku, kama watumiaji wanapata njia nyingi za kutumia aina hii ya rasilimali kila siku Maisha na kazi.

Kwa kumalizia

Katikati ya karne iliyopita, 2017 ilikuwa ni wakati ujao wa mbali, ambapo ndege za ndege zinasimamia vitu vya ulimwengu na robots hufanya kazi yote kwa watu. Kwa kweli, sayansi inakua katika "matangazo nyeupe" na hufanya majaribio makubwa ya kujibu maswali ambayo yamesumbufu ubinadamu kwa karne nyingi. Maswali ya utendaji wa lugha hapa hupata mahali pa heshima, na lugha za kiafya na kompyuta zinaweza kutusaidia kujibu.

Inachunguza seti kubwa za data inakuwezesha kuchunguza mifumo ambayo haipatikani hapo awali, kutabiri maendeleo ya vipengele vya lugha fulani, kufuatilia malezi ya maneno kwa wakati halisi.

Katika kiwango cha kimataifa cha kimataifa, mwili unaweza kuzingatiwa, kwa mfano, kama chombo cha kutathmini maoni ya umma - Mtandao ni database ya kupanua miongoni mwa maandiko mbalimbali yaliyoundwa na watumiaji halisi: haya ni maoni, na maoni, na makala, na aina nyingi za hotuba.

Kwa kuongeza, kazi na mawili huchangia katika maendeleo ya njia sawa za kiufundi ambazo hushiriki katika utafutaji wa habari, unaojifunza kwetu kwa Google au huduma za Yandex, tafsiri ya mashine, deta za elektroniki.

Inaweza kuhakikishiwa kwa uaminifu kuwa lugha za lugha zinafanya tu hatua za kwanza, na katika siku za usoni zitakua kwa haraka.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sw.birmiss.com. Theme powered by WordPress.