Computational Linguistics, by Lucas Freitas

>> LUCAS Фрейташ: Гэй. Вітаю ўсіх. Мяне клічуць Лукас Фрейтас. Я малодшы ў [неразборліва] вывучэння інфарматыка з акцэнтам ў кампутарная лінгвістыка. Так што мой другасны знаходзіцца ў мове і лінгвістычная тэорыя. Я сапраўды ўсхваляваны, каб навучыць вас, хлопцы крыху пра полі. Гэта вельмі захапляльная вобласць для вывучэння. Таксама з вялікім патэнцыялам на будучыню. Так што, я вельмі рады, што вы, хлопцы, разглядаюць праекты ў кампутарная лінгвістыка. І я буду больш чым шчаслівы раю Хто-небудзь з вас, калі вы вырашыце пераследваць адну з іх. >> Такім чынам, перш за ўсё, якія вылічальная лінгвістыка? Так кампутарная лінгвістыка з'яўляецца Скрыжаванне паміж лінгвістыкай і інфарматыка. Такім чынам, што такое лінгвістыка? Што такое інфарматыка? Ну ад лінгвістыкі, што мы прымаем з'яўляюцца мовамі. Так лінгвістыка на самай справе вывучэнне натуральнага мовы ў цэлым. Так натуральны мова - мы гаворым пра мова, які мы можам выкарыстоўваць, каб маюць зносіны адзін з адным. Так што мы не дакладна кажу аб З або Java. Мы гаворым больш пра англійскай і Кітайскі і іншыя мовы, якія мы выкарыстоўваць для сувязі адзін з адным. >> Складаная рэч аб тым, што ў тым, што Прама цяпер у нас ёсць амаль 7000 моў у свеце. Такім чынам, ёсць даволі высокі разнастайнасць моў, што мы можам вучыцца. А потым вы думаеце, што гэта, верагодна, вельмі цяжка зрабіць, напрыклад, пераклад з адной мовы на іншым, улічваючы, што вы павінны амаль 7000 з іх. Так што, калі вы думаеце, што рабіць пераклад з адной мовы на іншую, вы ёсць ці ледзь не больш, чым на мільён розныя камбінацыі, якія вы можаце ёсць ад мовы да мовы. Так што гэта сапраўды выклік, каб зрабіць некаторыя Такая сістэма прыкладам пераклад кожны мову. >> Так, лінгвістыка ставіцца з сінтаксісам, семантыка, прагматыка. Вы, хлопцы сапраўды не трэба ведаць, што яны ёсць. Але вельмі цікавая рэч у тым, што як носьбіт, калі вы даведаецеся, мова як дзіцяці, вы на самой справе даведацца ўсе з тых рэчаў, - семантыка сінтаксіс і прагматыка - самастойна. І ніхто не павінен вучыць вас сінтаксіс вам зразумець, як прысуды структураваныя. Такім чынам, гэта сапраўды цікава, таму што гэта тое, што прыходзіць вельмі інтуітыўна. >> І што вы прымаеце ад інфарматыка? Ну і самае галоўнае, што мы ёсць у інфарматыцы, у першую усё, штучны інтэлект і машыннае навучанне. Такім чынам, што мы спрабуем рабіць вылічальная лінгвістыка з'яўляецца навучыць ваш кампутар, як зрабіць што-то з мовай. >> Так, напрыклад, у машыне пераклад. Я хацеў бы навучыць мой кампутар хаў ведаць, як пераход ад адной мовы на іншы. Так, у асноўным падабаецца вучэнне кампутарныя дзве мовы. Калі я раблю апрацоўкі натуральнай мовы, што мае месца, напрыклад, з Facebook, Графік Пошук, вы вучыце ваш кампутар, як зразумець Запыты таксама. >> Так што, калі вы кажаце "фотаздымкаў майго сябры. "Facebook не лечыць, што ў цэлым радкі, якая мае проста куча слоў. Гэта на самой справе разумее адносіны паміж "фота" і "маіх сяброў" і разумее, што "фота" з'яўляюцца уласнасцю "маіх сяброў". >> Так, што гэта частка, напрыклад, апрацоўкі натуральнай мовы. Ён спрабуе зразумець, што гэта стаўленне паміж слова ў сказе. І вялікае пытанне, ці не так навучыць кампутар, як казаць мову ў цэлым? Што вельмі цікавае пытанне, каб думаю, як бы, можа быць, у будучыні, вы збіраецеся быць у стане гаварыць на свой мабільны тэлефон. Накшталт як тое, што мы робім з Siri, але нешта большае, як, вы можаце на самой справе казаць усё, што вы хочаце, і тэлефон збіраецца ўсё разумею. І гэта можа мець наступныя пытанні і працягваць гаварыць. Гэта тое, што сапраўды цікава, на мой погляд. >> Так, нешта аб натуральных мовах. Нешта сапраўды цікава натуральныя мовы, што і гэта крэдыт на мой прафесар лінгвістыкі, Марыя Полинский. Яна прыводзіць прыклад, і я думаю, гэта сапраўды цікава. Таму што мы вывучыць мову ад таго, калі мы нарадзіліся, а затым наш родны мова выгляд расце на нас. >> І ў асноўным вы даведаецеся мову ад мінімальнай магутнасцю, ці не так? Ты проста атрыманні ўводу з вашага бацькі, што гучыць ваш мову падабаецца, і вы проста навучыцца. Такім чынам, гэта цікава, таму што калі вы паглядзіце на гэтых прапаноў, напрыклад. Глядзіш, "Мэры апранае паліто кожнага раз яна сыходзіць з хаты ". >> У гэтым выпадку, магчыма, каб мець Слова "яна" ставяцца да Марыі, ці не так? Вы можаце сказаць: "Марыя ставіць на паліто кожны раз, калі Мэры пакідае дом. ", так што ўсё ў парадку. Але тады, калі вы паглядзіце на прапановы "Яна апранае паліто кожны раз Мэры выходзіць з хаты. "Вы ведаеце, што гэта Нельга сказаць, што "яна" з'яўляецца спасылаючыся на Марыі. >> Там няма спосаб сказаць, што "Марыя ставіць на паліто кожны раз Мэры пакідае дом. "Так што гэта цікава, таму што гэта выгляд інтуіцыі што кожны носьбіт мовы мае. І ніхто не вучылі, што гэта так, што сінтаксіс працуе. І што вы можаце мець толькі гэты "яна" спасылаючыся на Марыі ў гэтым першым выпадку, а на самай справе ў гэтай другой таксама, але не ў гэтым. Але ўсё роду атрымлівае да таго ж адказу. Усе згодныя з тым на гэтым. Так што гэта сапраўды цікава, як хоць вы не ведаеце ўсіх правілаў на Вашым мове вы ўжо часткова разумею як працуе мову. >> Так самае цікавае аб прыродных мова, што вы не павінны ведаю ні сінтаксіс ведаць, калі прысуд граматычна ці непісьменна для у большасці выпадкаў. Якая прымушае вас думаць, што, можа быць, тое, што адбываецца тое, што праз вашу жыццё, вы проста трымаць становіцца ўсё больш і больш прысуды сказаў вам. І тады вы трымаеце запамінання усе прапановы. А потым, калі хтосьці кажа вам, нешта, вы чуеце гэтую фразу і вы паглядзіце на вашага слоўнікавага запасу прысудаў і паглядзець, калі што прысуд ёсць. І калі яна ёсць у вас кажуць, што гэта граматычная. Калі гэта не вы сказаць, што гэта непісьменна. >> Так, у гэтым выпадку, вы б сказалі, о, так у вас ёсць вялікі спіс усіх магчымыя прапановы. А потым, калі вы чуеце фразу, Вы ведаеце, калі гэта граматычная або ня на яго аснове. Справа ў тым, што калі вы паглядзіце на фраза, напрыклад, " пятиглавый CS50 ТФ прыгатаваныя сляпых васьміног, выкарыстоўваючы DAPA кружку ". Гэта вызначана не прысуд што вы чулі раней. Але ў той жа час вы ведаеце, што гэта ў значнай ступені граматычных, ці не так? Там няма граматычных памылак і вы можаце сказаць, што гэта магчыма прысуд. >> Так што прымушае нас думаць, што на самой справе спосаб, якім мы даведаемся мова з'яўляецца не толькі , Маючы велізарную базу дадзеных можна слова ці прапановы, але больш разуменне суадносіны паміж слова ў гэтых прапановах. Ці мае гэта сэнс? Так, то пытанне ў тым, ці можа кампутары вывучаць мовы? Ці можам мы навучыць мову з кампутарамі? >> Такім чынам, давайце думаць аб адрозненні паміж носьбітам мовы і кампутар. Такім чынам, што ж адбываецца з дынамікам? Ну, носьбіт мовы пазнае мова ад уздзеяння на яго. Звычайна яе раннія дзіцячыя гады. Так, у асноўным, вы проста нарадзіць дзіця, і вы працягваць гаварыць з ім, і гэта проста вучыцца гаварыць мова, ці не так? Такім чынам, вы ў асноўным даючы уваход для дзіцяці. Так, вы можаце сцвярджаць, што кампутар можа зрабіць тое ж самае, ці не так? Вы можаце проста даць мове ў якасці ўкладу ў кампутары. >> Як, напрыклад, куча файлаў што ёсць кнігі на англійскай мове. Можа быць, гэта адзін са спосабаў, што вам маглі б навучыць кампутар англійская, ці не так? І на самай справе, калі вы думаеце пра гэта, яна прымае вас, можа быць, пару дзён, каб прачытаць кнігу. Для кампутара гэта займае секунды, каб глядзець на ўсе словы ў кнізе. Такім чынам, вы можаце думаць, што можа быць толькі гэты Аргумент ўкладу вакол вас, гэта не дастаткова, каб сказаць, што гэта тое, што толькі людзі могуць зрабіць. Вы можаце думаць кампутары таксама можаце атрымаць ўваход. >> Другая рэч, што носьбіты мовы таксама ёсць мозг, які мае Магчымасць вывучэння мовы. Але калі вы думаеце пра гэта, Мозг з'яўляецца цвёрдай рэччу. Калі вы нарадзіліся, гэта ўжо не ўстаноўлены - гэта ваш мозг. І, як ты вырасцеш, вы проста атрымаеце больш ўвод мове і, магчыма, пажыўныя рэчывы і іншыя рэчы. Але ў значнай ступені ваш мозг з'яўляецца цвёрдай рэччу. >> Так што вы можаце сказаць, ну, можа быць, вы можаце пабудаваць кампутар, які мае кучу функцыі і метады, якія проста імітуюць Магчымасць вывучэння мовы. Так што ў гэтым сэнсе, можна сказаць,, ну, я можа ёсць кампутар, які мае ўсе Што яшчэ варта вывучыць мову. І апошняе, што ў тым, што ураджэнец дынамік пазнае ад спроб і памылак. Таму ў асноўным яшчэ адна важная рэч у вывучэнне мовы з'яўляецца тое, што вы, здаецца, з даведацца рэчы, зрабіўшы абагульнення, што вы чуеце. >> Такім чынам, як вы растуць вы даведаецеся, што некаторыя словы больш падобныя назоўнікаў, некаторыя іншыя з іх прыметнікі. І вы не павінны ёсць якія-небудзь веданне лінгвістыкі зразумець, што. Але вы проста ведаю, што ёсць некаторыя словы размешчаны ў некаторай часткі Прысуд і некаторыя іншыя ў іншым часткі прысуду. >> І, што, калі вы робіце нешта, што як прысуд, які ня правільна - можа быць, з-за больш абагульнення напрыклад. Можа быць, калі вы вырастаеце, вы заўважыце, што множны лік, як правіла, фармуецца пакласці S на канец слова. А потым вы паспрабуеце зрабіць множны лік "Алень", як "аленяў" ці "зуб", як "Tooths". Такім чынам вашыя бацькі або хтосьці выпраўляе вас і кажа, няма, множны лік ад "Алень" з'яўляецца "алень", а множны лік ад "зуба" ёсць "зубы". А потым вы даведаецеся гэтыя рэчы. Дык вы даведаецеся з спроб і памылак. >> Але вы таксама можаце зрабіць гэта з кампутарам. Вы можаце мець тое, што называецца навучанне з падмацаваньнем. Якія ў асноўным, як даваць кампутар ўзнагарода, калі ён робіць нешта правільна. І надаўшы яму супрацьлеглае ўзнагароды і калі ён робіць нешта не так. Вы можаце ўбачыць, што, калі вы ідзяце У Google Translate, і вы спрабуеце перавесці прапанову, гэта просіць вас для зваротнай сувязі. Так што, калі вы кажаце, ну, ёсць лепшы пераклад гэтай фразы. Вы можаце ўвесці яго, а затым, калі шмат людзі працягваюць казаць, што гэта лепш, пераклад, ён проста пазнае, што яна павінны выкарыстоўваць гэтую пераклад замест адзін ён даваў. >> Такім чынам, гэта вельмі філасофскі пытанне каб убачыць, калі кампутары будуць ў стане казаць ці не ў будучыні. Але ў мяне ёсць вялікія надзеі, што яны могуць толькі на аснове гэтых аргументаў. Але гэта толькі больш філасофскі пытанне. >> Такім чынам, хоць кампутары ўсё яшчэ не можа гаварыць, што тыя рэчы, якія мы можам зрабіць? Некаторыя сапраўды класныя рэчы з'яўляюцца класіфікацыі дадзеных. Так, напрыклад, вы, хлопцы, ведаеце, што паслугі электроннай пошты зрабіць, для Напрыклад, фільтраванне спаму. Таму, калі вы атрымліваеце спам, гэта спрабуе фільтраваць ў іншы скрынцы. Так, як гэта зрабіць? Гэта не тое, што кампутар проста ведае што адрасы электроннай пошты рассылання спаму. Так што гэта ў большай ступені грунтуецца на змесце паведамленне, або, можа быць назва, або магчыма, некаторыя карціны, якія ў вас ёсць. >> Так, у асноўным, тое, што вы можаце зрабіць, гэта атрымаць шмат дадзеных лістоў, якія спам, лісты, якія не спам, а таксама даведацца, што выгляд мадэлі, якія вы маеце на Тыя, якія з'яўляюцца спамам. І гэта з'яўляецца часткай вылічальнай лінгвістыка. Яна называецца класіфікацыі дадзеных. І мы на самай справе адбываецца, каб убачыць прыклад, што ў наступных слайдах. >> Другая рэч натуральны мову апрацоўка якіх гэта тое, што Графік Пошук робіць таго, каб дазволіць Вы пішаце прапанову. І гэта давярае вам зразумець, што сэнс і дае Вы лепшы вынік. На самай справе, калі вы ідзяце ў Google або Bing і вы будзеце шукаць нешта накшталт Лэдзі Вышыня Гага, вы на самой справе адбываецца каб атрымаць 5 "1" замест інфармацыі ад яе, таму што гэта на самой справе разумее тое, што вы кажаце. Дык вось частка прыроднага мова апрацоўкі. >> Або таксама, калі вы выкарыстоўваеце Siri, перш за ў вас ёсць алгарытм, які спрабуе перавесці тое, што вы кажаце, словамі, у тэксце. А потым ён спрабуе перавесці што ў сэнсе. Так што ўсё гэта частка натуральнай мова апрацоўкі. >> Тады ў вас ёсць машынны пераклад - якія на самай справе адна з маіх любімых - які проста пераклад з мовы на іншы. Такім чынам, вы можаце думаць, што, калі вы робіце машынны пераклад, у вас ёсць бясконцыя магчымасці прысудаў. Так што няма ніякага спосабу, каб проста захоўваць кожны пераклад. Такім чынам, вы павінны прыдумаць цікавае Алгарытмы, каб мець магчымасць перавесці кожны Прысуд у некаторым родзе. >> Вы, хлопцы, ёсць якія-небудзь пытанні да гэтага часу? Няма? ОК. >> Так што мы будзем бачыць сёння? Перш за ўсё, я збіраюся казаць пра задача класіфікацыі. Такім чынам, той, які я быў кажучы пра спам. Тое, што я збіраюся зрабіць, гэта, улічваючы тэкст песню, вы можаце паспрабаваць высветліць, з высокай верагоднасцю які з'яўляецца спеваком? Давайце выкажам здагадку, што ў мяне ёсць песні з лэдзі Гага і Кэці Пэры, калі я дам вам Новая песня, вы можаце высветліць, калі гэта Кэці Пэры або Лэдзі Гага? >> Другі, я проста хачу пагаварыць аб праблеме сегментацыі. Так што я не ведаю, калі вы, хлопцы, ведаю, але Кітайскі, японскі, аднаму Усходняй Азіі мовы, і іншыя мовы увогуле, не маюць прабелы паміж словамі. І потым, калі вы думаеце пра тое, як гэтага ваш кампутар роду спробаў зразумець апрацоўкі натуральнай мовы, гэта выглядае на словы і спрабуе зразумець адносіны паміж імі, ці не так? Але тады, калі ў вас ёсць кітайскі, і вы маюць нулявыя прабелы, гэта сапраўды цяжка высветліць, якое стаўленне паміж словы, таму што яны не маюць ніякіх слова ў першую чаргу. Так што вам трэба зрабіць тое, што называецца Сегментацыя які проста азначае, паклаўшы прасторы паміж тым, што мы назвалі б словы на гэтых мовах. Сэнс? >> А потым мы збіраемся казаць аб сінтаксісе. Так што проста трохі аб натуральнай мова апрацоўкі. Гэта будзе проста агляд. Так што сёння, у асноўным, што я хачу зрабіць гэта даць Вам хлопцаў трохі ўнутры якія магчымасці што вы можаце зрабіць з вылічальнай лінгвістыка. І тады вы зможаце убачыць тое, што вы думаеце халаднавата да ліку тых рэчаў. А можа быць, вы можаце думаць аб праекце і прыйсці пагаварыць са мной. І я магу даць вам савет пра тое, як яго рэалізаваць. >> Так Сінтаксіс будзе трохі аб Graph Пошук і машыны пераклад. Я проста хачу, каб даць прыклад таго, як вы маглі б, напрыклад, перавесці нешта з партугальскай на ангельскую. Гучыць добра? >> Такім чынам, спачатку задача класіфікацыі. Скажу, што гэтая частка семінара будзе самым складаным адзін толькі таму, што там адбываецца быць некаторы кадзіраванне. Але гэта будзе Python. Я ведаю, вы, хлопцы, не ведаю, Python, таму Я проста хачу, каб растлумачыць на высокай ўзровень, што я раблю. І ў вас няма па-сапраўднаму клапаціцца занадта шмат пра сінтаксісе, таму што гэта што-то вы, хлопцы, можаце пазнаць. ОК? Гучыць добра. >> Так у чым жа праблема класіфікацыі? Такім чынам, вы далі некаторыя песні, каб песня, і вы хочаце, каб здагадацца, хто спявае яе. І гэта можа быць для любога віду іншых праблем. Такім чынам, можна, напрыклад, у вас ёсць Прэзідэнцкая кампанія і ў вас ёсць гаворка, і вы хочаце знайсці , Калі гэта было, напрыклад, Абама ці Міт Ромні. Ці вы можаце мець кучу лістоў і Вам падаць высветліць, калі яны спамам ці не. Так што гэта проста класіфікацыі некаторых дадзеныя, заснаваныя на словах што ў вас там. >> Такім чынам, каб зрабіць гэта, вы павінны зрабіць некаторыя здагадкі. Так шмат пра вылічальнай лінгвістыкі робіць здагадкі, звычайна разумныя здагадкі, так што Вы можаце атрымаць добрыя вынікі. Спроба стварыць мадэль для яго. А потым паспрабаваць яго і паглядзець, калі гэта працуе, калі ён дае добрую дакладнасць. І калі гэта адбудзецца, то вы паспрабаваць палепшыць яго. Калі гэтага не адбудзецца, вы, як, у парадку, можа быць, я павінны зрабіць іншы здагадку. >> Такім чынам, здагадка, што мы збіраемся зрабіць тое, што мастак, як правіла, спявае аб тэме некалькі разоў, і, магчыма, выкарыстоўвае словы некалькі разоў проста таму што яны прывыклі да яго. Вы можаце проста думаць аб сваім сябру. Я ўпэўнены, што ўсе вы, хлопцы, ёсць сябры што сказаць, іх подпісы фразу, літаральна для кожнага асобнага прапановы - як нейкага пэўнага слова ці некаторых канкрэтных фраза, што маўляў для кожны прысуд. >> А што вы можаце сказаць, што калі вы бачыце прысуд, які мае подпіс Фраза, можна здагадацца, што, верагодна, ваш сябар адзін кажа гэта, ці не так? Дык вы зробіце гэта здагадка, а затым гэта, як вы стварыць мадэль. >> Прыклад, які я збіраюся даць на як Lady Gaga, напрыклад, людзі сказаць, што яна выкарыстоўвае "BABY" для ўсе яе нумар адзін песні. А на самай справе гэта відэа, якое паказвае яна казала слова "дзіця" для розныя песні. >> [ВИДЕОВОСПРОИЗВЕДЕНИЕ] >> - (Спявае) Дзіцячыя. Дзіцячыя. Дзіцячыя. Дзіцячыя. Дзіцячыя. Малы. Дзіцячыя. Дзіцячыя. Дзіцячыя. Дзіцячыя. >> [КАНЕЦ ВИДЕОВОСПРОИЗВЕДЕНИЕ- >> LUCAS Фрейташ: Дык што, я думаю, 40 песні тут, у якім яна кажа Слова "дзіця". Такім чынам, вы можаце ў асноўным думаю што, калі вы бачыце песню, якая мае слова "дзіця", ёсць некаторыя высокія Верагоднасць таго, што гэта Лэдзі Гага. Але давайце паспрабуем развіваць гэта далей больш фармальна. >> Такім чынам, гэтыя тэксты да песень Лэдзі гага і Кэці Пэры. Такім чынам, вы паглядзіце на Lady Gaga, вы бачыце, што яны ёсць шмат выпадкаў з "дзіцяці", шмат уваходжанняў "шляху". А потым Кэці Пэры мае шмат уваходжанняў "," Шмат уваходжанняў "агонь". >> Таму ў асноўным тое, што мы хочам зрабіць, гэта, вы атрымаеце лірыку. Давайце выкажам здагадку, што вы атрымліваеце лірыку для песня, якая з'яўляецца "дзіця", проста "дзіця". Калі вы проста атрымаеце слова "дзіця", і гэта усе дадзеныя, якія ў вас ёсць з Лэдзі гага і Кэці Пэры, якія б вы здагадаліся гэта чалавек, хто спявае песню? Лэдзі Гага або Кэці Пэры? Lady Gaga, ці не так? Таму што яна адзіная, хто кажа "Дзіця". Гэта гучыць па-дурному, ці не так? Добра, гэта сапраўды проста. Я проста гляджу на двух песень і Вядома, яна адзіная, хто мае "Дзіця". >> Але што, калі ў вас ёсць куча слоў? Калі ў вас ёсць свежая Лірыка, нешта як, "дзіця, я проста пайшлі, каб бачыць [? ФТ?] лекцыя ", ці нешта ў гэтым родзе, і то вы на самай справе павінны высветліць - на аснове ўсіх гэтых слоў - які з'яўляецца мастак, які, верагодна, спяваў гэтую песню? Так давайце паспрабуем распрацаваць гэта крыху далей. >> Такім чынам, на аснове толькі на дадзеных, якія мы атрымаў, здаецца, што Гага, верагодна, спявак. Але як мы можам напісаць гэта больш фармальна? І гэта будзе трохі Крыху статыстыкі. Так што, калі вы заблукалі, проста паспрабуйце зразумець канцэпцыю. Гэта не мае значэння, калі вы разумееце, ўраўненні на выдатна. Гэта ўсё будзе ў Інтэрнэце. >> Таму ў асноўным тое, што я разліку з'яўляецца верагоднасць таго, што гэтая песня па Лэдзі Гага, улічваючы, што - так гэты бар азначае, улічваючы, што - Я бачыў слова "дзіця". Ці мае гэта сэнс? Так што я спрабую вылічыць што верагоднасць. >> Так што ёсць гэтая тэарэма называецца Тэарэма Байеса, што кажа аб тым, што верагоднасць дадзенага B, з'яўляецца верагоднасць B далі, раз верагоднасць, па верагоднасці В. Гэта доўгі раўнанне. Але тое, што вы павінны зразумець, ад гэта значыць, што гэта тое, што я хачу разлічыць, ці не так? Такім чынам, верагоднасць таго, што гэтая песня па Лэдзі Гага улічваючы, што я ўбачыў слова "Дзіця". >> А цяпер, што я атрымліваю з'яўляецца верагоднасць словы "дзіця" з улікам што ў мяне ёсць Lady Gaga. А што такое, што ў прынцыпе? Гэта азначае,, што з'яўляецца Магчымасць паступлення слова "дзіця" у Gaga тэкстах? Калі я хачу, каб вылічыць, што ў вельмі просты спосаб, гэта проста лік раз я бачу "Baby" ад агульнай колькасці слоў у тэкстах Gaga, ці не так? Якая частата, што я бачу, гэтае слова ў працы Гага? Сэнс? >> Другі складнік верагоднасць Gaga. Што гэта значыць? Гэта ў асноўным азначае, што Верагоднасць класіфікацыі некаторыя тэксты як Gaga? І гэта крыху дзіўна, але давайце думаць аб прыкладзе. Так скажам, што верагоднасць наяўнасць "дзіцяці" ў песні тое ж самае для Гага і Брытні Спірс. Але Брытні Спірс мае ў два разы больш песень, чым Lady Gaga. Так што калі хто-то проста выпадкова дае Лірыка "дзіцяці", першае, што вы глядзець на гэта, то, што верагоднасць наяўнасць "дзіцяці" ў песні Gaga, "дзіця" ў песні Брытні? І гэта тое ж самае. >> Так Другое, што вы ўбачыце, гэта, добра, што ёсць верагоднасць гэта лірычныя сама па сабе будучы Гага лірычныя, і якая верагоднасць быўшы лірычная Брытні? Так, так як Брытні мае так шмат больш лірыку чым Гага, вы, верагодна, скажам, ну, гэта, верагодна, лірычная Брытні. Дык вось чаму ў нас ёсць гэта назваць прама тут. Верагоднасць Gaga. Мае сэнс? Ці так гэта? ОК. >> І апошняе ёсць верагоднасць з "дзіцяці", які не мае значэння, што шмат. Але гэта верагоднасць бачачы "Baby" на англійскай мове. Мы звычайна не хвалюе, што шмат пра гэтага тэрміна. Ці мае гэта сэнс? Такім чынам, верагоднасць Гага называецца апрыёрная верагоднасць класавай Gaga. Таму што гэта проста азначае, што, тое, што верагоднасць таго, што клас - што Гага - толькі ў агульным, толькі без умоў. >> А потым, калі ў мяне ёсць верагоднасць Гага дадзена "дзіця", мы называем гэта плюс слязлівымі верагоднасць, таму што гэта верагоднасць наяўнасці Гага улічваючы некаторыя доказы. Таму я даю вам доказы што я ўбачыў слова дзіцяці і песня мае сэнсу? ОК. >> Так што калі я падлічыў, што для кожнага з песень для Lady Gaga, што гэта было б - мяркуючы па ўсім, я не магу рухацца ў гэтым. Верагоднасць Gaga будзе нешта накшталт 2 больш за 24, раз 1/2, больш за 2 больш за 53. Гэта не мае значэння, калі вы ведаеце, што гэтыя лічбы і адкуль. Але гэта ўсяго толькі лік, якое будзе быць больш, чым 0, праўда? >> А потым, калі я раблю Кэці Пэры, верагоднасць "дзіцяці" улічваючы Кэці ўжо 0, праўда? Таму што няма ніякага "дзіця" у Кэці Пэры. Так то гэта становіцца 0, а Гага перамог, што азначае, што Гага верагодна, спявак. Ці мае гэта сэнс? ОК. >> Так што, калі я хачу, каб зрабіць гэта больш афіцыйны, Я магу на самой справе мадэль па некалькіх словах. Так скажам, што ў мяне ёсць нешта як, "дзіця, Я ў агні, "ці нешта. Так што мае некалькі слоў. І ў гэтым выпадку, вы можаце ўбачыць што "дзіця" знаходзіцца ў Gaga, але гэта не ў Katy. І "агонь" знаходзіцца ў Katy, але гэта не ў Gaga, ці не так? Так яна становіцца складаней, ці не так? Таму што здаецца, што вы амаль ёсць сувязь паміж імі. >> Так што вы павінны зрабіць, гэта выказаць здагадку, незалежнасць сярод слоў. Так у асноўным, што гэта значыць, што Я проста вылічаючы, што з'яўляецца Магчымасць паступлення "дзіцяці", што з'яўляецца верагоднасць ўбачыць «я», і "Я", і "на" і "агонь" ўсё асобна. Тады я множання ўсіх з іх. І я бачу, што ёсць верагоднасць бачыць цэлае прапанову. Сэнс? >> Так у асноўным, калі ў мяне ёсць толькі адно слова, тое, што я хачу знайсці гэта аргумент макс, што азначае, што клас, які з'яўляецца дае мне найбольшую верагоднасць? Так у чым жа клас, які дае мяне самая высокая верагоднасць верагоднасць класа далі слова. Такім чынам, у гэтым выпадку, Гага дадзена "дзіцяці". Або Кэці дадзена "дзіцяці". Сэнс? >> І толькі ад Байеса, што раўнанне, якое я паказаў, мы ствараем гэтую фракцыю. Адзінае, што вы бачыце, што верагоднасць словы з улікам змены класаў у залежнасці ад класа, ці не так? Колькасць "Baby" з, што ў мяне ёсць у Gaga адрозніваецца ад Katy. Верагоднасць класа таксама змены, таму што гэта проста лік песень кожны з іх мае. >> Але верагоднасць таго, што само слова будзе аднолькавым для ўсіх мастакі, праўда? Такім чынам, верагоднасць таго, што словы проста, што верагоднасць бачачы, што слова ў Ангельскую мову? Так што гэта тое ж самае для ўсіх з іх. Так, так як гэта пастаянна, мы можам проста адмовіцца ад гэтага, а не клапаціцца пра яго. Так што гэта будзе на самой справе раўнанне мы шукаем. >> І калі ў мяне ёсць некалькі слоў, я яшчэ прыйдзецца да Верагоднасць тут. Адзінае, што я множання верагоднасць ўсе астатнія словы. Так што я множання ўсіх з іх. Сэнс? Гэта выглядае дзіўна, але ў асноўным азначае, разлічыць да класа, і затым памножыць на верагоднасць кожнага са слоў, якія знаходзяцца ў гэтым класе. >> І вы ведаеце, што верагоднасць Слова дадзена клас будзе колькі раз вы ўбачыце, што слова ў што клас, падзеленае на колькасць Словы, якія вы маеце на тым, што клас у цэлым. Сэнс? Гэта проста, як "дзіця" было 2 больш колькасць слоў, якія У мяне была ў лірыцы. Так што проста частата. >> Але ёсць адна рэч. Памятаеце, як я паказваў, што верагоднасць "Baby", якія з'яўляюцца тэкстах ад Кэці Пэры 0 толькі таму, што Кэці Пэры не было "Baby" наогул? Але гэта гучыць трохі рэзка, каб проста проста сказаць, што тэкст песні не можа быць ад мастак толькі таму, што яны не маюць гэтае слова ў прыватнасці ў любы час. >> Такім чынам, вы маглі б проста сказаць, ну, калі вы няма гэтае слова, я збіраюся даць вам больш нізкую верагоднасць, але я проста не збіраюся даць вам 0 адразу. Таму што, можа быць, гэта было нешта накшталт, "Агонь, агонь, агонь, агонь", які з'яўляецца цалкам Кэці Пэры. А потым "дзіця", і гэта толькі ідзе, каб 0 адразу, таму што быў адзін "Дзіця". >> Таму ў асноўным тое, што мы робім нешта называецца Лапласа згладжвання. І гэта проста азначае, што я даю некаторая верагоднасць нават да слоў што не існуе. Так, што я раблю тое, што, калі я разліку гэтага, я заўсёды дадаю 1 да лічнік. Такім чынам, нават калі слова не існуе, у У гэтым выпадку, калі гэта 0, я да гэтага часу разліку гэта як 1 над агульная колькасць слоў. У адваротным выпадку, я атрымліваю, колькі слоў У мяне ёсць і я дадаць 1. Так я разлічваю ў абодвух выпадках. Сэнс? >> Так што цяпер давайце зробім некаторыя кадавання. Я збіраюся павінны зрабіць гэта даволі хутка, але гэта проста важна, каб вам хлопцы зразумець канцэпцыі. Такім чынам, што мы спрабуем зрабіць дакладна рэалізаваць гэта рэч, якую я толькі што сказаў, - Я хачу, каб ты паклаў тэкст з Лэдзі гага і Кэці Пэры. І праграма будзе ў стане кажуць, што калі гэтыя новыя тэксты з Gaga або Кэці Пэры. Сэнс? ОК. >> Так што я гэтую праграму я збіраюся патэлефанаваць classify.py. Так што гэта Python. Гэта новы мова праграмавання. Гэта вельмі падобна на некаторыя спосабы C і PHP. Гэта падобна, таму што, калі вы хочаце даведацца Python даведаўшыся C, гэта сапраўды не так шмат выклік толькі таму, што Python нашмат прасцей чым C, у першую чаргу. І шмат чаго ўжо рэалізаваны для вас. Такім чынам, як як PHP мае функцыі, якія адсартаваць спіс, або дадаць нешта на масіў, або бла, бла, бла. Python мае ўсе тыя таксама. >> Так што я проста збіраюся растлумачыць хутка як мы маглі б зрабіць класіфікацыю Праблема тут. Так скажам, што ў гэтым выпадку, у мяне ёсць песні з Гага і Кэці Пэры. Такім чынам, што ў мяне ёсць гэтыя тэксты ў тым, што першае слова з песні з'яўляецца імя мастака, і астатняе лірыка. Так скажам, што ў мяне ёсць гэты спіс у якіх першы з'яўляецца вершы Gaga. Дык вось я на правільным шляху. А на наступны адзін Кэці, і яна мае таксама тэксты песень. >> Так што гэта, як вы заяўляеце, пераменная у Python. Вы не павінны даць тып дадзеных. Вы проста напісаць "тэкст", накшталт як у PHP. Сэнс? >> Так што тыя рэчы, якія я павінен разлічыць, каб мець магчымасць разлічыць верагоднасці? У мяне ёсць для разліку «апрыёрныя» з кожнага з розных класы, у мяне няма. У мяне ёсць для разліку "бакавых зубоў", або ў значнай ступені верагоднасці кожны з розных слоў, якія У мяне можа быць для кожнага мастака. Такім чынам, усярэдзіне Gaga, напрыклад, я збіраюся мець спіс, колькі разоў я бачу кожнае са слоў. Сэнс? >> І, нарэшце, я проста хачу, каб мець Спіс называецца "словы", што проста будзе мець колькі слоў я ёсць для кожнага мастака. Такім чынам, для Gaga, напрыклад, калі я гляджу да лірыцы, я, па-мойму, 24 слова ў агульнай складанасці. Так гэты спіс проста прыйдзецца Гага 24, і Кэці іншы нумар. Сэнс? ОК. >> Так што цяпер, на самай справе, давайце перайсці да кадавання. Такім чынам, у Python, вы можаце на самой справе вярнуцца кучу розныя рэчы з функцыі. Так што я збіраюся стварыць гэтую функцыю называецца "умоўнай", які збіраецца вярнуць усё з тых рэчаў, "Прыёры", што "верагоднасці", і "Слова". Такім чынам, "умоўная", і гэта будзе ставячы пад "лірыкі". >> Так што цяпер я хачу, каб вы на самой справе напісаць гэтую функцыю. Такім чынам, спосаб, якім я магу напісаць гэта функцыя Я проста вызначыў гэта функцыянаваць з "вызначэнне". Так я і зрабіў "вызначэнне ўмоўна, "і гэта займае "Тэкст". І тое, што гэта будзе рабіць з'яўляецца, у першую чаргу, у мяне ёсць свае апрыёрныя што я хачу, каб вылічыць. >> Такім чынам, спосаб, якім я магу гэта зрабіць, гэта стварыць слоўнік у Python, які ў значнай ступені тое ж самае, што хэш стол, ці гэта як итеративный Масіў у PHP. Гэта, як я абвясціць слоўнік. І ў асноўным гэта азначае тое, што апрыёрныя з Gaga 0,5, напрыклад, калі 50% з лірыкі ад Гага, 50% з Katy. Сэнс? Так што я сёння павінен знайсці, як для разліку апрыёрныя. >> Наступныя тыя, якія я павінен зрабіць, таксама, з'яўляюцца верагоднасці і словы. Так верагоднасці Gaga спіс ўсіх верагоднасцяў таго, што я ёсць для кожнага з слоў для Gaga. Так што, калі я іду ў верагоднага Gaga "Дзіця", напрыклад, ён дасць мне нешта накшталт 2 па 24 ў гэтым выпадку. Сэнс? Так я іду ў "верагоднасці", перайдзіце ў "Гага" вядро, што мае спіс усіх словы Gaga, то я іду ў "дзіцяці", і я бачу верагоднасць. >> І, нарэшце ў мяне ёсць гэта "Слова" слоўнік. Дык вось, "верагоднасці". А потым "Слова". Так што, калі я магу зрабіць "словы", "Gaga", што адбудзецца тое, што гэта дасць мне 24, кажучы, што я ёсць 24 слоў у тэкстах з Gaga. Мае сэнс? Дык вось, "словы" роўна Дах-Дах-дах. Добра >> Так што я збіраюся зрабіць, гэта я збіраюся перабору кожнага з тэкстах, так кожнай з радкоў, якія У мяне ёсць у спісе. І я збіраюся разлічыць тыя рэчы для кожнага з кандыдатаў. Мае сэнс? Так што я павінен зрабіць для завесы. >> Такім чынам, у Python, што я магу зрабіць, гэта "для лініі у тэкстах. "тое ж самае, "Для кожнага" заяву ў PHP. Памятаеце, як калі б гэта быў PHP я мог сказаць "для кожнага тэкстах як лінія ". Мае сэнс? Так што я бяру кожнай з ліній, у гэтым выпадак, гэты радок і наступная радок так і для кожнай з ліній, што я збіраюся зрабіць, гэта па-першае, я збіраюся падзяліць гэты радок у спіс словы, падзеленых прабеламі. >> Так выдатна, што пра Python з'яўляецца тое, што вы маглі б проста Google, як "як я магу разбіць радок на словы? "І гэта збіраюся расказаць вам, як гэта зрабіць. І тое, як гэта зрабіць, гэта проста "лінія = Line.split () ", і гэта ў асноўным збіраюся даць Вам спіс кожнае з слоў тут. Мае сэнс? Так што цяпер я зрабіў, што я хачу ведаць, які з'яўляецца спеваком гэтай песні. А для гэтага я проста павінен атрымаць Першы элемент масіва, ці не так? Таму я магу толькі сказаць, што я "спявак = Лінія (0) "Ці мае сэнс? >> А потым, што мне трэба зрабіць, гэта, у першую усё, што я збіраюся абнавіць колькі словы ў мяне пад "Гага". так што я проста збіраецца падлічыць, колькі слоў я ёсць у гэтым спісе, ці не так? Таму што гэта, колькі слоў у мяне у лірыцы, і я проста хачу, каб дадаць яго ў "Gaga" масіва. Ці мае гэта сэнс? Не занадта вялікі акцэнт на сінтаксісу. Думайце больш пра паняцці. Гэта самая важная частка. ОК. >> Так што я магу зрабіць гэта, калі "Гага" з'яўляецца ўжо ў гэтым спісе, так што "калі спявак у слова ", што азначае, што я ўжо ёсць словы, Gaga. Я проста хачу дадаць дадатковы словы да гэтага. Так што я раблю, гэта "словы (спявачка) + = Len (радок) - 1 ". І тады я магу проста зрабіць Даўжыня лініі. Так як многія элементы I мець у масіве. І што я павінен зрабіць мінус 1 толькі таму, што першы элемент масіва з'яўляецца проста спявак і тых, хто не з'яўляюцца тэксты. Мае сэнс? ОК. >> "У адваротным выпадку," гэта азначае, што я хачу на самай справе ўставіць Gaga ў спіс. Так што я проста зрабіць "словы (спявачка) = Len (радок) - 1, "шкада. Такім чынам, адзінае адрозненне паміж імі лініі з'яўляецца тое, што на гэты раз, гэта не так існуюць яшчэ, так што я проста яго ініцыялізацыі. Гэта адзін я на самой справе даданне. ОК. Так што гэта было даданне да слоў. >> Цяпер я хачу дадаць да настаяцеляў. Так як я магу вылічыць апрыёрныя? У прыёры можна разлічыць у колькі разоў. Дык колькі раз вы бачыце, што спявак сярод усіх спевакоў, якія вы ёсць, ці не так? Такім чынам, для Gaga і Кэці Пэры, у гэтым выпадку, я бачу Gaga адзін раз, Кэці Пэры раз. >> Таму, у асноўным пробашчы для Gaga і Кэці Пэры будзе быць проста адным, ці не так? Вы проста, колькі разоў Я бачу мастака. Так што гэта вельмі лёгка вылічыць. Я магу толькі нешта падобнае, як напрыклад, "калі спявак у настаяцеляў, "Я проста збіраюся дадаць 1 да іх настаяцелі акне. Так, "прыёры (спяваць)" + = 1 ", а затым" яшчэ " Я збіраюся зрабіць «апрыёрныя (спявачка) = 1 ". Мае сэнс? >> Так што, калі ён не існуе, я проста паставіць як 1, у адваротным выпадку я проста дадайце 1. Такім чынам, цяпер усё, што ў мяне засталося зрабіць таксама дадаць кожнае з слоў у верагоднасці. Так што я павінен падлічыць, колькі разоў Я бачу кожнага з слоў. Так што я проста павінен зрабіць яшчэ адзін цыкл у лініі. >> Так, першае, што я збіраюся зрабіць, гэта праверыць, калі спявачка ўжо мае верагоднасці масіў. Так я правяраю, калі спявак не ёсць масіў верагоднасці, я проста збіраецца ініцыялізаваць адзін для іх. Гэта нават не масіў, прабачце, гэта слоўнік. Так верагоднасці спявачкі збіраецца быць адкрытай слоўнік, так што я проста ініцыялізацыі слоўніка для яго. ОК? >> І цяпер я магу рэальна зрабіць для завесы для разліку кожнага з слоў ' верагоднасці. ОК. Так што я магу зрабіць гэта для завесы. Так што я проста хачу, каб ітэрацыі па масіве. Такім чынам, спосаб, якім я магу зрабіць гэта ў Python з'яўляецца "для г у дыяпазоне". З 1 таму што я хачу, каб пачаць у секунду элемент, таму што першы з'яўляецца Імя спевака. Так ад аднаго да Даўжыня лініі. І калі я ў дыяпазоне яна на самай справе ісці ад як тут ад 1 да Len з Лінія мінус 1. Так што ўжо робіць гэтую штуку рабіць н мінус 1 для масіваў, якія вельмі зручна. Мае сэнс? >> Такім чынам, для кожнага з іх, тое, што я збіраюся зрабіць, гэта, як і ў іншым, Я збіраюся праверыць, калі слова ў гэтым Становішча ў лінейцы ўжо верагоднасці. А потым, як я сказаў тут, верагоднасці словы, як у я стаўлю "Верагоднасці (спявачка)». Такім чынам, імя спявачкі. Так што, калі гэта ўжо ў "Probabilit (спявак)", гэта азначае, што я хочаце дадаць да яго 1, так што я збіраюся зрабіць "верагоднасці (спявак)", а Слова называецца "лінія (я)". Я збіраюся дадаць 1 і "яшчэ" Я проста збіраецца ініцыялізаваць яго ў 1. "Лінія (я)". Мае сэнс? >> Так, па маіх разліках ўсё масівы. Такім чынам, цяпер усё, што я павінен зрабіць для Гэты проста "вярнуцца апрыёрныя, верагоднасці і слова. «Давайце ўбачыць, калі такія маюцца, у парадку. Здаецца, усё працуе да гэтага часу. Так, у гэтым ёсць сэнс? У некаторым родзе? ОК. Так што цяпер у мяне ёсць усе верагоднасці. Так што цяпер адзінае, што ў мяне засталося проста мець гэтую рэч, што вылічае твор ўсё верагоднасцяў, калі я атрымліваю лірыку. >> Так скажам, што я хачу цяпер называць гэтая функцыя "класіфікаваць ()" і рэч, якая функцыя прымае гэта проста аргумент. Скажам "Дзетка, я ў агні", і гэта збіраецца высветліць, што з'яўляецца Верагоднасць таго, што гэта Gaga? Якая верагоднасць таго, што гэта Кэці? Гучыць добра? Так што я проста прыйдзецца стварыць Новая функцыя называецца "класіфікаваць ()" і ён збіраецца прыняць некаторыя тэкст песні, а таксама. І, акрамя таго лірыцы Я таксама павінны адправіць апрыёрныя, верагоднасці і слова. Так што я збіраюся паслаць тэкст, апрыёрныя, верагоднасці, слова. >> Так гэта адбываецца тэкст, апрыёрныя, верагоднасці, слова. Так, для чаго гэта трэба? Гэта ў асноўным будзе ісці праз усе магчымыя кандыдаты, якія вы мець у якасці спевака. А дзе тыя кандыдаты? Яны ў настаяцеляў, ці не так? Таму ў мяне ёсць усе тыя, там. Так што я збіраюся ёсць слоўнік з усіх магчымых кандыдатаў. А потым за кожнага кандыдата ў настаяцелі, дык гэта азначае, што ён збіраецца быць Гага, Кэці калі б мне давялося больш было б больш. Я збіраюся пачаць разлік гэтая верагоднасць. Верагоднасць як мы бачылі ў PowerPoint з'яўляецца Папярэднія раз Прадукт кожнага з іншыя верагоднасці. >> Так што я магу зрабіць тое ж самае тут. Я магу проста зрабіць верагоднасць першапачаткова толькі перад. Так настаяцелі кандыдата. Ці не так? І зараз у мяне ёсць для перабору ўсіх Словы, якія я маю на лірыцы быць магчымасць дадаваць верагоднасць для кожнага з іх, у парадку? Так, "у слова ў тэкстах", што я збіраюся зрабіць, гэта, калі слова ў "Верагоднасці (кандыдаты)", якія азначае, што гэта слова, якое Кандыдат павінен у сваіх тэкстах - напрыклад, "дзіця" для Gaga - тое, што я збіраюся зрабіць, гэта што верагоднасць збіраецца памножыць на 1 плюс верагоднасцяў кандыдат у гэтым слове. І гэта называецца "Слова". Гэта дзеліцца на колькасць слоў што ў мяне ёсць для гэтага кандыдата. Агульная колькасць слоў, якія ў мяне ёсць для спявачкі, што я гляджу на. >> "Else". гэта азначае, што гэта новае слова так што было б, як напрыклад "Агонь" для Lady Gaga. Так што я проста хачу зрабіць 1 па "Слова (кандыдат)". Так што я не хачу паставіць гэты тэрмін тут. >> Так што гэта будзе ў асноўным капіяванне і ўстаўка гэтага. Але я збіраюся выдаліць гэтую частку. Так што гэта проста будзе 1 па гэтай нагоды. Гучыць добра? І зараз у канцы, я проста хачу, каб друкаваць імя кандыдата і верагоднасць таго, што ў вас ёсць з маючы S на іх тэкстах. Мае сэнс? І я на самой справе нават не патрэбен гэты слоўнік. Мае сэнс? >> Такім чынам, давайце паглядзім, калі гэта на самай справе працуе. Так што, калі я запускаю гэта, ён не працуе. Пачакайце адну секунду. "Слова (кандыдаты)", "словы (кандыдаты)", гэта імя масіва. ОК Такім чынам, гэта кажа, што ёсць нейкая памылка для кандыдата ў настаяцеляў. Дазвольце мне проста расслабіцца няшмат. ОК. Давайце паспрабуем. ОК. >> Так ён дае Кэці Пэры мае гэта Верагоднасць гэтага разы 10 да мінус 7, і Гага гэта раз ад 10 да мінус 6. Такім чынам, вы бачыце гэта паказвае, што Гага мае больш высокую верагоднасць. Такім чынам, "Дзетка, я ў агні" з'яўляецца верагодна, песня Gaga. Мае сэнс? Так што гэта тое, што мы зрабілі. >> Гэты код будзе размешчаны на сайце, так што вы, хлопцы, можаце праверыць яго. Можа быць, выкарыстоўваць некаторыя з іх, калі вы хочаце, каб зрабіць праект ці нешта падобнае. ОК. Гэта было як раз, каб паказаць што вылічальная лінгвістыка код выглядае. Але цяпер давайце вернемся да больш Высокі ўзровень рэчы. ОК. >> Такім чынам, іншыя праблемы, якія я казаў пра - праблема сегментацыі з'яўляецца першым з іх. Так у вас тут на Японскай. І тады вы ўбачыце, што няма прасторы. Так што гэта ў асноўным азначае, што гэта верхняя частка крэслы, ці не так? Вы кажаце на Японскай? Гэта верхняя частка крэслы, ці не так? >> СТУДЭНЦКАЯ: Я не ведаю, што кандзи там ёсць. >> LUCAS Фрейташ: Гэта [маўленне на Японскай] ОК. Так што ў асноўным азначае кафедру вяршыні. Так што калі вы павінны былі паставіць прабел было б тут. І тады ў вас ёсць [? Уэда-Сан -. ?] Якія ў асноўным азначае, г-н Уэда. І вы бачыце, што "Уэда" і ў вас ёсць прастору, а затым "Сан -." Такім чынам, вы бачыце, што тут вы "Ue", як сам па сабе. І вось у яго ёсць характар побач з ім. >> Так што гэта не так, як у гэтых мовах знакаў азначае слова яго, каб вы проста пакласці шмат прабелаў. Персанажы звязаны адзін з адным. І яны могуць быць разам як два, тры, адзін. Такім чынам, вы на самой справе трэба стварыць нейкі з спосаб пакласці гэтыя прабелы. >> І гэта тое, што кожны раз, калі вы атрымліваеце Дадзеныя з гэтых азіяцкіх моў, усё прыходзіць нечленистые. Таму што няма той, хто піша на Японскай або кітайскі піша прабеламі. Кожны раз, калі вы пішаце па-кітайску, Японскі вы проста напісаць усё, без прабелаў. Ён нават не мае сэнсу паставіць прабелы. Такім чынам, калі вы атрымліваеце дадзеныя з, некаторыя Азіяцкіх моў Усход, калі вы хочаце зрабіць што-то з гэтым вы павінны сегменце ў першую чаргу. >> Падумайце рабіць прыклад тэксты без прабелаў. Такім чынам, толькі тэкст песні, якія вы павінны будзе прысуды, ці не так? , Падзеленыя кропкай. Але затым, як раз прапанова будзе не дапамагае на прадастаўленне інфармацыі ад таго, хто гэтыя тэксты на. Ці не так? Такім чынам, вы павінны ставіць прабелы ў першую чаргу. Такім чынам, як можна гэта зрабіць? >> Так потым прыходзіць ідэя мове мадэль, якая нешта сапраўды важна для вылічальных лінгвістыка. Такім чынам, моўная мадэль у асноўным табліца верагоднасцяў, што шоў перш за ўсё якая верагоднасць таго, гэтае слова ў мове? Так, які паказвае, як часта слова. А потым яшчэ і якая паказвае суадносіны паміж словамі ў сказе. >> Такім чынам, асноўная ідэя складаецца ў тым, калі незнаёмы прыйшоў Вам і сказаў прысуд Вы, якая верагоднасць таго, што для Напрыклад, "гэта мая сястра [? GTF"?] быў прысуд, што чалавек сказаў? Так, відавочна, некаторыя прысуды часцей, чым іншыя. Напрыклад, "добрае раніца" ці "добра ноч ", або" Гэй, "значна больш агульнага, чым большасць прапаноў што ў нас ёсць па-ангельску. Дык чаму ж гэтыя прапановы больш частымі? >> Перш за ўсё, гэта таму, што ў вас ёсць словы, якія часцей. Так, напрыклад, калі вы кажаце, што сабака вялікі, і сабака гіганцкая, вы звычайна, верагодна, пачуць Сабака вялікая часцей, таму што "вялікі" з'яўляецца больш часта на англійскай мове, чым "гіганцкая". Так, адзін з рэчы частата слова. >> Другая рэч, якая сапраўды важна толькі парадак слоў. Такім чынам, гэта прынята казаць "кошка ўнутры скрынкі. ", але вы гэтага не зробіце, як правіла, гл ў "акне ўнутры кот." так Вы бачыце, што ёсць некаторая важнасць ў парадку слоў. Вы не можаце проста сказаць, што гэтыя двое прапановы маюць аднолькавую верагоднасць толькі таму, што ў іх ёсць тыя ж самыя словы. Вы на самой справе павінны клапаціцца аб парадку, а таксама. Сэнс? >> Дык што ж нам рабіць? Так што я мог бы паспрабаваць атрымаць вас? Я спрабую прымусіць вас, што мы патэлефанаваць мадэлі н-грамовыя. Так мадэлі н-грам асноўным выказаць здагадку што для кожнага слова, якое ў вас ёсць у сказе. Гэта верагоднасць наяўнасці, што Слова ёсць залежыць не толькі ад Частата гэтага слова ў мове, але таксама і ад слоў, якія атачаюць яго. >> Так, напрыклад, як правіла, калі вы бачыце нешта накшталт ці на вы верагодна, ўбачым назоўнік пасля яго, ці не так? Таму што, калі ў вас ёсць падстава звычайна гэта займае назоўнік пасля яго. Або калі ў вас ёсць дзеяслоў, які транзітыўнасць Вы звычайна збіраюцца ёсць словазлучэнне. Так што гэта будзе мець назоўнік дзесьці вакол яго. >> Так, у асноўным, тое, што ён робіць тое, што гэта лічыць верагоднасць наяўнасці словы побач адзін з адным, калі Вы разліку верагоднасць прапановы. І вось, што такое мова мадэль у прынцыпе. Проста кажу, што гэта верагоднасць з які мае удзельную Прысуд у мове? Дык чаму ж, што карысна, у асноўным? І ў першую чаргу тое, што мадэль н-г, то? >> Так мадэль н-г азначае, што кожнае слова залежыць ад Наступны N мінус 1 слоў. Так, у асноўным, гэта азначае, што калі я гляджу, напрыклад, на CS50 TF, калі Я вылічэнні верагоднасці прысуд, будзеш як " верагоднасць таго, слова "" разы верагоднасць наяўнасці " CS50 "раз верагоднасць наяўнасці "CS50 TF." Так, у асноўным, я лічу усе магчымыя спосабы расцягваючы яе. >> А потым, як правіла, калі вы робіце гэта, як у праекце, вы ставіце N быць нізкае значэнне. Так, як правіла, маюць биграмм або триграмм. Так што вы проста палічыць два словамі, група з двух слоў, або трох слоў, проста за збоі ў працы. А таксама таму, можа быць, калі ў вас ёсць нешта накшталт "The CS50 TF." Калі вы ёсць "TF", гэта вельмі важна, што "CS50" побач з ім, ці не так? Гэтыя дзве рэчы, як правіла, побач адзін з адным. >> Калі вы думаеце пра "TF", гэта, верагодна, будзе мець тое, што Клас гэта TF'ing для. Акрамя таго, "" што сапраўды важна для CS50 TF. Але калі ў вас ёсць што-то накшталт "The CS50 TF пайшоў у клас і даў іх студэнты некаторыя цукеркі. "" Цукеркі "і" " не маюць ніякага дачынення сапраўды, ці не так? Яны так далёка адзін ад аднаго, што гэта сапраўды не мае значэння, што словы ў вас ёсць. >> Так, робячы биграмм або триграмма, гэта проста азначае, што вы абмяжоўваеце сабе некаторых слоў што вакол. Сэнс? Такім чынам, калі вы хочаце зрабіць сегментацыю, у асноўным, тое, што вы хочаце зрабіць, гэта ўбачыць якія ўсе магчымыя спосабы, якія вы можаце разбіць прапанову. >> Такі, што вы бачыце, што з'яўляецца верагоднасць кожнага з гэтых прапаноў якія існуюць у мове? Так што вы робіце гэта як, ну, хай мне паспрабаваць паставіць прабел тут. Такім чынам, вы паставіць прабел ёсць і вы бачыце, што з'яўляецца верагоднасць таго, што прысуд? Тады вы, як, у парадку, можа быць, што не было настолькі добра. Так што я паставіць прабел там і прасторы там, і вам разлічыць Верагоднасць зараз, і вы бачыце, што гэта высокая верагоднасць. >> Так што гэта алгарытм называецца ТАНГО Алгарытм сегментацыі, які на самай справе тое, што было б сапраўды астыць на працягу праекта, які у асноўным бярэ нечленистые тэкст, які можа быць японскі або кітайскі або, можа быць, Англійская без прабелаў і спрабуе змясціць прабелы паміж словамі і гэта робіць што з дапамогай моўную мадэль і спрабуючы разглядзець, што з'яўляецца самым высокім верагоднасць вы можаце атрымаць. ОК. Так што гэта сегментацыя. >> Цяпер сінтаксіс. Так, сінтаксіс выкарыстоўваецца для так шмат рэчаў, прама цяпер. Такім чынам, для Graph Пошук, для Siri для амаль любы від прыроднага мова апрацоўкі ў вас ёсць. Так што важна рэчы пра сінтаксіс? Так, прапановы ў цэлым маюць што мы называем складнікі. Якія накшталт як групы слоў якія маюць функцыю ў сказе. І яны не могуць сапраўды быць адзін ад аднаго. >> Так што, калі я кажу, напрыклад, "Ларэн любіць Міла. "Я ведаю, што" Ларэн "з'яўляецца складовай і затым "любіць Міла "таксама яшчэ адзін. Таму што вы не можаце сказаць, як "Ларэн Міла любіць "мець той жа сэнс. Гэта не будзе мець той жа сэнс. Ці я не магу сказаць, як "Міла Lauren любіць. "Не ўсе мае тыя ж азначае рабіць гэта. >> Такім чынам, дзве больш важныя рэчы, пра Сінтаксіс з'яўляюцца лексічныя тыпы якіх з'яўляецца у асноўным функцыя, што вы ёсць словы самі па сабе. Такім чынам, вы павінны ведаць, што "Ларэн" і "Міла" назоўнікі. "Каханне" гэта дзеяслоў. І другая важная рэч што яны фразавае тыпы. Такім чынам, вы ведаеце, што "любіць майле" на самай справе з'яўляецца слоўнае фраза. Таму, калі я кажу "Ларэн", я ведаю, што Ларэн робіць нешта. Што яна робіць? Яна кахаючая майл. Так што гэта ўсё справа. Але яго кампаненты назоўнік і дзеяслоў. Але разам, яны робяць дзеяслоў фразу. >> Такім чынам, што мы можам рэальна зрабіць з кампутарная лінгвістыка? Так што, калі ў мяне ёсць сёе-тое для прыкладу «Сябры Allison». Я бачу, калі я проста зрабіў сінтаксічны дрэва я буду ведаць, што "Сябры" з'яўляецца імянная гэта назоўнік, а затым "з Allison» з'яўляецца месным, у якім "з" з'яўляецца прапанову і "Аллисон" з'яўляецца назоўнікам. Што я мог зрабіць, гэта навучыць свой кампутар , Што, калі ў мяне ёсць Імянная адзін і затым месным. Так у дадзеным выпадку, "сябры", а затым "з Міла "Я ведаю, што гэта азначае, што NP2, другі, валодае NP1. >> Так што я магу стварыць нейкае дачыненне, нейкая функцыі для яго. Таму, калі я бачу гэтую структуру, якая супадае хоць бы з "сябрамі Элісан: "Я ведаю, што Элісан валодае сяброў. Так што сябры з'яўляюцца чымсьці што Элісан мае. Мае сэнс? Так што гэта ў асноўным тое, што Графік Пошук робіць. Гэта проста стварае правілы для многіх рэчаў. Так «сябры Allison", "мае сябры хто жыве ў Кембрыджы "," мае сябры хто вучыўся ў Гарвардзе ". Гэта стварае правілы для ўсіх гэтых рэчаў. >> Цяпер машыннага перакладу. Так, машынны пераклад таксама нешта статыстычны. А на самай справе, калі вы патрапілі ў кампутарная лінгвістыка, шмат Ваш матэрыял будзе статыстыка. Так як я рабіў прыклад з шмат верагоднасцяў, што я быў разліку, і тады вы атрымаеце на гэта вельмі невялікая колькасць, гэта фінал Верагоднасць, і вось, што дае вам адказ. Машынны пераклад таксама выкарыстоўвае статыстычная мадэль. І калі вы хочаце думаць пра машыну пераклад у найпростая чынам, тое, што вы можаце думаць толькі перавесці слова ў слова, ці не так? >> Калі вы вывучаеце мова для першы раз, што, як правіла, што што вы робіце, не так? Калі хочаце, то вы перавесці прапанову на Вашым мове да мовы Вы вучыцеся, як правіла, па-першае, вы перавесці кожнае з слоў індывідуальна, а затым паспрабуйце пакласці словы на свае месцы. >> Так што, калі я хацеў, каб перавесці гэта, [Кажучы Партугалія] , Што азначае "белая котка ўцякла." Калі б я хацеў, каб перавесці яго з З партугальскай на ангельскую, тое, што я можа зрабіць, гэта, па-першае, я проста перавесці слова ў слова. Так «о» "," "Гато", "кошка" "Бранка", "белы", а затым "fugio" з'яўляецца "Уцёк". >> Так то ў мяне ёсць усе словы тут, але яны не ў парадку. Гэта як "кошка белы ўцёк" які непісьменна. Так, то я магу мець другі крок, які збіраецца быць знайсці ідэал становішча для кожнага з слоў. Так што я ведаю, што я на самой справе хачу мець "Белая котка" замест "котка, белы." Так што я магу зрабіць, гэта, самыя наіўныя метадзе было б стварыць усе магчымых перастановак словы, з пазіцый. А потым паглядзець, што адзін мае Найбольшая верагоднасць ў адпаведнасці на мой моўнай мадэлі. А потым, калі я знайсці той, які мае найбольшая верагоднасць яго, што верагодна, "белая котка ўцякла," вось мой пераклад. >> І гэта просты спосаб тлумачэння як шмат машыннага перакладу алгарытмы працы. Ці мае гэта сэнс? Гэта таксама тое, вельмі цікава што вы, хлопцы могуць, можа быць, разведку Канчатковы праект, так? >> СТУДЭНЦКАЯ: Ну, ты сказаў, што наіўны спосаб, так у чым ня-наіўным спосабам? >> LUCAS Фрейташ: ня-наіўным спосабам? ОК. Такім чынам, першае, што ў гэтым дрэннага гэты метад у тым, што я толькі што перавёў словы, слова ў слова. Але часам у вас ёсць словы, якія можа мець некалькі перакладаў. Я збіраюся паспрабаваць думаць чагосьці. Напрыклад, "манга" ў партугальскім банку альбо "калечыць" ці "рукаў". Так калі вы спрабуеце перавесці слова словам, гэта можа быць даючы вам тое, што не мае ніякага сэнсу. >> Такім чынам, вы на самой справе хочаце, каб вы паглядзіце на ўсе магчымыя пераклады словы і ўбачыць, у першую чаргу, які парадак. Мы гаварылі аб перастаноўкі рэчы? Каб убачыць усе магчымыя заказы і выбраць адзін з самай высокай верагоднасць? Вы таксама можаце выбраць усе магчымыя пераклады для кожнага слова, а затым паглядзець - ў спалучэнні з перастановак - які мае высокую верагоднасць. >> Акрамя таго, вы таксама можаце паглядзець на ня толькі словы, але фразы. так што вы можаце прааналізаваць адносіны паміж слова і затым атрымаць лепш пераклад. Таксама нешта яшчэ, так што ў гэтым семестры Я на самой справе займаўся даследаваннямі ў Кітайска-ангельскі машыннага перакладу, так у перакладзе з Кітайскі на ангельскую мову. >> І тое, што мы зрабіць, гэта, апроч выкарыстання статыстычная мадэль, якая з'яўляецца проста бачачы верагоднасці бачачы некаторыя пазіцыі ў сказе, я на самай справе таксама дадаць некаторыя сінтаксіс для маёй мадэль, кажучы о, калі б я ўбачыць гэты від будаўніцтва, гэта тое, што я хачу каб змяніць яго, калі я перакладаю. Такім чынам, вы таксама можаце дадаць нейкую элемент сінтаксісу, каб зрабіць пераклад больш эфектыўным і дакладней. ОК. >> Такім чынам, як можна пачаць, калі вы хочаце зрабіць нешта ў вылічальнай лінгвістыка? >> Па-першае, вы выбіраеце праект які ўключае ў сябе мовы. Так, ёсць так шмат там. Там так шмат рэчаў, якія вы можаце зрабіць. А потым можна думаць аб мадэлі што вы можаце выкарыстоўваць. Звычайна гэта азначае, што мысленне здагадкі, гэтак жа як, ну, калі я быў як мыслення лірыкі. Я падумала: добра, калі я хачу, каб высветліць з які напісаў гэта, я, верагодна, хочаце паглядзець на словах чалавек выкарыстаў і убачыць, хто вельмі часта выкарыстоўвае гэтае слова. Таму паспрабуйце, каб рабіць здагадкі і імкнуся думаць пра мадэлі. І тады вы можаце таксама шукаць онлайн роду праблемы, што ў вас ёсць, і ён збіраецца прапанаваць да вас мадэляў, якія, можа быць, мадэлюецца што рэч добра. >> А таксама вы заўсёды можаце напісаць мне. me@lfreitas.com. І я магу толькі адказаць на вашы пытанні. Мы можам нават можа сустрэцца, каб я мог даць прапановы аб шляхах рэалізацыі праекта. І я маю на ўвазе, калі вы патрапілі ў кампутарная лінгвістыка, гэта будзе каб быць вялікім. Вы будзеце бачыць там такі патэнцыял. І індустрыя хоча наняць Вы так дрэнна з-за гэтага. Таму я спадзяюся, вы, хлопцы, атрымліваў асалоду ад гэтым. Калі вы, хлопцы ёсць якія-небудзь пытанні, Вы можаце спытаць мяне пасля гэтага. Але дзякуй.